aa级欧美精品性交片,欧美人与禽交视频在线观看,激情在线无码

數(shù)據(jù)分析框架（傳統(tǒng)數(shù)據(jù)分析框架，大數(shù)據(jù)分析框架）

醫(yī)療大數(shù)據(jù)有著前面第一節(jié)提到的所有特征。在醫(yī)療大數(shù)據(jù)帶來(lái)各種優(yōu)勢(shì)的同時(shí)，大數(shù)據(jù)隨之帶來(lái)的各種特性使得傳統(tǒng)的數(shù)據(jù)處理和數(shù)據(jù)分析方法及軟件捉襟見(jiàn)肘，問(wèn)題多多。在大數(shù)據(jù)時(shí)代出現(xiàn)之前，受限于數(shù)據(jù)量的可獲得性和計(jì)算能力的有限性，傳統(tǒng)的數(shù)據(jù)管理和分析采用著不同的思路和流程。傳統(tǒng)上，對(duì)于問(wèn)題的研究建立在假設(shè)的基礎(chǔ)上進(jìn)行驗(yàn)證，進(jìn)而研究事物的相關(guān)因果性，希望能回答“為什么”。

而在大數(shù)據(jù)時(shí)代，海量數(shù)據(jù)的涌現(xiàn)提供了從不同角度更細(xì)致更全面觀察研究數(shù)據(jù)的可能，從而打開(kāi)了人們的好奇心，探索欲望，人們想知道到數(shù)據(jù)告訴了我什么，而不僅僅是我的猜想是否被數(shù)據(jù)驗(yàn)證了。人們?cè)絹?lái)越多地用大數(shù)據(jù)挖掘各種感興趣的關(guān)聯(lián)，非關(guān)聯(lián)等相關(guān)性，然后再進(jìn)一步比較，分析，歸納，研究（“為什么”變成一個(gè)選項(xiàng)而不是唯一終極目標(biāo)）。大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)思路上的不同導(dǎo)致了分析流程的不同，如圖一所示：

圖一

面對(duì)海量的數(shù)據(jù)和不同的分析思路，大數(shù)據(jù)的管理和分析與傳統(tǒng)數(shù)據(jù)分析的差異日益加大。回答特定問(wèn)題的單一預(yù)設(shè)結(jié)構(gòu)化數(shù)據(jù)庫(kù)明顯不能完全勝任處理大數(shù)據(jù)的海量及混雜等問(wèn)題。數(shù)據(jù)的混雜多樣性具體可以從一些調(diào)查數(shù)據(jù)中表現(xiàn)出來(lái)。SAS的一份調(diào)查報(bào)告顯示機(jī)構(gòu)內(nèi)的非結(jié)構(gòu)化數(shù)據(jù)最多可以占到總數(shù)據(jù)量的85%，而這些非數(shù)字，非結(jié)構(gòu)化的數(shù)據(jù)卻必須被量化分析和用到?jīng)Q策分析中 (Troester, 2012)。

另一份2013年進(jìn)行的SAS調(diào)查報(bào)告顯示在461個(gè)提供完整反饋信息的機(jī)構(gòu)中只有26%的機(jī)構(gòu)表示他們所擁有的大數(shù)據(jù)是結(jié)構(gòu)化的 (Russom, 2013)。此外，在機(jī)構(gòu)中，分析的數(shù)據(jù)一般不會(huì)只有一個(gè)單一的來(lái)源。Alteryx的調(diào)查報(bào)告顯示在200家被調(diào)查的機(jī)構(gòu)中只有6%的機(jī)構(gòu)表示他們的數(shù)據(jù)是只有一個(gè)來(lái)源，最為普遍的情況是5-10個(gè)來(lái)源,具體分布如圖二 (Alteryx, 2014)。

調(diào)查中還顯示90%的被調(diào)查樣本表示有數(shù)據(jù)整合問(wèn)題，37%表示需要等其他小組提供數(shù)據(jù)，30%表示不能得到他們想要的數(shù)據(jù)，一般估計(jì)是一個(gè)數(shù)據(jù)分析師的60%到80%的時(shí)間是花在數(shù)據(jù)處理準(zhǔn)備階段上的 (Alteryx, 2014)。

圖二

由此可見(jiàn)有效的數(shù)據(jù)管理，數(shù)據(jù)庫(kù)建立及數(shù)據(jù)分析流程的重要性。傳統(tǒng)的數(shù)據(jù)管理的過(guò)程包括抽取（Extraction），轉(zhuǎn)換（Transformation）和載入（load）。通過(guò)ETL，可以賦予數(shù)據(jù)一種合適恰當(dāng)?shù)慕Y(jié)構(gòu)用于特定的分析發(fā)現(xiàn)。具體數(shù)據(jù)準(zhǔn)備分析流程如圖三所示：1）抽取單個(gè)或多個(gè)來(lái)源的數(shù)據(jù) 。2）凈化，格式化，標(biāo)準(zhǔn)化，聚合，添加，或遵循其他特定的數(shù)據(jù)處理規(guī)則。3）載入處理完的數(shù)據(jù)到特定的數(shù)據(jù)庫(kù)或儲(chǔ)存為特定的文件格式。4）采用各種方法進(jìn)行數(shù)據(jù)分析。

圖三

ETL的中心內(nèi)容仍舊適用于大數(shù)據(jù)，但由于大數(shù)據(jù)的大量性和多樣性對(duì)數(shù)據(jù)庫(kù)和數(shù)據(jù)管理及處理方法的要求越來(lái)越高，也越來(lái)越復(fù)雜，這樣線性處理整個(gè)數(shù)據(jù)變得相當(dāng)耗費(fèi)人力，物力，和時(shí)間。

此外，大數(shù)據(jù)的快速性，易變性也使得把數(shù)據(jù)儲(chǔ)存在單一的中央數(shù)據(jù)庫(kù)變的不太可行。在這種情況下，最流行的思路是把數(shù)據(jù)分割處理，也就是把數(shù)據(jù)儲(chǔ)存到多個(gè)儲(chǔ)存節(jié)點(diǎn)（比如網(wǎng)絡(luò)數(shù)據(jù)庫(kù)），在每個(gè)節(jié)點(diǎn)單獨(dú)處理數(shù)據(jù)（甚至處理完就接著進(jìn)行初步分析,但處理的程度依客戶具體問(wèn)題而調(diào)整），然后再匯總整合到一起，提供給單個(gè)或多個(gè)數(shù)據(jù)庫(kù)，接著根據(jù)需要選擇合適的分析方法獲取有用結(jié)果。ETL貫穿于整個(gè)大數(shù)據(jù)管理分析的流程中。圖四演示了大致的大數(shù)據(jù)管理分析流程及一些大數(shù)據(jù)處理分析平臺(tái)工具的名字。

圖四

SAS的數(shù)據(jù)倉(cāng)庫(kù)研究院（TDWI）針對(duì)現(xiàn)今存在的大數(shù)據(jù)處理分析平臺(tái)工具進(jìn)行了一項(xiàng)調(diào)查以幫助人們?cè)谶x擇軟硬件進(jìn)行大數(shù)據(jù)分析時(shí)能做出更好的決策。針對(duì)大數(shù)據(jù)技術(shù)，特點(diǎn)，和使用者操作，調(diào)查提供了三個(gè)選擇：1）現(xiàn)在使用中，并且會(huì)繼續(xù)使用。2）會(huì)在三年中開(kāi)始使用。3）沒(méi)有計(jì)劃使用。圖五左側(cè)顯示了對(duì)于各種大數(shù)據(jù)分析平臺(tái)工具，被調(diào)查人員的回復(fù)比例。圖五的右側(cè)顯示了平臺(tái)工具可能的潛在成長(zhǎng)和對(duì)采用此工具做出承諾的被調(diào)查人員比例。

圖五

根據(jù)潛在成長(zhǎng)和承諾的綜合考量，此調(diào)查還進(jìn)一步把大數(shù)據(jù)分析平臺(tái),工具分成4組：第一組為適度的承諾，中度到強(qiáng)的成長(zhǎng)潛力；第二組為中度至強(qiáng)有力的承諾，適度增長(zhǎng)潛力；第三組為弱到中度的承諾，適度增長(zhǎng)潛力；第四組為中度至強(qiáng)有力的承諾，弱增長(zhǎng)潛力。圖六顯示了這些組別的內(nèi)容分布。限于篇幅，本文不詳細(xì)介紹所列的每一平臺(tái)工具的具體內(nèi)容，感興趣的讀者可以參考文獻(xiàn)獲取更詳細(xì)的介紹。

圖六

圖五和圖六都顯示了最流行的平臺(tái)和數(shù)據(jù)處理方式為開(kāi)源免費(fèi)的Hadoop和MapReduce。伴隨著他們的潛在成長(zhǎng)和承諾程度，可以預(yù)見(jiàn)，Hadoop和MapReduce正在并會(huì)繼續(xù)推動(dòng)和促進(jìn)大數(shù)據(jù)的處理和應(yīng)用。

在此，我們簡(jiǎn)單介紹一下Hadoop和MapReduce的概念。Hadoop是一種基于Java的分散式數(shù)據(jù)處理框架。它可以提供對(duì)儲(chǔ)存在多個(gè)硬件設(shè)備上的數(shù)據(jù)進(jìn)行高吞吐率的讀寫(xiě)。更重要的是，它對(duì)大數(shù)據(jù)具有高容錯(cuò)性和對(duì)并行應(yīng)用程序的高可用性。Hadoop框架結(jié)構(gòu)由若干名字節(jié)點(diǎn)（NameNode）和數(shù)據(jù)節(jié)點(diǎn)（DataNode）組成。一份數(shù)以萬(wàn)計(jì)，百萬(wàn)計(jì)的大數(shù)據(jù)文件會(huì)被分割成更小的文件信息塊儲(chǔ)存在多個(gè)數(shù)據(jù)節(jié)點(diǎn)里，可以是任何計(jì)算機(jī)硬件設(shè)備。

有關(guān)這些文件的數(shù)據(jù)屬性資料信息稱作metadata則被存儲(chǔ)在名字節(jié)點(diǎn)里（NameNode）. NameNode主要管理文件系統(tǒng)的命名空間和客戶端對(duì)文件的訪問(wèn)操作記錄。Hadoop的框架結(jié)構(gòu)如圖七：

圖七

當(dāng)訪問(wèn)和操作數(shù)據(jù)文件時(shí)，客戶端會(huì)聯(lián)系名字節(jié)點(diǎn)提取文件信息塊的屬性信息比如位置，文件名等。然后根據(jù)這些屬性信息，客戶端直接從相應(yīng)的數(shù)據(jù)節(jié)點(diǎn)同時(shí)讀取數(shù)據(jù)塊。Hadoop本身具有冗余和復(fù)制功能，保證在單個(gè)硬件儲(chǔ)存設(shè)備出現(xiàn)故障時(shí)數(shù)據(jù)仍舊能被恢復(fù)而沒(méi)有任何損失，比如每個(gè)數(shù)據(jù)節(jié)點(diǎn)默認(rèn)擁有3個(gè)備份之類。

此外，在有新數(shù)據(jù)節(jié)點(diǎn)添加到框架中時(shí)，Hadoop還可以自動(dòng)平衡每個(gè)數(shù)據(jù)節(jié)點(diǎn)的數(shù)據(jù)載有量。同樣，名字節(jié)點(diǎn)也可以擁有冗余和復(fù)制功能，用于在單個(gè)儲(chǔ)存數(shù)據(jù)屬性信息的名字節(jié)點(diǎn)出現(xiàn)故障時(shí)可以恢復(fù)相應(yīng)的數(shù)據(jù)屬性信息。

MapReduce則是一種可以用來(lái)并行處理大數(shù)據(jù)的編程模型。同一程序在Hadoop的框架下可以用各種不同的語(yǔ)言（Java,Ruby,Python等）按MapReduce的編程模型進(jìn)行編寫(xiě)和運(yùn)行。其關(guān)鍵就在于三個(gè)詞： map,reduce, 和并行處理。我們通過(guò)一個(gè)例子來(lái)理解MapReduce的大致工作原理。比如我們有一30個(gè)字的字符串“開(kāi)落花纏落花繞纏開(kāi)繞笑瓜夜村村舍舍瓜夜藤繞下下藤繞嬉嬉笑娃娃”，任務(wù)是計(jì)算每個(gè)字出現(xiàn)的次數(shù)。

最簡(jiǎn)單的方法是按序讀取每一個(gè)字建立標(biāo)識(shí)索引并計(jì)算出現(xiàn)的次數(shù)值存入內(nèi)存，如果是新字，值為1，如果是出現(xiàn)過(guò)的字則次數(shù)值累加上去。此種方式是按串行的方式進(jìn)行的，所花的時(shí)間會(huì)隨著字符串的長(zhǎng)度和復(fù)雜度程線性增長(zhǎng)。當(dāng)字符串是以萬(wàn)計(jì)百萬(wàn)計(jì)時(shí)，比如基因組數(shù)據(jù)，所花的時(shí)間將是相當(dāng)驚人的。并行處理則能節(jié)約相當(dāng)多的時(shí)間。

我們先把原文件分割到幾個(gè)小文件塊，然后對(duì)每個(gè)小文件塊進(jìn)行字的標(biāo)識(shí)索引和附加數(shù)值（這兒不進(jìn)行累計(jì)，只是簡(jiǎn)單的單次點(diǎn)數(shù)），然后再排序重組把相同字放在一起，然后我們?cè)儆每s減法計(jì)算出字及其相應(yīng)的出現(xiàn)次數(shù)值。圖八顯示了具體的例子步驟：

圖八

« 看看移動(dòng)健康醫(yī)療界YC——Rock Health，41億美元都花在哪了？手機(jī)屏幕尺寸擴(kuò)展是如何影響用戶體驗(yàn)設(shè)計(jì)的 »

淺談醫(yī)學(xué)大數(shù)據(jù)（中）

淺談醫(yī)學(xué)大數(shù)據(jù)（中）

分類

日歷

鏈接

個(gè)人資料

存檔