第五章大數據演算法 - 企業大數據認證( Enterprise Big Data Certification, EBDC ) - Cupoy

大數據是一個知識領域，它探索技巧、技能和技術，從大量數據中推斷出有價值的見解。為了在數據集中找到 “價值”，數據科學家應用了演算法。演算法是關於如何解決一類問題的明確規範。演算法可以執行計算、數據處理...

大數據是一個知識領域，它探索技巧、技能和技術，從大量數據中推斷出有價值的見解。為了在數據集中找到 “價值”，數據科學家應用了演算法。演算法是關於如何解決一類問題的明確規範。演算法可以執行計算、數據處理和自動推理任務 ( calculation, data processing and automated reasoning tasks )。演算法的應用及其隨後用於大數據的基礎是統計學的科學領域。因此，參與數據科學的每個人都應該具備關於統計操作的基本知識，以及如何將它們應用於演算法中。因此，本章將討論基本的統計操作，並提供大數據分析和解析解決方案中使用的常見的演算法。 (一)描述統計學 ( Descriptive statistics ) 描述統計學的數據是定量描述或總結了一系列的統計數據，這些統計數據是資訊特徵的摘要。描述統計學的數據提供給快速匯總數據集的關鍵值，並且讓每一位使用數據的人都是容易理解。例如，籃球中的投籃命中率是一個描述性統計數據，用於總結球員或球隊的表現。此數字是投籃命中的次數除以投籃的總次數。例如，投籃命中率為33％的球員，大約可以說是每投三次命中一球。百分比總結或描述了多個離散事件，每個人都可以將統計數據與其他玩家的投籃命中率進行比較。 (1)集中趨勢統計 ( CENTRAL TENDENCY STATISTICS ) 集中趨勢統計（或集中趨勢的度量）是數據集中典型的定義。這些統計數據描述了各個數據點如何圍繞其中心點進行組織。最常見的集中趨勢衡量指標是均值、中位數和眾數 ( mean, the median, and the mode )。 (2)離散統計 ( DISPERSION STATISTICS ) 在統計學中，離散（也稱為可變性，散射或擴散）是分佈被拉伸或擠壓 ( stretched or squeezed ) 的程度。離散統計資訊表明數據點如何圍繞其中心值分佈。離散統計的度量常見例子是全距，四分位數，變異數 ( 方差 ) 和標準差 ( range, interquartile range, variance and standard deviation )。 (3)分佈形狀 ( DISTRIBUTION SHAPES ) 分佈是一組數字或函數，顯示出所有不同的數值或變量的結果。換句話說，它顯示了變量的值是如何分佈的。在大數據分析和解析中，許多常見的分佈被使用到：頻率分佈 ( Frequency distribution ) 機率分佈 ( Probability distribution ) 採樣分佈 ( Sampling distribution ) 常態分佈、正態分布 ( Normal distribution ) (二)統計推斷 ( Statistical Inference ) 統計推斷是推導數據樣本屬性（即概率分佈）的過程，以便對整個數據組進行預測。如果樣本的某些特徵可以被證明，這些特徵也可能也存在於整個母體 ( population )中。例如，一項針對500名籃球運動員的研究顯示，NBA中99％的籃球運動員都高於1.95米，可以推斷出NBA中99％的籃球運動員都高於1.95米。這將是基於推論統計的陳述。該陳述是否成立取決於樣本數據是否是整個群體的代表性子集的問題。關聯 ( Correlation ) 依賴性（或組合性）是兩個隨機變量或雙變量數據之間的任何統計關係，而無論其是否有因果關係。關聯性是一種廣泛類別的統計關係中的一種, 它牽涉到依賴性，儘管它主要用於指示兩個變量是否具有線性關係。關聯性的一個例子是籃球運動員的身高與他們在NBA中的選拔賽選擇之間的關係。在關聯性中, 兩個 (或更多) 變量相互比較。這些變量可以是互相依賴的, 也可以是獨立的: 自變量 ( Independent variables ) 不會因其他變量的更改而更改或受到影響。它們獨立運行, 並且經常進行更改以測試對因變量的影響。自變量的常見例子是籃球運動員的年齡或身高。因變量 ( Dependent variables ) 是根據自變量的波動而變化的變量。因變量表示正在研究其變化的輸出或結果。在上面的例子中, NBA 選拔賽的球員入選機會是我們想知道的因變量 (取決於 “籃球運動員身高” 的自變量)。回歸 ( Regression ) 回歸分析是一組用於估計變量之間關係的統計過程。當焦點放在於因變量與一個或多個自變量（或“預測變量”）之間的關係時，它會利用許多包括用於建模和分析多個變量的技巧。分類 ( Classification ) 分類是根據一組包含其類別成員身份已知的觀測數據，當作訓練數據，確定新觀測的一組類別中屬哪一類類別的問題。由於電腦進行 “餵送” 樣本數據，因此分類是監督機器學習的一種形式。分類演算法 - 簡單說明：向電腦提供樣本數據，該樣本數據包含關於每個數據點的類別資訊。例如，它學會將胡蘿蔔歸類為 “蔬菜”，將橘子歸類為 “水果”。在機器 “訓練” 之後，向電腦提供新數據或觀察結果。電腦現在開始自行分類。在該例子中，具有與胡蘿蔔相似特性的食物將被標記為 “蔬菜”，而具有與橘子類似特徵的食物將被標記為 “水果”。聚類 ( Clustering ) 聚類分析或聚類是對一組對象進行分組的任務，使得同一組（稱為聚類）中的對象（在某種意義上）與其他組（聚類）中的對象更相似（在某種意義上）。與分類不同，聚類是非監督學習的一個例子。沒有樣本數據可以送入機器，但電腦開始根據各組之間的相似性來制定群集。為了達成聚類，電腦需要運行聚類演算法。根據要解決的問題的特徵，有許多已知的聚類演算法可用。一個共同點是，大多數聚類演算法都會查看數據點之間的“相似性。異常值檢測異常值是遠離其他觀察的觀察點。異常值可能是由於測量的可變性，或者可能表示是數據中的錯誤。特別是在大數據集的分析中，異常值檢測是一種常用的技術，用於檢測錯誤或虛假的數據點。數據可視化統計圖形，也稱為圖形技巧，這些圖形是使用在可視化定量數據統計的領域中 ( graphics in the field of statistics used to visualize quantitative data. )。數據可視化廣泛應用於大數據領域，因為它將大型數據集壓縮為易於理解且易於討論的摘要圖。特別是在企業環境中，使用數據可視化技術很重要，因為不是每個人都有統計和演算法背景。最常見的數據可視化技巧包括：條形圖 ( Bar charts ) 直方圖 ( Histograms ) 散點圖 ( Scatter plots ) 雙圖 ( Bi-plots ) 箱形圖 ( Box plots ) Q-Q圖 ( Q-Q plots ) 餅狀圖 ( Pie charts ) 雷達圖 ( Radar charts )