183.17.231.* 2020-06-04 11:33:52 |
數(shù)據(jù)角度的模型一般指的是統(tǒng)計(jì)或數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人工智能等類型的模型,是純粹從科學(xué)角度出發(fā)定義的。
1.降維
在面對(duì)海量數(shù)據(jù)或大數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘時(shí),通常會(huì)面臨“維度災(zāi)難”,原因是數(shù)據(jù)集的維度可以不斷增加直至無窮多,但計(jì)算機(jī)的處理能力和速度卻是有限的;另外,數(shù)據(jù)集的大量維度之間可能存在共線性的關(guān)系,這會(huì)直接導(dǎo)致學(xué)習(xí)模型的健壯性不夠,甚至很多時(shí)候算法結(jié)果會(huì)失效。因此,我們需要降低維度數(shù)量并降低維度間共線性影響。
數(shù)據(jù)降維也被成為數(shù)據(jù)歸約或數(shù)據(jù)約減,其目的是減少參與數(shù)據(jù)計(jì)算和建模維度的數(shù)量。數(shù)據(jù)降維的思路有兩類:一類是基于特征選擇的降維,一類是是基于維度轉(zhuǎn)換的降維。
2.回歸
回歸是研究自變量x對(duì)因變量y影響的一種數(shù)據(jù)分析方法。最簡(jiǎn)單的回歸模型是一元線性回歸(只包括一個(gè)自變量和一個(gè)因變量,且二者的關(guān)系可用一條直線近似表示),可以表示為Y=β0+β1x+ε,其中Y為因變量,x為自變量,β1為影響系數(shù),β0為截距,ε為隨機(jī)誤差。
回歸分析按照自變量的個(gè)數(shù)分為一元回歸模型和多元回歸模型;按照影響是否線性分為線性回歸和非線性回歸。
3.聚類
聚類是數(shù)據(jù)挖掘和計(jì)算中的基本任務(wù),聚類是將大量數(shù)據(jù)集中具有“相似”特征的數(shù)據(jù)點(diǎn)劃分為統(tǒng)一類別,并最終生成多個(gè)類的方法。聚類分析的基本思想是“物以類聚、人以群分”,因此大量的數(shù)據(jù)集中必然存在相似的數(shù)據(jù)點(diǎn),基于這個(gè)假設(shè)就可以將數(shù)據(jù)區(qū)分出來,并發(fā)現(xiàn)每個(gè)數(shù)據(jù)集(分類)的特征。
4.分類
分類算法通過對(duì)已知類別訓(xùn)練集的計(jì)算和分析,從中發(fā)現(xiàn)類別規(guī)則,以此預(yù)測(cè)新數(shù)據(jù)的類別的一類算法。分類算法是解決分類問題的方法,是數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和模式識(shí)別中一個(gè)重要的研究領(lǐng)域。
5.關(guān)聯(lián)
關(guān)聯(lián)規(guī)則學(xué)習(xí)通過尋找最能夠解釋數(shù)據(jù)變量之間關(guān)系的規(guī)則,來找出大量多元數(shù)據(jù)集中有用的關(guān)聯(lián)規(guī)則,它是從大量數(shù)據(jù)中發(fā)現(xiàn)多種數(shù)據(jù)之間關(guān)系的一種方法,另外,它還可以基于時(shí)間序列對(duì)多種數(shù)據(jù)間的關(guān)系進(jìn)行挖掘。關(guān)聯(lián)分析的典型案例是“啤酒和尿布”的捆綁銷售,即買了尿布的用戶還會(huì)一起買啤酒。
大數(shù)據(jù)分析領(lǐng)域模型有哪些.中琛魔方大數(shù)據(jù)分析平臺(tái)(www.zcmorefun.com)表示從開始思考目標(biāo)到**可視化呈現(xiàn),從發(fā)現(xiàn)問題到提出解決方案,身為數(shù)據(jù)運(yùn)營(yíng)者,我們既需要有整體思維,能夠從全流程去把握數(shù)據(jù)分析方法,也需要對(duì)細(xì)節(jié)**追求,優(yōu)化每一個(gè)步驟。當(dāng)我們能夠從整體和細(xì)節(jié)都游刃有余得進(jìn)行數(shù)據(jù)分析的時(shí)候,你就是一個(gè)合格甚至**的數(shù)據(jù)運(yùn)營(yíng)者。 |