183.17.231.* 2020-04-26 13:19:40 |
隨著時(shí)代的發(fā)展,人類產(chǎn)生的數(shù)據(jù)成倍增長(zhǎng),數(shù)據(jù)的開放性應(yīng)用和數(shù)據(jù)可挖掘價(jià)值越來(lái)越高。在大數(shù)據(jù)精準(zhǔn)營(yíng)銷、大數(shù)據(jù)洞察等一系列熱詞背后,正是數(shù)據(jù)挖掘、分析技術(shù)發(fā)揮著重要的作用。數(shù)據(jù)挖掘技術(shù)不僅成為當(dāng)今政務(wù)部門提升治理能力的重要手段,也成為各行各業(yè)提升核心競(jìng)爭(zhēng)力的關(guān)鍵。
什么是數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但有潛在的有用信息和知識(shí)的過(guò)程。
可以看出,數(shù)據(jù)挖掘是一個(gè)過(guò)程結(jié)果的稱謂,即主要目標(biāo)是從數(shù)據(jù)中挖取隱藏的信息。它是一個(gè)交叉科學(xué)領(lǐng)域,受多個(gè)學(xué)科影響,包括數(shù)據(jù)庫(kù)系統(tǒng)、統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、可視化和信息科學(xué)。
數(shù)據(jù)挖掘與商業(yè)智能的關(guān)系
舉個(gè)簡(jiǎn)單點(diǎn)的例子:
通過(guò)統(tǒng)計(jì)購(gòu)買某產(chǎn)品的人大多數(shù)來(lái)自北京,則北京是該產(chǎn)品的主要消費(fèi)者居住的城市,這就是用的商業(yè)智能技術(shù)。
要從100000人中找出100個(gè)購(gòu)買某產(chǎn)品概率比較大的客戶,則可以通過(guò)利用統(tǒng)計(jì)方法建立數(shù)學(xué)模型找到這群人,而這就要用數(shù)據(jù)挖掘技術(shù)。
也就是說(shuō):
商業(yè)智能就是目標(biāo)明確的創(chuàng)建統(tǒng)計(jì)分析報(bào)表,根據(jù)統(tǒng)計(jì)結(jié)果,提供商業(yè)決策支持,輸入的是數(shù)據(jù),輸出的是信息。
數(shù)據(jù)挖掘則是透過(guò)數(shù)據(jù)的表象發(fā)現(xiàn)隱藏在背后的蛛絲馬跡,從而找到潛伏的規(guī)律以及看似無(wú)關(guān)事物之間背后的聯(lián)系,用此來(lái)洞察或預(yù)測(cè)未知事項(xiàng),輸入的是數(shù)據(jù),輸出的是知識(shí)。
利用數(shù)據(jù)挖掘技術(shù),對(duì)大量的業(yè)務(wù)數(shù)進(jìn)行探索和分析揭示隱藏的、未知的規(guī)律,是商業(yè)智能的**應(yīng)用。
數(shù)據(jù)挖掘能解決哪些問(wèn)題
根據(jù)數(shù)據(jù)挖掘的應(yīng)用方向,常見(jiàn)的數(shù)據(jù)挖掘能解決的問(wèn)題體現(xiàn)在下面幾個(gè)方面。
1.分類與回歸
分類根據(jù)樣本數(shù)據(jù)中標(biāo)記的類別對(duì)原數(shù)據(jù)進(jìn)行分類總結(jié),進(jìn)而也可以預(yù)測(cè)未來(lái)數(shù)據(jù)的歸類。
回歸是確定一種或多種變量間相互依賴關(guān)系的一種統(tǒng)計(jì)分析方法。
分類與回歸本質(zhì)上解決的都是預(yù)測(cè)問(wèn)題,不同的是分類適用于離散型目標(biāo)變量的預(yù)測(cè),而回歸適用于連續(xù)型目標(biāo)變量的預(yù)測(cè)。下面這些問(wèn)題可以用分類和回歸技術(shù)來(lái)解決:
如何將*****申請(qǐng)人分為低、中、高風(fēng)險(xiǎn)群?
如何預(yù)測(cè)銀行可以安全地貸給貸款人的貸款量?
如何**預(yù)測(cè)房地產(chǎn)開發(fā)中存在的風(fēng)險(xiǎn)?
如何預(yù)測(cè)哪些顧客在未來(lái)半年內(nèi)會(huì)取消該公司服務(wù),哪些電話用戶會(huì)申請(qǐng)?jiān)鲋捣⻊?wù)?
如何預(yù)測(cè)具有某些特征的顧客是否會(huì)購(gòu)買一臺(tái)新的計(jì)算機(jī)?
使用3G通信網(wǎng)絡(luò)的手機(jī)用戶哪些有可能轉(zhuǎn)換到4G通信網(wǎng)絡(luò)?
如何預(yù)測(cè)一位顧客在一次銷售期間將花多少錢?
如何預(yù)測(cè)病人應(yīng)當(dāng)接受三種具體治療方案的哪一種?
2.聚類
聚類是在預(yù)先不知道欲劃分類的情況下,根據(jù)數(shù)據(jù)相似度原則進(jìn)行數(shù)據(jù)歸類的方法。
中國(guó)有句古話是“物以類聚,人以群分”,其實(shí)已經(jīng)蘊(yùn)含了聚類算法的基本思想。聚類能解決如下方面的問(wèn)題:
誰(shuí)是銀行*****的黃金客戶?
誰(shuí)喜歡打國(guó)際長(zhǎng)途,在什么時(shí)間,打到那里?
如何對(duì)用戶WAP上網(wǎng)行為進(jìn)行分析,通過(guò)客戶分群,進(jìn)行精確營(yíng)銷?
對(duì)住宅區(qū)進(jìn)行聚類,確定自動(dòng)提款機(jī)ATM的安放位置。
如何通過(guò)一些特定的癥狀歸納某類特定的疾?
3.關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則在一個(gè)數(shù)據(jù)集中找出各個(gè)物品或者商品之間的關(guān)系,也被稱為購(gòu)物籃分析。
關(guān)聯(lián)規(guī)則描述的是在一個(gè)事物中物品間同時(shí)出現(xiàn)的規(guī)律的知識(shí)模式,可以應(yīng)用到很多實(shí)際業(yè)務(wù)中:
哪些商品是已經(jīng)購(gòu)買商品A的人最有可能購(gòu)買的?
商業(yè)銷售上,如何通過(guò)交叉銷售,以得到更大的收入?
保險(xiǎn)方面,如何分析索賠要求,發(fā)現(xiàn)潛在的欺詐行為?
銀行方面,如何分析顧客消費(fèi)行業(yè),以便有針對(duì)性的向其推薦感興趣的服務(wù)?
哪些制造零件和設(shè)備設(shè)置與故障事件關(guān)聯(lián)?
哪些病人和**屬性與結(jié)果關(guān)聯(lián)?
4.時(shí)間序列預(yù)測(cè)
通過(guò)已有的時(shí)間序列數(shù)據(jù)進(jìn)行類推,以預(yù)測(cè)下一段時(shí)間的趨勢(shì)。
時(shí)間序列預(yù)測(cè)是在與時(shí)間相關(guān)的歷史數(shù)據(jù)中,找到數(shù)據(jù)隨時(shí)間變動(dòng)的規(guī)律。你可以用來(lái)解決如下問(wèn)題:
下個(gè)月的商品銷量、銷售額或庫(kù)存量是多少?
明天廣州市的**用電負(fù)荷是多少?
5.關(guān)系網(wǎng)絡(luò)分析
關(guān)系網(wǎng)絡(luò)分析用來(lái)探索社會(huì)行動(dòng)者及其間的關(guān)系,例如:社會(huì)關(guān)系、親屬關(guān)系、角色關(guān)系、行為關(guān)系、流動(dòng)關(guān)系、地理空間關(guān)系等等。
關(guān)系網(wǎng)絡(luò)分析也叫社會(huì)網(wǎng)絡(luò)分析。通過(guò)社會(huì)網(wǎng)絡(luò)分析,可以探索和發(fā)現(xiàn)行動(dòng)者之間隱藏的關(guān)系。常見(jiàn)的關(guān)系有:
親屬關(guān)系:父母、子女、夫妻關(guān)系等。
正式關(guān)系(權(quán)威關(guān)系):正式角色也是關(guān)系性的,如老板/職員、教師/學(xué)生、醫(yī)生/病人關(guān)系等。
個(gè)人之間的評(píng)價(jià)關(guān)系:喜歡、信任、尊重等。
行為上的互動(dòng)關(guān)系:行動(dòng)者之間的自然交往,如談話、參加會(huì)議、拜訪、提建議等。
隸屬關(guān)系:如參加一項(xiàng)協(xié)會(huì)、屬于某些俱樂(lè)部等。
物質(zhì)資本的傳遞:商業(yè)往來(lái)、物資交流。
非物質(zhì)資源的轉(zhuǎn)換關(guān)系:行動(dòng)者之間的交往、信息的交換等。
空間關(guān)聯(lián):城市之間的關(guān)系,遷入和遷出。
職位的升遷,地位的流動(dòng)。
數(shù)據(jù)挖掘是一個(gè)周而復(fù)始的過(guò)程,在生成規(guī)則的過(guò)程中不斷地對(duì)模型進(jìn)行調(diào)整,從而提升精度。
數(shù)據(jù)挖掘與商業(yè)智能有什么聯(lián)系.中琛魔方大數(shù)據(jù)分析平臺(tái)(www.zcmorefun.com)表示數(shù)據(jù)挖掘是針對(duì)的是海量復(fù)雜的數(shù)據(jù),它是伴隨著數(shù)據(jù)庫(kù)理論,機(jī)器學(xué)習(xí),人工智能,現(xiàn)代統(tǒng)計(jì)學(xué)的迅速發(fā)展而出現(xiàn)的一種新型交叉性的技術(shù)。需要數(shù)據(jù)挖掘模型的客戶群通常都十分龐大,由于它需要復(fù)雜的算法、統(tǒng)計(jì)模型和大量的數(shù)據(jù),所以需要支持大數(shù)據(jù)量的處理能力,像并行算法和網(wǎng)格計(jì)算是極其必要的。 |