日韩一级二级一区二区_超级国产人人偷人人干_日本日本乱码伦视频在线_亚洲性视频日韩性视频

 中國(guó)簡(jiǎn)單快捷的免費(fèi)行業(yè)信息發(fā)布平臺(tái)
·手機(jī)版 ·注冊(cè) ·登錄 ·會(huì)員中心 ·忘了密碼 ·導(dǎo)航 ·幫助
名站在線LOGO
·設(shè) 為 首 頁(yè)
·收 藏 本 站
·新 站 登 錄
網(wǎng)站首頁(yè)
|
行業(yè)供求
|
行業(yè)產(chǎn)品
|
行業(yè)公司
|
站內(nèi)檢索
|
行業(yè)資訊
|
網(wǎng)站導(dǎo)航
|
鏈接交換
|
流量交換
|
網(wǎng)友收藏
您當(dāng)前的位置: 首頁(yè) > 行業(yè)貼吧 > 話題


行業(yè)貼吧

(注意:網(wǎng)友的發(fā)布表不代表本站立場(chǎng)。)
回復(fù)話題
發(fā)新話題
返回列表
話題: 大數(shù)據(jù)中數(shù)據(jù)挖掘的基本步驟
183.17.229.*
2020-04-09 13:26:16
  數(shù)據(jù)挖掘基本步驟,數(shù)據(jù)挖掘過(guò)程定義問(wèn)題、建立數(shù)據(jù)挖掘庫(kù)、分析數(shù)據(jù)、準(zhǔn)備數(shù)據(jù)、建立模型、評(píng)價(jià)模型和實(shí)施。挖掘出潛在的模式,幫助決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),作出正確的決策。



  數(shù)據(jù)挖掘是什么



  數(shù)據(jù)挖掘指從數(shù)據(jù)庫(kù)的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的非平凡過(guò)程。數(shù)據(jù)挖掘是一種決策支持過(guò)程,主要基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、可視化技術(shù)等,高度自動(dòng)化地分析企業(yè)的數(shù)據(jù),作出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),作出正確的決策。



  數(shù)據(jù)挖掘步驟。數(shù)據(jù)挖掘通過(guò)分析每個(gè)數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示三個(gè)步驟。數(shù)據(jù)準(zhǔn)備是從相關(guān)的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;規(guī)律尋找是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來(lái);規(guī)律表示是盡可能以用戶可理解的方式將找出的規(guī)律表示出來(lái)。數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。



  數(shù)據(jù)挖掘步驟:



  1、定義問(wèn)題



  在開(kāi)始知識(shí)發(fā)現(xiàn)之前**的也是最重要的要求就是了解數(shù)據(jù)和業(yè)務(wù)問(wèn)題。必須要對(duì)目標(biāo)有一個(gè)清晰明確的定義,即決定到底想干什么。比如,想提高電子信箱的利用率時(shí),想做的可能是“提高用戶使用率”,也可能是“提高一次用戶使用的價(jià)值”,要解決這兩個(gè)問(wèn)題而建立的模型幾乎是完全不同的,必須做出決定。



  2、建立數(shù)據(jù)挖掘庫(kù)



  建立數(shù)據(jù)挖掘庫(kù)包括以下幾個(gè)步驟:數(shù)據(jù)收集,數(shù)據(jù)描述,選擇,數(shù)據(jù)質(zhì)量評(píng)估和數(shù)據(jù)清理,合并與整合,構(gòu)建元數(shù)據(jù),加載數(shù)據(jù)挖掘庫(kù),維護(hù)數(shù)據(jù)挖掘庫(kù)。



  3、分析數(shù)據(jù)



  分析的目的是找到對(duì)預(yù)測(cè)輸出影響**的數(shù)據(jù)字段,和決定是否需要定義導(dǎo)出字段。如果數(shù)據(jù)集包含成百上千的字段,那么瀏覽分析這些數(shù)據(jù)將是一件非常耗時(shí)和累人的事情,這時(shí)需要選擇一個(gè)具有好的界面和功能強(qiáng)大的工具軟件來(lái)協(xié)助你完成這些事情。



  4、準(zhǔn)備數(shù)據(jù)



  建立模型之前的**一步數(shù)據(jù)準(zhǔn)備工作?梢园汛瞬襟E分為四個(gè)部分:選擇變量,選擇記錄,創(chuàng)建新變量,轉(zhuǎn)換變量。



  5、建立模型



  建立模型是一個(gè)反復(fù)的過(guò)程。需要仔細(xì)考察不同的模型以判斷哪個(gè)模型對(duì)面對(duì)的商業(yè)問(wèn)題最有用。先用一部分?jǐn)?shù)據(jù)建立模型,然后再用剩下的數(shù)據(jù)來(lái)測(cè)試和驗(yàn)證這個(gè)得到的模型。有時(shí)還有第三個(gè)數(shù)據(jù)集,稱為驗(yàn)證集,因?yàn)闇y(cè)試集可能受模型的特性的影響,這時(shí)需要一個(gè)獨(dú)立的數(shù)據(jù)集來(lái)驗(yàn)證模型的準(zhǔn)確性。訓(xùn)練和測(cè)試數(shù)據(jù)挖掘模型需要把數(shù)據(jù)至少分成兩個(gè)部分,一個(gè)用于模型訓(xùn)練,另一個(gè)用于模型測(cè)試。



  6、評(píng)價(jià)模型



  模型建立好之后,必須評(píng)價(jià)得到的結(jié)果、解釋模型的價(jià)值。從測(cè)試集中得到的準(zhǔn)確率只對(duì)用于建立模型的數(shù)據(jù)有意義。在實(shí)際應(yīng)用中,需要進(jìn)一步了解錯(cuò)誤的類型和由此帶來(lái)的相關(guān)費(fèi)用的多少。經(jīng)驗(yàn)證明,**的模型并不一定是正確的模型。造成這一點(diǎn)的直接原因就是模型建立中隱含的各種假定,因此,直接在現(xiàn)實(shí)世界中測(cè)試模型很重要。先在小范圍內(nèi)應(yīng)用,取得測(cè)試數(shù)據(jù),覺(jué)得滿意之后再向大范圍推廣實(shí)施。模型建立并經(jīng)驗(yàn)證之后,可以有兩種主要的使用方法。**種是提供給分析人員做參考;另一種是把此模型應(yīng)用到不同的數(shù)據(jù)集上。



  大數(shù)據(jù)中數(shù)據(jù)挖掘的基本步驟.中琛魔方大數(shù)據(jù)平臺(tái)(www.zcmorefun.com)表示數(shù)據(jù)挖掘作為近年來(lái)十分流行的一門學(xué)科,在各個(gè)行業(yè),尤其是金融、互聯(lián)網(wǎng)方面發(fā)揮了巨大的作用。經(jīng)過(guò)多年的時(shí)間證明,數(shù)據(jù)挖掘能夠提高團(tuán)隊(duì)的生產(chǎn)率,產(chǎn)品的質(zhì)量和產(chǎn)品的滿意度。但是,由于數(shù)據(jù)挖掘還存在許多問(wèn)題,今后還有很多工作值得進(jìn)一步深入研究。
共0個(gè)回復(fù)
回復(fù)話題
發(fā)新話題
返回列表



新站登錄--網(wǎng)站簡(jiǎn)介--流量交換--名站收藏夾--廣告服務(wù)--友情鏈接--免責(zé)聲明--聯(lián)系我們--意見(jiàn)建議--違法舉報(bào)--侵權(quán)舉報(bào)
Copyright 2005-2025 名站在線[fwol.cn]版權(quán)所有 經(jīng)營(yíng)許可證:粵ICP備17047754號(hào)