183.17.231.* 2020-06-04 11:34:27 |
目前商業(yè)決策面臨的**挑戰(zhàn)不是缺少數(shù)據(jù),而是數(shù)據(jù)太多。大部分企業(yè)無法挖掘數(shù)據(jù)得價(jià)值給公司決策層提供支持,決策人員得困惑在于:以事海量數(shù)據(jù)無邊無際,企業(yè)現(xiàn)有得信息系統(tǒng)無法**地處理;二是數(shù)據(jù)混亂,根本找不到解決得辦法。所以數(shù)據(jù)挖掘工作就更得不到**得重視了。
20世紀(jì)90年代晚期發(fā)展的跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(CRISP-DM),這是對(duì)我們?cè)趺慈プ鰯?shù)據(jù)挖掘的**指導(dǎo)
**,是商業(yè)理解,在我看來,這個(gè)商業(yè)理解就是要把業(yè)務(wù)問題轉(zhuǎn)換成數(shù)據(jù)挖掘問題,目前數(shù)據(jù)挖掘的理論概念中,一般都包括分類,聚類,回歸,關(guān)聯(lián)規(guī)則這幾類,這需要對(duì)這幾類方法有一定的理解,才能**地轉(zhuǎn)換,
第二.數(shù)據(jù)理解,數(shù)據(jù)描述了我們的業(yè)務(wù),在這一步,我們必須找準(zhǔn)對(duì)應(yīng)關(guān)系,所面臨的業(yè)務(wù)問題,有哪些數(shù)據(jù)可以用,我們做的是定量分析,沒有數(shù)據(jù)顯然是得不到模型的,知道哪里數(shù)據(jù)和業(yè)務(wù)關(guān)系緊密,也能讓我們的分析事半功倍,
第三.數(shù)據(jù)準(zhǔn)備,實(shí)際上數(shù)據(jù)挖掘的大部分工作都在這一步,往往到了這一步就發(fā)現(xiàn)理想很美好,但現(xiàn)實(shí)很骨感,數(shù)據(jù)質(zhì)量令人堪憂,缺失值,異常值接踵而來,這是數(shù)據(jù)的錯(cuò)誤,還有為了適應(yīng)算法,需要將數(shù)據(jù)去量綱化,類型轉(zhuǎn)換,去相關(guān)性,降維等等操作,這一步將消耗分析人員大量精力
第四,建模,這一步需要對(duì)算法理解透徹,要了解數(shù)據(jù)特征和算法特點(diǎn),才能選擇**算法,以及**參數(shù),很多算法的使用是有假設(shè)條件的,必須仔細(xì)掌握,得到的模型才會(huì)合理,另外,還要考慮業(yè)務(wù)需要,如果模型必須能解釋,那就要選擇生成式模型算法
第五,評(píng)價(jià),就是模型評(píng)估了,各種評(píng)估指標(biāo)的側(cè)重點(diǎn)是不一樣的,要以最能反應(yīng)業(yè)務(wù)的指標(biāo)為準(zhǔn),另外,評(píng)估數(shù)據(jù)的選擇也很關(guān)鍵,要盡可能的模擬實(shí)際生產(chǎn)環(huán)境,才能評(píng)估模型的性能。
以上就是得到模型流程了,業(yè)務(wù)理解和數(shù)據(jù)理解做的好,就能快速選好方法,和關(guān)鍵字段,這是能加速建模的,數(shù)據(jù)質(zhì)量是能否得到模型的關(guān)鍵,缺失值,異常值雖然能刪除,填充,但是信息的缺失是找不回來的,就可能導(dǎo)致得不到模型,可能會(huì)倒逼選擇其他方法分析,建模就要看對(duì)算法的理解了。
企業(yè)如何進(jìn)行數(shù)據(jù)挖掘.中琛魔方大數(shù)據(jù)分析平臺(tái)(www.zcmorefun.com)表示企業(yè)內(nèi)部數(shù)據(jù)挖掘應(yīng)以***為企業(yè)生產(chǎn)經(jīng)營(yíng)管理提供內(nèi)外部信息為目標(biāo),其目標(biāo)服務(wù)得對(duì)象是企業(yè),具體包括企業(yè)得決策者、管理者、投資者、債權(quán)人、合作者、供應(yīng)商和客戶等。 |