一级毛片免费不卡在线视频,国产日批视频免费在线观看,菠萝菠萝蜜在线视频免费视频,欧美日韩亚洲无线码在线观看,久久精品这里精品,国产成人综合手机在线播放,色噜噜狠狠狠综合曰曰曰,琪琪视频

數(shù)據(jù)挖掘

時(shí)間:2023-04-29 13:10:28 全科知識 我要投稿
  • 相關(guān)推薦

數(shù)據(jù)挖掘

數(shù)據(jù)挖掘

數(shù)據(jù)挖掘(數(shù)據(jù)挖掘)

數(shù)據(jù)挖掘(英語:Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。Data mining (the analysis step of the "Knowledge Discovery in Databases" process, or KDD), an interdisciplinary subfield of computer science, is the computational process of discovering pattern...

目錄 概述 使用 成功案例 經(jīng)典算法 收縮展開 概述

數(shù)據(jù)挖掘(Data Mining,DM)是目前人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點(diǎn)問題,所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的非平凡過程。數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫、可視化技術(shù)等,高度自動(dòng)化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略,減少風(fēng)險(xiǎn),做出正確的決策。 知識發(fā)現(xiàn)過程由以下三個(gè)階段組成:(1)數(shù)據(jù)準(zhǔn)備,(2)數(shù)據(jù)挖掘,(3)結(jié)果表達(dá)和解釋。數(shù)據(jù)挖掘可以與用戶或知識庫交互。 數(shù)據(jù)挖掘是通過分析每個(gè)數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示3個(gè)步驟。數(shù)據(jù)準(zhǔn)備是從相關(guān)的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;規(guī)律尋找是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來;規(guī)律表示是盡可能以用戶可理解的方式(如可視化)將找出的規(guī)律表示出來。 數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析,等等。 并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。例如,使用數(shù)據(jù)庫管理系統(tǒng)查找個(gè)別的記錄,或通過因特網(wǎng)的搜索引擎查找特定的Web頁面,則是信息檢索(information retrieval)領(lǐng)域的任務(wù)。雖然這些任務(wù)是重要的,可能涉及使用復(fù)雜的算法和數(shù)據(jù)結(jié)構(gòu),但是它們主要依賴傳統(tǒng)的計(jì)算機(jī)科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信息。盡管如此,數(shù)據(jù)挖掘技術(shù)也已用來增強(qiáng)信息檢索系統(tǒng)的能力。 起源 需要是發(fā)明之母。近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。獲取的信息和知識可以廣泛用于各種應(yīng)用,包括商務(wù)管理,生產(chǎn)控制,市場分析,工程設(shè)計(jì)和科學(xué)探索等。 數(shù)據(jù)挖掘利用了來自如下一些領(lǐng)域的思想:(1) 來自統(tǒng)計(jì)學(xué)的抽樣、估計(jì)和假設(shè)檢驗(yàn),(2)人工智能、模式識別和機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。數(shù)據(jù)挖掘也迅速地接納了來自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化、進(jìn)化計(jì)算、信息論、信號處理、可視化和信息檢索。一些其他領(lǐng)域也起到重要的支撐作用。特別地,需要數(shù)據(jù)庫系統(tǒng)提供有效的存儲、索引和查詢處理支持。源于高性能(并行)計(jì)算的技術(shù)在處理海量數(shù)據(jù)集方面常常是重要的。分布式技術(shù)也能幫助處理海量數(shù)據(jù),并且當(dāng)數(shù)據(jù)不能集中到一起處理時(shí)更是至關(guān)重要。 發(fā)展階段 第一階段:電子郵件階段 這個(gè)階段可以認(rèn)為是從70年代開始,平均的通訊量以每年幾倍的速度增長。 第二階段:信息發(fā)布階段 從1995年起,以Web技術(shù)為代表的信息發(fā)布系統(tǒng),爆炸式地成長起來,成為目前Internet的主要應(yīng)用。中小企業(yè)如何把握好從“粗放型”到“精準(zhǔn)型”營銷時(shí)代的電子商務(wù)。 第三階段: EC(Electronic Commerce),即電子商務(wù)階段 EC在美國也才剛剛開始,之所以把EC列為一個(gè)劃時(shí)代的東西,是因?yàn)镮nternet的最終主要商業(yè)用途,就是電子商務(wù)。同時(shí)反過來也可以說,若干年后的商業(yè)信息,主要是通過Internet傳遞。Internet即將成為我們這個(gè)商業(yè)信息社會的神經(jīng)系統(tǒng)。1997年底在加拿大溫哥華舉行的第五次亞太經(jīng)合組織非正式首腦會議(APEC)上美國總統(tǒng)克林頓提出敦促各國共同促進(jìn)電子商務(wù)發(fā)展的議案,其引起了全球首腦的關(guān)注,IBM、HP和Sun等國際著名的信息技術(shù)廠商已經(jīng)宣布1998年為電子商務(wù)年。 第四階段:全程電子商務(wù)階段 隨著SaaS(Software as a service)軟件服務(wù)模式的出現(xiàn),軟件紛紛登陸互聯(lián)網(wǎng)[5],延長了電子商務(wù)鏈條,形成了當(dāng)下最新的“全程電子商務(wù)”概念模式。

使用

分析方法: · 分類 (Classification) · 估計(jì)(Estimation) · 預(yù)測(Prediction) · 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules) · 聚類(Clustering) · 描述和可視化(Description and Visualization) · 復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等) 方法簡介: ·分類 (Classification) 首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘分類的技術(shù),建立分類模型,對于沒有分類的數(shù)據(jù)進(jìn)行分類。 例子: a. 信用卡申請者,分類為低、中、高風(fēng)險(xiǎn) b. 故障診斷:中國寶鋼集團(tuán)與上海天律信息技術(shù)有限公司合作,采用數(shù)據(jù)挖掘技術(shù)對鋼材生產(chǎn)的全流程進(jìn)行質(zhì)量監(jiān)控和分析,構(gòu)建故障地圖,實(shí)時(shí)分析產(chǎn)品出現(xiàn)瑕疵的原因,有效提高了產(chǎn)品的優(yōu)良率。 注意: 類的個(gè)數(shù)是確定的,預(yù)先定義好的 · 估計(jì)(Estimation) 估計(jì)與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定數(shù)目的,估值的量是不確定的。 例子: a. 根據(jù)購買模式,估計(jì)一個(gè)家庭的孩子個(gè)數(shù) b. 根據(jù)購買模式,估計(jì)一個(gè)家庭的收入 c. 估計(jì)real estate的價(jià)值 一般來說,估值可以作為分類的前一步工作。給定一些輸入數(shù)據(jù),通過估值,得到未知的連續(xù)變量的值,然后,根據(jù)預(yù)先設(shè)定的閾值,進(jìn)行分類。例如:銀行對家庭貸款業(yè)務(wù),運(yùn)用估值,給各個(gè)客戶記分(Score 0~1)。然后,根據(jù)閾值,將貸款級別分類。 · 預(yù)測(Prediction) 通常,預(yù)測是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對未知變量的預(yù)言。從這種意義上說,預(yù)言其實(shí)沒有必要分為一個(gè)單獨(dú)的類。預(yù)言其目的是對未來未知變量的預(yù)測,這種預(yù)測是需要時(shí)間來驗(yàn)證的,即必須經(jīng)過一定時(shí)間后,才知道預(yù)言準(zhǔn)確性是多少。 相關(guān)性分組或關(guān)聯(lián)規(guī)則 (Affinity grouping or association rules) 決定哪些事情將一起發(fā)生。 例子: a. 超市中客戶在購買A的同時(shí),經(jīng)常會購買B,即A => B(關(guān)聯(lián)規(guī)則) b. 客戶在購買A后,隔一段時(shí)間,會購買B (序列分析) · 聚類(Clustering) 聚類是對記錄分組,把相似的記錄在一個(gè)聚集里。聚類和分類的區(qū)別是聚集不依賴于預(yù)先定義好的類,不需要訓(xùn)練集。 例子: a. 一些特定癥狀的聚集可能預(yù)示了一個(gè)特定的疾病 b. 租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群 聚集通常作為數(shù)據(jù)挖掘的第一步。例如,"哪一種類的促銷對客戶響應(yīng)最好?",對于這一 類問題,首先對整個(gè)客戶做聚集,將客戶分組在各自的聚集里,然后對每個(gè)不同的聚集,回答問題,可能效果更好。 · 描述和可視化(Description and Visualization) 是對數(shù)據(jù)挖掘結(jié)果的`表示方式。一般只是指數(shù)據(jù)可視化工具,包含報(bào)表工具和商業(yè)智能分析產(chǎn)品(BI)的統(tǒng)稱。譬如通過Yonghong Z-Suite等工具進(jìn)行數(shù)據(jù)的展現(xiàn),分析,鉆取,將數(shù)據(jù)挖掘的分析結(jié)果更形象,深刻的展現(xiàn)出來。 挖掘分類 以上七種數(shù)據(jù)挖掘的分析方法可以分為兩類:直接數(shù)據(jù)挖掘;間接數(shù)據(jù)挖掘· 直接數(shù)據(jù)挖掘 目標(biāo)是利用可用的數(shù)據(jù)建立一個(gè)模型,這個(gè)模型對剩余的數(shù)據(jù),對一個(gè)特定的變量(可以理解成數(shù)據(jù)庫中表的屬性,即列)進(jìn)行描述。 間接數(shù)據(jù)挖掘 目標(biāo)中沒有選出某一具體的變量,用模型進(jìn)行描述;而是在所有的變量中建立起某種關(guān)系 。 · 分類、估值、預(yù)言屬于直接數(shù)據(jù)挖掘;后四種屬于間接數(shù)據(jù)挖掘

成功案例

數(shù)據(jù)挖掘幫助Credilogros Cía Financiera S.A.改善客戶信用評分 Credilogros Cía Financiera S.A. 是阿根廷第五大信貸公司,資產(chǎn)估計(jì)價(jià)值為9570萬美元,對于Credilogros而言,重要的是識別與潛在預(yù)先付款客戶相關(guān)的潛在風(fēng)險(xiǎn),以便將承擔(dān)的風(fēng)險(xiǎn)最小化。 該公司的第一個(gè)目標(biāo)是創(chuàng)建一個(gè)與公司核心系統(tǒng)和兩家信用報(bào)告公司系統(tǒng)交互的決策引擎來處理信貸申請。同時(shí),Credilogros還在尋找針對它所服務(wù)的低收入客戶群體的自定義風(fēng)險(xiǎn)評分工具。除這些之外,其他需求還包括解決方案能在其35個(gè)分支辦公地點(diǎn)和200多個(gè)相關(guān)的銷售點(diǎn)中的任何一個(gè)實(shí)時(shí)操作,包括零售家電連鎖店和手機(jī)銷售公司。 最終Credilogros 選擇了SPSS Inc.的數(shù)據(jù)挖掘軟件PASWModeler,因?yàn)樗軌蜢`活并輕松地整合到 Credilogros 的核心信息系統(tǒng)中。通過實(shí)現(xiàn)PASW Modeler,Credilogros將用于處理信用數(shù)據(jù)和提供最終信用評分的時(shí)間縮短到了8秒以內(nèi)。這使該組織能夠迅速批準(zhǔn)或拒絕信貸請求。該決策引擎還使 Credilogros 能夠最小化每個(gè)客戶必須提供的身份證明文檔,在一些特殊情況下,只需提供一份身份證明即可批準(zhǔn)信貸。此外,該系統(tǒng)還提供監(jiān)控功能。Credilogros目前平均每月使用PASW Modeler處理35000份申請。僅在實(shí)現(xiàn) 3 個(gè)月后就幫助Credilogros 將貸款支付失職減少了 20%. 數(shù)據(jù)挖掘幫助DHL實(shí)時(shí)跟蹤貨箱溫度 DHL是國際快遞和物流行業(yè)的全球市場領(lǐng)先者,它提供快遞、水陸空三路運(yùn)輸、合同物流解決方案,以及國際郵件服務(wù)。DHL的國際網(wǎng)絡(luò)將超過220個(gè)國家及地區(qū)聯(lián)系起來,員工總數(shù)超過28.5萬人。在美國 FDA 要求確保運(yùn)送過程中藥品裝運(yùn)的溫度達(dá)標(biāo)這一壓力之下,DHL的醫(yī)藥客戶強(qiáng)烈要求提供更可靠且更實(shí)惠的選擇。這就要求DHL在遞送的各個(gè)階段都要實(shí)時(shí)跟蹤集裝箱的溫度。 雖然由記錄器方法生成的信息準(zhǔn)確無誤,但是無法實(shí)時(shí)傳遞數(shù)據(jù),客戶和DHL都無法在發(fā)生溫度偏差時(shí)采取任何預(yù)防和糾正措施。因此,DHL的母公司德國郵政世界網(wǎng)(DPWN)通過技術(shù)與創(chuàng)新管理(TIM)集團(tuán)明確擬定了一個(gè)計(jì)劃,準(zhǔn)備使用RFID技術(shù)在不同時(shí)間點(diǎn)全程跟蹤裝運(yùn)的溫度。通過IBM全球企業(yè)咨詢服務(wù)部繪制決定服務(wù)的關(guān)鍵功能參數(shù)的流程框架。DHL獲得了兩方面的收益:對于最終客戶來說,能夠使醫(yī)藥客戶對運(yùn)送過程中出現(xiàn)的裝運(yùn)問題提前做出響應(yīng),并以引人注目的低成本全面切實(shí)地增強(qiáng)了運(yùn)送可靠性。對于DHL來說,提高了客戶滿意度和忠實(shí)度;為保持競爭差異奠定堅(jiān)實(shí)的基礎(chǔ);并成為重要的新的收入增長來源。 基本步驟 數(shù)據(jù)挖掘的步驟會隨不同領(lǐng)域的應(yīng)用而有所變化,每一種數(shù)據(jù)挖掘技術(shù)也會有各自的特性和使用步驟,針對不同問題和需求所制定的數(shù)據(jù)挖掘過程也會存在差異。此外,數(shù)據(jù)的完整程度、專業(yè)人員支持的程度等都會對建立數(shù)據(jù)挖掘過程有所影響。這些因素造成了數(shù)據(jù)挖掘在各不同領(lǐng)域中的運(yùn)用、規(guī)劃,以及流程的差異性,即使同一產(chǎn)業(yè),也會因?yàn)榉治黾夹g(shù)和專業(yè)知識的涉入程度不同而不同,因此對于數(shù)據(jù)挖掘過程的系統(tǒng)化、標(biāo)準(zhǔn)化就顯得格外重要。如此一來,不僅可以較容易地跨領(lǐng)域應(yīng)用,也可以結(jié)合不同的專業(yè)知識,發(fā)揮數(shù)據(jù)挖掘的真正精神。 數(shù)據(jù)挖掘完整的步驟如下: ① 理解數(shù)據(jù)和數(shù)據(jù)的來源(understanding)。 ② 獲取相關(guān)知識與技術(shù)(acquisition)。 ③ 整合與檢查數(shù)據(jù)(integration and checking)。 ④ 去除錯(cuò)誤或不一致的數(shù)據(jù)(data cleaning)。 ⑤ 建立模型和假設(shè)(model and hypothesis development)。 ⑥ 實(shí)際數(shù)據(jù)挖掘工作(data mining)。 ⑦ 測試和驗(yàn)證挖掘結(jié)果(testing and verification)。 ⑧ 解釋和應(yīng)用(interpretation and use)。 由上述步驟可看出,數(shù)據(jù)挖掘牽涉了大量的準(zhǔn)備工作與規(guī)劃工作,事實(shí)上許多專家都認(rèn)為整套數(shù)據(jù)挖掘的過程中,有80%的時(shí)間和精力是花費(fèi)在數(shù)據(jù)預(yù)處理階段,其中包括數(shù)據(jù)的凈化、數(shù)據(jù)格式轉(zhuǎn)換、變量整合,以及數(shù)據(jù)表的鏈接?梢,在進(jìn)行數(shù)據(jù)挖掘技術(shù)的分析之前,還有許多準(zhǔn)備工作要完成。 行業(yè)應(yīng)用 價(jià)格競爭空前激烈,語音業(yè)務(wù)增長趨緩,快速增長的中國移動(dòng)通信市場正面臨著前所未有的生存壓力。中國電信業(yè)改革的加速推進(jìn)形成了新的競爭態(tài)勢,移動(dòng)運(yùn)營市場的競爭廣度和強(qiáng)度將進(jìn)一步加大,這特別表現(xiàn)在集團(tuán)客戶領(lǐng)域。移動(dòng)信息化和集團(tuán)客戶已然成為未來各運(yùn)營商應(yīng)對競爭、獲取持續(xù)增長的新引擎。 隨著國內(nèi)三足鼎立全業(yè)務(wù)競爭態(tài)勢和3G牌照發(fā)放,各運(yùn)營商為集團(tuán)客戶提供融合的信息化解決方案將是大勢所趨,而移動(dòng)信息化將成為全面進(jìn)入信息化服務(wù)領(lǐng)域的先導(dǎo)力量。傳統(tǒng)移動(dòng)運(yùn)營商因此面臨著從傳統(tǒng)個(gè)人業(yè)務(wù)轉(zhuǎn)向同時(shí)拓展集團(tuán)客戶信息化業(yè)務(wù)領(lǐng)域的挑戰(zhàn)。如何應(yīng)對來自內(nèi)外部的挑戰(zhàn),迅速以移動(dòng)信息化業(yè)務(wù)作為融合業(yè)務(wù)的競爭利器之一拓展集團(tuán)客戶市場,在新興市場中立于不敗之地,是傳統(tǒng)移動(dòng)運(yùn)營商需要解決的緊迫問題。 IBM全球企業(yè)咨詢服務(wù)部經(jīng)過研究認(rèn)為,傳統(tǒng)移動(dòng)運(yùn)營商在拓展集團(tuán)客戶信息化市場的過程中所面臨的外部挑戰(zhàn)主要來自三個(gè)方面,即市場需求不成熟,技術(shù)與業(yè)務(wù)融合,全業(yè)務(wù)的競爭。同時(shí),運(yùn)營商在自身發(fā)展上也存在諸多問題,例如目標(biāo)市場細(xì)分不清晰,信息化需求挖掘與評估不足;產(chǎn)品規(guī)劃和管理難以滿足客戶信息化需求;渠道較為單一,無法有效覆蓋客戶;對合作伙伴吸引力較弱,尚未形成共贏的價(jià)值鏈;在運(yùn)營管理層面,業(yè)務(wù)流程、銷售團(tuán)隊(duì)能力以及IT支撐上都不適應(yīng)集團(tuán)信息化業(yè)務(wù)的發(fā)展。 從目前網(wǎng)絡(luò)招聘的信息來看,大小公司對數(shù)據(jù)挖掘的需求有50多個(gè)方面(來源見參考資料): 1、數(shù)據(jù)統(tǒng)計(jì)分析 2、預(yù)測預(yù)警模型 3、數(shù)據(jù)信息闡釋 4、數(shù)據(jù)采集評估 5、數(shù)據(jù)加工倉庫 6、品類數(shù)據(jù)分析 7、銷售數(shù)據(jù)分析 8、網(wǎng)絡(luò)數(shù)據(jù)分析 9、流量數(shù)據(jù)分析 10、交易數(shù)據(jù)分析 11、媒體數(shù)據(jù)分析 12、情報(bào)數(shù)據(jù)分析 13、金融產(chǎn)品設(shè)計(jì) 14、日常數(shù)據(jù)分析 15、總裁萬事通 16、數(shù)據(jù)變化趨勢 17、預(yù)測預(yù)警模型 18、運(yùn)營數(shù)據(jù)分析 19、商業(yè)機(jī)遇挖掘 20、風(fēng)險(xiǎn)數(shù)據(jù)分析 21、缺陷信息挖掘 22、決策數(shù)據(jù)支持 23、運(yùn)營優(yōu)化與成本控制 24、質(zhì)量控制與預(yù)測預(yù)警 25、系統(tǒng)工程數(shù)學(xué)技術(shù) 26、用戶行為分析/客戶需求模型 27、產(chǎn)品銷售預(yù)測(熱銷特征) 28、商場整體利潤最大化系統(tǒng)設(shè)計(jì) 29、市場數(shù)據(jù)分析 30、綜合數(shù)據(jù)關(guān)聯(lián)系統(tǒng)設(shè)計(jì) 31、行業(yè)/企業(yè)指標(biāo)設(shè)計(jì) 32、企業(yè)發(fā)展關(guān)鍵點(diǎn)分析 33、資金鏈管理設(shè)計(jì)與風(fēng)險(xiǎn)控制 34、用戶需求挖掘 35、產(chǎn)品數(shù)據(jù)分析 36、銷售數(shù)據(jù)分析 37、異常數(shù)據(jù)分析 38、數(shù)學(xué)規(guī)劃與數(shù)學(xué)方案 39、數(shù)據(jù)實(shí)驗(yàn)?zāi)M 40、數(shù)學(xué)建模與分析 41、呼叫中心數(shù)據(jù)分析 42、貿(mào)易/進(jìn)出口數(shù)據(jù)分析 43、海量數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)、關(guān)鍵技術(shù)研究 44、數(shù)據(jù)清洗、分析、建模、調(diào)試、優(yōu)化 45、數(shù)據(jù)挖掘算法的分析研究、建模、實(shí)驗(yàn)?zāi)M 46、組織機(jī)構(gòu)運(yùn)營監(jiān)測、評估、預(yù)測預(yù)警 47、經(jīng)濟(jì)數(shù)據(jù)分析、預(yù)測、預(yù)警 48、金融數(shù)據(jù)分析、預(yù)測、預(yù)警 49、科研數(shù)學(xué)建模與數(shù)據(jù)分析:社會科學(xué),自然科學(xué),醫(yī)藥,農(nóng)學(xué),計(jì)算機(jī),工程,信息,軍事,圖書情報(bào)等 50、數(shù)據(jù)指標(biāo)開發(fā)、分析與管理 51、產(chǎn)品數(shù)據(jù)挖掘與分析 52、商業(yè)數(shù)學(xué)與數(shù)據(jù)技術(shù) 53、故障預(yù)測預(yù)警技術(shù) 54、數(shù)據(jù)自動(dòng)分析技術(shù) 55、泛工具分析 56、互譯 57、指數(shù)化 其中,互譯與指數(shù)化是數(shù)據(jù)挖掘除計(jì)算機(jī)技術(shù)之外最核心的兩大技術(shù)。

經(jīng)典算法

1. C4.5:是機(jī)器學(xué)習(xí)算法中的一種分類決策樹算法,其核心算法是ID3算法。 2. K-means算法:是一種聚類算法。 3.SVM:一種監(jiān)督式學(xué)習(xí)的方法,廣泛運(yùn)用于統(tǒng)計(jì)分類以及回歸分析中 4.Apriori :是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。 5.EM:最大期望值法。 6.pagerank:是google算法的重要內(nèi)容。 7. Adaboost:是一種迭代算法,其核心思想是針對同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器然后把弱分類器集合起來,構(gòu)成一個(gè)更強(qiáng)的最終分類器。 8.KNN:是一個(gè)理論上比較成熟的的方法,也是最簡單的機(jī)器學(xué)習(xí)方法之一。 9.Naive Bayes:在眾多分類方法中,應(yīng)用最廣泛的有決策樹模型和樸素貝葉斯(Naive Bayes) 10.Cart:分類與回歸樹,在分類樹下面有兩個(gè)關(guān)鍵的思想,第一個(gè)是關(guān)于遞歸地劃分自變量空間的想法,第二個(gè)是用驗(yàn)證數(shù)據(jù)進(jìn)行減枝。 關(guān)聯(lián)規(guī)則規(guī)則定義 在描述有關(guān)關(guān)聯(lián)規(guī)則的一些細(xì)節(jié)之前,我們先來看一個(gè)有趣的故事: "尿布與啤酒"的故事。 在一家超市里,有一個(gè)有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售。但是這個(gè)奇怪的舉措?yún)s使尿布和啤酒的銷量雙雙增加了。這不是一個(gè)笑話,而是發(fā)生在美國沃爾瑪連鎖店超市的真實(shí)案例,并一直為商家所津津樂道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng),為了能夠準(zhǔn)確了解顧客在其門店的購買習(xí)慣,沃爾瑪對其顧客的購物行為進(jìn)行購物籃分析,想知道顧客經(jīng)常一起購買的商品有哪些。沃爾瑪數(shù)據(jù)倉庫里集中了其各門店的詳細(xì)原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對這些數(shù)據(jù)進(jìn)行分析和挖掘。一個(gè)意外的發(fā)現(xiàn)是:"跟尿布一起購買最多的商品竟是啤酒!經(jīng)過大量實(shí)際調(diào)查和分析,揭示了一個(gè)隱藏在"尿布與啤酒"背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時(shí)也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒。 按常規(guī)思維,尿布與啤酒風(fēng)馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對大量交易數(shù)據(jù)進(jìn)行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價(jià)值的規(guī)律的。 數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。Agrawal等于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫中項(xiàng)集間的關(guān)聯(lián)規(guī)則問題,以后諸多的研究人員對關(guān)聯(lián)規(guī)則的挖掘問題進(jìn)行了大量的研究。他們的工作包括對原有的算法進(jìn)行優(yōu)化,如引入隨機(jī)采樣、并行的思想等,以提高算法挖掘規(guī)則的效率;對關(guān)聯(lián)規(guī)則的應(yīng)用進(jìn)行推廣。關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是一個(gè)重要的課題,最近幾年已被業(yè)界所廣泛研究。

【數(shù)據(jù)挖掘】相關(guān)文章:

數(shù)據(jù)挖掘論文04-29

淺談數(shù)據(jù)挖掘05-02

數(shù)據(jù)挖掘挖出效益05-02

論數(shù)據(jù)倉庫和數(shù)據(jù)挖掘04-28

數(shù)據(jù)挖掘論文[范例15篇]07-29

數(shù)據(jù)挖掘中抽樣技術(shù)的應(yīng)用04-29

數(shù)據(jù)挖掘的發(fā)展和應(yīng)用綜述04-30

中國基因?qū)@臄?shù)據(jù)挖掘04-26

數(shù)據(jù)挖掘在信用卡公司的應(yīng)用04-26

飛機(jī)實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)挖掘方法研究04-27