噜噜噜噜私人影院,少妇人妻综合久久中文字幕888,AV天堂永久资源网,5566影音先锋

歡迎來(lái)到優(yōu)發(fā)表網(wǎng)!

購(gòu)物車(0)

期刊大全 雜志訂閱 SCI期刊 期刊投稿 出版社 公文范文 精品范文

數(shù)據(jù)挖掘技術(shù)應(yīng)用范文

時(shí)間:2023-02-27 11:18:55

序論:在您撰寫(xiě)數(shù)據(jù)挖掘技術(shù)應(yīng)用時(shí),參考他人的優(yōu)秀作品可以開(kāi)闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導(dǎo)您走向新的創(chuàng)作高度。

數(shù)據(jù)挖掘技術(shù)應(yīng)用

第1篇

關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)集;數(shù)據(jù)挖掘算法

0 引言

隨著信息科技的進(jìn)步以及電子化時(shí)代的到來(lái),現(xiàn)代信息社會(huì)中數(shù)據(jù)和數(shù)據(jù)庫(kù)呈現(xiàn)爆炸式增長(zhǎng)。面對(duì)浩瀚的數(shù)據(jù)海洋,如何從這些龐大的數(shù)據(jù)中找出它們之間存在的“潛伏”的關(guān)系和規(guī)則,進(jìn)而根據(jù)這些關(guān)系和規(guī)則預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì),已經(jīng)成為二十一世紀(jì)探索的熱點(diǎn)問(wèn)題。

數(shù)據(jù)挖掘(Data Mining)技術(shù)的誕生,為解決這一問(wèn)題提供了可以參考的方法,是開(kāi)發(fā)信息資源的一種新的數(shù)據(jù)處理技術(shù)。它不僅能對(duì)過(guò)去的數(shù)據(jù)進(jìn)行查詢,而且能夠找出過(guò)去數(shù)據(jù)之間的潛在聯(lián)系,進(jìn)行更高層次的分析,以便更好地解決決策、預(yù)測(cè)等問(wèn)題。

1 數(shù)據(jù)挖掘概述

數(shù)據(jù)挖掘就是從大型數(shù)據(jù)集(可能是不完全的、有噪聲的、不確定性的、各種存儲(chǔ)形式的)中,挖掘隱含在其中的、人們事先不知道的、對(duì)決策有用的知識(shí)的過(guò)程。數(shù)據(jù)挖掘的目的是為了從這些數(shù)據(jù)中抽取一些有價(jià)值的知識(shí)或信息,提高信息利用率。

數(shù)據(jù)挖掘主要有以下對(duì)象:

(1)關(guān)系型數(shù)據(jù)庫(kù)、事務(wù)型數(shù)據(jù)庫(kù)、面向?qū)ο蟮臄?shù)據(jù)庫(kù);

(2)數(shù)據(jù)倉(cāng)庫(kù)/多維數(shù)據(jù)庫(kù);

(3)空間數(shù)據(jù)(如地圖信息);

(4)工程數(shù)據(jù)(如建筑、集成電路的信息);

(5)文本和多媒體數(shù)據(jù)(如文本、圖象、音頻、視頻數(shù)據(jù));

(6)時(shí)間相關(guān)的數(shù)據(jù)(如歷史數(shù)據(jù)或股票交換數(shù)據(jù));

(7)萬(wàn)維網(wǎng)(如半結(jié)構(gòu)化的HTML,結(jié)構(gòu)化的XML以及其他網(wǎng)絡(luò)信息)。

數(shù)據(jù)挖掘的步驟一般會(huì)因不同的實(shí)際應(yīng)用情況而有所變化,其過(guò)程就是用一定的數(shù)據(jù)挖掘算法從給定的數(shù)據(jù)庫(kù)中提取模型,以及圍繞數(shù)據(jù)挖掘所進(jìn)行的預(yù)處理和結(jié)果表達(dá)等一系列的步驟,是一個(gè)需要經(jīng)過(guò)反復(fù)的多次處理的過(guò)程。圖1顯示的是數(shù)據(jù)挖掘過(guò)程,主要由以下步驟組成:

(1)數(shù)據(jù)清理(消除噪音或不一致數(shù)據(jù));

(2)數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起);

(3)數(shù)據(jù)選擇(從數(shù)據(jù)庫(kù)中提取與分析任務(wù)相關(guān)的數(shù)據(jù));

(4)數(shù)據(jù)變換(數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式;如通過(guò)匯總或聚集操作);

(5)數(shù)據(jù)挖掘(基本步驟,使用智能方法提取數(shù)據(jù)模式);

(6)模式評(píng)估(根據(jù)某種興趣度度量,識(shí)別提供知識(shí)的真正有趣的模式);

(7)知識(shí)表示(使用可視化和知識(shí)表示技術(shù),向用戶提供挖掘的知識(shí))。

例如,應(yīng)用數(shù)據(jù)挖掘算法中聚類分析的方法,可以在城市規(guī)劃的過(guò)程中,根據(jù)類型、價(jià)格、地理位置等來(lái)劃分不同類型的住宅。具體使用哪種數(shù)據(jù)挖掘算法,要根據(jù)具體情況和應(yīng)用要求而定。一種數(shù)據(jù)挖掘算法可能在一種情況下適用,而在另一種情況下就不適用。在特定的應(yīng)用環(huán)境下,應(yīng)找出最適用的數(shù)據(jù)挖掘算法,并加以實(shí)施。

3 數(shù)據(jù)挖掘的應(yīng)用

3.1 數(shù)據(jù)挖掘在零售業(yè)中的應(yīng)用

由于零售業(yè)便于搜集大量的銷售數(shù)據(jù)、顧客購(gòu)物記錄、貨物運(yùn)送、消費(fèi)模式和服務(wù)記錄等特點(diǎn),使其成為數(shù)據(jù)挖掘的主要應(yīng)用領(lǐng)域。

零售商們采用數(shù)據(jù)倉(cāng)庫(kù)使他們有更好的機(jī)會(huì)運(yùn)用數(shù)據(jù)挖掘技術(shù)。通過(guò)數(shù)據(jù)挖掘,零售商們可以了解銷售全局、對(duì)商品分組布局、降低庫(kù)存成本、分析銷售市場(chǎng)趨勢(shì),從而更加有效地對(duì)商品進(jìn)行促銷。大型的零售連鎖店和雜貨店用大量的“信息豐富” 的銷售數(shù)據(jù),通過(guò)數(shù)據(jù)挖掘揭示一些沒(méi)有發(fā)現(xiàn)的“隱藏關(guān)系”,其中最著名的啤酒和尿布的故事即是數(shù)據(jù)挖掘在零售業(yè)中典型的應(yīng)用。

3.2 數(shù)據(jù)挖掘在體育競(jìng)技中的應(yīng)用

先進(jìn)信息技術(shù)的運(yùn)用是美國(guó)NBA職籃聯(lián)盟成功的眾多因素中非常重要的一個(gè)。例如,魔術(shù)隊(duì)教練利用IBM公司開(kāi)發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件Advanced Scout,對(duì)不同的隊(duì)員布陣時(shí)的相對(duì)優(yōu)勢(shì)進(jìn)行了系統(tǒng)的分析,并根據(jù)分析結(jié)果取得了對(duì)邁阿密熱隊(duì)4連勝的戰(zhàn)績(jī)。

3.3 數(shù)據(jù)挖掘在企業(yè)中的應(yīng)用

數(shù)據(jù)挖掘在企業(yè)信息處理中的應(yīng)用是一個(gè)將信息轉(zhuǎn)化為企業(yè)商業(yè)知識(shí)的過(guò)程。它主要用于企業(yè)的客戶關(guān)系管理、市場(chǎng)分析、營(yíng)銷策略和趨勢(shì)預(yù)測(cè)等方面。

數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛應(yīng)用在美國(guó)銀行和金融領(lǐng)域中。例如用數(shù)據(jù)挖掘工具M(jìn)arksman可以分析消費(fèi)者的賒賬卡、家庭貸款、投資產(chǎn)品以及儲(chǔ)蓄等信息,并對(duì)客戶進(jìn)行分類,從而預(yù)測(cè)何時(shí)哪類產(chǎn)品最適合哪類客戶,因而被美國(guó)Firstar等銀行使用。此外,近年來(lái)數(shù)據(jù)挖掘技術(shù)在信用記分的研究和應(yīng)用方面也取得了很大的進(jìn)步。銀行利用Credit Scoring技術(shù)對(duì)客戶的一些信息(如基本資料、資產(chǎn)以及以往信用等)進(jìn)行分析、評(píng)估,做出最有利的決定。

數(shù)據(jù)挖掘在電信行業(yè)中的應(yīng)用也很廣泛。它可以幫助電信企業(yè)制定合理的電話收費(fèi)和服務(wù)標(biāo)準(zhǔn)、針對(duì)特別的客戶群的優(yōu)惠政策、防止費(fèi)用欺詐等。

3.4 數(shù)據(jù)挖掘在科學(xué)探索中的應(yīng)用

隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展和完善,已經(jīng)逐步應(yīng)用到尖端科學(xué)的探索中。數(shù)據(jù)挖掘技術(shù)在生物學(xué)中的應(yīng)用主要集中于分子生物學(xué)特別是基因工程的研究上。通過(guò)用計(jì)算生物分子系列分析方法,尤其是基因數(shù)據(jù)庫(kù)搜索技術(shù)已在基因研究上做出了很多重大發(fā)現(xiàn)。

SKICAT(Sky Image Cataloging and Analysis Tool)是天文學(xué)上一個(gè)非常著名的系統(tǒng)。該系統(tǒng)使用數(shù)據(jù)挖掘算法中的決策樹(shù)方法構(gòu)造分星體類器對(duì)星體進(jìn)行分類,結(jié)果使得能分辨的星體與以前的方法相比,在亮度上要低一個(gè)數(shù)量級(jí)之多,并且在效率上這種方法比以往的方法高40倍以上。

3.5 數(shù)據(jù)挖掘在信息安全中的應(yīng)用

利用數(shù)據(jù)挖掘作為入侵檢測(cè)的數(shù)據(jù)分析技術(shù),把“潛伏”的安全信息從海量的安全事件數(shù)據(jù)中提取出來(lái),抽象出有利于進(jìn)行判斷和比較的與安全相關(guān)的普遍特征,進(jìn)而發(fā)現(xiàn)不確定的入侵行為,并作出判斷、決策(如圖3)。相對(duì)于傳統(tǒng)的入侵檢測(cè)分析技術(shù),數(shù)據(jù)挖掘具有良好的自適應(yīng)性、誤警率低且能減輕數(shù)據(jù)過(guò)載,大大提高了檢測(cè)和響應(yīng)的效率和速度。

圖3 數(shù)據(jù)挖掘方法的入侵檢測(cè)系統(tǒng)流程圖數(shù)據(jù)挖掘這一新興技術(shù)至今已經(jīng)在商業(yè)、銀行、金融、制造業(yè)、互聯(lián)網(wǎng)絡(luò)、教育、科學(xué)研究等領(lǐng)域廣泛應(yīng)用,并且給我們的社會(huì)和生活帶來(lái)了極大的改觀。

參考文獻(xiàn)

[1]Margaret H.Dunham: DATA MINING Introductory and Advanced Topics[M].北京:清華大學(xué)出版社,2003.

[2]Mehmed Kantardzic: DATA MINING Concepts,Models,Methods,and Algorithms[M].北京:清華大學(xué)出版社,2003.

[3]梁循.數(shù)據(jù)挖掘算法與應(yīng)用[M].北京:北京大學(xué)出版社,2006.

第2篇

數(shù)據(jù)挖掘(DataMining,DM),是隨著數(shù)據(jù)庫(kù)和人工智能發(fā)展起來(lái)的新興的信息處理技術(shù)。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程,其主要特點(diǎn)是對(duì)數(shù)據(jù)庫(kù)中的大量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,并從中提取輔助決策的關(guān)鍵性數(shù)據(jù)。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來(lái)可能發(fā)生的行為。數(shù)據(jù)挖掘是一門(mén)涉及面很廣的交叉性新興學(xué)科,涉及到數(shù)據(jù)庫(kù)、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等領(lǐng)域。

2、數(shù)據(jù)挖掘技術(shù)

2.1關(guān)聯(lián)規(guī)則方法

關(guān)聯(lián)規(guī)則是一種簡(jiǎn)單,實(shí)用的分析規(guī)則,描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無(wú)遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,所挖掘出的關(guān)聯(lián)規(guī)則量往往非常巨大,但是。并不是所有通過(guò)關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,對(duì)這些關(guān)聯(lián)規(guī)則進(jìn)行有效的評(píng)價(jià)。篩選出用戶真正感興趣的。有意義的關(guān)聯(lián)規(guī)則尤為重要。

2.2分類和聚類方法

分類就是假定數(shù)據(jù)庫(kù)中的每個(gè)對(duì)象屬于一個(gè)預(yù)先給定的類。從而將數(shù)據(jù)庫(kù)中的數(shù)據(jù)分配到給定的類中。而聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異。分類和聚類的區(qū)別在于分類事先知道類別數(shù)和各類的典型特征,而聚類則事先不知道。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià)。

2.3數(shù)據(jù)統(tǒng)計(jì)方法

使用這些方法一般首先建立一個(gè)數(shù)據(jù)模型或統(tǒng)計(jì)模型,然后根據(jù)這種模型提取有關(guān)的知識(shí)。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法。貝葉斯推理、回歸分析、方差分析等技術(shù)是許多挖掘應(yīng)用中有力的工具之一。

2.4神經(jīng)網(wǎng)絡(luò)方法

神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。這些優(yōu)點(diǎn)使得神經(jīng)元網(wǎng)絡(luò)非常適合解決數(shù)據(jù)挖掘的問(wèn)題。因此近年來(lái)越來(lái)越受到人們的關(guān)注。典型的神經(jīng)網(wǎng)絡(luò)模型主要分3大類;用于分類、預(yù)測(cè)和模式識(shí)別的前饋式神經(jīng)網(wǎng)絡(luò)模型;用于聯(lián)想記憶和優(yōu)化計(jì)算的反饋式神經(jīng)網(wǎng)絡(luò)模型;用于聚類的自組織映射方法。新晨

2.5決策樹(shù)方法

決策樹(shù)學(xué)習(xí)是一種通過(guò)逼近離散值日標(biāo)函數(shù)的方法,把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來(lái)分類實(shí)例。葉子結(jié)點(diǎn)即為實(shí)例所屬的分類,利用信息論中的互信息(信息增益)尋找數(shù)據(jù)庫(kù)中具有最大信息量的字段。建立決策樹(shù)的一個(gè)結(jié)點(diǎn),再根據(jù)字段的不同取值建立樹(shù)的分支;在每個(gè)分枝子集中,重復(fù)建立樹(shù)的下層結(jié)點(diǎn)和分支的過(guò)程,即可建立決策樹(shù)。

第3篇

關(guān)鍵詞:數(shù)據(jù)挖掘;用戶偏好;考試系統(tǒng);入侵檢測(cè)

中圖法分類號(hào):TP274文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2010)22-6231-02

Survey on Data Mining Technology

WANG Wen

(School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China)

Abstract: Data Mining technology is an important part of modern computer technology. Using Data Mining can solve many problems in artificial intelligence. In this article, the development and the principle of Data Mining are introduced. Some of the newly application of Data Mining are involved. This article also have the expects for the future development of Data Mining.

Key words: data mining; user preference; examination system; intrusion detection system

隨著時(shí)代的發(fā)展,計(jì)算機(jī)科學(xué)在以飛快的速度前進(jìn)著。在計(jì)算機(jī)科學(xué)的眾多領(lǐng)域中,人工智能是最富有挑戰(zhàn)性和創(chuàng)造性的一個(gè)領(lǐng)域。近幾十年來(lái),隨著人工智能技術(shù)的日漸成熟,人們對(duì)人工智能的研究更加深入,對(duì)人工智能更加重視??茖W(xué)界對(duì)于人工智能的重要性也已形成共識(shí)。

自進(jìn)入21世紀(jì)以來(lái),電子數(shù)據(jù)獲取與計(jì)算機(jī)技術(shù)方面的不斷發(fā)展以及網(wǎng)絡(luò)的廣泛普及與應(yīng)用,人們?nèi)粘I钪薪邮盏臄?shù)據(jù)和信息較以往正以飛快的速度增加,因而形成了獨(dú)特的知識(shí)爆炸時(shí)代。就在最近幾十年很多超大型數(shù)據(jù)庫(kù)的產(chǎn)生使得整個(gè)社會(huì)發(fā)生著天翻地覆的變化,遍及銀行存款、超級(jí)市場(chǎng)銷售、粒子物理、天文學(xué)、化學(xué)、醫(yī)學(xué)以及政府統(tǒng)計(jì)等領(lǐng)域。在這個(gè)數(shù)字化、信息化時(shí)代,這么大規(guī)模的數(shù)據(jù)庫(kù)以及以后可能誕生的更大規(guī)模的數(shù)據(jù)庫(kù)的數(shù)據(jù)管理問(wèn)題將會(huì)是以后對(duì)數(shù)據(jù)處理的一個(gè)重要關(guān)注點(diǎn)。眾多科技工作者共同關(guān)注的焦點(diǎn)集中在了如何從這些大型數(shù)據(jù)庫(kù)中發(fā)現(xiàn)有用的、信息、模式以及如何實(shí)現(xiàn)有效的數(shù)據(jù)處理方法。因而“數(shù)據(jù)挖掘”(Data Mining) 的新領(lǐng)域逐漸走進(jìn)了人們的事業(yè),并且在人們的關(guān)注和不斷研究下飛速發(fā)展,這是一個(gè)與統(tǒng)計(jì)學(xué)、人工智能、模式識(shí)別、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)技術(shù)以及高性能并行計(jì)算等領(lǐng)域都有很大相關(guān)的新學(xué)科,正是計(jì)算機(jī)學(xué)科的一個(gè)研究重點(diǎn)。

1 數(shù)據(jù)挖掘的一般過(guò)程

數(shù)據(jù)挖掘一般分為如下四個(gè)步驟(圖1)。

1.1 數(shù)據(jù)預(yù)處理

收集和凈化來(lái)自各種數(shù)據(jù)源或數(shù)據(jù)倉(cāng)庫(kù)的信息,并加以存儲(chǔ), 一般存于數(shù)據(jù)倉(cāng)庫(kù)中。

1.2 模型搜索

利用數(shù)據(jù)挖掘在數(shù)據(jù)庫(kù)中匹配模型,這個(gè)搜索過(guò)程可以由系統(tǒng)自動(dòng)執(zhí)行,自下而上搜索原始數(shù)據(jù)以發(fā)現(xiàn)它們之間的某種聯(lián)系;也可以進(jìn)行用戶交互,由分析人員發(fā)問(wèn),自頂向下尋找以驗(yàn)證假設(shè)的正確性。一個(gè)問(wèn)題的搜索過(guò)程可能用到許多模型,如神經(jīng)網(wǎng)絡(luò)、基于規(guī)則的系統(tǒng)(決策樹(shù))、機(jī)器學(xué)習(xí)、基于實(shí)例的推理等。

1.3 評(píng)價(jià)輸出結(jié)果

一般來(lái)說(shuō),數(shù)據(jù)挖掘的搜索過(guò)程需要反復(fù)多次,當(dāng)分析人員評(píng)價(jià)輸出結(jié)果后,它們可能會(huì)形成一些新的問(wèn)題,或者要求對(duì)某一方面作更精細(xì)的查詢,通過(guò)反復(fù)的搜索過(guò)程即可滿足分析人員的這種需求。

1.4 生成報(bào)告

知識(shí)的發(fā)現(xiàn)過(guò)程可以由數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)估和知識(shí)表示等幾個(gè)步驟組成。數(shù)據(jù)挖掘可以與用戶或知識(shí)庫(kù)交互,把用戶關(guān)心的模式提交給廣大用戶,或作為新的知識(shí)存放在知識(shí)庫(kù)中。

2 數(shù)據(jù)挖掘應(yīng)用

2.1 數(shù)據(jù)挖掘在實(shí)現(xiàn)網(wǎng)站用戶偏好度的應(yīng)用

數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性的內(nèi)容,解決數(shù)據(jù)的應(yīng)用質(zhì)量問(wèn)題。使數(shù)據(jù)能夠被更加高效的利用,對(duì)無(wú)用的數(shù)據(jù)加以摒棄,是數(shù)據(jù)挖掘技術(shù)最主要的實(shí)現(xiàn)形式,也是其最重要的應(yīng)用方式。傳統(tǒng)的數(shù)據(jù)庫(kù)中的數(shù)據(jù)相對(duì)于Web的數(shù)據(jù)而言,其結(jié)構(gòu)性很強(qiáng),是完全結(jié)構(gòu)化的數(shù)據(jù),而半結(jié)構(gòu)化則是Web上的數(shù)據(jù)最大特點(diǎn)。因而,面向單個(gè)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘較之面向Web的數(shù)據(jù)挖掘比要簡(jiǎn)單許多。據(jù)統(tǒng)計(jì),網(wǎng)站上的絕大部分內(nèi)容對(duì)絕大部分用戶來(lái)說(shuō)是無(wú)用的信息。事實(shí)是對(duì)于某個(gè)特定用戶來(lái)說(shuō),其關(guān)心的內(nèi)容僅是網(wǎng)站上極小部分的內(nèi)容,而網(wǎng)站上提供的更多的內(nèi)容對(duì)于這個(gè)用戶來(lái)說(shuō)是其不感興趣的,并且過(guò)多的信息往往會(huì)掩蓋有用的信息,使得用戶的查詢效率降低,并且對(duì)于網(wǎng)站也不是一件利事。

對(duì)于Web數(shù)據(jù)挖掘技術(shù)而言,半結(jié)構(gòu)化數(shù)據(jù)源模型和半結(jié)構(gòu)化數(shù)據(jù)模型的查詢與集成問(wèn)題是應(yīng)當(dāng)首要解決的問(wèn)題。解決Web上的異構(gòu)數(shù)據(jù)的集成與查詢問(wèn)題,有一個(gè)模型來(lái)清晰地描述Web上的數(shù)據(jù)是很必要的。因此,針對(duì)數(shù)據(jù)半結(jié)構(gòu)化的Web數(shù)據(jù)的特點(diǎn),尋找一個(gè)半結(jié)構(gòu)化的數(shù)據(jù)模型至關(guān)重要。并且除此定義一個(gè)半結(jié)構(gòu)化數(shù)據(jù)模型之外,一種半結(jié)構(gòu)化模型抽取技術(shù)(自動(dòng)地從現(xiàn)有數(shù)據(jù)中抽取半結(jié)構(gòu)化模型的技術(shù))也是應(yīng)當(dāng)提出的。因而半結(jié)構(gòu)化模型和半結(jié)構(gòu)化數(shù)據(jù)模型抽取技術(shù)是面向Web的數(shù)據(jù)挖掘?qū)崿F(xiàn)的重要前提。

用戶瀏覽網(wǎng)站上的內(nèi)容時(shí),他會(huì)被很的多因素影響,網(wǎng)頁(yè)的外觀,信息標(biāo)題,網(wǎng)頁(yè)鏈接以及個(gè)人的興趣和習(xí)慣等等。我們可以設(shè)定合理的假設(shè),建立他們之間的模型,利用以上提到的方法解決用戶偏好度的問(wèn)題。

2.2 數(shù)據(jù)挖掘在在線考試系統(tǒng)方面的應(yīng)用

數(shù)據(jù)挖掘在在線考試系統(tǒng)方面的應(yīng)用最主要體現(xiàn)在題庫(kù)的構(gòu)建,下面分別介紹題庫(kù)的構(gòu)建中數(shù)據(jù)挖掘的應(yīng)用情況。

在設(shè)計(jì)數(shù)據(jù)庫(kù)方面,數(shù)據(jù)庫(kù)主要由題庫(kù)、答案庫(kù)和答案關(guān)鍵字庫(kù)構(gòu)成,題型庫(kù)又涵括科目、題號(hào)、題型、題目、難度、分值等字段;答案庫(kù)中包含科目、題號(hào)、分值、答案以及在同一題中有不同答案時(shí)應(yīng)提供的不同答案序號(hào)等字段;答案關(guān)鍵字庫(kù)中有題號(hào)、答案序號(hào)、權(quán)重和答案關(guān)鍵字。此后在將答案錄入答案庫(kù)。對(duì)于客觀題而言,僅僅需要錄入唯一的答案;但對(duì)于主觀題而言,則需要盡量給出多個(gè)參考答案并將每個(gè)答案的關(guān)鍵字及其所對(duì)應(yīng)的權(quán)值、答案序號(hào)輸入答案關(guān)鍵字庫(kù)。

通常有兩類數(shù)據(jù)挖掘方法:①統(tǒng)計(jì)型,應(yīng)用概率分析、相關(guān)性、聚類分析和判別分析等技術(shù)得以實(shí)現(xiàn);②通過(guò)人工智能中的機(jī)器學(xué)習(xí),經(jīng)過(guò)訓(xùn)練以及學(xué)習(xí)輸入大量的樣品集,以得出需要的模式或參數(shù)。由于每一種方法都根據(jù)其特點(diǎn)都有其優(yōu)勢(shì)以及相應(yīng)的引用領(lǐng)域,最后結(jié)果的質(zhì)量和效果將受到數(shù)據(jù)挖掘技術(shù)選擇的影響,采用多種技術(shù)結(jié)合的方法,其各自的優(yōu)勢(shì)可以達(dá)到互補(bǔ)的要求,從而實(shí)現(xiàn)最佳配置。下面介紹了兩種數(shù)據(jù)挖掘方法: ①?zèng)Q策樹(shù)算法:為每個(gè)問(wèn)題的答案構(gòu)造一個(gè)二叉樹(shù),每個(gè)分支或者是一個(gè)新的決策點(diǎn),或者是一個(gè)葉子節(jié)點(diǎn)。在沿著決策樹(shù)從上到下的遍歷過(guò)程中,對(duì)每個(gè)問(wèn)題的不同回答導(dǎo)致不同的分支,最后到達(dá)一個(gè)葉子節(jié)點(diǎn),每個(gè)葉子節(jié)點(diǎn)都會(huì)對(duì)應(yīng)確定的權(quán)值,通過(guò)對(duì)權(quán)值的計(jì)算判定得分;②模糊論方法:利用模糊集合理論,對(duì)實(shí)際問(wèn)題進(jìn)行模糊判斷、模糊決策、模糊模式識(shí)別、模糊簇聚分析。由于主觀題答案很靈活,答案不可能完全匹配,采用此方法將考生答案與答案庫(kù)中的答案進(jìn)行對(duì)照,以確定答案的正確度,從而更客觀準(zhǔn)確地評(píng)定主觀題分?jǐn)?shù)。

2.3 數(shù)據(jù)挖掘在網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)方面的應(yīng)用

入侵檢測(cè)就是通過(guò)運(yùn)用一些分析方法對(duì)從各種渠道獲得的反映網(wǎng)絡(luò)狀況和網(wǎng)絡(luò)行為的數(shù)據(jù)進(jìn)行分析、提煉,再根據(jù)分析結(jié)果對(duì)這些數(shù)據(jù)進(jìn)行評(píng)價(jià),從而能夠識(shí)別出正常和異常的數(shù)據(jù)或者對(duì)潛在的新型入侵做出預(yù)測(cè),以保證網(wǎng)絡(luò)的安全運(yùn)行。

基于分布式數(shù)據(jù)挖掘的入侵檢測(cè)系統(tǒng)要對(duì)一個(gè)網(wǎng)段上的信息進(jìn)行全面而細(xì)致的監(jiān)測(cè),同時(shí)在網(wǎng)絡(luò)上多個(gè)點(diǎn)進(jìn)行數(shù)據(jù)采集,如網(wǎng)關(guān)和特別需要保護(hù)的服務(wù)器等。整個(gè)系統(tǒng)構(gòu)成分為本地分類器、規(guī)則學(xué)習(xí)模塊和集中分類器三塊基本構(gòu)件。本地分類器負(fù)責(zé)對(duì)從網(wǎng)絡(luò)上各個(gè)點(diǎn)采集到的數(shù)據(jù)通過(guò)預(yù)處理模塊去除掉無(wú)效數(shù)據(jù),并將原始數(shù)據(jù)處理成為以后進(jìn)行數(shù)據(jù)挖掘算法可識(shí)別的格式,以實(shí)現(xiàn)對(duì)數(shù)據(jù)的初步檢測(cè)和處理。本地分類器有2個(gè)輸出:一個(gè)輸出為分類數(shù)據(jù),用于提交給規(guī)則學(xué)習(xí)模塊,另外一個(gè)為數(shù)據(jù)摘要,用于提交給集中分類器。規(guī)則學(xué)習(xí)模塊負(fù)責(zé)對(duì)標(biāo)記過(guò)的分類數(shù)據(jù)進(jìn)行深層次的數(shù)據(jù)挖掘,從而學(xué)習(xí)到新的知識(shí)。學(xué)習(xí)到的知識(shí)被直接錄入到規(guī)則庫(kù)中,這樣保證了規(guī)則庫(kù)可以根據(jù)網(wǎng)上的變化可以隨時(shí)達(dá)到更新的需求。另外一種方式是通過(guò)規(guī)則學(xué)習(xí)模塊實(shí)現(xiàn)人工訓(xùn)練系統(tǒng),從而實(shí)現(xiàn)升級(jí)規(guī)則庫(kù)的需求。最后將分布式數(shù)據(jù)挖掘的結(jié)果形成數(shù)據(jù)摘要發(fā)送給集中分類器,由集中分類器對(duì)各點(diǎn)數(shù)據(jù)摘要進(jìn)行匯集,從而做出綜合判斷,達(dá)到有效地檢測(cè)協(xié)同攻擊的效果,最后將檢測(cè)結(jié)果提交給決策模塊。

3 結(jié)束語(yǔ)

數(shù)據(jù)挖掘技術(shù)是人工智能學(xué)科的一個(gè)重要分支,也是現(xiàn)代計(jì)算機(jī)科學(xué)的一個(gè)研究重點(diǎn)。現(xiàn)在基于數(shù)據(jù)挖掘技術(shù)的科研可以說(shuō)是碩果累累,自從人工智能這個(gè)概念被提出來(lái)之后,其發(fā)展一直是計(jì)算機(jī)學(xué)科的熱門(mén)而且其分支廣而泛,都在不同的領(lǐng)域發(fā)揮著十分重要的作用。相信在計(jì)算機(jī)研究人員的不斷努力下數(shù)據(jù)挖掘會(huì)在更多的方面服務(wù)人們,并且期待著新的理論的提出。

參考文獻(xiàn):

[1] 何克抗.建立題庫(kù)的理論[M].長(zhǎng)沙:國(guó)防科技大學(xué)出版社,1995.

[2] 劉波,段麗艷.一個(gè)基于Internet的通用題庫(kù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].華南師范大學(xué)學(xué)報(bào):自然科學(xué)版,2000(1):39-44.

[3] 王實(shí),高文.數(shù)據(jù)挖掘中的聚類方法[J].計(jì)算機(jī)科學(xué),2000,27(4):42-45.

第4篇

關(guān)鍵詞:數(shù)據(jù)挖掘 分類規(guī)則 算法

中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A

一、數(shù)據(jù)挖掘在市場(chǎng)營(yíng)銷的應(yīng)用

數(shù)據(jù)挖掘技術(shù)在企業(yè)市場(chǎng)營(yíng)銷中得到了比較普遍的應(yīng)用,它是以市場(chǎng)營(yíng)銷學(xué)的市場(chǎng)細(xì)分原理為基礎(chǔ),其基本假定是“消費(fèi)者過(guò)去的行為是其今后消費(fèi)傾向的最好說(shuō)明”。

通過(guò)收集、加工和處理涉及消費(fèi)者消費(fèi)行為的大量信息,確定特定消費(fèi)群體或個(gè)體的興趣、消費(fèi)習(xí)慣、消費(fèi)傾向和消費(fèi)需求,進(jìn)而推斷出相應(yīng)消費(fèi)群體或個(gè)體下一步的消費(fèi)行為,然后以此為基礎(chǔ),對(duì)所識(shí)別出來(lái)的消費(fèi)群體進(jìn)行特定內(nèi)容的定向營(yíng)銷,這與傳統(tǒng)的不區(qū)分消費(fèi)者對(duì)象特征的大規(guī)模營(yíng)銷手段相比,大大節(jié)省了營(yíng)銷成本,提高了營(yíng)銷效果,從而為企業(yè)帶來(lái)更多的利潤(rùn)。

就目前而言,關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用在西方金融行業(yè)企業(yè)中,它可以成功預(yù)測(cè)銀行客戶需求。各銀行在自己的ATM機(jī)上就捆綁了顧客可能感興趣的本行產(chǎn)品信息,供使用本行ATM機(jī)的用戶了解。如果數(shù)據(jù)庫(kù)中顯示,某個(gè)高信用限額的客戶更換了地址,這個(gè)客戶很有可能新近購(gòu)買了一棟更大的住宅,因此會(huì)有可能需要更高信用限額,更高端的新信用卡,或者需要一個(gè)住房改善貸款,這些產(chǎn)品都可以通過(guò)信用卡賬單郵寄給客戶。當(dāng)客戶打電話咨詢的時(shí)候,數(shù)據(jù)庫(kù)可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點(diǎn),同時(shí)也可以顯示出顧客會(huì)對(duì)什么產(chǎn)品感興趣。如考慮屬性之間的類別層次關(guān)系,時(shí)態(tài)關(guān)系,多表挖掘等。近年來(lái)圍繞關(guān)聯(lián)規(guī)則的研究主要集中于兩個(gè)方面,即擴(kuò)展經(jīng)典關(guān)聯(lián)規(guī)則能夠解決問(wèn)題的范圍,改善經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法效率和規(guī)則興趣性。

二、入侵檢測(cè)中數(shù)據(jù)挖掘技術(shù)的引入

入侵檢測(cè)技術(shù)是對(duì)(網(wǎng)絡(luò))系統(tǒng)的運(yùn)行狀態(tài)進(jìn)行監(jiān)視,發(fā)現(xiàn)各種攻擊企圖、攻擊行為或者攻擊結(jié)果,以保證系統(tǒng)資源的機(jī)密性、完整性與可用性。

根據(jù)數(shù)據(jù)分析方法(也就是檢測(cè)方法)的不同,我們可以將入侵檢測(cè)系統(tǒng)分為兩類:(1)誤用檢測(cè)(Misuse? Detection)。又稱為基于特征的檢測(cè),它是根據(jù)已知的攻擊行為建立一個(gè)特征庫(kù),然后去匹配已發(fā)生的動(dòng)作,如果一致則表明它是一個(gè)入侵行為。(2)異常檢測(cè)(Anomaly Detection)。又稱為基于行為的檢測(cè),它是建立一個(gè)正常的特征庫(kù),根據(jù)使用者的行為或資源使用狀況來(lái)判斷是否入侵。

將這兩種分析方法結(jié)合起來(lái),可以獲得更好的性能。異常檢測(cè)可以使系統(tǒng)檢測(cè)新的、未知的攻擊或其他情況;誤用檢測(cè)通過(guò)防止耐心的攻擊者逐步改變行為模式使得異常檢測(cè)器將攻擊行為認(rèn)為是合法的,從而保護(hù)異常檢測(cè)的完整性。

三、算法在入侵檢測(cè)中的具體使用

(一)基于誤用的檢測(cè)型。

首先從網(wǎng)絡(luò)或是主機(jī)上獲取原始二進(jìn)制的數(shù)據(jù)文件,再把這些數(shù)據(jù)進(jìn)行處理,轉(zhuǎn)換成ASCII碼表示的數(shù)據(jù)分組形式。再經(jīng)過(guò)預(yù)處理模塊將這些網(wǎng)絡(luò)數(shù)據(jù)表示成連接記錄的形式,每個(gè)連接記錄都是由選定的特征屬性表示的。再進(jìn)行完上面的工作后,對(duì)上述的由特征屬性組成的模式記錄進(jìn)行處理,總結(jié)出其中的統(tǒng)計(jì)特征,包括在一時(shí)間段內(nèi)與目標(biāo)主機(jī)相同的連接記錄的次數(shù)、發(fā)生SYN錯(cuò)誤的連接百分比、目標(biāo)端口相同的連接所占的百分比等等一系列的統(tǒng)計(jì)特征。最后,就可以進(jìn)行下面的檢測(cè)分析工作,利用分類算法,比如RIPPER 、C4.5等建立分類模型。只有這樣才能建立一個(gè)實(shí)用性較強(qiáng)、效果更好的分類模型。

(二)基于異常的入侵模型。

異常檢測(cè)的主要工作就是通過(guò)構(gòu)造正?;顒?dòng)集合,然后利用得到的一組觀察數(shù)值的偏離程度來(lái)判斷用戶行為的變化,以此來(lái)覺(jué)得是否屬于入侵的一種檢測(cè)技術(shù)。異常檢測(cè)的優(yōu)點(diǎn)在于它具有檢測(cè)未知攻擊模式的能力,不論攻擊者采用什么樣的攻擊策略,異常檢測(cè)模型依然可以通過(guò)檢測(cè)它與已知模式集合之間的差異來(lái)判斷用戶的行為是否異常。

在異常檢測(cè)中主要用到的兩個(gè)算法就是模式比較和聚類算法:(1)模式比較。在模式比較算法中首先通過(guò)關(guān)聯(lián)規(guī)則和序列規(guī)則建立正常的行為模式,然后通過(guò)模式比較算法來(lái)區(qū)別正常行為和入侵行為。(2)聚類算法。聚類分析的基本思想主要源于入侵與正常模式上的不同及正常行為數(shù)目應(yīng)遠(yuǎn)大于入侵行為數(shù)目的條件,因此能夠?qū)?shù)據(jù)集劃分為不同的類別,由此分辨出正常和異常行為來(lái)檢測(cè)入侵。數(shù)據(jù)挖掘中常用的聚類算法有K-means、模糊聚類、遺傳聚類等。基于聚類的入侵檢測(cè)是一種無(wú)監(jiān)督的異常檢測(cè)算法,通過(guò)對(duì)未標(biāo)識(shí)數(shù)據(jù)進(jìn)行訓(xùn)練來(lái)檢測(cè)入侵。該方法不需要手工或其他的分類,也不需要進(jìn)行訓(xùn)練。因此呢功能發(fā)現(xiàn)新型的和未知的入侵類型。

四、結(jié)論

入侵檢測(cè)中數(shù)據(jù)挖掘技術(shù)方面的研究已經(jīng)有很多,發(fā)表的論文也已經(jīng)有好多,但是應(yīng)用難點(diǎn)在于如何根據(jù)具體應(yīng)用的要求,從用于安全的先驗(yàn)知識(shí)出發(fā),提取出可以有效反映系統(tǒng)特性的屬性,并應(yīng)用合適的算法進(jìn)行數(shù)據(jù)挖掘。另一技術(shù)難點(diǎn)在于如何將數(shù)據(jù)挖掘結(jié)果自動(dòng)應(yīng)用到實(shí)際IDS中。

入侵檢測(cè)采用的技術(shù)有多種類型,其中基于數(shù)據(jù)挖掘技術(shù)的入侵檢測(cè)技術(shù)成為當(dāng)前入侵檢測(cè)技術(shù)發(fā)展的一個(gè)熱點(diǎn),但數(shù)據(jù)挖掘還處于發(fā)展時(shí)期,因此有必要對(duì)它進(jìn)行更深入的研究。

(作者單位:湖北工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院)

參考文獻(xiàn):

[1]. 范明,孟小峰.?dāng)?shù)據(jù)挖掘――概念與技術(shù).機(jī)械工業(yè)出版社,2001。

第5篇

關(guān)鍵詞:數(shù)據(jù)挖掘;技術(shù);神經(jīng)網(wǎng)絡(luò)技術(shù)

1 數(shù)據(jù)挖掘技術(shù)的方法

數(shù)據(jù)挖掘技術(shù)的方法主要分為統(tǒng)計(jì)、聚類和遺傳分析[1]。統(tǒng)計(jì)方法可以滿足數(shù)據(jù)庫(kù)處理分析,包括:有線、非線、回歸等多項(xiàng)統(tǒng)計(jì)方法;聚類方法應(yīng)用于數(shù)據(jù)挖掘的內(nèi)部處理,梳理內(nèi)部數(shù)據(jù)的關(guān)系,基于聚類方法的存在,數(shù)據(jù)挖掘技術(shù)可以滿足經(jīng)濟(jì)、模擬等多項(xiàng)數(shù)據(jù)領(lǐng)域的需求;遺傳分析是數(shù)據(jù)挖掘方法的重點(diǎn),以生物進(jìn)化為導(dǎo)向,將重組、變異導(dǎo)入到數(shù)據(jù)庫(kù)內(nèi),推進(jìn)數(shù)據(jù)的后續(xù)發(fā)展,將后續(xù)模擬的數(shù)據(jù),應(yīng)用在現(xiàn)代數(shù)據(jù)庫(kù)的某個(gè)部分,發(fā)揮同樣作用,遺傳算法高度模擬生物進(jìn)化的方式,結(jié)合繁殖、基因、突變、重組的概念,引入新數(shù)據(jù),促使數(shù)據(jù)庫(kù)中新個(gè)體的形成,所以數(shù)據(jù)挖掘中的遺傳算法,既可以作為數(shù)據(jù)分析的方法,也可以體現(xiàn)預(yù)算和評(píng)估的特點(diǎn)。

2 數(shù)據(jù)挖掘的技術(shù)支持

2.1 神經(jīng)網(wǎng)絡(luò)技術(shù)

神經(jīng)網(wǎng)絡(luò)主要以數(shù)學(xué)模型為主,重點(diǎn)針對(duì)復(fù)雜數(shù)據(jù),快速完成數(shù)據(jù)抽取。神經(jīng)網(wǎng)絡(luò)技術(shù)處理的能力,可以超出計(jì)算機(jī)的分析水平,保障輸入神經(jīng)網(wǎng)絡(luò)中的數(shù)據(jù)屬于數(shù)值型,即可快速導(dǎo)出趨勢(shì)性變化的數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)技術(shù)通過(guò)模擬大腦的神經(jīng)元結(jié)構(gòu),利用MP,實(shí)現(xiàn)非線性規(guī)劃,根據(jù)數(shù)據(jù)信息的特性,決定信息的存儲(chǔ)位置,實(shí)現(xiàn)自主處理。神經(jīng)網(wǎng)絡(luò)技術(shù)在數(shù)據(jù)挖掘中,不僅可以實(shí)現(xiàn)數(shù)據(jù)的快速分類,還可以對(duì)數(shù)據(jù)進(jìn)行模擬預(yù)測(cè),促使數(shù)據(jù)挖掘處于優(yōu)化的狀態(tài),完成難度聚類。神經(jīng)網(wǎng)絡(luò)技術(shù)的代表為RBF和BP。

2.2 決策樹(shù)技術(shù)

此技術(shù)以模擬離散函數(shù)為主,借助樹(shù)木模型,對(duì)實(shí)際案例進(jìn)行綜合分類處理。決策樹(shù)的葉子,代表不同結(jié)點(diǎn),而結(jié)點(diǎn)則是組成實(shí)例不同屬性的測(cè)試,未來(lái)枝葉的分支,表示可能覆蓋的屬性預(yù)測(cè)[2]。決策樹(shù)在根部向枝葉推進(jìn)的過(guò)程中,蘊(yùn)含豐富的數(shù)據(jù)挖掘,目的是得出有價(jià)值的屬性信息,所以決策樹(shù)理論支持?jǐn)?shù)據(jù)挖掘的分析和分類,對(duì)相同屬性的數(shù)據(jù)進(jìn)行歸類存儲(chǔ),進(jìn)而挖掘數(shù)據(jù)分類中遵循的規(guī)則。

3 數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域

3.1 通信服務(wù)行業(yè)

在數(shù)據(jù)挖掘技術(shù)的帶動(dòng)和參與下,通信服務(wù)行業(yè)逐漸趨向于“三網(wǎng)融合”,即:電信、互聯(lián)和電視,勢(shì)必涉及諸多數(shù)據(jù)運(yùn)營(yíng),數(shù)據(jù)挖掘技術(shù)可以針對(duì)三網(wǎng)狀態(tài),實(shí)行模式分析,挖掘商業(yè)潛能。例如:數(shù)據(jù)挖掘技術(shù)可以對(duì)通信數(shù)據(jù)進(jìn)行分析,得出通信系統(tǒng)實(shí)時(shí)運(yùn)行的參數(shù)和狀態(tài),以聚類的方式,歸類系統(tǒng)數(shù)據(jù),還可直接分析用戶的實(shí)際行為,拓寬業(yè)務(wù)途徑,同時(shí)發(fā)現(xiàn)發(fā)展機(jī)遇,提升通信服務(wù)行業(yè)的社會(huì)效益。

3.2 高校管理系統(tǒng)

數(shù)據(jù)挖掘技術(shù)在高校中的應(yīng)用較為明顯,例如:學(xué)生信息管理系統(tǒng)、教務(wù)評(píng)價(jià)系統(tǒng)、成績(jī)查詢系統(tǒng)、選課系統(tǒng)等,都可體現(xiàn)數(shù)據(jù)挖掘技術(shù)的優(yōu)點(diǎn)。高校學(xué)生數(shù)量較多,通過(guò)數(shù)據(jù)挖掘技術(shù),可以為學(xué)生提供一體化服務(wù),學(xué)生在入學(xué)之際,即可將信息錄入在管理系統(tǒng)內(nèi),整個(gè)在校期間,都可通過(guò)管理系統(tǒng),查詢個(gè)人信息,管理者也可以根據(jù)管理系統(tǒng),快速調(diào)取學(xué)生信息,如:圖書(shū)借閱、飯卡充值等,隨時(shí)關(guān)注學(xué)生的信息動(dòng)態(tài)[3]。高校在數(shù)據(jù)管理方面,已經(jīng)實(shí)現(xiàn)多系統(tǒng)的融合發(fā)展,在數(shù)據(jù)挖掘技術(shù)的支持下,將不同功能的數(shù)據(jù)系統(tǒng),兼容于統(tǒng)一系統(tǒng),不論是學(xué)生,還是教務(wù)人員,利用獨(dú)立賬號(hào)、密碼,都可實(shí)現(xiàn)個(gè)人信息管理或查詢,對(duì)數(shù)據(jù)挖掘技術(shù)提供更高的發(fā)展要求。

3.3 醫(yī)學(xué)領(lǐng)域

醫(yī)學(xué)領(lǐng)域不僅涉及大量的信息數(shù)據(jù),而且數(shù)據(jù)的編排、匯總非常復(fù)雜,大量數(shù)據(jù)同時(shí)出現(xiàn)的過(guò)程中,幾乎不會(huì)出現(xiàn)相同數(shù)據(jù),因此,醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)管理,具備一定難度。數(shù)據(jù)挖掘技術(shù)成功應(yīng)用于醫(yī)院數(shù)據(jù)管理中,特別是在病歷管理、醫(yī)藥信息管理方面,例如:數(shù)據(jù)挖掘技術(shù)可以整合醫(yī)藥信息,將醫(yī)藥信息存儲(chǔ)于數(shù)據(jù)庫(kù)系統(tǒng)內(nèi),醫(yī)務(wù)人員可以通過(guò)檢索的方式,在管理系統(tǒng)內(nèi),迅速獲得所需信息,避免信息篩選錯(cuò)誤,提高信息識(shí)別的能力。由此,醫(yī)務(wù)人員在信息管理和校對(duì)方面,提高操作效率,確保數(shù)據(jù)挖掘的質(zhì)量。

3.4 金融行業(yè)

金融行業(yè)中的數(shù)據(jù)分類比較明確,如:信貸數(shù)據(jù)、儲(chǔ)蓄數(shù)據(jù)等,需對(duì)數(shù)據(jù)采取合理的分配和管理。數(shù)據(jù)挖掘技術(shù)在金融行業(yè)中,為數(shù)據(jù)管理提供可靠的空間,成為管理金融數(shù)據(jù)的最佳方式[4]。數(shù)據(jù)挖掘技術(shù)具備獨(dú)立分析的能力,可以在數(shù)據(jù)庫(kù)中,設(shè)置多維參考點(diǎn),對(duì)不同類型的數(shù)據(jù)實(shí)行嚴(yán)格區(qū)分,根據(jù)數(shù)據(jù)的異同性質(zhì),實(shí)行準(zhǔn)確處理,發(fā)揮數(shù)據(jù)挖掘的優(yōu)勢(shì),維持金融數(shù)據(jù)的運(yùn)行。數(shù)據(jù)挖掘技術(shù)還可以根據(jù)金融數(shù)據(jù)的動(dòng)態(tài)變化,有效發(fā)現(xiàn)影響金融活動(dòng)的不良因素,防止金融行業(yè)出現(xiàn)數(shù)據(jù)漏洞,造成管理弊端。

綜上所述,隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,其在行業(yè)領(lǐng)域中的應(yīng)用越來(lái)越廣泛,為數(shù)據(jù)運(yùn)行提供強(qiáng)大的技術(shù)支持。數(shù)據(jù)挖掘技術(shù)可以迅速獲取有效信息,體現(xiàn)準(zhǔn)確識(shí)別的能力,改善數(shù)據(jù)運(yùn)行,因此,數(shù)據(jù)挖掘技術(shù)成為行業(yè)發(fā)展與進(jìn)步的重要途徑,不僅提高信息處理的能力,還可以保障信息處理的效率和價(jià)值,同時(shí)提高行業(yè)信息技術(shù)水平。

[參考文獻(xiàn)]

[1]羅斌.數(shù)據(jù)挖掘研究進(jìn)展[J].中國(guó)水運(yùn),2012(07):90-92.

[2]張昀.數(shù)據(jù)挖掘技術(shù)研究[J].軟件導(dǎo)刊,2012(09):45-47.

第6篇

隨著科技的進(jìn)一步發(fā)展,已經(jīng)帶動(dòng)著各大領(lǐng)域的創(chuàng)新和發(fā)展。而我國(guó)在近年來(lái),城市信息化的普及也在不斷推進(jìn),網(wǎng)絡(luò)技術(shù)的改革和發(fā)展也顯得格外重要。而特別很多企業(yè)對(duì)于自身的信息和數(shù)據(jù)儲(chǔ)存、共享以及處理都格外注重,要求技術(shù)本身要包含安全性、便捷性以及可靠性。,而是在大數(shù)據(jù)提出后,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為了一種新的主流技術(shù),而研究數(shù)據(jù)挖掘技術(shù)的理念、方法以及應(yīng)用領(lǐng)域,將對(duì)我國(guó)工程施工領(lǐng)域的未來(lái)帶來(lái)更多的機(jī)遇和挑戰(zhàn)。

關(guān)鍵詞:

大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘技術(shù)分析和研究運(yùn)用數(shù)據(jù)挖掘技術(shù),也被稱為數(shù)字處理技術(shù),顧名思義,就是對(duì)于目前各大企業(yè)的內(nèi)部數(shù)據(jù),進(jìn)行整理、調(diào)整、挖掘?qū)嵤┮约霸u(píng)估等一系列處理操作,其主要的目標(biāo)是保證全局?jǐn)?shù)據(jù)都能夠得到充分的優(yōu)化。而大數(shù)據(jù)則是區(qū)分于以往抽樣調(diào)查的方法,而是對(duì)于全局?jǐn)?shù)據(jù)進(jìn)行分析,從而保證分析的全面以及完成。而大數(shù)據(jù)技術(shù)也包含4個(gè)優(yōu)點(diǎn),即高數(shù)量、高速度、多元化以及高價(jià)值。而筆者將通過(guò)本文,就大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用進(jìn)行分析和探討。

1相關(guān)概念的簡(jiǎn)介

1.1大數(shù)據(jù)的概念關(guān)于大數(shù)據(jù)的理念提出,可以追溯到麥肯錫研究院于2011年的《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)新領(lǐng)域》,其中闡述的觀念就涵蓋數(shù)據(jù)方面,即數(shù)據(jù)已經(jīng)融入到了人們的日常生活中,也是生產(chǎn)運(yùn)作的一個(gè)重要因素。而大數(shù)據(jù)的運(yùn)用,對(duì)于消費(fèi)以及生產(chǎn)水平都是一種有效的提升提升,根據(jù)美國(guó)曾經(jīng)的《大數(shù)據(jù)研究和發(fā)展倡議》資料,截至2011年一年,全球總的數(shù)據(jù)就增加了1.8ZB,而進(jìn)行人均計(jì)算,相當(dāng)于每個(gè)人都具有至少200GB的數(shù)據(jù)資源,而且這一數(shù)據(jù)還在呈現(xiàn)出日益增長(zhǎng)的趨勢(shì),根據(jù)統(tǒng)計(jì)計(jì)算,這一數(shù)值將會(huì)按照約為50%/年的速度增長(zhǎng)。

1.2數(shù)據(jù)挖掘作為一個(gè)新型學(xué)科,數(shù)據(jù)挖掘技術(shù)源于20世紀(jì)的80年代,那時(shí)其效用與目前存在本質(zhì)差異,科學(xué)家最初研究大數(shù)據(jù),主要是用于一些人工智能技術(shù)的開(kāi)發(fā)。簡(jiǎn)而言之,技術(shù)層面上,數(shù)據(jù)挖掘就是一個(gè)對(duì)數(shù)據(jù)進(jìn)行發(fā)掘創(chuàng)新的過(guò)程,即要求目標(biāo)數(shù)據(jù)具有隱蔽性、挖掘價(jià)值以及挖掘潛力,而且需要操作者在一堆冗雜的、隨機(jī)的、模糊的數(shù)據(jù)庫(kù)中進(jìn)行挖掘;而對(duì)于商業(yè)層面上來(lái)說(shuō),數(shù)據(jù)挖掘就是在一些大量的數(shù)據(jù)信息中獲得規(guī)律以及價(jià)值信息,從而為決策提供重要的知識(shí)憑據(jù)。

2數(shù)據(jù)挖掘的研究手段

對(duì)于數(shù)據(jù)挖掘而言,不同的研究手段將是其開(kāi)展的重要基礎(chǔ),而研究手段的決定,主要需要依靠科學(xué)的計(jì)算為依據(jù),分析和對(duì)比數(shù)據(jù)中存在的一些不為人知的規(guī)則,然后通過(guò)研究手段的改變?nèi)?yīng)付不同的問(wèn)題,對(duì)于實(shí)際操作來(lái)說(shuō),就是針對(duì)不同的數(shù)據(jù)找出不同的解決方法,而常見(jiàn)數(shù)據(jù)挖掘的研究手段主要可以分為四類,即聚類研究、分類和預(yù)測(cè)以及關(guān)聯(lián)研究。

2.1聚類研究將抽選的數(shù)據(jù)或者對(duì)象的庫(kù)進(jìn)行類似“分類”的聚類劃分,然后再將其中的相同或者相近的數(shù)據(jù)劃分為一個(gè)組類,由此建立起多個(gè)組類開(kāi)展研究的過(guò)程。整個(gè)過(guò)程突出的是一種無(wú)知識(shí)基礎(chǔ)、無(wú)監(jiān)督管控的學(xué)習(xí)過(guò)程。而整個(gè)過(guò)程由于分類研究有本質(zhì)的差異,因?yàn)榫垲愌芯吭谑孪雀緹o(wú)法得到目標(biāo)的重要屬性數(shù)據(jù),而這種分析方法主要可以用于多個(gè)區(qū)域,例如心理、統(tǒng)計(jì)、醫(yī)藥、銷售以及數(shù)據(jù)識(shí)別等,而根據(jù)其隸屬度的取值,有能將其分為兩種研究方法,即硬聚類與模糊聚類,對(duì)于前者來(lái)說(shuō),就是將目標(biāo)按照影響標(biāo)準(zhǔn)進(jìn)行劃分,即目標(biāo)如果屬于某類,必定不屬于其他類;而對(duì)于后者來(lái)說(shuō),主要取決與隸屬度的取值不同。而劃分過(guò)程可能會(huì)將目標(biāo)劃分入多個(gè)聚類中。此外聚類的計(jì)算方法也能分為多種,即包含密度算法、層次算法、劃分算法、網(wǎng)格算法以及模型算法等等。

2.2分類與估測(cè)對(duì)于分類與數(shù)值估測(cè)來(lái)說(shuō),都是屬于是問(wèn)題預(yù)測(cè)方式,其中前者要求估測(cè)各個(gè)類中的標(biāo)號(hào),這些標(biāo)號(hào)都是分散且無(wú)規(guī)律的,而估測(cè)方法可以采用函數(shù)模型,要求模型類型為連續(xù)值函數(shù)。分類估測(cè)作為數(shù)據(jù)挖掘的起始工作,主要需要反應(yīng)已經(jīng)獲知的訓(xùn)練數(shù)據(jù)庫(kù)的特點(diǎn),從而根據(jù)以上基礎(chǔ)完成其中對(duì)每一類的情況以及特點(diǎn)完成相應(yīng)的分類操作,而整個(gè)操作也是受到督促的,對(duì)于一般的分類算法可以有決策樹(shù)、粗糙集、貝葉斯、遺傳等算法,而估測(cè)主要是基于分類以及回歸基礎(chǔ),估測(cè)數(shù)據(jù)將來(lái)的動(dòng)向,即包含局勢(shì)外推、時(shí)間序列以及回歸分析幾類。

2.3關(guān)聯(lián)研究關(guān)聯(lián)研究是源于自然生物間微妙的關(guān)系,而某事情的發(fā)生和發(fā)展也會(huì)引發(fā)連鎖的事情發(fā)展,也就類似所謂“蝴蝶效應(yīng)”的定義。而關(guān)聯(lián)研究的研究目標(biāo)即是研究物與物之間的微妙關(guān)系,包含一些依賴關(guān)系等等,從而找出其中的規(guī)則,基于規(guī)則,分析將來(lái)的動(dòng)向。以購(gòu)物為例,分析購(gòu)物者的心理規(guī)律以及習(xí)慣,可以從他們對(duì)于購(gòu)物的一系列表現(xiàn),例如購(gòu)物籃的物品類型、放置規(guī)律、購(gòu)物消費(fèi)理念、購(gòu)物環(huán)境需求等等,而掌握這些規(guī)律,足以讓一個(gè)銷售企業(yè)獲得巨大的消費(fèi)市場(chǎng)以及商機(jī)。

3大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘的運(yùn)用

3.1數(shù)據(jù)準(zhǔn)備準(zhǔn)備流程需要依附于研究者已經(jīng)建立起長(zhǎng)期且豐富數(shù)據(jù)資源的數(shù)據(jù)庫(kù),而根據(jù)這些無(wú)規(guī)則的原始數(shù)據(jù)進(jìn)行相應(yīng)的挖掘前的準(zhǔn)備的工作,例如數(shù)據(jù)的處理、擇取、清除、推敲以及轉(zhuǎn)變,作為基礎(chǔ)的流程,數(shù)據(jù)準(zhǔn)備操作在整個(gè)流程中起到重要的基礎(chǔ)作用。

3.2數(shù)據(jù)挖掘開(kāi)展數(shù)據(jù)挖掘操作,需要根據(jù)挖掘?qū)ο蟮那闆r擇選最優(yōu)的計(jì)算方法,從而獲取其中的規(guī)律性,例如對(duì)應(yīng)采用決策樹(shù)算法、分類算法、神經(jīng)網(wǎng)絡(luò)算法以及Apriori算法等。

3.3數(shù)據(jù)挖掘的模式評(píng)估研究模式評(píng)估的對(duì)象主要是通過(guò)數(shù)據(jù)挖掘處理過(guò)程數(shù)據(jù),而評(píng)估流程是了解、研究且取得其中數(shù)據(jù)的規(guī)則,然后對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)變“翻譯”成通俗易懂的語(yǔ)言,供人們?nèi)パ芯亢退伎肌?/p>

3.4數(shù)據(jù)挖掘的知識(shí)應(yīng)用知識(shí)應(yīng)用是數(shù)據(jù)挖掘的最后一步,通常知識(shí)運(yùn)用就是一種現(xiàn)實(shí)運(yùn)用的過(guò)程,通過(guò)數(shù)據(jù)準(zhǔn)備、挖掘、研究評(píng)估,最后將結(jié)果數(shù)據(jù)或者規(guī)律用于現(xiàn)實(shí)中,從而體現(xiàn)數(shù)據(jù)的本身的價(jià)值,這就是知識(shí)應(yīng)用的內(nèi)涵。

4大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘的運(yùn)用

4.1市場(chǎng)營(yíng)銷方面市場(chǎng)營(yíng)銷行業(yè)已經(jīng)是目前數(shù)據(jù)挖掘采用最多的行業(yè),數(shù)據(jù)挖掘的作用主要體現(xiàn)在的對(duì)于消費(fèi)者群體的消費(fèi)習(xí)慣以及行為進(jìn)行解析,從而改變銷售方法,提升產(chǎn)品的銷售量,此外,除了一些購(gòu)物消費(fèi)以外,數(shù)據(jù)挖掘技術(shù)以及拓展到了各大金融行業(yè),例如保險(xiǎn)行業(yè)、銀行行業(yè)以及電子商務(wù)行業(yè)等等。例如:在市場(chǎng)營(yíng)銷方面,采用數(shù)據(jù)挖掘中的聚類研究,即客戶一系列無(wú)規(guī)則、無(wú)意識(shí)的行為數(shù)據(jù),對(duì)他們進(jìn)行識(shí)別,即根據(jù)客戶的忠誠(chéng)度、消費(fèi)意識(shí)進(jìn)行分類,幫助企業(yè)尋找其中的潛在客戶以及固定客戶群。

4.2數(shù)據(jù)挖掘的科學(xué)分析科學(xué)本身就是一個(gè)尋找規(guī)律、發(fā)現(xiàn)規(guī)律以及利用規(guī)律的過(guò)程,而且任何科學(xué)研究都是需要基于數(shù)據(jù)作為基礎(chǔ),所以數(shù)據(jù)挖掘?qū)τ诳茖W(xué)領(lǐng)域也具有重要的意義和價(jià)值,特別是針對(duì)一些未知的事物、領(lǐng)域或者知識(shí),通過(guò)數(shù)據(jù)挖掘可以有效展示數(shù)據(jù)規(guī)則。例如對(duì)于太空行星的分析,遺傳基因DNA的數(shù)據(jù)以及遺傳規(guī)律等。

4.3制造業(yè)與其他行業(yè)不同,制造業(yè)運(yùn)用數(shù)據(jù)挖掘的目的主要是產(chǎn)品質(zhì)量檢查方面,例如研究產(chǎn)品的數(shù)據(jù),找出其中規(guī)則。分析整體生產(chǎn)流程,解析其中過(guò)程,找出影響生產(chǎn)質(zhì)量以及效率的問(wèn)題,然后通過(guò)對(duì)這些問(wèn)題進(jìn)行解決,提升企業(yè)經(jīng)濟(jì)效益。對(duì)于制造業(yè)而言,數(shù)據(jù)挖掘運(yùn)用主要體現(xiàn)在決策方面,即首先通過(guò)數(shù)據(jù)篩選,獲取有用的知識(shí)和數(shù)據(jù),然后采用決策樹(shù)算法,統(tǒng)計(jì)決策,然后選擇其中正確的決策,即像根據(jù)目前產(chǎn)品的流行情況,預(yù)測(cè)目前生產(chǎn)產(chǎn)品的受歡迎度,然后決策生產(chǎn)的時(shí)間以及周期。

4.4教育方面對(duì)于教育行業(yè)來(lái)說(shuō),最重要的除了教師的教學(xué)方法以外,學(xué)生的學(xué)習(xí)情況、心理動(dòng)向以及教學(xué)評(píng)估都是十分重要的,采用數(shù)據(jù)挖掘技術(shù),則可以有效將這些數(shù)據(jù)通過(guò)分類、篩選以及處理,得出有效的數(shù)據(jù)規(guī)則,供學(xué)校教學(xué)改革時(shí)進(jìn)行參考。例如:教學(xué)質(zhì)量評(píng)估數(shù)據(jù)挖掘模塊的開(kāi)發(fā),即將教學(xué)質(zhì)量相關(guān)的項(xiàng)目通過(guò)QSLSevrer進(jìn)行整合和存儲(chǔ),例如教學(xué)準(zhǔn)備、教學(xué)內(nèi)容、教學(xué)方式以及教學(xué)態(tài)度等,最后學(xué)生可以進(jìn)行自行瀏覽并且完成評(píng)估,而評(píng)估結(jié)果則會(huì)上傳系統(tǒng)進(jìn)行最后通過(guò)數(shù)據(jù)挖掘,篩選其中有用的信息,再通過(guò)Apr1ori算法挖掘其中關(guān)聯(lián)規(guī)律。

5結(jié)語(yǔ)

雖然數(shù)據(jù)挖掘技術(shù)不是一項(xiàng)新興的技術(shù),但是其還具有較大的研究?jī)r(jià)值與運(yùn)用前景,特別是在特殊領(lǐng)域的運(yùn)用,對(duì)于一系列數(shù)據(jù)進(jìn)行科學(xué)冗雜的處理,然后分析其中規(guī)則價(jià)值,可以有效提升各大行業(yè)的經(jīng)濟(jì)效益。

參考文獻(xiàn)

[1]趙倩倩,程國(guó)建,冀乾宇,戎騰學(xué).大數(shù)據(jù)崛起與數(shù)據(jù)挖掘芻議[J].電腦知識(shí)與技術(shù),2014,11(33):7831-7833.

[2]韓英.淺析大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與精細(xì)管理[J].成都航空職業(yè)技術(shù)學(xué)院學(xué)報(bào),2013,12(04):63-71.

第7篇

【關(guān)鍵詞】信息時(shí)代;數(shù)據(jù);利用;挖掘;應(yīng)用

1.數(shù)據(jù)挖掘的起源

隨著科學(xué)技術(shù)的日新月異,信息正在處于爆炸的時(shí)代,但是在數(shù)據(jù)龐大的背后,人們對(duì)其利用和提取的價(jià)值是有限的,有時(shí)候是不能滿足現(xiàn)實(shí)的需要。當(dāng)前大部分只是對(duì)所有的數(shù)據(jù)進(jìn)行儲(chǔ)存、統(tǒng)計(jì)、查詢,很難找出數(shù)據(jù)背后存在的某種關(guān)系和規(guī)律,更不能對(duì)數(shù)據(jù)的未來(lái)發(fā)展進(jìn)行準(zhǔn)確的預(yù)測(cè)。這也就導(dǎo)致了雖然信息數(shù)據(jù)非常多但是價(jià)值卻占到很少的一部分。正是因?yàn)橛羞@種情況的產(chǎn)生,信息挖掘技術(shù)才會(huì)得到發(fā)展和應(yīng)用。

2.數(shù)據(jù)挖掘的定義

所謂的信息挖掘通過(guò)對(duì)一些已有的數(shù)據(jù)存在不確定性、信息量大、不完整的數(shù)據(jù)進(jìn)行分析提取,提取出數(shù)據(jù)背后存在的一些價(jià)值和有用的信息。通過(guò)對(duì)這些數(shù)據(jù)的分析提取為一些技術(shù)部門(mén)和相關(guān)的人員的戰(zhàn)略決策提供很大的支持。

3.數(shù)據(jù)挖掘的過(guò)程

數(shù)據(jù)的挖掘是通過(guò)數(shù)據(jù)挖掘算法提取出數(shù)據(jù)模型,還有就是針對(duì)數(shù)據(jù)挖掘所采取的一些方法和步驟,一般都是經(jīng)歷幾次甚至多次的處理過(guò)程。最后才會(huì)在數(shù)據(jù)上提取到其存在的潛在價(jià)值,整個(gè)過(guò)程主要包括一下幾個(gè)階段。

(1)目標(biāo)定義階段

做任何事情之前通過(guò)對(duì)將要做的事情進(jìn)行計(jì)劃分析,然后制定對(duì)所做這件事情需要達(dá)到的目標(biāo),這樣事情就會(huì)很容易成功。數(shù)據(jù)挖掘也不例外,在對(duì)數(shù)據(jù)進(jìn)行挖掘的時(shí)候,需要相關(guān)的人員了解和明確對(duì)所挖掘的數(shù)據(jù)要達(dá)到的目的,這也很大程度上會(huì)決定數(shù)據(jù)挖掘的成功與否。因此相關(guān)人員要在指定明確的目標(biāo),然后選擇一定的技術(shù)手段和方式對(duì)數(shù)據(jù)進(jìn)行挖掘。

(2)數(shù)據(jù)準(zhǔn)備階段

根據(jù)已有的數(shù)據(jù)挖掘目標(biāo),就應(yīng)該對(duì)所有的數(shù)據(jù)進(jìn)行分析處理,大略的挑出能達(dá)到目標(biāo)的一些數(shù)據(jù),剔除一些沒(méi)有意義的數(shù)據(jù)。還有就是對(duì)數(shù)據(jù)進(jìn)行一些變化,主要就是為了能夠在一些有特征的數(shù)據(jù)找出符合要求的數(shù)據(jù),減少在數(shù)據(jù)挖掘過(guò)程中需要考慮的其他因素。

(3)數(shù)據(jù)挖掘階段

這個(gè)階段是整個(gè)數(shù)據(jù)挖掘階段最重要、最核心的階段。相關(guān)的工作人員應(yīng)該在已有的數(shù)據(jù)挖掘目標(biāo)的基礎(chǔ)上選擇合理、科學(xué)的數(shù)據(jù)挖掘方法對(duì)數(shù)據(jù)進(jìn)行挖掘,提取出數(shù)據(jù)背后隱藏的價(jià)值。

(4)數(shù)據(jù)挖掘結(jié)果解釋和評(píng)估階段

首先應(yīng)該對(duì)數(shù)據(jù)挖掘出來(lái)的信息進(jìn)行研究,把最終滿足要求的數(shù)據(jù)提取出來(lái)。因?yàn)閿?shù)據(jù)的挖掘的最終目的就是為客戶服務(wù),所以還應(yīng)該針對(duì)客戶的一些特殊要求對(duì)挖掘出來(lái)的數(shù)據(jù)進(jìn)行提煉,經(jīng)過(guò)客戶對(duì)所挖掘的數(shù)據(jù)結(jié)果的評(píng)估后,將一些不滿足要求的數(shù)據(jù)剔除。還有就是把挖掘的數(shù)據(jù)應(yīng)該進(jìn)行合理的優(yōu)化使其更加人性化,給客戶優(yōu)質(zhì)的服務(wù)。

4.數(shù)據(jù)挖掘的研究方向

(1)對(duì)于數(shù)據(jù)挖掘系統(tǒng)來(lái)說(shuō),其不可能對(duì)各類型的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,因此應(yīng)該針對(duì)不同類型的數(shù)據(jù)研究出不同的數(shù)據(jù)挖掘系統(tǒng),這樣就可以在數(shù)據(jù)挖掘時(shí)能夠快速、高效的對(duì)數(shù)據(jù)進(jìn)行挖掘。

(2)數(shù)據(jù)挖掘系統(tǒng)應(yīng)該具備能夠?qū)?shù)據(jù)進(jìn)行高效率的挖掘,因?yàn)殡S著信息化時(shí)代的到來(lái),數(shù)據(jù)會(huì)越來(lái)越多,越來(lái)越復(fù)雜。如果其系統(tǒng)不能高效的工作,會(huì)很大程度上影響到數(shù)據(jù)挖掘的整體進(jìn)度。

(3)數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確性、通俗性以及有效性也是數(shù)據(jù)挖掘所需要達(dá)到的,只有這幾方面都能滿足要求,才會(huì)能夠很好的服務(wù)客戶。

(4)隨著信息時(shí)代和科學(xué)技術(shù)的快速發(fā)展,人們也越來(lái)越關(guān)注到一些個(gè)人隱私。所以在對(duì)數(shù)據(jù)挖掘的過(guò)程中不應(yīng)該侵犯到他人的隱私。還有就是對(duì)挖掘出來(lái)的數(shù)據(jù)有一定的安全保護(hù)措施,防止數(shù)據(jù)丟失。

(5)挖掘出來(lái)的數(shù)據(jù)也應(yīng)該能夠及時(shí)的和現(xiàn)有的數(shù)據(jù)進(jìn)行結(jié)合和補(bǔ)充,這樣就能使數(shù)據(jù)得到更廣泛的應(yīng)用和利用。

5.數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域

隨著科技的不斷發(fā)展和信息化時(shí)代的到來(lái),數(shù)據(jù)挖掘技術(shù)也取得了一些成就,在許多行業(yè)也得到了一定的應(yīng)用

(1)科學(xué)研究

因?yàn)樵S多科學(xué)研究的數(shù)據(jù)的大量性、復(fù)雜性使得一般的分析工具很大對(duì)數(shù)據(jù)進(jìn)行分析、提取,因此數(shù)據(jù)挖掘技術(shù)在這種情況下深受科學(xué)研究方面的廣大歡迎,其也在這個(gè)行業(yè)得到了快速的發(fā)展和應(yīng)用。通過(guò)數(shù)據(jù)挖掘在科學(xué)研究的應(yīng)用,促進(jìn)了科學(xué)的快速發(fā)展,使其能夠?yàn)樯鐣?huì)提供有價(jià)值的科學(xué)成果,為國(guó)家做出貢獻(xiàn)。

(2)風(fēng)險(xiǎn)分析和欺詐辨別

因?yàn)樵S多行業(yè)的數(shù)據(jù)存在具有龐大性、真假難辨性,所以對(duì)這些數(shù)據(jù)進(jìn)行挖掘分析,分析出有價(jià)值、真的數(shù)據(jù),防止因?yàn)榧俚臄?shù)據(jù)給我們帶來(lái)的不必要的麻煩。還可以經(jīng)過(guò)對(duì)數(shù)據(jù)的挖掘分析提高對(duì)風(fēng)險(xiǎn)的分析能力。還有就是一些行業(yè)的數(shù)據(jù)可能被不法分子利用對(duì)人們進(jìn)行欺詐,通過(guò)數(shù)據(jù)挖掘可以對(duì)這些數(shù)據(jù)進(jìn)行辨別,從而避免了經(jīng)濟(jì)損失。

(3)制造業(yè)的應(yīng)用

數(shù)據(jù)挖掘一般就是對(duì)制造業(yè)的制造部件的缺陷進(jìn)行分析,通過(guò)分析挖掘出能夠優(yōu)化制造部件的數(shù)據(jù),從而避免制造部件的缺陷。

(4)學(xué)校教育的應(yīng)用

學(xué)校的數(shù)據(jù)也是非常龐大、復(fù)雜的,因此數(shù)據(jù)挖掘也在學(xué)校的各個(gè)信息系統(tǒng)得到了一定的應(yīng)用。學(xué)校通過(guò)數(shù)據(jù)挖掘挖掘出對(duì)學(xué)校、老師、學(xué)生有價(jià)值的數(shù)據(jù),從而讓學(xué)??茖W(xué)的管理,老師更加高效的工作和教學(xué),學(xué)生更加高效的學(xué)習(xí)。

參考文獻(xiàn):

[1] Jiawei Han.Data Mining:Concepts and Techniques[M].機(jī)械工業(yè)出版社.2004

[2] 劉同明等.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[J].北京:國(guó)防工業(yè)出版社.2001.(9)

[3] 康曉東.基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘技術(shù)[J].北京:機(jī)械工業(yè)出版社.2004.(1):131~175