前言:想要寫出一篇引人入勝的文章?我們特意為您整理了計算機(jī)數(shù)據(jù)挖掘技術(shù)的開發(fā)范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:在信息化時代下,大數(shù)據(jù)的到來為社會變革提供了新的思路,從中也衍生出了數(shù)據(jù)挖掘技術(shù),提高了數(shù)據(jù)處理效率和質(zhì)量。數(shù)據(jù)挖掘技術(shù)能夠從海量數(shù)據(jù)中找出用戶所需數(shù)據(jù),并保障數(shù)據(jù)挖掘的精度和利用率,是推動社會、產(chǎn)業(yè)發(fā)展的重要技術(shù)之一?;诖?,筆者首先提出了數(shù)據(jù)挖掘的概念,然后分析了數(shù)據(jù)挖掘的相關(guān)技術(shù),最后探究了數(shù)據(jù)挖掘的開發(fā)與應(yīng)用。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);大數(shù)據(jù);數(shù)據(jù)規(guī)約
1引言
在計算機(jī)不斷發(fā)展背景下,人們也正式步入了信息時代,計算機(jī)挖掘技術(shù)作為大數(shù)據(jù)時代的衍生品,在各個領(lǐng)域中的應(yīng)用都十分廣泛,很大程度上推動了社會效益增長。數(shù)據(jù)挖掘技術(shù)讓數(shù)據(jù)庫技術(shù)發(fā)展到了更高階段,通過該項技術(shù)的應(yīng)用不僅能夠查詢相關(guān)數(shù)據(jù)信息,而且能夠識別數(shù)據(jù)之間潛在數(shù)據(jù),保證數(shù)據(jù)挖掘的有效性,促進(jìn)數(shù)據(jù)傳播。計算機(jī)挖掘技術(shù)發(fā)展不僅能夠豐富人們的生活,推動企業(yè)市場發(fā)展和調(diào)查工作,在各個領(lǐng)域中都發(fā)揮著極大的作用。所以,需要重點考慮如何充分利用數(shù)據(jù)挖掘技術(shù)發(fā)揮數(shù)據(jù)價值,從而推動行業(yè)、社會發(fā)展。
2數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘也被稱為資料探勘、數(shù)據(jù)采礦。作為數(shù)據(jù)庫知識發(fā)現(xiàn)的一個步驟。數(shù)據(jù)挖掘技術(shù)通常是指在大量數(shù)據(jù)中采用相關(guān)算法搜索隱藏在大數(shù)據(jù)信息的過程。數(shù)據(jù)挖掘技術(shù)通常和計算機(jī)科學(xué)有著直接關(guān)系,采用統(tǒng)計、在線分析、檢索、機(jī)械學(xué)習(xí)以及模糊識別等技術(shù)實現(xiàn)信息搜索目標(biāo)。數(shù)據(jù)挖掘技術(shù)的流程如下。第一步,信息收集。結(jié)合所確定的數(shù)據(jù)分析對象抽象出在數(shù)據(jù)分析中所需的特殊信息,之后采用相關(guān)信息收集方法,將自動搜索的信息存入到數(shù)據(jù)庫中。在大數(shù)據(jù)當(dāng)中,選擇合適的數(shù)據(jù)管理和數(shù)據(jù)存儲技術(shù)是極為重要的。第二步,數(shù)據(jù)集成。將不同格式、領(lǐng)域與性質(zhì)的數(shù)據(jù)在物理層或邏輯層上集中,即可為企業(yè)或組織提供更加全面的信息數(shù)據(jù)。第三步,數(shù)據(jù)規(guī)約。采用數(shù)據(jù)挖掘相關(guān)算法,由于數(shù)據(jù)挖掘技術(shù)并未成熟,所以在數(shù)據(jù)挖掘效率上還有待提高,而商業(yè)運(yùn)營數(shù)據(jù)往往較多,這就增加了數(shù)據(jù)挖掘難度。在此基礎(chǔ)上衍生出了數(shù)據(jù)規(guī)約技術(shù),數(shù)據(jù)集可以應(yīng)用規(guī)約表示,雖然數(shù)據(jù)體積變??;但是,可以保證數(shù)據(jù)的原始性,在規(guī)約后執(zhí)行數(shù)據(jù)挖掘結(jié)果和規(guī)約前執(zhí)行結(jié)果大致相同。第四步,數(shù)據(jù)清理。數(shù)據(jù)庫中并不一定是完整數(shù)據(jù),也有含噪聲數(shù)據(jù)、不一致數(shù)據(jù),這些數(shù)據(jù)需要過濾掉,精準(zhǔn)的把完整、正確、一致的數(shù)據(jù)信息存儲到數(shù)據(jù)庫當(dāng)中。第五步,數(shù)據(jù)變換。采用科學(xué)的聚集方法、數(shù)據(jù)概化法,將數(shù)據(jù)轉(zhuǎn)化成為可挖掘的數(shù)據(jù)形式。對于部分實數(shù)型的數(shù)據(jù),可以采用概念分層、數(shù)據(jù)離散化轉(zhuǎn)換數(shù)據(jù)方法實現(xiàn)轉(zhuǎn)化。第六步,數(shù)據(jù)挖掘(過程)。結(jié)合數(shù)據(jù)庫提供的數(shù)據(jù)信息,采用更加合理、適當(dāng)?shù)姆治鲈摴ぞ?,包括統(tǒng)計方法、決策樹、事例推理、規(guī)則推理、模糊集、精神網(wǎng)絡(luò)以及模糊算法等技術(shù),從而得出最終的有效信息。第七步,模式評估。從商業(yè)角度發(fā)展,各個行業(yè)專家對所挖掘的數(shù)據(jù)精準(zhǔn)性進(jìn)行評估。第八步,知識表示。將所挖掘的數(shù)據(jù)信息采用可視化技術(shù)呈現(xiàn)給用戶或者采用新型知識形式存放到數(shù)據(jù)庫當(dāng)中,供其他程序使用??傊?,數(shù)據(jù)挖掘技術(shù)在應(yīng)用中適應(yīng)反復(fù)循環(huán)的過程,如果其中一個步驟沒有達(dá)到預(yù)期目標(biāo),都要回到之前的步驟,重新執(zhí)行并調(diào)整。并不是每個數(shù)據(jù)挖掘工具都會在這里列出每一個步驟,如某個數(shù)據(jù)源中存在著多項數(shù)據(jù)種類,第二步的數(shù)據(jù)集成即可省略掉。在以上步驟當(dāng)中,第三步三到第五步統(tǒng)稱之為數(shù)據(jù)預(yù)處理。在數(shù)據(jù)挖掘當(dāng)中,主要的經(jīng)費(fèi)都消耗在了第一步中,大量精力都要花費(fèi)在數(shù)據(jù)預(yù)處理階段。
3數(shù)據(jù)挖掘技術(shù)開發(fā)工具分析
3.1神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)技術(shù)自身帶有十分強(qiáng)的組織適應(yīng)性、魯棒性、處理能力、存儲能力(分布)以及高度容錯等,這些優(yōu)勢十分適用于數(shù)據(jù)挖掘體系??梢詫Υ髷?shù)據(jù)信息進(jìn)行分類、預(yù)測、挖掘和識別,構(gòu)建前饋式神經(jīng)網(wǎng)絡(luò)模型。其中,以hopfield的離散模型和連續(xù)模型為代表,可以實現(xiàn)優(yōu)化計算、聯(lián)想記憶的反饋式神經(jīng)網(wǎng)絡(luò)模型。以art模型、koholon模型為代表,主要應(yīng)用在聚類自組織映射方法。但是,神經(jīng)網(wǎng)絡(luò)技術(shù)也存在弊端,就是其“黑箱”性,人們在應(yīng)用神經(jīng)網(wǎng)絡(luò)時無法理解學(xué)習(xí)與決策的過程,執(zhí)行起來較為困難[1]。
3.2遺傳算法
該項技術(shù)作為一種基于生物自然選擇、遺傳機(jī)理的隨機(jī)搜索算法。遺傳算法決定了其“遺傳性”,也就是適應(yīng)性,具有隱含并行性、可以和其他模型性質(zhì)結(jié)合等優(yōu)勢;因此,在數(shù)據(jù)挖掘技術(shù)中的應(yīng)用十分廣泛。Sunil成功開發(fā)了一種以遺傳算法為核心的數(shù)據(jù)挖掘工具,通過利用該項技術(shù)對兩個飛機(jī)失事真實數(shù)據(jù)展開了數(shù)據(jù)挖掘試驗,結(jié)果證明遺傳算法是有效實現(xiàn)數(shù)據(jù)挖掘的技術(shù)之一。遺傳算法由于自身的遺傳性,注定了需要和相關(guān)技術(shù)結(jié)合使用,如神經(jīng)網(wǎng)絡(luò)、粗集等技術(shù)。遺傳算法的應(yīng)用還能夠優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在能夠增加容錯率的前提下,將隱藏單元、多余連接刪除。結(jié)合bp算法可以訓(xùn)練神經(jīng)網(wǎng)絡(luò),并在網(wǎng)絡(luò)當(dāng)中提取規(guī)則。遺傳算法的缺陷是自身結(jié)構(gòu)十分復(fù)雜,很多較早的收斂問題尚未解決。
3.3決策樹
決策樹作為一種預(yù)測模型算法之一,該項技術(shù)可以將海量數(shù)據(jù)進(jìn)行分類,并從數(shù)據(jù)當(dāng)中找出更具價值、潛在優(yōu)勢的信息。決策樹在使用中具有分類效率高、描述簡單等優(yōu)勢,可以對大規(guī)模數(shù)據(jù)進(jìn)行處理。最具影響、最早的決策樹是由quinlan提出的基于信息熵的id3算法,其主要的問題包括:id3是一種非遞增的學(xué)習(xí)方法;id3決策樹作為一種單變量決策樹,表達(dá)復(fù)雜概念較為困難;同性相互關(guān)系強(qiáng)調(diào)性能不足;缺乏抗噪性。針對這些問題,也在id3模型算法基礎(chǔ)上進(jìn)行了升級,如有人提出了id4遞增式算法;有人提出了ible算法等。
3.4粗集
粗集作為一種結(jié)合理論,主要是用于研究不確定、不精準(zhǔn)的數(shù)學(xué)工具。該項理論的優(yōu)勢表現(xiàn)在:不需要給出額外信息;簡化輸入信息的表達(dá)空間;算法簡單、容易操作。該項技術(shù)處理對象類似二維關(guān)系信息表。粗集數(shù)學(xué)基礎(chǔ)作為一種集合論,無法直接處理連續(xù)的信息屬性。并且在現(xiàn)實的信息表當(dāng)中連續(xù)屬性普遍存在。所以,制約粗集理論實用化的因素就是連續(xù)屬性離散問題[2]。
4數(shù)據(jù)挖掘技術(shù)的應(yīng)用
4.1市場營銷方面的應(yīng)用
在市場營銷方面上,用戶購買貨物情況可以采用信息管理系統(tǒng)、POS系統(tǒng),特別是條形碼技術(shù)在零售行業(yè)中的應(yīng)用十分廣泛。由于可以搜集的用戶信息量越來越多,甚至無法實現(xiàn)人為管控,需要在市場營銷中收集到各類相關(guān)數(shù)據(jù),包括購物行為、習(xí)慣性分析,總結(jié)各類信息數(shù)據(jù)的特征,對推動市場營銷能力提升有著巨大的作用,對提高企業(yè)市場競爭力有著積極的影響。在用戶數(shù)據(jù)分析中,通過采用高效的數(shù)據(jù)挖掘技術(shù)可以精準(zhǔn)地分析客戶購買取向和興趣,提高商業(yè)決策的精準(zhǔn)性,市場營銷上的數(shù)據(jù)挖掘可以分為兩大類:數(shù)據(jù)庫營銷和貨籃分析,前者主要采用了交互式查詢、模型預(yù)測方法選擇潛在的用戶,這也是該項技術(shù)在應(yīng)用中的主要任務(wù),向潛在客戶自動推向內(nèi)心所需的產(chǎn)品[3]。還能夠系統(tǒng)地分析客戶層之間的關(guān)系,強(qiáng)化客戶管理,分析零售行業(yè)的發(fā)展趨勢,包括市場購買走向、季節(jié)性特點等因素。針對客戶的購買商品行為中發(fā)覺一系列關(guān)系。例如,如何采用打折券的形式提高銷售額度等。
4.2電信行業(yè)的應(yīng)用
電信行業(yè)本身就與數(shù)據(jù)掛鉤;因此,在數(shù)據(jù)挖掘技術(shù)應(yīng)用中有著巨大的優(yōu)勢。從行業(yè)整體情況來看,電信行業(yè)在價格競爭方面空前激烈,語音業(yè)務(wù)增長態(tài)勢放緩,急速增長的中國移動通信市場也面臨著很大的發(fā)展壓力。在中國電信行業(yè)改革背景下,加強(qiáng)了市場的競爭,電信市場競爭在未來會進(jìn)一步增強(qiáng),特別是在集團(tuán)客戶領(lǐng)域?qū)用嫔?。電信信息化、集團(tuán)客戶已成為了未來各大運(yùn)營商的競爭對手和實現(xiàn)經(jīng)濟(jì)增長的新引擎。隨著電信、移動、聯(lián)通全球業(yè)務(wù)競爭以及5G拍照的發(fā)放,各大運(yùn)營商給客戶提供更加精準(zhǔn)的解決方案也是大勢所趨,移動信息化已成為全球信息化服務(wù)的先導(dǎo)力量[4]。通過數(shù)據(jù)挖掘技術(shù)對大數(shù)據(jù)信息進(jìn)行挖掘,包括數(shù)據(jù)統(tǒng)計分析、業(yè)務(wù)數(shù)據(jù)分析、銷售數(shù)據(jù)分析、網(wǎng)絡(luò)數(shù)據(jù)分析、流量數(shù)據(jù)分析、交易數(shù)量分析、情報數(shù)據(jù)分析以及日常數(shù)據(jù)分析等,結(jié)合預(yù)測預(yù)警模型、數(shù)據(jù)試驗?zāi)P偷?,為客戶提供精?zhǔn)、優(yōu)質(zhì)的服務(wù),從而帶動新一輪的經(jīng)濟(jì)發(fā)展;但是,數(shù)據(jù)挖掘工具都是共享形式,運(yùn)營商也需要在基礎(chǔ)工具形式上進(jìn)行創(chuàng)新才能夠提高自身的市場競爭力。
4.3金融投資領(lǐng)域的應(yīng)用
投資評估與股票交易市場預(yù)測作為金融業(yè)發(fā)展的重要趨勢,通常采用模型預(yù)測技術(shù)展開分析,包括統(tǒng)計回歸技術(shù)等。由于金融市場風(fēng)險較大,在展開投資之前需要對各項數(shù)據(jù)進(jìn)行分析,有效規(guī)避這種風(fēng)險,明確最佳的投資方向。從客觀角度分析,任何事物發(fā)生都有一定趨勢和規(guī)律,可以進(jìn)行預(yù)測,從投資評估到股票預(yù)測等諸多領(lǐng)域,可以通過挖掘數(shù)據(jù)信息推導(dǎo)出各個領(lǐng)域的發(fā)展情況,有效處理數(shù)據(jù),深度挖掘數(shù)據(jù)間的關(guān)系,采用相關(guān)模式進(jìn)行合理預(yù)測。鑒別金融信息中的欺詐行為。例如,商業(yè)銀行領(lǐng)域存在諸多惡意詐騙行為、惡意透支行為,這對銀行發(fā)展有著極大的威脅,通過數(shù)據(jù)挖掘和預(yù)測預(yù)警模型可以鑒別惡意行為,一旦發(fā)現(xiàn)會發(fā)出警報提醒決策人員,當(dāng)今很多軟件都是針對銀行欺詐展開科學(xué)評估,探究交易風(fēng)險發(fā)生的可能[5]。
5結(jié)語
數(shù)據(jù)挖掘技術(shù)作為一種十分重要的工具和手段,雖然受到技術(shù)的制約數(shù)據(jù)挖掘技術(shù)還不夠成熟;但是,可以挖掘一些風(fēng)險行為、風(fēng)險用戶、行業(yè)趨勢等信息。數(shù)據(jù)挖掘技術(shù)在當(dāng)今各個行業(yè)中的應(yīng)用都十分廣泛,可以解決一些十分棘手的問題,并且在未來發(fā)展中會發(fā)揮更大的效益。
參考文獻(xiàn)
[1]李卓陽.計算機(jī)數(shù)據(jù)挖掘技術(shù)的開發(fā)及應(yīng)用[J].電腦迷,2016(10):111-112.
[2]王洪飛.計算機(jī)數(shù)據(jù)挖掘技術(shù)的開發(fā)及其應(yīng)用探究[J].中小企業(yè)管理與科技,2016(9):147-148.
[3]米娜瓦爾,努拉合買提.計算機(jī)數(shù)據(jù)挖掘技術(shù)的開發(fā)及其應(yīng)用探究[J].信息與電腦,2016(20):146-147.
[4]夏天維.計算機(jī)數(shù)據(jù)挖掘技術(shù)的開發(fā)及其應(yīng)用探究[J].決策與信息,2016(9):233-234.
[5]沈文淵,丁穎.計算機(jī)數(shù)據(jù)挖掘技術(shù)的開發(fā)及其應(yīng)用探究[J].信息系統(tǒng)工程,2014(6):130-132.
作者:楊繼武 單位:河北旅游職業(yè)學(xué)院