{首页主词},&

前言：想要寫出一篇引人入勝的文章？我們特意為您整理了臨床醫(yī)學(xué)數(shù)據(jù)挖掘分析范文，希望能給你帶來靈感和參考，敬請(qǐng)閱讀。

臨床醫(yī)學(xué)數(shù)據(jù)挖掘分析

1DM概述

DM是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)（knowledgediscoveryindatabase，KDD）不可缺少的一部分，而KDD是將未加工的數(shù)據(jù)轉(zhuǎn)換為有用信息的整個(gè)過程（圖1），包括一系列轉(zhuǎn)換步驟，從數(shù)據(jù)的預(yù)處理到DM的后處理［1］。其最早是在1989年舉行的第11屆美國(guó)人工智能協(xié)會(huì)（americanassociationforartificialintelli－gence，AAAI）學(xué)術(shù)會(huì)議上提出的，是近年來隨著人工智能和數(shù)據(jù)庫(kù)技術(shù)的發(fā)展而出現(xiàn)的一門新興技術(shù)［4］，其開發(fā)與研究應(yīng)用是建立在先進(jìn)的計(jì)算機(jī)技術(shù)、超大規(guī)模數(shù)據(jù)庫(kù)的出現(xiàn)、對(duì)巨大量數(shù)據(jù)的快速訪問、對(duì)這些數(shù)據(jù)應(yīng)用精深的統(tǒng)計(jì)方法計(jì)算的能力這4個(gè)必要條件基礎(chǔ)上的，以數(shù)據(jù)庫(kù)、人工智能和數(shù)理統(tǒng)計(jì)三大技術(shù)為支柱［5］。

2DM的基本模式及在臨床醫(yī)學(xué)中的應(yīng)用

DM的任務(wù)通常有兩大類：預(yù)測(cè)任務(wù)和描述任務(wù)。預(yù)測(cè)任務(wù)主要是根據(jù)其他屬性的值，預(yù)測(cè)特定屬性的值，主要有分類（classificaion）和回歸（regression）2種模式。描述任務(wù)的目標(biāo)是導(dǎo)出概括數(shù)據(jù)中潛在聯(lián)系的模式（相關(guān)、趨勢(shì)、聚類、軌跡和異常），主要有關(guān)聯(lián)分析、聚類分析、異常檢測(cè)3種模式［1］。

2．1預(yù)測(cè)建模（predictivemodeling）

涉及以說明變量函數(shù)的方式為目標(biāo)變量建立模型。有2種模式：分類和回歸。分類是用于預(yù)測(cè)離散的目標(biāo)變量。在臨床醫(yī)學(xué)中，疾病的診斷和鑒別診斷就是典型的分類過程。Melgani和Bazi［6］以美國(guó)麻省理工學(xué)院的心律失常數(shù)據(jù)庫(kù)的心電圖為原始數(shù)據(jù)，采用不同分類模型，對(duì)心電圖的5種異常波形和正常波形進(jìn)行分類。回歸是用于預(yù)測(cè)連續(xù)的目標(biāo)變量。回歸可廣泛應(yīng)用于醫(yī)學(xué)研究中如醫(yī)療診斷與預(yù)后的判別、多因素疾病的病因研究等。Burke等［7］采用各種回歸模式對(duì)影響乳腺癌患者預(yù)后的因素進(jìn)行回歸分析。

2．2關(guān)聯(lián)分析（associationanalysis）

用來描述數(shù)據(jù)中強(qiáng)關(guān)聯(lián)特征的模式，用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的令人感興趣的聯(lián)系。所發(fā)現(xiàn)的模式通常用蘊(yùn)函規(guī)則或特征子集的形式表示。關(guān)聯(lián)分析主要應(yīng)用于DNA序列間相似搜索與比較、識(shí)別同時(shí)出現(xiàn)的基因序列、在患者生理參數(shù)分析中的應(yīng)用、疾病相關(guān)因素分析等［5］。有學(xué)者對(duì)37000例腎病患者進(jìn)行了追蹤觀察，監(jiān)測(cè)腎小球過濾率、尿蛋白水平和貧血狀況，結(jié)果發(fā)現(xiàn)以上3種生理指標(biāo)中的任何一項(xiàng)異常都伴隨著心臟病發(fā)病率的上升，這種腎病與心臟病“關(guān)聯(lián)”的現(xiàn)象可發(fā)生在腎病的早期階段［8］。

2．3聚類分析（clusteranalysis）

旨在發(fā)現(xiàn)緊密相關(guān)的觀測(cè)值組群，使得與屬于不同簇的觀測(cè)值相比，屬于同一簇的觀測(cè)值相互之間盡可能類似。聚類分析在醫(yī)學(xué)領(lǐng)域中主要用于DNA分析、醫(yī)學(xué)影像數(shù)據(jù)自動(dòng)分析以及多種生理參數(shù)監(jiān)護(hù)數(shù)據(jù)分析、中醫(yī)診斷和方劑研究、疾病危險(xiǎn)因素等方面［5］。羅禮溥和郭憲國(guó)［9］利用聚類分析對(duì)云南省25縣（市）現(xiàn)有的112種醫(yī)學(xué)革螨的動(dòng)物地理區(qū)劃進(jìn)行分析，發(fā)現(xiàn)云南省醫(yī)學(xué)革螨的分布明顯地受到自然地理區(qū)位和特定的自然景觀所制約。

2．4異常檢測(cè)（anomalydetection）

用來識(shí)別其特征明顯不同于其他數(shù)據(jù)的觀測(cè)值。這樣的觀測(cè)值稱為異常點(diǎn)（anomaly）或離群點(diǎn)（outlier）。異常檢測(cè)的目標(biāo)是發(fā)現(xiàn)真正的異常點(diǎn)，避免錯(cuò)誤地將正常對(duì)象標(biāo)注為異常點(diǎn)。換言之，一個(gè)好的異常檢測(cè)器必須具有高檢測(cè)率和低誤報(bào)率，其主要應(yīng)用于檢測(cè)欺詐、網(wǎng)絡(luò)攻擊、疾病的不尋常模式等［2］。

3DM的方法及研究趨勢(shì)

在DM算法的理論基礎(chǔ)上，DM常用方法：（1）生物學(xué)方法包括人工神經(jīng)網(wǎng)絡(luò)、遺傳算法等；（2）信息論方法包括決策樹等；（3）集合論方法包括粗糙集理論、近鄰算法等：（4）統(tǒng)計(jì)學(xué)方法；（5）可視化技術(shù)等方法。DM經(jīng)過十幾年的蓬勃發(fā)展，很多基本算法已較為成熟，在其基礎(chǔ)上進(jìn)行更加高效的改進(jìn)和算法提高顯得比較困難，如傳統(tǒng)的頻繁模式和關(guān)聯(lián)規(guī)則挖掘在近幾年的國(guó)際著名會(huì)議和期刊上已不再作為重要的研究主題［10］。近年來眾多國(guó)內(nèi)外知名學(xué)者相繼探討DM的最新方向。Yang和Wu［11］匯總形成了DM領(lǐng)域十大挑戰(zhàn)性問題報(bào)告；Agrawa等［12］探討了DM的現(xiàn)狀并展望了未來的發(fā)展方向，Piatetsky－shapiro等［13］討論了DM新的挑戰(zhàn)性問題，并主要探討在生物信息學(xué)（bioinformatics）、多媒體挖掘（multimediamining）、鏈接挖掘（1inkmining）、文本挖掘（textmining）和網(wǎng)絡(luò)挖掘（webmining）等領(lǐng)域所遇到的挑戰(zhàn)。與國(guó)外相比，DM在國(guó)內(nèi)的研究和應(yīng)用始于20世紀(jì)90年代初，主要是對(duì)DM方法的介紹和推廣，20世紀(jì)90年代后期和21世紀(jì)初進(jìn)入蓬勃發(fā)展階段，當(dāng)前DM已成為大型企業(yè)進(jìn)行經(jīng)營(yíng)決策時(shí)所必須采用的方法，證券和金融部門已將DM作為今后重點(diǎn)應(yīng)用的技術(shù)之一。有學(xué)者以HIS和LIS數(shù)據(jù)庫(kù)信息為數(shù)據(jù)源，人工神經(jīng)網(wǎng)絡(luò)為工具，概率論為依據(jù)，對(duì)常規(guī)檢驗(yàn)結(jié)果和質(zhì)譜指紋圖數(shù)據(jù)進(jìn)行DM并應(yīng)用于臨床實(shí)踐［14－16］。

4臨床醫(yī)學(xué)DM的特點(diǎn)

DM作用于醫(yī)學(xué)數(shù)據(jù)庫(kù)跟挖掘其他類型的數(shù)據(jù)庫(kù)相比較，具有其自己的特點(diǎn)。以電子病歷、醫(yī)學(xué)影像、病歷參數(shù)、化驗(yàn)結(jié)果等臨床數(shù)據(jù)為基礎(chǔ)建立的醫(yī)學(xué)數(shù)據(jù)庫(kù)是一個(gè)復(fù)雜類型數(shù)據(jù)庫(kù)，這些臨床信息具有隱私性、多樣性、不完整性、冗余性、異質(zhì)性和缺乏數(shù)學(xué)性質(zhì)等自身的特殊性和復(fù)雜性，使得醫(yī)學(xué)DM與常規(guī)DM之間存在較大差異。醫(yī)學(xué)DM方法包括統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫(kù)方法等。將這些不同的挖掘方法應(yīng)用到疾病的診斷、治療和預(yù)后分析以及醫(yī)療管理等各個(gè)領(lǐng)域，從疾病的診治、醫(yī)療質(zhì)量管理、醫(yī)院管理、衛(wèi)生政策研究與醫(yī)療資源利用評(píng)價(jià)等方面去獲取諸如概念、規(guī)律、模式等相關(guān)知識(shí)；用于對(duì)疾病進(jìn)行分類、分級(jí)、篩選危險(xiǎn)因素、決定治療方案和開藥數(shù)量等［5］。

5我國(guó)醫(yī)學(xué)DM的現(xiàn)狀及展望

生命科學(xué)的快速發(fā)展以及系統(tǒng)生物學(xué)（systembiology）的出現(xiàn)和蓬勃發(fā)展為研究現(xiàn)代醫(yī)學(xué)模式和中醫(yī)藥學(xué)提供了可能的新思路和新方法。通過基因組學(xué)、蛋白質(zhì)組學(xué)等方法闡述復(fù)雜生命迫切需要DM等相關(guān)計(jì)算分析方法處理海量的基因、蛋白、染色質(zhì)數(shù)據(jù)如基因調(diào)控網(wǎng)絡(luò)的研究、蛋白質(zhì)交互網(wǎng)絡(luò)的挖掘等［10］。在我國(guó)醫(yī)學(xué)數(shù)據(jù)極為豐富，但運(yùn)用DM技術(shù)分析和處理這些數(shù)據(jù)資源的研究尚處于起步階段。有些大學(xué)（如第二軍醫(yī)大學(xué)、哈爾濱醫(yī)科大學(xué)、瀘州醫(yī)學(xué)院等）已經(jīng)面向醫(yī)學(xué)本科生及研究生開設(shè)了相關(guān)課程，上海交通大學(xué)醫(yī)學(xué)院也向醫(yī)學(xué)專業(yè)研究生開設(shè)了《生物醫(yī)學(xué)數(shù)據(jù)挖掘》的課程［17］，瀘州醫(yī)學(xué)院檢驗(yàn)醫(yī)學(xué)系開設(shè)了《檢驗(yàn)醫(yī)學(xué)信息學(xué)》課程，從檢驗(yàn)醫(yī)學(xué)信息的來源、綜合、提煉和利用過程均進(jìn)行了詳細(xì)介紹［18］。這些課程的開設(shè)旨在使學(xué)生及醫(yī)學(xué)科學(xué)研究者了解這些知識(shí)，能理性地應(yīng)用這些數(shù)學(xué)工具，并建立和其他學(xué)科領(lǐng)域研究人員合作的基礎(chǔ)。醫(yī)學(xué)DM是一門涉及面廣、技術(shù)難度大的新興交叉學(xué)科，是計(jì)算機(jī)技術(shù)、人工智能、統(tǒng)計(jì)等技術(shù)手段與現(xiàn)代醫(yī)療相結(jié)合的產(chǎn)物，需要從事計(jì)算機(jī)、統(tǒng)計(jì)學(xué)的科研人員與廣大醫(yī)務(wù)工作者之間的通力合作。隨著理論研究的深入和進(jìn)一步的實(shí)踐摸索，醫(yī)學(xué)DM必將在疾病的診療、醫(yī)學(xué)科研與教學(xué)以及醫(yī)院管理等方面發(fā)揮不可估量的巨大作用。

臨床醫(yī)學(xué)數(shù)據(jù)挖掘分析

相關(guān)熱門標(biāo)簽

相關(guān)文章閱讀

相關(guān)期刊推薦

臨床醫(yī)學(xué)

中華臨床醫(yī)學(xué)

中國(guó)臨床醫(yī)學(xué)

浙江臨床醫(yī)學(xué)

江蘇臨床醫(yī)學(xué)

精選范文推薦