前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的人工智能在醫療方面的挑戰主題范文,僅供參考,歡迎閱讀并收藏。
其一是信息不流通的問題,患者在不同的醫院,需要那辦理不同的就診卡;任何一家醫院的醫生看不到患者多次就診的完整臨床診療過程,無法準確掌握患者完整診療過程和健康狀況。騰訊先后通過微信公眾號等產品,建立信息共享的醫療電子檔案,以解決“信息孤島”的問題。
其二是“看病難”的問題,名醫的需求量很大,但是能診斷的病人有限。馬化騰認為根源在于“醫生怎么樣才能夠釋放自己的能力”,希望通過信息化的手段,打造一個醫療團隊,實行科學化的分層、分級,將一些簡單的診斷交由助理、護士來處理,最后由名醫診斷。這樣可以成倍擴大醫療產能。
騰訊的“醫療能力超市”
這幾年,在投資的同時,騰訊嘗試做微信智慧醫院、糖大夫、騰愛醫生、覓影等,涉及了支付模式創新、慢病管理、人工智能等多個領域。
1. 智慧醫院
早在2013、2014年,騰訊便提出微信智慧醫院的概念,做的事情也很簡單,依托于微信公眾號的線上能力,幫助醫院做掛號、信息流轉等基礎醫療服務;2015年——2016年,微信智慧醫院的2.0版本提出以醫院作為核心體系,挖掘醫院流程里線上信息化、數字化以及互聯網化能力;從2017年開始,以小程序、公眾號作為整體服務入口,醫保、商保、區塊鏈技術、AI、人工智能在醫院落地,這是智慧醫院3.0版本。
2. 慢病管理
2015年,騰訊推出了一款檢測血糖的智能硬件產品“糖大夫”,這算是騰訊第一次直接出手,那一年也是騰訊投資的高峰期。2016年3月25日,在“互聯網+慢病管理”貴州模式會上,騰訊正式公布騰愛醫療戰略布局,計劃用智能終端、醫生平臺、“健康基金+醫保”的互聯網金融、大數據這“四駕馬車”連接醫療。但鈦媒體注意到,近兩年騰愛醫生的相關動態逐漸變少。
3. 人工智能
2017年8月,推出AI產品“覓影”,同年11月科技部公布了“首批國家人工智能開放創新平臺名單”,在AI+醫療方向上,將依靠騰訊公司建設醫療影像國家新一代人工智能開放創新平臺。
“我們沒辦法改變供需矛盾、沒辦理控制需求,我們只能用科技的手段,用互聯網的能力來緩解供求之間的矛盾,提升醫院的效率。怎樣幫醫院做到這樣的事情?這一定是醫院主導,騰訊助力?!彬v訊副總裁陳廣域坦言,騰訊不應該做的是包辦、代辦,“我們希望合作方把我們當做一個超市,可以選擇需要的能力,我們不能強迫你們選擇不喜歡的東西。”
目前,騰訊醫療布局分為投資和自建兩種方式。在自建中,騰訊分為兩個團隊,一個是騰訊醫療團隊,負責的業務包括糖大夫、騰愛醫生、企鵝醫典、醫療云等,主要聚焦于醫療業務本身。另一個團隊是“互聯網+醫療”業務,該業務又分為兩大板塊:一個是微信智慧醫院,包括掛號、處方流轉、醫療咨詢,利用互聯網工具提升醫院、醫生效率;另一個方向是騰訊覓影,包括AI醫療影像、AI輔助診斷,探索AI如何進入到醫療比較核心的領域。
AI醫療的決心——騰訊覓影
精英團隊打造精品應用
目前,國內醫療AI創業公司也多以影像識別為主,據統計,AI醫學影像的創業公司多達幾十家,醫學影像識別成為醫療AI領域里較為成熟的垂直細分領域。醫學影像成為“一枝獨秀”的原因在于,影像數據獲取相對容易,三甲醫院設備都是GPS設備、全球頂尖設備。原始數據是電子化的,對于初創公司來說,一個是圖像的質量,一個是電子化獲取程度,都相對容易?!?/p>
2017年8月,騰訊了AI醫學影像產品“騰訊覓影”,利用人工智能醫學影像技術輔助醫生實現早期食管癌篩查,憑借“覓影”騰訊正式進軍醫療人工智能,加上早前的“百度醫療大腦”、阿里“ET醫療大腦”,BAT已經全部入局醫療人工智能。
騰訊在醫療領域有三個方面的積累:用戶服務、數據能力、資源整合。而醫療AI以及影像識別是在學術科研上的應用;此外,在用戶服務上,騰訊也涉及了預約掛號、在線問診等業務。
騰訊覓影整合了騰訊內部幾個頂尖的AI的團隊,包括我們的互聯網+部門,包括騰訊的AILab、騰訊優圖實驗室和架構平臺部,可以說是匯集了騰訊最精英的人工智能技術團隊。
從覓影產品的后端來看,是有一個AI醫學實驗室,除了頂級的人工智能算法專家之外,醫學實驗室也聘請了全國頂級的一些醫療影像科的醫生和很多的全科醫生,同時也會跟很多的醫療機構和醫學院校以及各個地方政府共同去合作。
產品技術的應用
當前,覓影可以去輔助于這幾項癌癥:食道癌、肺癌、宮頸癌、乳腺癌和糖尿病引起的視網膜病變。
騰訊覓影可以把醫生或PET系統(正電子發射計算機斷層顯像技術)里面的影像傳到騰訊搭建的系統當中,再利用人工智能技術和算法判斷這個片子是不是高風險的早期病癥,診斷準確率達到90%以上。
騰訊覓影是怎么做到呢?在訓練數據的采集方面,騰訊團隊集中采集了幾十萬張中國人的同一病癥片子。雖然全球有很多公司在做AI醫療影像,甚至有一些片子可能都有一些開源的,從網上可以下載到,但很多片子都是外國病人的,外國的數據去訓練中國人的模型,準確率還是比較低的。
因為每種病灶只有一小塊,大多數的區域是一個正常的,騰訊團隊會把這個醫療原始的圖片切成很小很多小的塊,分別去估計每一個小塊患病的概率,最后得出一個診斷結論。
從覓影的實際應用場景來看,一方面,騰訊在與三甲醫院合作,提高三甲醫院醫生看病的效果;另一方面,團隊希望更多地與基層醫院進行合作,提高基層醫院整個的診療水平。同時,覓影產品也會跟騰訊基金會合作,通過一些公益基金的項目,利用技術給國家和人民造福。
騰訊智慧醫院3.0的創新解決方案
微信智慧醫院3.0亮點頗多:不僅實現了連接、支付、安全保障和生態合作的四大升級,同時還加入了AI、區塊鏈等全新技術,全面開放騰訊核心能力。
1. 連接升級
通過整合人社、醫院、藥企、保險等資源共同聯動,提供在線咨詢、處方流轉、商保直賠等服務。以處方流轉為例,在藥品零加成政策背景下,基于騰訊支付、AI人臉識別、區塊鏈等核心技術能力,連接醫院、流通藥企及用戶,實現電子處方安全流轉、全流程可追溯,助力醫藥分離。用戶可選擇藥店取藥、藥店配送到家等多種購藥方式。
2. 支付升級
支付場景升級,包括醫院、藥店、社康、保險更多場景均支持微信支付。比如,在醫院可以使用微信公眾號實現在線支付、處方單掃碼付、終端機快捷支付等;在保險場景,可在線使用社保個賬購買健康保險;在藥店、社康場景下,可實現在線刷碼支付,免帶卡便捷購藥等。同時,支付方式將醫保、商保、自費等全部納入,讓消費者實現無縫支付。
3. 安全升級
微信智慧醫院3.0能夠全面保障實名安全、支付安全、數據安全和風控安全。比如,一直以來,醫療數據安全和患者隱私保障是醫療行業的核心問題。而區塊鏈所擁有的多方共識、不可篡改、多方存證、隨時可查等優勢,使其成為醫療數據保管的最佳方案。智慧醫院3.0就將運用區塊鏈技術,為監管方、醫院、流通藥企搭建了一條聯盟鏈,保障數據、隱私安全的同時,實現鏈上數據防篡改。
4. 生態合作升級
除了在自身能力方面,微信智慧醫院3.0更加注重整個生態的合作共贏。從資金、資源、技術、產品四大維度,與合作伙伴聯手,實現合作升級,推動業務有效落地,合力打造互聯網+智慧醫院的建設。
尾聲與展望
騰訊的高管們曾多次公開強調:“互聯網+醫療”是為醫者賦能,需要發揮“連接、信任、融合”三大核心要素的作用,提升醫療服務效率,建立“醫患”信任感,真正解決醫療行業的“痛點”,共建融合的醫療生態體系。
關鍵詞:數據挖掘;醫學數據;神經網絡;關聯規則
中圖分類號:TP274文獻標識碼:A文章編號:1009-3044(2011)15-3495-03
Summary of Medical Data Mining
WANG Ju-qin
(Department of Computer Technology, Wuxi Institute of Technology, Wuxi 214121, China)
Abstract: Medical data mining is necessary for improving the management level of medical information, providing scientific decision-making for the diagnosis and treatment of disease, and promoting the development of medicine. This paper mainly introduces the characters of mining medical data, the application and methods used in medicine, and also the application prospect medical field is outlined.
Key words: data mining; medical data; neural network; association rules
1 數據挖掘的產生
1.1 產生背景
在當今信息化和網絡化的社會條件下,隨著計算機、數據庫技術的迅速發展以及數據庫管理系統的廣泛應用,各行各業都開始采用計算機以及相應的信息技術進行管理和運營,由此積累了大量的數據資料;另外,互聯網的發展更是為我們帶來了海量的數據和信息。但是,這些存儲在各種數據媒介中的數據在缺乏強有力的工具的情況下,已經超出了人的理解和概括能力,導致收集在大型數據庫中的數據變成了“數據墳墓”,并帶來了一大堆問題:比如信息過量,難以消化;信息真假難以辨識;信息安全難以保證;信息形式不一致,難以統一處理,等等[1]。而激增的數據背后隱藏著許多重要的信息,決策者的決定往往不是基于數據庫中的有用信息,而是憑直覺,因為決策者缺乏從海量數據中提取有價值知識的工具。數據和所需信息之間的鴻溝要求系統地開發數據挖掘工具,將數據墳墓轉化成知識的“金塊”,人們迫切需要新一代的計算技術和工具來挖掘數據堆中的有用信息。
1.2 可行性
近十余年來,計算機和信息技術有了長足發展,產生了許多新概念和新技術,如更高性能的計算機和操作系統,因特網,數據倉庫,神經網絡等等。這使得數據挖掘技術在具備了市場需求的條件下,同時也具備了技術基礎。在這樣的背景下,數據挖掘技術就應運而生了。
2 醫學數據概述
2.1 醫學數據的內容
計算機信息管理系統在醫療機構的廣泛應用促進了醫學信息的數字化, 同時電子病歷和病案的大量應用、醫療設備和儀器的數字化,使得醫學領域數據的內容不斷擴大,涵蓋了醫療過程和醫學活動的全部數據資源。醫學數據資料主要來源于統計報表、醫療衛生工作記錄、專題實驗或者調查記錄、專題性的資料等三個方面[2],其中主要包括完整的人類遺傳密碼信息,大量關于病人的病史、診斷、檢驗和治療的臨床信息,藥品管理信息、醫院管理信息等。
2.2 醫學數據的特點
1)模式的多態性。首先表現為表達格式的多樣性。醫學信息包括純數據(體征參數,化驗結果),信號(腦電信號,機電信號),圖像(B超,CT等醫學成像設備的檢驗結果),文字(病人的身份記錄,癥狀描述),以及動畫、語音和視頻信息。其次,數據表達很難標準化,對各種病例狀態的描述也比較模糊,沒有統一的標準和要求,不使用完全相同的專有名詞,甚至對臨床數據的解釋都是用非結構化的語言,等等[3]。模式多態性是醫學數據區別于其他領域數據的最根本和最顯著的特性,同時這種特性也在一定程度上加大了數據挖掘的難度和速度。
2)不完整性。醫學數據不可能全面地反映任何一種疾病的全部信息,因此也不可能通過挖掘,針對某一種疾病獲取完整可靠的治療和解決方案。這首先是因為醫學數據相關信息(例如病例等)的記錄存儲還不是很完備和充分,還不能夠達到完全總結出待挖掘規律的數量[3]。同時,即使記錄在案的信息,其本身的表達方式就比較模糊,不可能通過精確值等方法來呈現,因此這些原因形成了醫學數據的不完整性。
3)時間性[3]。一般情況下針對病人醫療活動的記錄信息都具有一定的時間特性,并且會隨著時序環境的變化而產生不同的表達效果;另外諸如醫學檢測的波形圖像等信息也都是以時間函數為基礎進行表達的。
4)冗余性。醫學數據信息中有大量的相同部分被重復記錄下來,比說一些常見疾病,病人的癥狀表現一般都比較相似,檢查和化驗的結果以及最后的治療措施等絕大部分也因此而相同。因此即使病人的個人信息等存在較小差異,其記錄的大部分醫學數據都表現為完全相同或者大部分相同,這就體現為冗余性[3]。這種數據特點不但迅速增加了此類數據本身的數量,同時也給挖掘操作帶來了更大的困難,應該在此之前就對這些冗余信息進行清理和過濾,去除不必要的重復部分,以簡化挖掘操作的實現過程。
5)隱私性[8]。顯然,記錄的醫學信息中,許多有關病人個體的信息涉及到社會倫理,法律以及個人所有權等,具有一定的隱私性,從社會,醫學以及病人本身等方面來說都必須進行保護,不能外泄。但是當數據存儲系統受到一些不可預料的侵入時,或者當其隱私保護的要求和挖掘操作的開放共享要求等產生矛盾時,勢必會帶來隱私性、安全性和機密性方面的問題。這就要求在進行醫學數據挖掘時,必須嚴格以保護數據隱私為基礎,
2.3 醫學數據挖掘的可行性和必要性
2.3.1 必要性
眾所周知,龐大的醫學數據中蘊含著許多非常有價值的信息資源,這些資源對于相關病例的診斷治療以及醫學方面的研究發展都具有非常重要的意義。但是從目前的狀況來看,大多數醫學機構和人員對這些存儲數據的利用還遠遠沒有達到預期的目標和效果,僅局限于一些低端的操作和使用,比如簡單的數據錄入,數據的查詢、修改、刪除等,而并沒有對收集的數據進行系統的分析研究,以從中得出適用于一般的規律特點,所以無法對相關病例的后繼診斷提供科學的決策輔助,對醫學學科的研究工作也沒有起到相應的促進作用[4]。針對這些情況,在數據挖掘技術已經日漸成熟的背景下,將數據挖掘理論應用于醫學,通過對海量的醫學數據進行分析,總結各種醫治方案的療效,提取隱含在其中的有價值有意義的信息,更好地為醫院的決策管理、醫療、科研和教學服務,對于醫生明確診斷、治療病人及促進疾病和健康的研究都具有極其重要的意義。
另一方面, 隨著人們生活水平的提高,保健意識的增強以及我國醫療體制改革的深入,基于計算機技術、通信技術的遠程醫療和社區醫療,已經逐漸成為各大醫院的另一個潛在市場。如何對醫學數據庫進行自動提升和處理, 使其更好地為遠程醫療和社區醫療提供全面的、準確的診斷決策和保健措施,已成為促進醫院發展、提高服務質量而必須解決的新問題。而這顯然也是和數據挖掘技術有著密不可分的聯系。
2.3.2 可行性
數據挖掘技術在經過多年的發展之后已經形成相對成熟的技術體系,比如在數據挖掘設計、數據抽取以及聯機分析處理技術等方面都有一定的進展[4]。同時,數據挖掘技術已經在各個國家的電信、制造、零售、金融等各個領域得到了較為深入的應用。這些成功的應用也提供了可借鑒的寶貴經驗。
同時國家對醫院信息化發展也給予了高度重視,提供政策、經濟和技術上的大力支持,為醫學數據挖掘技術的發展應用奠定了物質基礎和技術保障。
3 醫學數據挖掘的發展狀況
3.1 發展現狀
自20世紀80年代開始至今,數據挖掘技術產生至今有十幾年的時間,在商業以及工業生產中已經得到了較為廣泛的應用,也取得了比較顯著的經濟效益和社會效益,但是數據挖掘技術在醫學領域的應用還處在起步階段[5]。同時,醫學數據挖掘也是一門涉及面廣、技術難度大的新興交叉學科,不但需要具有相關信息處理能力的技術科研人員,還需要相關的醫務工作者和醫療機構提供醫學數據信息和專業醫療活動支持,并且要在此基礎之上實現醫學信息資源和挖掘技術的整合,實現技術上的突破。
3.2 應用領域
1)醫療活動輔助診斷。通過對歷史數據的處理和挖掘,能夠發現出針對特定病例的典型規律。一方面數據量內容龐大,范圍廣泛,所以這些規律具有較好的普遍性;另一方面,根據患者全面的指標記錄和數據信息可以得到比較客觀的診斷結論,排除了人為因素的干擾,能夠更加有利于提高醫學治療活動的有效性。比如將粗糙集理論和算法應用于中醫類風濕和實體性肺病的診斷,基于人工神經網絡理論以及模糊邏輯開發的心血管疾病診斷工具[6],都大大提高了診斷的正確率。
2)醫學信息處理。醫院信息主要包括醫院等醫療機構的內部管理信息(設備,藥械,財務)以及以患者為中心的信息(臨床病例、診斷、治療過程)。在初級操作階段的基礎上,通過對信息的數據關聯性分析,能夠預測未來發生發展趨勢和輔助診斷信息,比如藥品的使用頻率,某種疾病的發生和治療規律等。例如應用粗糙集理論預測早產,可以將準確率從人工預測的17~38%提高到68~90%[6]。
3)醫療質量管理。醫療機構的服務要求在不斷提高,質量效率問題也越來越被重視。醫療質量的核心是數據、標準、計劃,這些都可以用不同的數據指標來衡量。通過數據挖掘技術,可以發現新的指數規律,檢驗其有效性,并提煉調整質量方案。例如年齡因素和治療方法的關系延長了標準住院時間,可以考慮修改治療方案等??梢院苊黠@地發現,數據挖掘技術可以幫助發現有關提高臨床服務效率以及質量潛力的證據。
4)醫藥研發技術支持。在新藥的研究開發過程中,關鍵環節是先導化合物的發掘,其中一種基本途徑就是隨機篩選與意外發現。但是很顯然這種技術實現的周期比較漫長,肯定提高時間成本和經濟成本。而在數據挖掘技術的支持下,可以通過數據信息的歸納總結,確定藥效信息,大大縮短新藥的研發周期[6]。
5)生物醫學(DNA)。人類24對染色體的基因測序已經全部完成,標志著人類基因研究已經進入新的發展階段。接下來要完成的重要任務就是對分析DNA序列模式。比如,遺傳疾病的發生和人體基因密不可分,要掌握基因代碼的微觀結構,就需要對DN段進行細致的了解和測序,也就是要從大量的DNA數據中找到具有一般規律的組合序列。目前,使用數據挖掘技術已經在很多方面對DNA的分析作出了很多貢獻,例如,DNA序列間相似搜索和頻度統計,可以識別帶病樣本和健康樣本中基因序列的差異[6];關聯分析可以幫助確定在樣本中同時出現的基因種類,有利于更全面地發現基因間的交叉聯系和致病規律;路徑分析能夠發現不同階段致病基因的作用規律,從而提高藥物治療的效率。
6)醫學圖像應用。主要應用于目組織的特征表達,即圖像特征自動提取和模式識別。例如,CT,PET,SPECT等診斷工具在醫學領域應用越來越廣泛,而在數據挖掘技術的幫助下,醫學圖像分析的功能也越來越強大[6]。運用基于貝葉斯分類的數據挖掘模式對心肌SPECT圖像能夠進行高質量的分析和分類診斷。
7)其他方面的應用。數據挖掘還應用于毒理學方面以及藥物副作用研究方面。
4 醫學數據挖掘的方法技術
4.1 關鍵問題
1)數據預處理。如前所述,海量的醫學原始數據中包含大量的冗余、模糊以及不完整信息,必須首先進習慣清理和過濾,以確保數據的一致性和完整性。
2)信息融合技術。因為醫學信息的格式繁多,包括文字,數據,圖像,語音,視頻等等,因此需要針對不同類型的信息采用不用的處理技術,并且在需要的時候可以對結果進行綜合和分析。
3)快速的、魯棒的挖掘算法[7]。醫學數據的挖掘面向海量的存儲信息,處理的時間和技術要求都比較高,因此如何提高效率非常重要。同時基于數據類型動態變化,要求挖掘算法具有一定的容錯性和魯棒性。
4)提供知識的準確性和可靠性。在保證挖掘算法的處理結果具有較高準確率和可靠性的前提下,所得到的信息才能夠為醫療活動和管理提供科學客觀的決策幫助,在實際中得到很好的應用。
4.2 主要技術實現
1)自動疾病預測趨勢和行為。通過數據挖掘技術,對有關人體病例的體征數據進行分析對比,并從中分析出相應的關系和規律,從而對疾病的預防、發生等進行預測。采用的主要技術有線性、非線性和廣義的回歸模型,以及神經網絡和模糊控制技術[8]。其中,人工神經網絡技術是一種模仿生物神經網絡的、以人工神經元為基本運算單位的互聯分布式存儲信息的智能信息處理系統,具有很強的自組織性、魯棒性和容錯性。利用相關理論技術,能夠找出服用抗精神藥物與心肌炎發作的關系,對危及生命的心律失常進行歸類,動態檢測病人的麻醉深度和控制劑用量等;而模糊系統是建立在模糊數學基礎上的一種推理方式,經常與神經網絡或最近鄰技術聯合起來應用,可以實現從心跳中鑒別心室過早收縮,分析肝臟超聲圖像等功能。
2)關聯分析。簡單地說,關鍵就是兩個或者多個變量的取值之間存在的某種規律性。關聯技術的目的是通過多維數據分析技術找出其中隱藏的關聯規則。有時并不知道或者不確定數據中的關聯函數,因此關聯分析生成的規則帶有可信度[8]。最著名的APRIORI關聯規則發現算法中,首先就是識別所有的頻繁項目集,也就是不低于用戶最低支持度的項目集,然后再從頻繁集中構造不低于用戶最低信任度的規則。在此基礎之上,又出現了動態項目集技術DIC算法,發現頻繁項目集的劃分算法―分治法等。在實際情況下,關聯規則還需要進一步泛化,以發現更有用的價值。目前在醫學上,關聯分析是糖尿病數據庫分析課題中應用最廣泛和有效的工具。
3)聚類分析。把數據庫中中的記錄劃分為一系列有意義的子集成為聚類,包括統計方法,機器學習方法,神經網絡方法,面向數據庫的方法,對于采集到的醫學信息進行處理的一個重要步驟就是聚類分析。聚類技術主要包括傳統的模式識別方法和數學分類學,例如決策樹歸納,貝葉斯分類,神經網絡技術,基于知識的案例推理,遺傳算法,粗糙集等[8]。其中,粗糙集理論的出發點是根據目前已有的對給定問題的知識將問題的論域進行劃分,然后對劃分的每一組成部分確定其對某一概念的支持程度,用“肯定支持此概念”,“肯定不支持此概念”,“可能支持此概念”進行描述,并表示為正域、負域和邊界三個近似集合,同時用二維的決策表來描述論域中的對象。目前在中醫類風濕證候的診斷、肺部良性和惡性腫瘤診斷等領域發揮了重大作用,被認為可能是最理想的動態工具。
4)偏差檢錯與控制。數據庫中的數據存在一些異常記錄,需要我們將其檢測出來。偏差包括很多潛在的知識,例如分類中的反常實例,不滿足規則的特例,觀測結果與模型預測值的偏差,量值歲時間的變化等。偏差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差別[8]。目前在人工輔助儀器研究和藥物療效的生理實驗研究方面都有相關研究報道。
5)進化計算。進化計算法是由生物進化規律而演化出的一種搜索和優化的計算方法,包括遺傳算法,進化規劃,計劃策略和遺傳編程[8]??梢酝ㄟ^從任意一個 出示的群體出發,通過隨機選擇、交叉和變異等過程,使群體進化到搜索空間中越來越好的區域。
4.3 醫學數據挖掘過程
因為醫學數據挖掘和普通的數據挖掘之間差異較大,所以其過程是很難定義的。一些研究者定義了一系列的步驟,從而為此提供了一個框架,目的在于為各種數據挖掘方法在不同領域的應用提供指導,這些框架可能在步驟上略有不同,但同樣適用于醫學數據挖掘。一般都涉及下列6個應用領域[9]:
1)理解數據。初步理解需要挖掘的數據屬性,從原始數據庫中小規模采樣,進行初步挖掘實驗,將結果與挖掘目標進行對照,必要時更新數據屬性。
2)準備數據。由于醫學數據的冗余性和多樣性,使得我們需要對數據進行采樣以消減數據量,同時要針對各種類型的數據采取相應的數據預處理方法。通過數據的準備,可以將原始數據轉換為特定數據挖掘方法所需要的數據形式。
3)數據挖掘。這一步包括建模技術的選擇,訓練與檢測程序的確定,模型的建立與評估。實現的方法包括前面講到過的粗糙集理論,神經網絡,進化計算,決策樹等。挖掘方法與研究目標的匹配程度很大程度上決定了挖掘結果的精確度。
4)評估知識。對挖掘結論進行醫學解釋,并再次同最初目標進行比對。如果需要,尋找挖掘過程中存在的錯誤和不合理步驟并加以解決,或者對挖掘算法進行優化,提高運行效率。
5)應用知識。在應用的過程中要注意有計劃地實施和控制,及時發現應用過程中的問題,并對實際情況進行階段性的總結分析,使得挖掘成果能夠更加完善。
5 醫學數據挖掘的發展展望
醫學數據挖掘是計算機技術、人工智能、統計學等和現代醫學信息資源相結合的一門交叉學科,涉及面廣,技術難度大。隨著數據庫、人工智能等數據挖掘工具的不斷進步,關聯規則等理論研究德不斷發展,以及大型數據庫和網絡技術的普及應用,必然還會有更加多的各種格式的醫學數據出現。同時,醫學數據庫包括電子病歷、醫學影像、病理參數、化驗結果等,而目前數據挖掘技術主要應用于以結構化數據為主的關系數據庫、事務數據庫和數據倉庫,對復雜類型數據的挖掘尚處在起步階段[9]。這些情況說明了醫學數據挖掘技術的發展,充滿著機遇和挑戰,需要廣大計算機、信息技術人員和醫務工作者通力合作,結合醫學信息自身具有的特殊性和復雜性,選擇適合醫學數據類型的數據挖掘工具,并解決好數據挖掘過程中的關鍵技術,盡可能大的發揮數據挖掘技術在醫學信息獲取中的價值。更好的服務于醫學、受惠于患者。隨著理論研究的深入和今年亦不的實踐摸索,數據挖掘技術在疾病的診斷和治療、醫學科研與教學以及醫院的管理等方面必將會發揮越來越大的作用。
參考文獻:
[1] Krzysztof J Cios,William Moore.Uniqueness of medical data mining[J].Artifical Intelligence in Medicine,2002,26(1-2):1-24.
[2] Ganzert S,Gytmann J,Kersting K,et al.Analysis of respiratory pressure-volume curves in intensive care medicine using inductive machine learning[J].Artif Intell Med,2002,26(1-2):69-86.
[3] Tourassi G D,Floyd C E,Sostman H D,et al.Acute Pulmonary Embolism:Artificial Neural Network Approach for Diagnosis[J].Radiology,1993,189(2):555-558.
[4] Kusiak A,Kernstine K H,Kern J A,et al.Data Mining:Medical and Engineering Case Studies[A].Proceedings of the IIE Research 2000 Conference,Cleveland,OH,2000(5):1-7.
[5] Wolf Stugliger.Intelligent Data Mining for Medical Quality Management[EB/OL].ifs.tywien.at/~silvia/idamap-2000.
[6] Wang ML,Wai L,Leung K S.Discovery knowledge from medical database using evolutjionary algorithms[J].IEEE Eng Med Biol Mag,2000,19(4):45.
[7] Ohrn A,Rowland T.Rough sets:a knowledge discobery technique for multifactorial medical outcomes[J].Am J Phys Med Tehabil,2000,79(1):100.