前言:想要寫出一篇引人入勝的文章?我們特意為您整理了人工智能下的電子病歷數(shù)據(jù)質(zhì)量控制范文,希望能給你帶來靈感和參考,敬請閱讀。
[摘要]目的探索科學(xué)、有效的電子病歷數(shù)據(jù)質(zhì)控方法,提高數(shù)據(jù)質(zhì)量。方法針對國內(nèi)對電子病歷數(shù)據(jù)質(zhì)量控制的定量研究較薄弱的現(xiàn)狀,聯(lián)合利用人工智能技術(shù)及統(tǒng)計(jì)學(xué)方法,對結(jié)構(gòu)化及非結(jié)構(gòu)化診療數(shù)據(jù)分別建立相應(yīng)的質(zhì)控方法與技術(shù)。結(jié)果通過多維數(shù)據(jù)質(zhì)量定量評估、醫(yī)療文本數(shù)據(jù)后結(jié)構(gòu)化,結(jié)合自然語言處理技術(shù)、規(guī)范化模型進(jìn)行數(shù)據(jù)清理,并結(jié)合病歷內(nèi)涵質(zhì)控系統(tǒng)的應(yīng)用,可有效提高電子病歷數(shù)據(jù)質(zhì)量。結(jié)論完善的數(shù)據(jù)質(zhì)控方法與技術(shù),不僅能使數(shù)據(jù)問題早評估、早發(fā)現(xiàn),也能為醫(yī)療健康大數(shù)據(jù)的后續(xù)分析利用提供支撐。
[關(guān)鍵詞]人工智能;統(tǒng)計(jì)學(xué)方法;醫(yī)療數(shù)據(jù);質(zhì)控;數(shù)據(jù)清洗
隨著我國醫(yī)院信息化建設(shè)的不斷發(fā)展和完善,醫(yī)療衛(wèi)生數(shù)據(jù)進(jìn)入大數(shù)據(jù)時代。電子病歷作為醫(yī)療信息的主要載體,在醫(yī)療數(shù)據(jù)中占據(jù)著重要地位。其記錄患者從入院到出院的疾病發(fā)生、發(fā)展和轉(zhuǎn)歸的全過程,為醫(yī)療管理及臨床研究等提供豐富的信息[1]。2018年,國家衛(wèi)健委《關(guān)于進(jìn)一步推進(jìn)以電子病歷為核心的醫(yī)療機(jī)構(gòu)信息化建設(shè)工作的通知》[2],指出要充分發(fā)揮電子病歷信息化作用,促進(jìn)醫(yī)療管理水平提高和智慧醫(yī)院發(fā)展,對電子病歷數(shù)據(jù)質(zhì)量提出更高的要求。而實(shí)際工作中,電子病歷數(shù)據(jù)卻因各種原因存在著錯誤、無效、不完整、不一致、異構(gòu)等問題[3],相應(yīng)的質(zhì)量定量評估及治理措施又相對匱乏,嚴(yán)重影響其在醫(yī)療管理和臨床科研中的二次利用和有效挖掘。本研究聯(lián)合人工智能技術(shù)(ArtificialIntelligence,AI)和統(tǒng)計(jì)學(xué)方法(statisticalmethods),針對電子病歷中兩種主要的數(shù)據(jù)類型,即結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),分別探索不同的質(zhì)控方法和技術(shù),以期為建立符合循證決策或科學(xué)研究要求的高質(zhì)量數(shù)據(jù)庫提供參考。
1結(jié)構(gòu)化電子病歷數(shù)據(jù)質(zhì)控方法
結(jié)構(gòu)化數(shù)據(jù)往往在采集時設(shè)置一定的質(zhì)控條件,如病案首頁數(shù)據(jù)、檢查檢驗(yàn)數(shù)據(jù)等,質(zhì)量相對較好,可以采用評估數(shù)據(jù)質(zhì)量、查找定位問題數(shù)據(jù)來進(jìn)行數(shù)據(jù)清洗的思路,從而獲得可用數(shù)據(jù)。
1.1多維數(shù)據(jù)質(zhì)量評估方法
針對結(jié)構(gòu)化數(shù)據(jù),筆者已在前期研究中從數(shù)據(jù)的完整性、規(guī)范性、邏輯性及準(zhǔn)確性等方面,構(gòu)建多維數(shù)據(jù)質(zhì)量評價指標(biāo)體系[4]。其中,完整性是指關(guān)鍵指標(biāo)的數(shù)據(jù)是否填全,評估內(nèi)容包括個人信息核心字段缺失情況、首次病程記錄重要字段采集情況等。如果某項(xiàng)必填指標(biāo),如性別,未填寫則被認(rèn)為缺失,數(shù)據(jù)不完整。規(guī)范性是指數(shù)據(jù)是否按規(guī)定的賦值字典填寫,如病案首頁的賦值字典中規(guī)定“入院時情況”為“1.危、2.急、3.一般”,但實(shí)際填寫中出現(xiàn)除了1~3以外的阿拉伯?dāng)?shù)字,或者其他文字、字符,則為填寫不規(guī)范。邏輯性是指關(guān)聯(lián)數(shù)據(jù)間的邏輯關(guān)系是否正確,包括邏輯缺失與邏輯錯誤等,如主訴與現(xiàn)病史中對同一癥狀的時間描述不一致。準(zhǔn)確性是指數(shù)據(jù)是否真實(shí)可靠,需溯源核查,但可通過指標(biāo)的極端值輔助判斷,例如人口學(xué)指標(biāo)、生活習(xí)慣描述等應(yīng)在合理取值范圍,根據(jù)不同指標(biāo)的實(shí)際意義進(jìn)行判斷,如身高過高或過低、妊娠年齡過小、日吸煙支數(shù)、日飲酒量過高等均被作為疑似值識別出來,進(jìn)行后續(xù)核查、清洗。
1.2數(shù)據(jù)清洗
根據(jù)質(zhì)量評估結(jié)果,定位問題數(shù)據(jù)后,可針對不同的數(shù)據(jù)問題制定不同的清洗策略,以控制數(shù)據(jù)質(zhì)量。如數(shù)據(jù)缺失、異?;蜻壿嬅艿?,可采用自然語言處理(NaturalLanguageProcessing,NLP)技術(shù),對電子病歷中的醫(yī)療文本數(shù)據(jù)進(jìn)行語義分析及提取,從中獲取缺失數(shù)據(jù)可能的填補(bǔ)值,核對變量的邏輯性與準(zhǔn)確性,并對關(guān)鍵變量進(jìn)行標(biāo)準(zhǔn)化處理,如入院時情況、輸血標(biāo)志等信息;對無法填補(bǔ)與校正的數(shù)據(jù),予以標(biāo)記。如果是多次記錄的檢查檢驗(yàn)縱向數(shù)據(jù)中某次記錄值缺失,也可以根據(jù)缺失機(jī)制和比例,采用統(tǒng)計(jì)學(xué)方法進(jìn)行填補(bǔ)[5],如多重填補(bǔ)法(MultipleImputation,MI)。
1.3應(yīng)用案例
針對結(jié)構(gòu)化數(shù)據(jù)的多維數(shù)據(jù)質(zhì)量評價方法已用于某三甲醫(yī)院23萬余名出院患者的病案首頁結(jié)構(gòu)化數(shù)據(jù)質(zhì)量評估,發(fā)現(xiàn)該院病案首頁數(shù)據(jù)的完整性與邏輯性較好,完整率與邏輯吻合率均在99%以上;規(guī)范性有待提高,符合規(guī)范率在86%左右。且通過自動化程序,可準(zhǔn)確識別與定位問題數(shù)據(jù),為數(shù)據(jù)清洗奠定基礎(chǔ)。通過這一前期應(yīng)用,反映出多維數(shù)據(jù)質(zhì)量評估方法可以快速、高效地發(fā)現(xiàn)病案首頁數(shù)據(jù)的質(zhì)量問題,便于數(shù)據(jù)質(zhì)量的定量監(jiān)測[4]。
2非結(jié)構(gòu)化電子病歷數(shù)據(jù)質(zhì)控方法
電子病歷中超過80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),給數(shù)據(jù)的處理、利用帶來一定障礙。因此,針對這部分?jǐn)?shù)據(jù),須先通過自然語言處理技術(shù)進(jìn)行后結(jié)構(gòu)化處理,在此基礎(chǔ)上再進(jìn)行數(shù)據(jù)清洗,控制數(shù)據(jù)質(zhì)量。
2.1利用多層級自然語言處理技術(shù)進(jìn)行文本數(shù)據(jù)后結(jié)構(gòu)化
自然語言處理是實(shí)現(xiàn)電子病歷文本數(shù)據(jù)后結(jié)構(gòu)化的最佳途徑。通過將文本信息進(jìn)行分詞、整合、提取、標(biāo)準(zhǔn)化等,將其轉(zhuǎn)化成計(jì)算機(jī)可理解、分析的信息,實(shí)現(xiàn)數(shù)據(jù)的機(jī)器可讀性。為得到更加準(zhǔn)確、豐富的后結(jié)構(gòu)化數(shù)據(jù)結(jié)果,采用一種多層級自然語言處理技術(shù),即根據(jù)不同的文書類型(主訴、現(xiàn)病史等)分別建立符合其內(nèi)容特點(diǎn)及上下文語義關(guān)聯(lián)的數(shù)據(jù)抽取模型,避免數(shù)據(jù)遺漏和信息抽取錯誤。通過對原始數(shù)據(jù)的解析,識別出文本中實(shí)體、屬性和關(guān)系等信息,最終轉(zhuǎn)換成極細(xì)顆粒度的后結(jié)構(gòu)化數(shù)據(jù)[6]。
2.2數(shù)據(jù)清洗
針對醫(yī)學(xué)術(shù)語與臨床癥狀表述的多樣性,以及不同信息系統(tǒng)中疾病、指標(biāo)、治療等術(shù)語表達(dá)不一致的問題[6],通過分類回歸樹(ClassificationRe-gressionTree,CRT)、支持向量機(jī)(SupportVectorMa-chine,SVM)等分類算法,以ICD-10、ICD-9-CM3等行業(yè)標(biāo)準(zhǔn)及權(quán)威教材用詞為基礎(chǔ),通過標(biāo)準(zhǔn)化的數(shù)據(jù)清洗流程將日常診療過程中的醫(yī)學(xué)自然語言進(jìn)行規(guī)范化及標(biāo)準(zhǔn)化,完成多樣化數(shù)據(jù)向標(biāo)準(zhǔn)化、規(guī)范化數(shù)據(jù)的轉(zhuǎn)換,以便對醫(yī)學(xué)用語的規(guī)范性進(jìn)行評價,并對關(guān)鍵信息進(jìn)行匹配、對比、分析。
2.3數(shù)據(jù)質(zhì)控系統(tǒng)構(gòu)建
上述步驟在流程上都屬于對已采集數(shù)據(jù)的事后處理,為了在采集源頭進(jìn)行質(zhì)量控制,建立內(nèi)涵質(zhì)控體系,通過病歷生成過程中對其內(nèi)容的自動核查與控制,實(shí)現(xiàn)在數(shù)據(jù)采集源頭對質(zhì)量進(jìn)行把控的目標(biāo)。主要功能包括醫(yī)療文本結(jié)構(gòu)化、病案質(zhì)量評價、病案質(zhì)量分析。
2.3.1醫(yī)療文本結(jié)構(gòu)化對電子病歷文本數(shù)據(jù)進(jìn)行結(jié)構(gòu)化提取,包括有效信息之間的關(guān)聯(lián)等。首先,根據(jù)病歷書寫基本規(guī)范和專業(yè)醫(yī)學(xué)知識,對病歷各節(jié)點(diǎn)內(nèi)容進(jìn)行建模,如“入院記錄-主訴”,模型框架為癥狀、體征、疾病、檢查、手術(shù)等。根據(jù)建好的模型,結(jié)合自然語言分詞和語義分析技術(shù),完成對病歷文本的后結(jié)構(gòu)化處理[7]。
2.3.2病案質(zhì)量評價針對每份住院病案進(jìn)行質(zhì)量評價,詳細(xì)報告缺陷內(nèi)容,幫助醫(yī)務(wù)人員快速定位病案書寫錯誤并修正,從而保證病案質(zhì)控的可追溯性及精細(xì)化管理。系統(tǒng)在對病歷文本內(nèi)容進(jìn)行后結(jié)構(gòu)化的基礎(chǔ)上,根據(jù)國家統(tǒng)一標(biāo)準(zhǔn)規(guī)范對質(zhì)控問題進(jìn)行分類,如病歷是否完整、前后數(shù)據(jù)是否一致、是否依據(jù)患者診治過程書寫等,形成智能質(zhì)控規(guī)則庫,并通過在醫(yī)生端、環(huán)節(jié)質(zhì)控及終末質(zhì)控環(huán)節(jié),設(shè)置對病歷文書的自動監(jiān)控、提醒和實(shí)時反饋功能,實(shí)現(xiàn)對病歷質(zhì)量的有效監(jiān)控。
2.3.3病案質(zhì)量分析針對科室及全院的病案質(zhì)量問題,通過橫向、縱向?qū)Ρ确治觯约翱梢暬慕y(tǒng)計(jì)圖加以展現(xiàn),為病歷質(zhì)量管理部門提供及時正確的決策依據(jù),輔助其準(zhǔn)確定位問題、制定改進(jìn)措施,提高對病歷質(zhì)量管理的水平及效力。
2.4應(yīng)用案例
非結(jié)構(gòu)化電子病歷數(shù)據(jù)質(zhì)控方法目前正在某三甲醫(yī)院進(jìn)行測試評價,內(nèi)容包含入院記錄、出院記錄、病程記錄、手術(shù)記錄、護(hù)理記錄等。質(zhì)控前,該院病歷能夠按照時限、頻次、完整度的規(guī)范要求書寫,但存在病歷無內(nèi)涵、書寫自由、病歷反映患者病情變化、診療過程等核心價值有待提高等問題。而通過前置在病歷書寫界面的自動化質(zhì)控程序,能夠準(zhǔn)確識別雷同病歷、內(nèi)容前后不符、時間不符合邏輯順序等問題。借助醫(yī)學(xué)知識圖譜,根據(jù)病歷所記錄的患者體征、癥狀、檢查、檢驗(yàn)等文本信息,還可以進(jìn)一步發(fā)現(xiàn)記錄的體征與診斷有沖突,疾病無對應(yīng)的檢查結(jié)果,疾病對應(yīng)的診療方案未記錄等問題。測試結(jié)果顯示,質(zhì)控技術(shù)的應(yīng)用可以有效改進(jìn)常見的病歷質(zhì)量問題,提升病歷內(nèi)涵質(zhì)量;后續(xù)將通過更為豐富的質(zhì)控規(guī)則設(shè)置,擴(kuò)大病歷內(nèi)涵質(zhì)量控制的范圍。
3展望
目前,國家正在大力推進(jìn)醫(yī)療大數(shù)據(jù)的發(fā)展與應(yīng)用,很多醫(yī)院已將醫(yī)療大數(shù)據(jù)治理及其效果評價作為醫(yī)院建設(shè)與發(fā)展的主要工作之一[8-9]。電子病歷數(shù)據(jù)作為醫(yī)療大數(shù)據(jù)的重要組成部分,其建設(shè)質(zhì)量不僅影響到醫(yī)療大數(shù)據(jù)治理的整體效果,還可能影響到醫(yī)療質(zhì)量管理、開展真實(shí)世界醫(yī)學(xué)研究的可行性與科學(xué)性。缺乏高質(zhì)量的醫(yī)療數(shù)據(jù),再先進(jìn)的人工智能和數(shù)據(jù)挖掘算法也會無的放矢。本文提出可用于電子病歷質(zhì)控的人工智能和統(tǒng)計(jì)學(xué)聯(lián)合方法與技術(shù),有助于提高電子病歷數(shù)據(jù)質(zhì)量控制的效率和水平,對于其他醫(yī)療信息數(shù)據(jù)的質(zhì)控也具有一定參考價值。在“以數(shù)為證、循數(shù)決策”的數(shù)據(jù)文明時代,各級醫(yī)療機(jī)構(gòu)和醫(yī)療管理部門都應(yīng)建立起有效的數(shù)據(jù)質(zhì)控體系,開展醫(yī)療數(shù)據(jù)質(zhì)量評估與治理,方能促進(jìn)醫(yī)療大數(shù)據(jù)發(fā)揮其應(yīng)有的價值。
【參考文獻(xiàn)】
[1]國家衛(wèi)生健康委員會.關(guān)于進(jìn)一步推進(jìn)以電子病歷為核心的醫(yī)療機(jī)構(gòu)信息化建設(shè)工作的通知[EB/OL].
[3]李萍.醫(yī)療數(shù)據(jù)質(zhì)量的問題探索和解決模式[J].計(jì)算機(jī)應(yīng)用與軟件,2013(8):217-219.
[4]吳騁,秦嬰逸,肖翔,等.病案首頁數(shù)據(jù)質(zhì)量的量化評估方法研究及應(yīng)用[J].中國病案,2016,17(3):10-13.
[5]孫振球,徐勇勇.醫(yī)學(xué)統(tǒng)計(jì)學(xué)(第4版)[M].北京:人民衛(wèi)生出版社,2015:610-612.
[6]杜小勇,陳躍國,范舉,等.?dāng)?shù)據(jù)整理:大數(shù)據(jù)治理的關(guān)鍵技術(shù)[J].大數(shù)據(jù),2019,5(3):13-22.
[7]林琳,王韜,鄧超穎.智能化病歷內(nèi)涵質(zhì)控平臺設(shè)計(jì)及應(yīng)用[J].中國數(shù)字醫(yī)學(xué),2019,14(11):48-50,112.
[8]傅昊陽,徐飛龍,范美玉.論醫(yī)院健康醫(yī)療大數(shù)據(jù)治理及體系構(gòu)建[J].中國中醫(yī)藥圖書情報雜志,2019,43(3):1-5.
[9]謝剛,李月云,孫玉軍.多科性醫(yī)院大數(shù)據(jù)治理能力評價指標(biāo)體系研究[J].衛(wèi)生經(jīng)濟(jì)研究,2020,37(2):56-58.
作者:吳騁 王志勇 徐蕾 周全 單位:海軍軍醫(yī)大學(xué)衛(wèi)生勤務(wù)學(xué)系