前言:想要寫出一篇引人入勝的文章?我們特意為您整理了談醫學期刊重復測量方差分析誤用范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:在醫學論文中,重復測量資料往往沒有應用正確的統計學方法去分析,本文針對這一問題進行分析,以引起同仁的關注。通過研究本刊及中華系列雜志的帶有重復測量資料的文章,發現錯誤的統計學方法,并對其進行剖析解錯,再系統描述重復測量方差分析的正確使用方法。本刊及中華系列雜志中出現很多重復測量數據的錯誤統計學方法,需要引起重視;正確的重復測量方差分析最好應用混合模型,應該注意描述主效應及交互效應,同時應注意先做球形檢驗。編輯應該重視重復測量資料的統計學方法,應該從編輯工作本身及雜志發展兩方面出發,考慮如何提高期刊的統計學水平,向國際化一流期刊方向努力,是我們編輯的共同使命。
關鍵詞:醫學期刊;重復測量方差分析;球形檢驗;誤用;交互作用;統計學方法
論文質量一直是期刊建設的核心,一般來說,一篇醫學論文的質量從三個大方面去考證:專業理論、文字水平、統計學方法[1]。一般的醫學期刊都嚴格執行了三審三校制度,各專科雜志都有自己專業的編委和審稿專家團隊對文章質量進行把關,他們可以在醫學專業領域方面進行很好的把關,文字方面,編輯部都會對編后的文章進行三校一讀制度,在文字流暢度、錯別字、論文規范方面進行了很好地滅錯和提升,但是唯獨統計學這一塊是長期缺乏重視的一方面。而醫學論文中統計學質量的高低在提高醫學論文整體水平中的作用不容忽視。編輯部的審稿專家大多數關注醫學專業內容方面的把關,很多專家對于統計學方法部分卻不足夠專業和精通。醫學方面的問題可以分配給各個醫學領域的專家,但是每一篇文章(除綜述外)基本都涉及統計學知識,均需要統計學把關。雖然很多編輯部都有統計學審稿專家,但是如果每一篇文章都送統計學專家審稿,審稿工作量巨大,會導致文章長期審不回來,同時也拉長作者的發表周期,降低編輯部工作效率。所以編輯初審時如果能夠在文章統計學方面篩查把關,將對來稿的質量提升有著很重要的作用。目前,統計學已經在醫學論文中得到廣泛應用,隨著各種統計學軟件的開發,也給科研帶來了更多的便利。隨著國內科研事業發展,統計方法的使用率越來越高,而誤用率也較高,且隨著時間的推移,科研論文的多樣性發展,誤用的結構也在發生深刻改變,技術性和規范性方面的問題越來越少了,但概念性問題仍大量存在[2]。本人在多年的編輯工作中發現,常識性統計學錯誤較容易糾正,往往由于作者粗心或者對統計學基本概念不清造成,長期做科研、寫文章的人還是可以改善這些錯誤,但是還有一個長期未引起重視的一個重要的統計學錯誤,那就是———重復測量方差分析的誤用。很多醫學論文都涉及到對同一指標的重復測量,得到大量重復測量的數據,據統計,這類數據在所有醫學論文中的使用占到1/4[3]。康復醫學研究中也時常應用重復測量資料,如在臨床試驗中,某康復治療手段療效的短期、長期及隨訪觀察,基礎研究中某種康復干預作用于大鼠后,干預后1d、7d、14d的變化趨勢等。筆者翻閱了大量已發表文獻,發現很多作者的文章中的數據是重復測量數據,但是統計學方法卻是錯誤的,往往應用了t檢驗或者單因素方差分析。應該注意的是,重復觀測數據間是有相關性的,不能直接按照獨立結構數據進行分析處理,會增大了犯Ⅰ類錯誤的概率,不能準確地解釋實驗現象,甚至得出相反的結論。本文將列舉本刊的典型例子,來闡述此問題,從而引起重視,減少錯誤。
一、重復測量方差分析的基本理論
重復測量資料是對同一受試對象的同一觀察指標在不同時間點上進行多次測量所得的資料,通常用來分析該觀察指標隨著時間推移產生的變化。重復測量方差分析是對同一因變量進行重復測量和比較的一種統計學方法。重復測量資料最常見的情況是前后測量設計,比如比較某種干預方法實施給患者后的前后效果比較,需要與配對設計t檢驗區別開來。當前后測量設計的重復測量次數m≥3時,稱重復測量設計或重復測量數據。重復測量數據與隨機區組設計數據相似,應注意區別;重復測量數據不同于單因素設計,通常要考慮處理分組與重復測量的時間點兩個因素;同一觀察單位各時間點重復測量值并非相互獨立,存在相關性,一個觀察值會受另外一個觀察值的影響變化的趨勢[4]。重復測量方差分析與單因素方差分析不同的是,除了要比較組間差異、組內隨時間變化的差異,還需要比較處理因素和時間因素之間是否有交互效應,而這點,往往是被眾多研究者忽略的一個點。最后,做重復方差分析應注意要滿足兩個基本條件,一個是滿足方差齊性的條件,另一個是滿足球對稱性條件(Mauchy檢驗)。
二、雜志中常見關于重復測量方差方法的誤用舉例及錯誤分析
本人總結以往編加或閱讀過的文章,將作者在重復測量資料方面的常見錯誤分為如下幾個類型:(1)誤用t檢驗分析重復測量設計資料;(2)誤用單因素方差分析統計重復測量設計資料;(3)統計學方法里面說明了用重復測量方差分析,但未說明兩兩比較用何種方法;(4)用了重復測量方差分析,也說明了兩兩比較用何種方法,但是結果表格表達不正確,結果描述不完整;(5)討論未正確地說明和解釋統計學結論,或者不能很好地圍繞重復測量方差分析的結果進行。下面列舉幾個典型例子。
1.誤用t檢驗分析重復測量設計資料例如我刊2019年第1期的一篇文章就出現了重復測量資料的統計學方法誤用[5]:某研究觀察分階段、漸進性的康復訓練對I型骨性BanKart損傷肩關節鏡修補后的恢復效果。將33例患者分為2組,對照組術后進行肩關節的早期制動康復訓練,治療組術后進行漸進性、分階段的康復訓練。通過美國肩肘醫師協會評分(ASES)、加州大學肩關節評分系統(UCLASS)對患者術前、術后6個月、術后12個月的肩關節功能進行評定。統計學方法里面的描述為:“應用配對t檢驗分析患者在治療前、后的差異,獨立樣本t檢驗分析治療組與對照組評分。”結果見表1(原文中為“見表2”)。上述例子,用t檢驗對數據進行統計學處理,肯定是錯誤的。為什么不能用t檢驗?因為一般用t檢驗的配對設計中,配對的2個對象可以隨機分配處理,2個實驗對象可以在同一個時期觀察結果,從而比較處理之間的差別;而重復測量設計不能同期觀察試驗結果,比較的是前后差別,推論干預是否有效是有條件的,即假定觀測結果不會隨著觀測時間的變化而變化。同時配對t檢驗要求同一對子的2個測量結果分別與兩者的差值相互獨立,差值需服從正態分布,而重復測量設計前后2次觀測結果通常與差值不獨立,往往與差值存在相關關系[6]這樣用t檢驗代替重復測量方差分析去處理數據,沒有考慮到觀測指標在不同時間點上的相關性,增大了犯Ⅰ類錯誤的風險,導致研究結果的不可信。
2.未真正正確應用重復測量方案分析[7]如某研究觀察頭皮針結合重復經顱磁刺激治療腦梗死后認知功能障礙,將120例患者隨機分為對照1組(A1組)、對照2組(A2組)和觀察組(B組),A1組采用頭皮針治療法治療,A2組采用重復經顱磁刺激治療,B組采用頭皮針結合重復經顱磁刺激治療,10天為1個療程。觀察治療前、治療后1、2、3個療程后3組患者蒙特利爾認知評估量表(MoCA)和簡易智能狀態檢查量表(MMSE)的評定結果。統計學方法部分,作者最開始寫的是“2組數據的比較采用雙總體t檢驗進行”,后來經過編輯審稿,提醒這種數據應該用重復測量方差分析,于是作者改為了“均數間比較采用重復測量方差分析”,然而結果描述仍然是:“3組患者治療后與治療前比較,第1個療程至第3個療程的MoCA分值均較前一次治療有顯著升高(P<0.05,0.01);3組患者分別完成各自的3個療程治療,各組在同次治療后,B組的MoCA分值均較A1、A2組高(P<0.01)。”見表2(原文中為“見表3”)。說明作者并未真正理解什么是重復測量方差分析,也未按照重復測量方差分析的標準去做數據統計,比如,并未說明兩兩比較用什么方法,還有未說明時間效應、干預效應、交互效應,也未在表格給出相應的F值。對于這樣的現象,編輯部常常遇到,很遺憾的是,很多作者為了通過審稿,直接改為“采用重復測量方差分析”,但是均未真正正確地按照此方法進行統計和表達,即使編輯與作者一再溝通,作者仍然不太清楚怎么正確應用此方法。
3.未做球形檢驗在筆者以往審閱的文章中,能對重復測量資料采用正確的統計學方法的作者已經較少了,而能夠描述Mauchy檢驗是前提的就更是寥寥;有的文章在統計學方法里面說明了采用重復測量方差分析,但是未交待是否滿足球形假設。做重復測量方差分析之前,要先檢驗數據是否滿足方差齊性,另外,還需要檢驗數據是否滿足球形假設,這是必然條件。通過球形檢驗后,如果P>0.01,說明重復測量的數據之間不存在相關性,符合球對稱,可按重復測量方差分析處理;若P<0.01,說明重復測量的數據之間存在相關性,數據不符合球對稱性條件,應對結果進行矯正后再做統計學處理。一般用得較多的是Greenhouse-Geisser矯正方法;或將從各時間點上測得的數據視為測自不同的指標,采用多變量方差分析;還可采用更細致的混合模型分析法進一步考察各時間點上數據之間是否具有某種特殊關系,即協方差結構[8]。實際應用中的重復測量設計資料以后者多見[9]。
4.未正確進行數據的討論很多作者部分程度地正確應用了重復測量方差分析,但是未正確地針對數據結果進行討論,未真正理解什么是主效應,什么是交互效應。重復測量資料的分析可得到3個部分的結果:(1)時間因素的作用;(2)干預因素的作用;(3)時間與干預因素的交互作用。對結果的正確描述可分為3個部分來闡述:時間與處理因素的交互作用差異有否統計學意義;不同時間點的均數間差異有否統計學意義;治療組與對照組的差異有否統計學意義。首先應該確定是否存在交互作用,交互作用指的兩個因素,比如時間和干預因素之間會相互影響,一個因素的水平改變,另一個或幾個因素的作用也相應改變。若無交互作用,則可以用主效應直接判斷相應水平總體均數間是否存在差異;若存在交互作用,則而應根據具體情況化作簡單效應統計分析。許多作者的文章結果中當有交互作用時,并未真正理解,主效應的作用被錯誤地解釋,從而得出錯誤的結論。有交互作用時,主效應的差異與相應水平總體均數之間的差異是不對應的,應進一步作簡單效應分析來推斷相應均數之間是否有差異[10]。比如一個重復測量資料的研究中,時間因素有統計學意義(P<0.05),說明檢測指標有隨時間變化的趨勢,不同時間檢測的指標差異有統計學意義;但時間和分組的交互作用沒有統計學意義(P>0.05),說明時間因素的作用不隨著分組的不同而變化,可以直接觀測主效應。但是如果交互作用有統計學意義(P<0.05),那檢測的數據隨時間的變化有可能是受分組的影響,不能單純地下結論。
5.中華醫學系列雜志在此統計學方面的錯誤隨手翻閱了中華醫學會系列雜志,同樣發現存在很多類似的問題,比如劉浩等[11]的研究就是設置了術后6周、3個月、1年3個時間點,屬于重復測量資料,但是統計學方法中采用了配對t檢驗,而不是重復測量方差分析,結果表格里面給出的是t和p值。還有余輝等[12]的研究為隨機對照實驗,分為2個組,數據采集分為術后第7天、術后第14天、術后第21天3個時間點,但是統計學方法采用的是單因素方差分析。再比如方麗萍等[13]設置了入院第2天、第7天、第14天、第21天4個時間點,但統計學方法描述的是“比較采用單因素方差分析及LSD-t檢驗”。還有張超等[14]的研究中設置了鎮靜前、鎮靜后10min、鎮靜后30min、鎮靜后60min、鎮靜后90min,5個時間點,但統計學描述為“各觀察時間點數值比較進行單因素方差分析,采用SNK法檢驗”。鑒于國內醫學論文的統計學報告質量較低,劉清海等[15]研究設計了一份評價醫學論文統計學報告質量的初步量表(總分50分),對國內外已發表的部分文獻進行了評分,結果發現國內醫學論文平均得分為26.00±6.64分,國外為38.67±4.42分,差距較大,國內中華醫學系列雜志論文與普通醫學雜志論文的得分并無多大差別。說明國內中華醫學系列雜志在統計學方面跟一般醫學雜志一樣,同樣存在相似的問題。
三、正確認識重復測量方差分析
1.混合效應模型對重復測量資料的分析方法大致可分為兩類,即單變量統計分析方法和多變量統計分析方法[16]。王超等[17]研究比較了單因素方差分析和混合效應線性模型處理重復測量資料的應用特點,發現混合效應線性模型是處理重復測量資料的有力方法,混合效應線性模型既考慮了觀察對象在不同觀察時點間的內在聯系,又考慮了觀察值間的內部相關性,結論更為可靠,它對資料的協方差結構要求寬松;而單因素方差分析對資料的協方差結構有嚴格的限定。金雪娟等[18]一共用了5種方法應用于重復測量資料,(1)兩獨立樣本t檢驗或方差分析;(2)對差值用兩獨立樣本t檢驗或方差分析;(3)把治療前收縮壓值作為協變量,選用協方差分析;(4)廣義線性模型;(5)混合效應模型。比較這5種方法的優缺點,得出結論是混合效應模型是較好的分析方法。作者認為混合效應模型可以充分利用信息,既可以分析隨機效應和相關性,又能處理缺損。混合效應模型允許每個觀察對象觀察次數和觀察時間不同,可以處理重復觀察值之間的相關性和有缺損值的資料,適用性更為廣泛。
2.兩兩比較筆者翻閱過一些統計學教科書,對重復測量資料的方差分析方法均有論述,但不全面,還需要查閱文獻資料來全面認識,尤其是對其后的進一步在不同時點或不同組間兩兩比較的方法較少介紹。如果研究者希望繼續分析不同處理間某個時間點的差異或不同時間點某兩組間的差異,這就需要借助Gen-eralLinearModel的Multivariate過程來實現。當然也有學者認為可不必做不同時間點上的兩兩比較,因為重復測量資料側重于分析不同時間點的總體變化趨勢及不同處理間的差異,并不一定要細致地每兩個點之間均比較,也使得統計學變得更為復雜[9]。所以,研究者可根據實驗研究的目的和需求選擇是否做兩兩比較以及做哪些兩兩比較。至于結果數據的表格表達,未發現有官方統一的規范,筆者參考一些做得較好的雜志,并查閱丁香園等醫學分享網站的實例,經過自身的思考,認為至少應該給出時間效應、干預效應、交互效應的F值,還應該進行球形檢驗,如果不符合球形檢驗,應該做校正。討論中對此結果進行正確及合理的解釋。至于是否進行下一步的兩兩比較,根據研究的目的來靈活選用。
四、編輯和期刊就此問題的努力方向
1.編輯就統計學問題的努力方向首先,編輯自己系統地學習統計學知識是必修課。很多編輯在大學或研究生階段都學過統計學,但是并不深入,工作后遇到具體問題應該重新翻閱教科書的最新版,結合具體實例思考如何正確應用統計學方法。具備一些基本的統計學知識和概念后,才能在實踐中進一步理解和應用。在編輯初審稿件時,就能給初稿很好的建議,使文章消滅一些常識性統計學錯誤,從而更合理地配置審稿資源,讓審稿專家專注于更深層的審稿,而不用耗費精力在一些簡單錯誤上。另外,要針對一些常見的疑難的統計學問題,廣泛查閱文獻,深入認知此種統計學方法,這樣,在和作者溝通的時候,尤其就審稿專家的提問給作者做橋梁作用的時候,能夠溝通自如,自信應對,樹立雜志的學術形象,建立學術權威性。再次,最好是能夠檢驗作者給出的統計學檢驗值是否真實、是否正確,那么編輯應該自己學會應用統計學軟件。編輯就統計學方面的問題,除了多自學外,應該多翻閱同行內其他優秀雜志的文章,查看里面相關統計學方法的書寫格式,向統計學知識扎實的編輯或者審稿專家請教,針對具體實例可以一起討論和分析。筆者曾經就此問題請教過《護理學雜志》的一位精通統計學的老師,她對此問題做了詳細解答,還請教了腫瘤科的一位醫生,還有公共衛生學院的教授,感覺受益匪淺。另外,還可以參加統計學培訓班,線上、線下的都有很多。作為新時代的編輯,不應該只是著眼于每天的日常工作,埋頭看文字,還應該有宏觀編輯的意識,對整個期刊的發展有自己的認識,為提高雜志的學術水平和影響力提出自己的看法和建議。當然,我們編輯畢竟不是統計學方面的專家,不一定要在統計學方面有十分深入的研究,但是起碼,常識性的錯誤我們要學會發現,早期消滅,經常出現的統計學錯誤,我們要學會辨認,知道大的原則。
2.醫學期刊就雜志統計學問題的努力方向再從期刊管理層面來說,有必要建立一套相應的把關制度,個人認為,可從4個方面著手:(1)編輯初審,應在此階段消滅統計學常識性錯誤,應提醒作者補充齊全統計檢驗值、缺損項、統計學描述不規范等問題;目前我刊尚未要求所有作者補充統計學檢驗值,但是個人認為開展這項工作勢在必行。越來越多的醫學期刊開始重視統計學的審查,如《心血管康復醫學雜志》自2014年第1期起改進論文統計學處理方式,要求:提供具體P值,3組以上的數據比較要求進行方差分析。2015年此刊連續5年被福建省科學技術協會評為優秀期刊一等獎。筆者翻閱此刊文章,發現在統計學方面做得比我刊更為規范。(2)一審除了醫學專業的審稿專家,還應該請統計學專家一審及復審,尤其是對于統計學方法稍微復雜一點的稿件,更是應該請統計學專業人員好好地把關,否則直接影響到研究結果的可靠性;(3)文章錄用后,編輯編加文章后,應請權威統計學專家對整期雜志進行通讀把關。此時,基本在前面審稿階段已經消滅統計學大的錯誤,這一關,主要在于規范統計學表達和描述等問題。2017-2018年間,我刊聘請了一位擅長出版學和統計學的專家進行編加后審讀,發現本刊以前用的有些術語不規范,經過他的把關后,統計學這塊明顯比以前改善很多,同時也會幫我們發現一些數據問題,如前后數據不一致,數據統計學檢驗值漏掉了數字等,從而及時改正,使得文章的數據更加精確、準確,很大程度地提高了文章質量。(4)另外,為了更加系統和規范統計學審稿模式,建議每一層審稿給出相應的表格,每一關分別從哪些方面入手,消滅哪些方面的錯誤,制作成表格,逐條不漏地對文章進行審核。接雅俐等[19]研制出一種評價醫學論文統計學水平的量表,可以對醫學類學術期刊所刊載的醫學論著的科學性水平進行評價。這方面的工作還可以參考劉清海[15]、姜春霞等[20]文章中應用的表格。編輯們可以根據這些量表做出一個更符合本雜志實際情況的量表,用于統計學更細致和嚴謹的把關。(5)建議期刊主管部門制定在雜志評比條目中增設有關統計學質量評比的條目,并給與一定比重,從而督促醫學期刊提高期刊的統計學質量[21]。有學者曾提出應將統計學內容納入醫學期刊的評價[22],個人認為是很有必要的,鑒于影響因子的操控性(有的雜志違規操縱互引和自引),光看影響因子無法客觀評價雜志的真實水平。國內的醫學編輯最好能組織相關專家學者草擬統計學報告指南,以形成正確、規范的統計學表達方式[23],但就目前國內醫學編輯對統計學方面的認知及重視程度來說,離這個目標還相距甚遠,還需要各界人士的長期共同努力。筆者發現這個問題,在這里拋磚引玉,還期盼同仁可以一起研究和討論。
五、結語
中央全面深化改革委員會于2018年底審議通過了《關于深化改革培育世界一流科技期刊的意見》,提出“要以建設世界一流科技期刊為目標,科學編制重點建設期刊目錄,做精做強一批基礎和傳統優勢領域期刊。”黨和國家最高決策層直接規劃和指導我國科技期刊的建設,這對我國整個科技期刊界無疑是一個巨大的鼓舞,必將有助于開啟我國科技期刊的新紀元。培育世界一流科技期刊,科技期刊編輯學會責無旁貸。從一點一滴做起,統計學方法的正確使用是重要一環。路漫漫其修遠兮,吾輩立志不忘初心,懷著創辦國際一流科技期刊的使命,為了提高國內期刊的學術水平,向國際一流期刊的目標靠近,積跬步,行千里吧!
作者:向艷平 單位:《中國康復》編輯部