前言:想要寫出一篇引人入勝的文章?我們特意為您整理了核心期刊多源信息深度聚合模式應用范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:針對核心期刊相關信息的分散異構,探索其在管理與服務中的創新應用。從3個層次聚合期刊相關信息,即數據層收集和整理各來源的核心期刊相關數據,信息層采用元數據和本體詞匯對期刊相關數據及其特征進行語義規范描述,知識層基于本體和關聯數據技術,從語義上揭示期刊信息各概念之間的關系,實現了中外文核心期刊信息的多維展示、關聯發現和多維統計分析,并進一步分析其在采訪決策和個性化服務中的應用前景。
1引言
期刊是高校圖書館館藏文獻資源建設和服務的重點。在期刊采訪、管理和服務等過程中,其相關信息(如收錄情況、影響力、分區、開放性、館藏和利用情況等)多而雜,且來源廣泛,具有無序性、獨立性、多源性和分散性,給讀者的發現和利用帶來困難,也不便于對利用情況進行分析。為方便讀者利用,進而指導高校圖書館館藏期刊資源的建設,有必要對期刊的相關信息進行整合。邱均平等[1]認為隨著讀者需求的提升,對數字資源進行深度聚合是數字資源建設發展到一定階段的必然要求。童旺宇[2]研究了圖書相關信息的聚合,并指出其可為用戶提供決策支持服務。對多源期刊信息進行聚合能夠使期刊相關信息更為集中、有序,從而更好地為讀者提供期刊信息服務,對其特征和利用行為的分析可為進一步優化館藏期刊資源的配置提供決策支持。
2相關概念
2.1核心期刊及其信息的多源性
核心期刊是指學術水平較高的期刊,或某一學科中高水平、高影響力的期刊。英國文獻學家布拉德福在1931年首先揭示了文獻集中與分散規律,發現某時期某學科1/3的論文刊登在3.2%的期刊上[3];1971年,SCI創始人加菲爾德統計了參考文獻在期刊上的分布情況,發現24%的引文出現在1.25%的期刊上[4]。這些研究均表明期刊存在“核心效應”,進而衍生出“核心期刊”的概念,同時在國內外產生了多種核心期刊遴選體系。國內核心期刊遴選體系有中文核心期刊要目總覽(北京大學)、中國科學引文數據庫核心庫(中國科學院)、中文社會科學引文索引(南京大學)、中國科技期刊引證報告(中國科學技術信息研究所)。國際核心期刊遴選體系主要有SCIE(收錄理科工科類)、SSCI(收錄經濟管理人文類)、A&HCI(收錄藝術與人文科學類)、EI(收錄工科及少量管理類)等。期刊多源信息是指期刊的相關信息來源于不同的信息平臺,其相關信息包括期刊刊名元數據、收錄信息、分區信息、影響因子、開放性等(如圖1所示),針對具體的高校機構還包括館藏和機構成果等,這些信息分散于不同的信息環境中。
2.2信息聚合
聚合原意為將分散的個體聚集在一起。在互聯網領域,信息聚合是指挑選、分析互聯網上的海量信息并根據內容進行歸類,進而為用戶提供優質有用的更具針對性的信息[5]。本研究中的核心期刊信息聚合是指針對高校的教學和科研需求,聚合各來源多維度的期刊相關數據,展示期刊的整體概貌,方便讀者發現和甄別自己感興趣的期刊,同時為圖書館期刊采訪提供決策支持。
3核心期刊多源信息聚合模式
核心期刊相關信息類型多樣、來源廣泛且關聯性強。對核心期刊相關信息的聚合不僅要收集期刊各個維度的數據,而且要對數據特征進行語義描述,反映其知識關聯,以對期刊相關信息進行有效揭示。因此,根據數據來源和信息組織形式,期刊相關信息可從數據層、信息層和知識層3個層次進行聚合,在此基礎上提供創新應用服務。聚合模式如圖2所示:數據層聚合是對多來源的期刊相關數據進行收集和整理。數據收集是依據核心期刊收錄標準收集期刊的描述性元數據,以及與期刊相關的影響因子、分區、收錄情況、開放特征、館藏特征、機構成果、評價等數據;數據整理是對所收集的期刊數據進行去重、歸并、規范化和數據增強等數據清洗工作,如期刊分類整理、重復數據合并、字段格式規范、缺失數據補充等,以保證期刊相關數據的完整性和準確性。信息層聚合是對期刊相關數據及其特征進行語義規范描述,以實現機器可理解。圖書館領域常用的語義元數據描述規范有DC、MARC、BIBO、FRBR和PRISM等本體詞匯。知識層聚合是對事物的本質及事物間的關系進行揭示和控制。對期刊信息進行知識層聚合是對期刊所涉及的相關概念及其關系進行有效關聯,并進行語義描述。知識層聚合涉及的相關技術有語義網、本體、關聯數據和敘詞(SKOS)等[6-7],可從多角度揭示期刊信息的知識內容和相互關系?;谝陨?個層次的期刊相關信息聚合所提供的創新應用服務有多視角期刊信息的分面導航、關聯發現、多維統計分析、定制與推薦,以及為期刊采訪提供決策支持等。
4核心期刊多源信息聚合關鍵技術分析
核心期刊多源信息聚合涉及的關鍵技術主要包括多源信息的ETL(Extract-Trans-form-Load,抽取-轉換-加載)、期刊信息知識組織的本體概念模型,以及期刊相關概念屬性元數據語義描述。
4.1期刊多源信息的ETL
期刊多源信息的ETL是指從各數據源抽取所需的數據,經過數據清洗,最終按預定的數據格式加載到系統中。需要抽取的期刊信息數據類型、來源和收集數據要求如下表所示:表中各種類型的期刊相關信息可從相應的來源網站下載或要求數據庫廠商提供,由于不同來源的數據格式不一致,需要對數據進行清洗。期刊相關信息的清洗工作主要包括數據歸并、數據規范化和數據增強。①期刊數據歸并,即對各來源的期刊相關數據與期刊總庫做唯一性匹配。由于各種來源期刊的ISSN號和刊名可能與總庫中的信息不一致(如刊名和ISSN號變更、書寫方式差異等)而無法匹配,需要通過程序對各來源相關信息進行唯一性檢測或人工整理,使其與總庫的期刊相匹配。這是一項基礎性工作。②期刊數據規范化,即對各個字段的格式進行規范統一,如ISSN號統一為XXXX-XXXX格式,年份統一為4位等。③期刊數據增強,即當有些信息不全時,需從不同的來源進行元數據補充,甚至人工錄入。
4.2期刊信息知識組織的本體概念模型
期刊信息知識組織的目標是對期刊相關信息進行整序,使知識存儲有序化、易獲取。本研究對期刊相關信息的知識組織是基于概念層次而非知識內容層次,采取語義網和本體(Ontology)技術相結合的方式建模。期刊相關信息知識組織的核心是建立本體概念模型,模型主要涉及期刊相關概念、概念的屬性及概念之間的相互關系。根據上表中期刊相關信息所包含的內容,其可定義的概念類有期刊母體、期刊文章、科研機構、科研人物,以及期刊母體的屬性概念子類:影響因子、期刊分區、收錄來源、開放期刊、館藏特征和利用情況。期刊相關信息本體概念模型如圖3所示,概念和子概念以節點表示,各概念之間的關系以邊表示,概念之間定義了關系,如科研人物是科研機構的成員(memberOf),卷期是期刊母體的部分(isPartOf),收錄來源是期刊母體的子屬性(subPropertyOf)等,同時這些關系也是互逆的,各概念彼此之間構成網狀關聯結構,一個概念可以關聯到其他各個概念。
4.3期刊相關概念屬性元數據語義描述
期刊相關信息本體概念模型建立了期刊各概念之間的相互關聯,其概念、關系和屬性要使機器可理解,需借鑒本體詞匯(如bibo、fa-bio、foaf、dcterms、rdfs、owl等)進行語義規范。對于擴展的詞匯,本研究自定義擴展詞匯的命名空間為journal。概念和關系的語義規范描述詞匯已定義(如圖3所示),下面對各概念的屬性元數據進行語義規范描述。期刊母體類可用bibo:Journal本體詞匯描述,其數據屬性為刊名(dc:title)、歷史刊名(dcterms:alternative)、ISSN(bibo:issn)、語種(dc:language)、出版頻次(dcterms:accrualPe-riodicity)、創刊年(prism:creationDate)、簡介(dc:description)、主題分類(dc:subject);對象屬性有官網地址(prism:url)。機構成果為機構科研人物所發表的期刊文章,概念類有科研人物(foaf:Person)、科研機構(foaf:Organization)、卷期(bibo:Issue)和期刊文章(fabio:JournalArticle),其數據屬性主要有題名(dc:title、dcterms:alternative)、年(prism:year)、卷(prism:volume)、期(prism:issue)、頁碼(prism:page)、關鍵詞(prism:key-word)、摘要(dcterms:abstract),對象屬性有DOI(bibo:doi)。卷期類與期刊母體為屬于與被屬于的關系(isPartOf/hasPart),期刊文章類與卷期類也是屬于與被屬于的關系,期刊文章由科研人物創建(creator),科研人物為科研機構的成員(memberOf)。期刊母體相關屬性類的概念采用自定義詞匯集(journal),其具有的子屬性關系(rdfs:sub-PropertyOf)的類有收錄來源(journal:Source)、影響力(journal:Impact)、分區(journal:Zone)、開放特征(journal:Open)、館藏特征(journal:Collec-tion)和期刊利用(journal:Utilization)。子屬性類的數據屬性有年份(prism:year)、月份(prism:month)、主題分類(dc:subject)、收錄類型(jour-nal:CollectionType)、分區類型(journal:Zone-Type)、Top期刊(journal:Top)、被引次數(jour-nal:TotalCites)、影響因子(journal:ImpactFac-tor)、特征因子(journal:Eigenfactor)、請求量(journal:NumberOfRequests)、來源數據庫(jour-nal:DataBase)、網址(prism:url)、OA期刊類型(journal:OpenType)。以上從語義上定義了期刊相關信息的概念類、屬性及其關系,通過各概念之間的語義關聯使期刊相關信息的各概念構成了一種網狀關聯結構,從而便于進行知識推理,從任意維度出發發現更多有價值的信息,便于期刊信息的深度發掘。
5核心期刊多源信息聚合的應用
基于上述核心期刊相關信息聚合模式,本研究收集整理了核心期刊的7類相關信息:最新收錄、影響因子、分區、開放特征,以及某單位圖書館的期刊館藏、機構成果和期刊利用數據,實現核心期刊信息導航展示與多維分類統計、期刊多維信息展示與關聯發現,并對其在期刊采訪決策和個性化服務中的應用前景進行分析。
5.1核心期刊信息導航展示與多維分類統計
用戶可以從收錄來源、分區類型和年份等多個維度統計和展示各個學科類別或分區的核心期刊數量、OA刊數量、館藏刊數量、友好刊數量(本機構成員發文的期刊),然后再導航到各類期刊的列表。一方面,可方便用戶找到自己感興趣的各種特征的期刊;另一方面可方便采訪人員了解各學科的核心期刊分布情況。
5.2核心期刊多維信息展示與關聯發現
期刊相關信息各概念之間的語義關聯使具體期刊的相關信息發現更為便捷。一方面可以從多個維度聚合期刊相關信息,將期刊各維度的信息展示出來,如對于某一具體期刊可聚合期刊元數據,各種類型各年份的收錄、分區、影響因子信息、期刊的機構發文、電子及紙本館藏信息、期刊利用情況等;另一方面,期刊各概念關聯層次的多級性使用戶可以發現更多有價值的信息,同時可關聯到同學科、同分區或相同收錄來源的相關期刊等。
5.3期刊采訪決策
期刊相關信息聚合后便可從多個角度對期刊進行統計和分析,為圖書館期刊采訪提供決策支持。高校圖書館在做期刊采訪決策時,需要對期刊的影響力、利用情況、學科分區、館藏特征、友好性和開放性等進行分析[8]。從聚合的核心期刊相關信息中可統計出本館已訂購各學科哪些核心電子刊、紙本刊;已訂購的每種核心期刊在本校的利用情況、使用成本;各數據庫中的期刊利用率情況;各學科中哪些核心期刊未訂購;各學科未訂購的核心期刊的影響力、開放性、友好性、來源數據庫情況。這些都是期刊采訪需要了解的信息,其統計和分析結果可為期刊采訪提供決策支持。
5.4期刊信息定制、推薦與服務融合
在數字圖書館個性化服務中,期刊相關信息的定制是指用戶自定義期刊相關主題、刊名、作者、收錄來源和分區等組合的檢索條件,系統自動把檢索到的期刊或文章最新結果集提供給用戶,使用戶更加及時便捷地獲取自己感興趣的期刊相關信息。期刊信息的推薦是指根據用戶的發文、借閱或檢索行為等,把與讀者行為相關的期刊信息、期刊目次或期刊文章推薦給用戶。期刊相關信息服務融合是指將期刊數據服務融入其他平臺,便于用戶發現和利用。如融入圖書館學科信息服務系統,提供學科期刊信息服務;融入微信、圖書館個性化服務平臺,便于讀者了解期刊相關信息和投稿,也可開放的關聯數據,方便第三方利用期刊信息。
結語
期刊相關信息的聚合使分散異構的期刊信息有序化。數據層從各來源采集期刊相關信息,對其進行數據清洗后載入系統,其中大部分工作可通過程序自動完成。信息層和知識層對期刊相關信息概念化、語義化和關聯化。期刊相關信息深度聚合使讀者發現和利用期刊更為便捷,在對期刊進行多維統計分析的基礎上,可為高校圖書館期刊采訪提供決策支持。
參考文獻:
[1]邱均平,方國平.高校圖書館語義化館藏資源深度聚合模式及其應用研究[J].圖書館學研究,2014(21):64-71.
[2]童旺宇.OPAC系統中面向用戶決策的圖書信息多源融合[J].圖書館工作與研究,2017(6):93-100.
[3]陳勤.布拉德福定律在期刊計量管理中的若干應用[J].圖書情報工作,1997(12):12-14,23.
[4]賴茂生,屈鵬,趙康.論期刊評價的起源和核心要素[J].重慶大學學報(社會科學版),2009(3):67-72.
[5]網絡聚合[EB/OL].[2019-07-01].
[6]張建紅.基于語義關聯的海量數字資源知識聚合與服務研究[J].圖書館工作與研究,2016(8):44-47.
[7]鮮國建,趙瑞雪,孟憲學,等.基于知識組織體系的多維語義關聯數據構建研究[J].數字圖書館論壇,2014(3):11-18.
[8]周理盛,尚永紅,李永鋒,等.中南林業科技大學高水平科研論文引文分析———基于SCI/SSCI/A&HCI[J].中南林業科技大學學報(社會科學版),2014(4):182-185.
作者:周理盛 熊擁軍 單位:中南林業科技大學圖書館