前言:想要寫出一篇引人入勝的文章?我們特意為您整理了信息知識組織智能檢索系統設計范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:【目的/意義】采用當前方法檢索信息知識時,存在檢索效率低和查全率低的問題。為用戶提供全面的檢索,需設計效率更好的知識檢索系統。【方法/過程】提出了基于元數據的信息知識組織智能檢索系統設計方法,利用Agent實現人機交互層、信息處理層和信息收集層在檢索系統中的交互,分析了存儲管理模塊、用戶接口模塊、搜索引擎和索引模塊、通信管理模塊、特征提取模塊的主要功能,通過自適應路由機制、查詢機制和自配置機制實現信息知識的檢索,完成信息知識組織智能檢索系統的設計。【結果/結論】實驗結果表明,本文方法具有信息知識檢索效率高和查全率高的優點。
關鍵詞:元數據;信息知識;信息檢索;系統設計
1信息知識組織智能檢索系統
1..1總體設計思想
依據元數據的設計思想,為形態不同的資源集合和數字化信息單元做規范的保存、描述、保護、確認、管理、檢索和選擇適當的元數據標準構建數據庫,通過對數據庫的控制,達到數據庫系統互通的目的,實現信息知識組織智能檢索系統的設計。依據設計思想將檢索系統框架分為人機交互層、信息處理層和信息收集層,分析系統層次的交互過程,并闡述存儲管理模塊、用戶接口模塊、搜索引擎和索引模塊、通信管理模塊和特征提取模塊的主要功能。
11.2檢索系統設計
(1)人機交互層:該層是信息知識組織智能檢索系統中用戶可見的部分。信息知識組織檢索系統和用戶之間的唯一連接是人機交互層,用戶通過該層接收檢索系統的服務,檢索系統通過人機交互層傳送請求。交互Agent的主要功能是與用戶交互,在系統中為用戶提供交互界面,幫助用戶收集信息,通過檢索系統中存在的內部模型生成查詢任務,獲取查詢結果。將人機交互層作為獨立的一層,可以根據用戶各自的愛好設計檢索系統中的查詢界面。該層主要由用戶接口模塊、通信管理模塊構成,其主要功能分別為:①用戶接口模塊。通過模糊描述和示例查詢等形式為用戶提供查詢信息知識的接口。用戶接口可以讓用戶向數據庫中提交查詢結果、輸入查詢以及插入信息。信息知識查詢有時是模糊的、有時也是多樣的,用戶可以通過不同類型的信息和多種方式查詢,存在多樣性;但用戶有時無法準確地描述需要檢索的信息,因此存在模糊性。為滿足上述要求,需要提供查詢、瀏覽和搜索優化的工具【8】。②通信管理模塊。由客戶端和服務器端構成,包括QoS服務和傳輸協議服務。(2)信息處理層:檢索系統的主體部分是信息處理層,各任務Agent在信息處理層中都是協同工作的。通過信息處理層將信息傳送給Agent執行信息查詢任務。在信息處理層中存在的Agent具有問題求解、信息分類的知識,還具有信息收集層中Agent具有的知識。信息處理層的主要任務如下:①接收上一層中發送的請求任務。②分析接收的請求任務并對其包裝,傳送到信息收集層中。③過濾處理返回的信息,并抽取返回信息中存在的重要信息,在半結構化數據庫中存入重要的相關信息。該層主要由特征提取模塊構成,其主要功能可對全局或者是目標對象進行特征提取。(3)信息收集層:信息知識組織智能檢索系統的基礎是信息收集層。通過用戶收集層可以連接網絡服務器,收集信息空間中存在的信息資源。在信息收集層中存在信息資源,可以選擇需要的信息資源,實現信息資源的收集。信息收集層的主要功能是連接網絡中的服務器,負責與網絡中的服務器和搜索引擎之間的交互,采集相關信息。該層主要由索引引擎和檢索模塊、存儲管理模塊共同構成,其主要功能分別為:①索引引擎和檢索模塊。檢索是通過特征之間存在的距離函數實現相似性匹配。類型不同的數據對應的相似性測度選法也不同,在檢索引擎中存在相似性測度函數集。通過索引機制檢索引擎可以實現信息檢索的目標。②存儲管理模塊。包括數據存儲和壓縮。由媒體庫、特征庫和知識庫構成。在媒體庫中存在類型不同的多種媒體,特征庫中存在提取的信息特征和用戶輸入檢索系統的注釋內容,在知識庫中存在各個領域中的知識以及通用知識。
11.3檢索系統過程
(1)數據輸入過程:用戶可以利用用戶接口定義、標記、說明新輸入的信息知識。利用特征提取器提取信息知識的特征和內容。根據系統的相關程序將采集的信息和對應的特征傳送到服務器中。(2)信息獲取過程:用戶可以通過用戶接口定義查詢,通過查詢系統數據庫中存在的內容,將獲取的信息當作查詢條件。利用特征提取器在數據庫中提取查詢信息的特征。通過通信程序將提取得到的特征傳送到服務器中,在數據庫中利用搜索引擎或索引特征獲取相似度最高的信息。
2實現技術
22.1自配置機制
通過語義類別在本地文件中定義節點的興趣偏好,利用文本分類法確定語義類別,通過向量模型表示出來,節點之間的興趣相似度越高,成為重要節點的優先權越高。設S(Pi,Pj)代表的是節點Pi和節點Pj之間的優先權,其計算公式如下:S(Pi,Pj)=C(Pi)⋅C(Pj)|C(Pi)|×|C(Pj)|=∑s=1tws,i×ws,j∑s=1tw2s,i×∑s=1tw2s,j(1)式中:S(Pi,Pj)用來描述節點Pi和節點Pj之間的興趣相似度;C(Pi)、C(Pj)分別代表的是兩個節點對應的興趣特征向量;C(Pi)|、|C(Pj)|分別代表的是興趣特征向量對應的模;ws,i、ws,j分別代表第s個特征詞在節點Pi和節點Pj中的權值。確定重要節點優先權過程中較為重要的因素之一是行為相似性。如果兩個節點沒有同時在線,但之間存在相似的興趣偏好,則兩個節點之間在網絡中成為鄰居節點不存在任何意義。設Si(Pi,Pj)代表的是兩個節點之間的行為相似性,其表達式如下:Si(Pi,Pj)=Con(Pi)⋂Con(Pj)24N×3600(2)式中:Si(Pi,Pj)用來描述兩個節點在網絡中的行為相似度;Con(Pi)⋂Con(Pj)代表的是兩個節點在N天中同時在線的總時長。在行為相似性和興趣的基礎上實現信息知識組織智能檢索系統的動態自配置機制,結合網絡因子、時間因素和節點之間在網絡中交互的歷史信息數據。設AP(Pi,Pj)代表的是節點Pj在動態自配置過程中成為節點Pi的重要節點對應的優先權,其計算公式如下:P(Pi,Pj)=ω∗[α∗∑tHit(Pj)Hop(Pj)+β∗∑t-1Hit(Pj)Hop(Pj)](3)式中:∑tHit(Pj)Hop(Pj)代表的是在節點Pi提供的答案在當前配置周期中與邏輯距離之間商的和;∑t-1Hit(Pj)Hop(Pj)代表的是節點Pi提供的答案在上一個配置周期中與邏輯距離之間商的和;α、β代表的是遞進系數;ω代表的是網絡因子。在行為相似性和興趣相似性的基礎上檢索系統中存在的節點會構成不同的簇,在相同簇內,兩個節點的行為和偏好越相似,則兩個節點之間的邏輯距離越小【9】。
22..2查詢機制
為了實現信息知識的共享和檢索,用向量空間表示每個節點在檢索系統中維護用戶提交的查詢和文件。節點維護用戶提交的查詢和文件的索引項在向量空間模型中用權重表示,上述權重可以用來確定查詢和文件的相似度,可以通過權重計算文件在檢索過程中的排序。設權重ωij代表的是在文件dj中索引項ki(ki,q)的重要程度(ki,dj);權重ωiq代表的是在用戶提交查詢q中索引項ki的重要程度。設dj代表文件dj的向量,其表達式如下:dj=(w1f,w2f,⋯,wtf)(4)式中:t代表的是索引項在文件中的總數。設q代表的是用戶提交查詢對應的向量,其表達式如下:q=(w1q,w2q,⋯,wtq)(5)設sim(dj,q)代表的是節點維護文件dj和查詢q之間的相似度,其計算公式如下:sim(dj,q)=dj⋅q|dj|×|q|=∑i=1twij×wiq∑i=1tw2ij×∑i=1tw2iq(6)式中:||q、||||dj分別代表文件和查詢向量對應的模。首先采用本地節點Pi解析用戶提交的查詢,并以并行方式處理:如果本地有存在答案的可能,則對本地數據庫進行搜索,并將查詢傳送到重要節點中,在重要節點中進行上述處理【10】。
22.3自適應路由機制
當前大部分信息知識組織檢索系統存在查全率低的問題,為了解決上述問題,基于元數據的信息知識組織智能檢索系統設計方法基于系統的拓撲特性,使用自適應的查詢路由策略,將節點在網絡中的興趣偏好作為依據,將查詢傳送到目標節點簇中,具體步驟如下:(1)查詢-提交,利用本地節點對查詢作解析處理,然后通過重要節點和本地節點之間的興趣統計信息判斷節點是否落在目標節點簇中,再根據判斷結果進行下一步處理。(2)如果目標節點簇中不存在該查詢,則根據鄰居節點在網絡中的偏好完成信息的統計,并向目標節點簇中轉發查詢,接收到查詢信息的鄰居節點進行相同決策,直到目標節點中存在查詢為止。(3)當目標節點簇中存在查詢,且不能在第一時間內獲取合格答案時,將路由歷史記錄作為依據,當前節點可以將查詢傳送到最有可能存在合格答案的節點中;如果查詢經過上述節點,且處理節點中不存在符合要求的答案,查詢終止。
3實驗結果與分析
Ma=AbM×100%(7)式中:Ma代表查全率,Ab代表檢索出的相關信息量,M代表檢索出的信息總量。利用Mulan平臺,設置定向檢索內容,并設定檢索系統每隔0.2s自動進行一次檢索,共進行6次迭代。分別記錄應用本文方法、文獻【5】方法和文獻【6】方法系統的所需檢索時間及數據查全率。通過上述步驟驗證基于元數據的信息知識組織智能檢索系統設計方法、文獻【5】方法和文獻【6】方法的有效性。采用基于元數據的信息知識組織智能檢索系統設計方法檢索信息時所用的時間均少于文獻【5】方法和文獻【6】方法檢索信息所用的時間,主要因為是所提方法通過查詢統計數據、信息行為和信息偏好確定并調整重要節點對應的機制,縮短了檢索信息所用的時間,提高了所提方法的檢索效率。基于元數據的信息知識組織智能檢索系統設計方法、文獻【5】方法和文獻【6】方法的查全率。在多次迭代中基于元數據的信息知識組織智能檢索系統設計方法的查全率遠遠高于文獻【5】方法和文獻【6】方法的查全率,因為該方法根據信息知識組織檢索系統的拓撲特性,通過自適應查詢路由策略實現信息知識的檢索,提高了基于元數據的信息知識組織智能檢索系統設計方法的查全率。
4結語
針對當前信息知識組織檢索系統設計方法存在檢索效率低和查全率低的問題,為了高效、準確地實現信息的檢索,本文提出了基于元數據的信息知識組織智能檢索系統設計方法,實驗結果表明,本文方法解決并優化了當前信息知識組織檢索系統設計方法中存在的問題,并可在較短的時間內準確的實現信息知識的檢索。
參考文獻
1何泰伯.基于大數據分析的多媒體信息檢索系統設計[J].現代電子技術,2018,41(3):111-114.
2鮑玉來,白淑霞,飛龍,等.漢蒙跨語言檢索系統設計與實現[J].情報理論與實踐,2017,40(4):128-132.
作者:王丹 張祥合 趙浩宇 單位:吉林大學《仿生工程學報》編輯部