前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的搜索引擎研究主題范文,僅供參考,歡迎閱讀并收藏。
互聯網對商業發展產生了巨大的推動作用,我國商業信息網站已經發展到成千上萬家,在傳播商業政策和信息方面發揮了顯著作用。隨著網絡信息數量的迅猛增長,“信息過載”、“信息超載”現象引起了人們的重視。如何高效、準確的獲得包含用戶所需的信息的網頁,日益成為需要迫切解決的問題。
垂直搜索引擎是解決這一問題的一個有效方法。面向商業的中文專題垂直搜索引擎有針對性的搜索網上商業專題信息,從而使商務人員高效檢索所需的信息。而隨著萬維網上的信息數量呈指數增長,大量信息垃圾也混雜其中。如何向商業用戶提供質量好且數量適當的檢索結果成為垂直搜索引擎關注的方向之一。
二、國內外現狀與發展趨勢
垂直搜索引擎大都處于研究和試驗階段,利用其搜索的結果再加上專業人士的加工而形成的面向某一學科、領域的垂直門戶網站也已經出現。目前在國外,對有關主題搜索引擎的研究已經成為一大熱點,我國主題搜索引擎的研究則剛剛起步。
目前面向主題的網絡搜索主要有兩種技術:
一是基于內容的搜索,這種搜索方式是傳統的信息檢索技術的延伸。它的主要方式就是在搜索引擎內部建立一個針對主題的詞表,搜索引擎的爬行器根據其內設的詞表對網上的信息進行索引。各個不同的系統詞表建設的復雜度也大不相同。
二是基于鏈接分析的搜索。網頁之間的鏈接指引關系與傳統的引文索引非常相似,通過對鏈接進行分析,可以找出各個網頁之間的引用關系。由于引用網頁與被引用網頁之間內容上一般都比較相關,所以就可以很容易地按照引用關系對大量網頁分類。
三、技術關鍵
基于面向商業的垂直搜索引擎服務具有其自身的特性,下面列舉出實現商業信息垂直搜索引擎的四大關鍵技術。
1.針對性、實時性和易于管理的網頁采集技術:面向商業的垂直搜索帶有專業性或行業性的需求和目標,所以只對局部來源的網頁進行采集,采集的網頁數量適中,但其要求采集的網頁全面,必須達到更深的層級,采集動態網頁的優先級也相對較高。在實際應用中,垂直搜索的網頁采集技術應能夠按需控制采集目標和范圍、按需支持深度采集及按需支持復雜的動態網頁采集,即采集技術要能達到更加針對性、實時性和易于管理,并且網頁信息更新周期也更短,獲取信息更及時。
2.結構化數據的網頁解析技術:由于面向商業的垂直搜索引擎服務的特殊性,往往要求按需提供時間、來源、作者及其他元數據解析,包括對網頁定內容的提取。在商業垂直搜索服務中,要求對于作者、主題、地區、機構名稱、產品名稱以及特定行業用語進行提取,才能進一步提供更有價值的搜索服務。
3.全文索引和聯合檢索技術:面向商業的垂直搜索由于在信息的專業性和使用價值方面有更高的要求,因此能夠支持全文檢索和精確檢索,并按需提供多種結果排序方式。另外,還要求按需支持結構化和非結構化數據聯合檢索,比如結合作者、內容、分類進行組合檢索等。
4.智能化的文本挖掘技術:面向商業的垂直搜索是以結構化數據為最小單位。基于結構化數據和全文數據的結合,垂直搜索才能為用戶提供更加到位、更有價值的服務。整個結構化信息提取貫穿從網頁解析到網頁加工處理的過程。同時面對上述要求,垂直搜索還能夠按需提供智能化處理功能,比如自動分類、自動聚類、自動標引、自動重排,文本挖掘等等。這部分是垂直搜索乃至信息處理的前沿技術。
四、設計方案
1.技術路線。采用如下的研究開發路線:
(1)針對商業信息的分布特點以及用戶的實際需求,在充分調研的基礎上,詳細了解和比較其他研究人員在類似領域取得的一些重要而有一定創新性的成果,在此基礎上初步提出平臺的整體架構。
(2)結合面向對象設計技術,對上一步設計出的平臺進一步細化,從而明確對該項目所采用的具體設計模式。
(3)根據設計模式所面臨的具體問題(例如,如何提高爬行速度問題、系統資源限制問題、網頁分類器問題、HTML文檔解析問題等)給出有效的解決方案。
(4)將以上的方案付諸實施,形成一個面向商業的信息查詢與共享平臺;同時對系統的各種參數進行進一步測試,不斷地完善和優化,最終形成一個界面友好、響應速度/查全率/查準率均符合用戶要求的面向商業的垂直搜索引擎。
2.創新點。為達到商業信息搜索引擎預期的響應速度、查全率和查準率,在系統的開發中有如下創新點:
(1)系統總體為模塊化結構,各個模塊之間高內聚,低耦合。
(2)系統使用面向對象語言開發,能夠有效地重用系統部分代碼。
(3)在設計過程中,使用面向對象的思想做指導,建立系統類圖,便于開發人員之間的交流。在編碼過程中,不斷重構代碼,使得代碼具有很高的運行效率,大大提高其重用性。
(4)系統集成時,使用XML文檔作為模塊間傳遞信息的工具。
【關鍵詞】搜索引擎 信息檢索 查準率隨著計算機網絡技術的不斷發展,人們對信息需求也越來越高,為了方便人們共享網絡信息資源,更有效地利用信息資源,搜索引擎應運而生,國內外出現了一大批著名的搜索引擎。它們都有各自的優缺點,本文通過查全率和個性化服務兩方面的比較,對中外著名的搜索引擎進行分析,并對這些搜索引擎提出了一點自己的設想。
一、Goole,百度與中國搜索的查準率之比較
因特網擁有豐富的信息資源,其中以超文本標記語言存貯和傳輸的WWW(World Wide Web,即萬維網)信息資源,因其方便迅速的瀏覽、一點即開的超鏈接和聲音圖像、視頻等多媒體顯示方式,成為網上信息資源的主流。在互聯網發展初期,網站相對較少,信息查找比較容易。隨著互聯網的迅速發展,Interne資源的驟然增加,特別是web信息的迅速膨脹,使得檢索新出現的網頁變得越來t越困難,普通網絡用戶想找到所需的資料如同大海撈針,這時為滿足大眾信息檢索需求的專業搜索引擎便應運而生。
(一)國內外搜索引擎回顧
搜索引擎技術1994年在美國出現,1995年開始進入大規模的商業化開發階段。由于中西方語言文化的差異,中文搜索引擎的出現相對晚些,但在隨后幾年的中文搜索引擎得到快速發展,涌現了許多著名的搜索引擎。在內地,北大天網1997年10月29日開始為Internet用戶提供WEB信息導航服務,1998年2月搜狐成立,新浪1999年開始搜索服務,2000年百度創立,同年網易開始創搜索服務,2001年TOM的搜索服務及2002年8月慧聰搜索的成立等。2003年9月25日,慧聰搜索攜手中國互聯網新聞中心共同發起并成立了以搜索引擎應用為基礎的聯盟組織――中國搜索聯盟,12月23日原慧聰搜索正式獨立運作,成立了中國搜索。香港地區有1997年創立的添達香港搜索(ti mway.co m)以及2002年創立的巴辣香港(ba )等。臺灣地區,1995年8月蕃薯(番薯,藩屬)藤()開始繁體中文的搜索服務,成為世界上第一個開始啟動中文搜索服務的搜索引擎;1998年1O月penfind(.tw)成立,同年4月開始提供繁體中文搜索服務等。國外著名的搜索引擎從1999年開始也相繼開展中文搜索服務,如:Yahoo中國于1999年9月正式開通,2000年9月12日Google啟動中文搜索服務,2004年6月21日雅虎在中國推出一搜Ill等。從第一個中文搜索引擎問世至今,互聯網上有記錄可查的中文搜索引擎有數百個,現已成為人們查找網絡信息資源必不可少的工具。中文搜索引擎通常包括兩種類型:一種是網頁全文搜索引擎,另一種則是網站搜索引擎,前者由程序自動抓取網頁進行分析并建立索引,后者由專業編輯人員進行人工分類和維護。它們各自滿足不同的搜索需求,而且互為補充。
據此可見,順應信息檢索需求,1994年以來國內外搜索引擎相繼涌現,在成就其數量優勢的同時,也為其彼此間服務質量優勢的角逐提供了平臺。國外引擎以Goole為例,國內以百度和中國搜索為例,本文將就其各自的相對查準率進行下列比較。
(二)Google,百度和中國引擎查準率之比較
我們拿一些實例來具體比較一下國內的一些搜索引擎與國外的搜索引擎的區別在哪里,國外以Google為例,國內就拿百度和中國搜索來比較。
相對查準率是衡量搜索引擎的一個重要指標。有人在網上做過這樣的測試,即,在這三大搜索引擎中輸入同樣的30條記錄,然后觀察它們所搜索出來的信息情況,其結果是這樣的:
不管是國外的Google,還是國內的百度與中國搜索,有很多重復或無用的信息呈現,甚至前10條記錄中都有這一現象發生。在搜索結果的前30條記錄中,重復或無用的信息最多的是中國搜索(共110條)其次是百度(共101條),最少的是Google(共91條)。在前10條記錄中重復或無用信息最多的是中國搜索(33條),Google與百度幾乎相當;在11-20條記錄中重復或無用信息最少的是Google(24條),百度與中國搜索相差無幾。就出現在21-30條記錄中的重復或無用信息量而言,三者完全相同,都是42條。并且在重復或無用信息中,有一定字面聯系、但內容信息無用的鏈接占有相當的比例。其主要原因之一是搜索引擎采用全文檢索,不能完全理解搜索查詢請求,也不能很好地理解網頁的內容,只要在全文中可以找到所有的檢索詞,信息就會被檢出。這樣,有些web頁面只在全文中含有檢索提問式中的所有相應關鍵詞,在信息內涵上并不符合檢索提問的要求,也會被檢索出來,造成這一現象的另一個主要原因則是搜索引擎使用的排序技術本身的不足所致,它是由網頁的權值決定的。網頁的權值與網頁被鏈接的數量及質量有關,被鏈入的網頁數越多、網頁的權值越高及被鏈出的網頁數越少,則該網頁的權值越高,這樣小站、新站、專業站的內容再好,因為不能迅速得到大量高質量的超鏈,難以得到合適的排名,而一些權值高的網頁碩士學位論文討論認為,即使其內容與搜索詞之間沒有相關性,只要在網頁中有搜索詞出現,其排名也會比較靠前。還有一個原因就是重復網頁沒有完全被過濾掉。因此,許多有用和相關頁面無法返回給用戶,很多重復無用的信息出現在,Google、百度和中國搜索的相對查準率分別為0.449,0.433,0.399,從數字上看Google的相對查準率比百度與中國搜索的相對查準率高一點六個百分點和5個百分點,但Google與百度前30條記錄查準率、Google與中國搜索前30條記錄查準率,都經t檢驗,P>0.05 ,故尚不能認為國外搜索引擎Google的相對查準率比國內搜索引擎百度、中國搜索的相對查準率高。在搜索引擎相對查準率的測試過程中,對其有影響的因素有檢索表達式、前N條記錄、組的權值、相關范疇以及相關范疇的相關系數等。如何合理地選取表達式及N如何取值是值得研究的問題,另外對前N條記錄如何合理地進行分組、組的權值如何分配、相關范疇如何分配以及相關范疇的相關系數如何賦予都是值得探討的問題。值得探討的問題。
二、Google,百度及中國搜索個性化服務功能之比較
個性化搜索服務對于搜索引擎來說應該是屬于一個賣點。你有怎么樣的服務,你就有怎樣的服務人群,所以這種擁有自己特點的服務對于每一個搜索引擎來說都是至關重要的。
由于Google、百度和中國搜索默認每頁顯示10條搜索結果,為了方便查看,減少顯示結果的頁數,需要到搜索引擎相應的功能區重新設置每頁搜索結果顯示條數。除中國搜索無法更改外,在Google和百度的高級搜索與個性設置功能區都能重新設置每頁搜索結果顯示條數。并且在重新設置的過程中發現:搜索與某個指定網頁存在鏈接的所有網頁、搜索35種語言的網頁、提供包括簡體中文和繁體中文共101種語言的搜索界面、提供中文簡體和繁體文本之間的"翻譯"轉換等功能,只有Google擁有。雖然百度與中國搜索只有簡體中文界面,百度的無法在檢索的結果頁進行搜索高級搜索與個性設置,中國搜索也無法在結果頁進行個性設置,但都能按地域搜索網頁,并且中國搜索還能按行業進行網頁搜索等。同時,在利用中外主流搜索引擎搜索中文網頁的過程中發現,不同的人使用相同檢索表達式得到的搜索結果卻完全相同,不會因人的地域、性別、年齡、職業、愛好、專業、心理傾向的差異而有所不同,并且搜索結果都無法按網頁更新日期、網頁生成日期等其它方式排序,而是都只有按內容相關度排序一種方式。由此可見,百度和中國搜索的個性化服務與Google一樣有了一定的體現,個性化搜索服務水平仍然不高,但各具特色。
通過以上的分析,我們不難概括出國內主流搜索引擎存在的幾點優勢:百度中文網頁的收錄量超過了Google;國內的百度和中國搜索對中文的理解要比國外的Google好;縱觀中外主流搜索引擎的更新周期及最近一天中文網頁的更新能力,百度中文網頁的更新能力超過了Google;國內的百度與中國搜索的更新周期比國外的Google短。顯然,國內主流搜索引擎也存在諸多的不足:中國搜索缺乏對PDF,PS,DOC,PPT等非HTML文檔的收錄;綜觀Google、百度和中國搜索的去重、類聚能力和網頁的重復率,國內主流搜索引擎的去重能力仍然比國外主流搜索引擎遜色;中國搜索最近一天的網頁更新能力明顯低于Google,并在使用百度與中國搜索的搜索結果后的網頁快照功能查看該網頁的快照內容時,仍出現"死鏈"現象;百度和中國搜索前30條記錄中重復和無用信息的總數高于Google國內外主流搜索引擎共同的不足:而國外的搜索引擎也不乏有這樣的缺陷;國內外主流搜索引擎的相對查準率雖然基本相等但都沒有超過50%(0.5),離用戶的情報需求還有相當的距離;國內搜索引擎百度和中國搜索與國外搜索引擎Google的個雖然有了一定的體現,并各具特色,但搜索結果卻都不會因人的地域、性別、年齡、職業、愛好、專業、心理傾向的差異而有所不同,并且除新聞網頁的搜索結果提供按日期排序和按相關性排序方式外,其它網頁的搜索結果都無法按網頁更新日期或網頁生成日期等排序,只能按相關性進行排序,用戶沒有選擇的余地。
三、結論
如今,知識經濟、信息時代均以互聯網的存在為自身存在和發展的前提。知識的一半是"找到知識"。信息經過加工轉化為知識,知識經過實踐繼而轉化為智慧,此三者的辯證性循環與攀升建構了人類智能發展的歷程。而搜索引擎的存在及其功用一定程度上顛覆性地革新了人類信息的提取速度和質量。但是,在信息爆炸的年代,如何提進一步提升搜索引擎互聯網信息檢索的查準率并使之最大化的發揮作用,是信息提取效率的關鍵所在。實踐證明,加強語義檢索的應用是提高搜索引擎質量的一個重要辦法也應該是未來的發展方向。
眾所周知,查準率是衡量搜索引擎優越性的重要指標,國內外主流搜索引擎的相對查準率都在0.5以下,主要原因是它們都將關鍵詞檢索作為主要的檢索途徑,采用全文檢索所致。
目前的關鍵詞搜索是對關鍵詞進行機械式匹配,只注重檢索詞的外在表現形式,而非它們所表達的概念,并且查詢結果完全依賴用戶給出的關鍵詞,系統與用戶之間無進一步的交互。而在大多數情況下,用戶很難簡單地用關鍵詞或關鍵詞串來真實地表達他們的檢索需求。由于同一概念,對其稱呼以前與現在不同,隨著地域的改變,同一概念的表達也會不同,不同的學科專業領域,也都有自己的術語命名規則。因此,同一概念可以用不同的詞來表達,使得許多關鍵詞都有同義詞、近義詞、上位詞、下位詞、全稱、簡稱、俗稱、商品名等。同時,不同的用戶對同一概念往往會采用不同的檢索詞,從而使檢索效果不佳,相對查準率偏低,重復和無用信息在前30條記錄中大量存在。如果搜索引擎的檢索子系統可以真正理解檢索詞的概念含義、理解關鍵詞之間的聯系,具有同義擴檢和其他相關檢索的能力,對用戶需求和文本實施概念匹配,將會減少重復網頁的出現,提高相對查準率,極大的提高檢索質量,使搜索結果真正按相關性排列,從而使檢索結果真正符合用戶的檢索要求,提高用戶查詢的滿意度。
參考文獻:
[1]李明.中文元搜索引擎萬緯搜索研究[J].現代圖書情報
技術,2003,(5).
[2]鄒小筑.專業搜索引擎-Scirus科學搜索引擎研究[J].圖
書館建設,2002,(6).
[3]劉海航,黃碧云.元搜索引擎Profusion[J].情報科學,
2002,(9).
[4]李村合.因特網多元搜索引擎SearchX2000的研究[J].情 報學報,2002,(4).
[5]陸興.八個著名中文搜索引擎的特征及其評析[J].圖書館
理論與實踐,2003,(2).
[摘要]隨著信息技術的發展,網絡的迅速普及,搜索引擎在網絡用戶的生活中扮演著越來越重要的地位,了解并能熟練使用搜索引擎成為大眾的必修課。對搜索引擎的基本知識和種類作簡要介紹,并結合親身實踐介紹幾種實用的搜索技巧。
[關鍵詞]搜索引擎種類技巧
一、搜索引擎概述
搜索引擎是指根據一定的策略、運用特定的計算機程序搜集互聯網上的信息,在對信息進行組織和處理后,為用戶提供檢索服務的系統。它主要是用于檢索網站、網址、文獻信息等內容。隨著網絡技術的發展,各種搜索引擎層出不窮,目前流行的搜索引擎主要是幫助用戶搜索表層信息,如google、百度、雅虎等。
二、搜索引擎的分類
目前,主流的搜索引擎有如下幾類:
(一)全文索引
根據搜索結果來源的不同,全文搜索引擎可分為兩類,一類擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,能自建網頁數據庫,搜索結果直接從自身的數據庫中調用,上面提到的Google和百度就屬于此類;另一類則是租用其他搜索引擎的數據庫,并按自定的格式排列搜索結果,如Lycos搜索引擎。
(二)目錄索引
目錄索引雖然有搜索功能,但不能稱為真正的搜索引擎,只是按目錄分類的網站鏈接列表而已。用戶完全可以按照分類目錄找到所需要的信息,不依靠關鍵詞進行查詢。目錄索引中最具代表性的是Yahoo、新浪分類目錄搜索。
(三)元搜索引擎
元搜索引擎接受用戶查詢請求后,同時在多個搜索引擎上搜索,并將結果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile等。中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索結果排列方面,有的直接按來源排列搜索結果,如Dogpile;有的則按自定的規則將結果重新排列組合,如Vivisimo。
三、搜索引擎使用技巧
(一)關鍵詞的選擇
目前搜索引擎不具備智能識別能力,較人腦而言還很“弱智”,往往不能很好地把握用戶到底想要什么,只會在現成的數據庫索引中查找相匹配的關鍵詞。因此,選擇合適的關鍵詞是成功檢索的第一步。關鍵詞的選擇雖然沒有什么定式,不過也有一些規律可循,在提取關鍵詞時力求做到規范,避免口語化,便能達到事半功倍的效果。此處用特殊實例來說明:
1.使用特定詞匯。有時輸入的關鍵詞由于過泛而沒有被收錄在搜索引擎的數據庫索引中,這時可以選擇與該主題相關且更具體的詞匯。例如,欲搜索某些期刊的投稿電子信箱,一般策略是在搜索框內輸入“xxx雜志編輯部”,對知名度高、信息化程度高的期刊而言,一般都能搜出相應的email,可信息化程度不高的期刊就比較難。此時可以嘗試如下兩種方法提高搜索效率:(1)同時輸入兩個關鍵詞,縮小檢索范圍,即“xxx雜志email”或“xxx雜志電子信箱”;(2)關鍵詞中加入電子信箱關鍵信息,即“xxx雜志@”。因為任何電子信箱中均有“@”,“@”成了查找電子信箱的關鍵符號。通過這兩種方法,很容易就能將期刊編輯部的電子信箱搜到。
2.使用多個含義相近的關鍵詞。對于熱門信息來說,搜索時犯愁的是返回條目太多,可對冷門事件或事物來說往往恰恰相反。此時可使用同義關鍵詞和關聯關鍵詞來檢索,以達到更全面的搜索結果。如:在學術部門的年輕人想查閱申報課題的技巧時會發現相關結果少,此時可用“報課題技巧”、“報項目技巧”、“課題申報經驗”、“課題申報指南”等關鍵詞來檢索。
(二)局限于某個具體網站或者網站頻道
許多單位都會針對同一熱門事件在本單位網站發大量文件或文章。這些文章或文件往往名稱相同但具體內容和要求卻不同。此時,指定網站或頻道的搜索功能能為我們提高搜索效率。
(三)按文件類型查找
如需要查找簡歷模版時可以構建如下檢索式:“簡歷模版filetype:
doc”,此時能搜到word格式的簡歷模版。此處的filetype:doc是限定檢索文件的類型,該字段必須在英文狀態下錄入,而“簡歷模版”是檢索的關鍵詞。兩個字段之間必須用空格隔開。同理,如果需要檢索市場營銷的教案也可以構造“市場營銷教案filetype:ppt”的檢索式,檢索結果為ppt格式的市場營銷教案。該檢索式支持txt,ppt,xls,pdf,mp3,swf等常見文件類型。(四)巧用快照
有時會搜到訪問不了的“死鏈網頁”和過期文件,而看其內容摘要很符合需要。此時可利用搜索引擎提供的網頁快照功能查閱此類文獻。
(五)使用不同的搜索引擎
不同的搜索引擎,其信息覆蓋范圍有差異,我們平時搜索信息時僅集中于某一家搜索引擎是不明智的,因為再好的搜索引擎也有局限性,而使用優秀的搜索引擎可以達到事半功倍的效果。
(六)留意搜索引擎返回的結果
由于競價排名業務的推廣,搜索引擎返回的Web站點順序會影響人們的訪問。所以,為了增加Web站點的點擊率,一些Web站點會付費給搜索引擎,以在相關Web站點列表中顯示在靠前的位置。好的搜索引擎會鑒別Web站點的內容,并據此安排它們的順序,但許多搜索引擎無法鑒別。
【關鍵詞】 JAVA 搜索引擎 技術體系
搜索引擎本質上屬于一類數據庫,它主要由搜索器 、索引器 、檢索器以及用戶接口所構成。其工作模式包括兩種即自動信息搜集與定期搜索。以最常見的谷歌引擎為例,在一定周期時間內會利用蜘蛛程序進行主動搜索,當發掘出新的網站時便可以從網站中提取相關信息并將這些信息置于數據庫當中[1]。
也就是說每隔一個周期搜索引擎數據庫的數據都會持續性地更新,一方面擴大了搜索引擎的應用范圍,另一方面為用戶也提供了極大的便捷。在搜索引擎使用過程中用戶通過搜尋關鍵詞便可在數據庫中進行相關搜索,其中會涉及到各類特殊算法,經過處理后將關聯程度以由高至低的順序向用戶反饋。JAVA技術的革新給搜索引擎的發展帶來了新的動力,使其朝著更高的層次邁進。
一、JAVA技術特征概述
相對于其他匯編語言,JAVA語言具有良好的兼容性,另外在通用性、安全性方面較其他語言更具優勢,另外JAVA語言涵蓋了以下特點:首先JAVA語言具有良好的安全性,這種安全性對于網絡環境而言有著十分重要的意義,其安全機制能夠遏制相關代碼攻擊[2]。其次JAVA語言具有強制性特征,在其面向對象的過程中,通常情況僅僅支持類之間的單向繼承,在多個接口情況下則能夠進行多處承接。再者JAVA語言呈現了良好的動態性特點,它可以滿足動態性環境變化進行匹配,這使得基于JAVA語言匯編的系統、軟件等均得到了良好的兼容性,特別是使對于應用而言易于升級。另外JAVA語言具備多線程特征,這種特征使得相關應用及系統的性能得到了保證,為開發者與使用者帶來了更高質量的服務。
二、JAVA技術在搜索引擎中的應用分析
利用JAVA技術可對搜索引擎進行有效優化,其中java 2 PSE、Lucne以及Tomcat等均是常見的開發工具。通過使用這些工具可以使JAVA應用開發環境得到優化,并且能夠讓搜索java類庫以及索引java類庫得以實現。本研究中網站搜索引擎構建對JAVA技術的應用進行了分析[3]。以JAVA為基礎首先可以對網站內部鏈接進行優化。從形式上來看網站內部結構復雜,但卻表現了顯著的層次性。因此為了讓網站能夠保持正常的工作狀態就需要構建出一個通常的信息渠道,保持其暢通性,這樣才能促使網站良性運作,并且使得網站內部環境與外部環境關聯起來。以網站搜索為例,在網站中置入搜索框,那么該搜索框便可為用戶提供快速的信息獲取途徑。
同時可將其整合成一個針對性的平臺界面,歸類對象。這種形式可以讓用戶更好地在平臺上進行交互從而讓業務面得以擴充。對于搜索引擎而言網頁標題也是關鍵的部分,因此需對其進行優化。標題直接關系到了搜索引擎使用過程中的成效性,會影響搜索引擎的預判。另外從心理層面來看網頁標題會對用戶產生一定程度的心理引導效應,若標題具有吸引力則能夠吸引用戶點擊并查閱。因此利用JAVA技術結合網站布局在不同頁面構建出不同的標題,從而體現標題的差異性。當然標題相互之間具有明顯的差異性,但是又體現了統一性,也就是說標題整體內容應該圍繞網頁內容組織構建,不僅僅能夠對網頁內容進行明確反映并促使兩者可相互匹配。JAVA匯編提升了網站系統的識別能力,讓網站的功能性得以增強。
在應用JAVA技術的過程中Internet連接技術發揮了十分重要的作用,由于搜索引擎需要對網站中不同頁面的信息進行調用,而JAVA則帶來了豐富的功能選擇。事實上在網絡中應用計算機的過程中都離不開套接字類的作用,而端口則承擔了這種角色。
實際應用時在一個特定的時刻存在唯一的服務器程序對相同的端口進行偵聽,而ServerSocket與Socket是JAVA定義的兩個重要類別,通過上述兩類可對關鍵字進行聲明,從而構建出一對一的連接。也就是說利用JAVA保證了套接字可對相關信息數據進行直接讀取或寫入。另外需要注意的是JAVA可能對中文字體可能會產生亂碼,因此需要進行針對性處理,另外可充分利用JAVA的多線程機制使得后臺運行保持穩定的狀態。
三、結語
JAVA為搜索引擎提供了重要的技術支持,特別是在搜索引擎智能化發展的情況下JAVA技術將得到更大的應用空間讓搜索引擎的功能性得以完善。
參 考 文 獻
[1] 郭彥秋. 淺析百度與谷歌兩搜索引擎的比較與分析[J]. 才智. 2012(06)
關鍵詞:企業信息門戶;搜索引擎;數據采集;信息搜索;分類;聚類
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2011)31-7574-02
Study on Enterprise Information Portal Search Engine
FENG Shu-wen1,ZHAN Ying1,LI Yi-wei2
(1. Automation Research Institute of Lanzhou Petrochemical Company,Lanzhou 730060,China;2.Oil and Gas Storage and Transportation Branch, Petrochina Xinjiang Oilfield Company, Karamay 834002,China)
Abstract:EIP is an application framework of enterprise information system. It supplies user a platform which integrates with all kinds of application systems, data and network.. Facing the accumulated data and distracted information, we must introduce EIP search engine to supply a fast, effective search function. EIPSE integrate all the enterprise information resource and improve efficiency in application and accession to enterprise information system. EIPSE enforce the construction and application of EIP, improve the level of decision making.
Key words:enterprise information portal;search engine;data acquisition;information research;categorization;Clustering
企業信息門戶(EIP,Enterprise Information Portal)是在Internet的環境下,將各種應用系統、數據資源和互聯網資源統一集成到一個信息管理平臺之上,并以統一的界面提供給用戶,是企業信息系統的應用框架。EIP提供對企業的內部、外部各類信息的訪問,協助企業提高決策水平、優化生產運作。面對門戶建設中積累的海量數據,以及門戶技術本身導致的信息不能有效分析、缺乏統一規范、可拓展性差等問題,提供快速、高效檢索的功能成為企業信息門戶亟待解決的問題。
由于通用搜索引擎存在信息冗余量大、搜索深度不夠、搜索精度差、海量信息無序化等問題,無法滿足企業對于搜索結果精確度和信息保持最新性的要求等。因此,直接使用通用搜索引擎進行企業信息門戶的信息檢索并不合適,需要結合企業自身特點和需求開發專用的企業信息門戶搜索引擎(Enterprise Information Portal Search Engine)。
1 企業信息門戶對搜索引擎需求
通過企業門戶搜索引擎與互聯網搜索引擎的比較,并結合本企業自身特點,提出企業信息門戶對搜索引擎的需求。如表1所示。
本企業信息門戶對搜索引擎的需求主要包含以下幾方面:
1)搜索引擎必須將門戶網站的所有信息都索引進去,支持office系列、txt、PDF等多種文檔格式抓取;支持微軟AD域的權限模型抓取;支持zip、rar、tar等壓縮文件的采集。
2)數據采集之后,對于相應的數據更新,要具備靈活的機制,保證數據的質量與完善,搜索引擎的索引能夠及時反映企業信息的變更。
3)系統應提供強大的智能內容搜索功能,搜索方式除了涵蓋傳統的關鍵字、布爾表達式、字段匹配搜索等外,還需要支持概念搜索,訓練搜索,搜索導航,搜索聚類,甚至能對用戶搜索偏好和對結果擬合度的選擇進行學習,以提高搜索結果的準確度和價值。
4)系統要對采集到的全部信息進行內容挖掘,實現自動化處理,包括自動分類、聚類。
2 EIPSE設計
2.1 EIPSE的設計原則
1)標準化:遵循技術標準化、結構標準化、數據標準化等相關要求。
2)開放性:系統在體系結構、硬件產品、軟件產品、數據交換協議等方面,充分利用開放平臺,保證系統具有較好的互操作性、可移植性。
3)可擴展性:軟硬件配置具備動態平滑擴展能力,可以通過調整系統框架和相應服務單元的配置,適應業務量的變化。系統架構在開放的、安全應用支撐體系結構之上,具有良好的可擴充性。
4)技術的先進性和成熟性:采用先進和成熟的技術,滿足系統在生命周期內具有持續的可維護性和可擴展性,獲得更高的發展起點。
5)安全性:充分考慮系統安全性設計,保障數據備份、應用流程、權限管理等各個環節的安全性。在設計系統結構時,各個層次都充分考慮到系統的冗余配置和災難恢復。
6)可管理性:采用合理的系統體系結構,實現對系統的集中管理和監控。
2.2 EIPSE的架構設計
智能內容搜索服務平臺是架構于智能數據處理層(Intelligent Data Operating Layer,IDOL)上,其核心是建立在獨特的信息論和概率論的基礎之上的模式識別技術,抽取概念和內容挖掘后,為提供多種的搜索應用服務。因此,系統總體架構按照實際應用的流程實現,即從數據的采集和處理,索引和分析、應用與三個層次實現,設計結構如圖1所示。
2.3 EIPSE的功能設計
為了充分實現本企業信息門戶強大的搜索功能,整個系統主要實現數據采集、信息搜索、分類、聚類、個性化、自動關聯以及部分可視化的管理功能。
2.3.1 數據采集平臺
數據采集平臺是整個系統的基礎,是系統對外提供內容服務的源泉,主要從各種數據源(包括文件系統、數據庫、內部其他系統以及獨立信息源)采集信息。針對不同的數據格式,采用不同的方式,將各數據孤島的信息采集過來,用于資源平臺的整合與使用。如圖2所示。
2.3.2 信息搜索
信息搜索包括關鍵字的搜索、標準搜索、高級搜索、聯合搜索、參數搜索、自動摘要等功能。參數搜索可以實現各元數據的統計和分析,并可以以柱狀圖、餅圖、線圖等圖形形式進行輸出,使用戶實時了解搜索對象的數量特征。同時,系統可根據每篇文章中的主要概念,自動生成摘要。并且根據用戶瀏覽內容或者檢索條件,產生變化的動態摘要,使用戶能夠通過摘要來判斷是否為所需信息。
2.3.3 信息分類
信息分類實現自動分類,精確地根據非結構化文本中的概念進行分類。自動分類是根據一些分類標準,將某個范圍的信息內容生成分類樹,根據不同的分類主題,用戶點擊相關的分類樹節點即可查看結果。采用自動分類方法,克服了人工分類中信息檢索不全面、更新速度慢的缺點,提高了用戶的檢索速度和檢索準確度。
2.3.4 信息聚類
用戶使用搜索引擎時會得到大量返回信息組成的線性表,其中很大一部分與用戶的查詢請求無關,通過對檢索結果集合進行聚類,可以使用戶檢索結果相關的信息比較靠近。通過自動地分析采集過來的所有信息內容,把相似的文檔聚類到一起,同時自動生成類別的標題, 以可視化的各類方式提供給用戶,由用戶選擇瀏覽。
2.3.5 個性化
這里的個性化服務主要包括個性訂閱、自動提示、推送等功能。通過用戶自己設定感興趣的內容范圍與條件,系統根據用戶的設定主題提供內容服務。同時系統能夠自動維護用戶檔案,一旦發現有新的符合用戶要求的信息,能夠自動收藏到用戶檔案夾中,或者通過短信、郵件等手段來對用戶進行提示。
2.3.6 模塊監控管理
模塊監控管理系統為內容搜索各模塊提供關鍵的維護、管理、控制和監測功能,采用b/s架構方式從中央位置與所有內容服務(例如連接器、DIH、DAH等等)進行通訊。同時模塊監控系統也提供了可視化的整體面板,使內容管理員能夠對所有內容模塊(或服務)操作進行本地或遠程管理,提供可視化的參數管理、參數配置、模塊監測、狀態報表等。
3 結束語
本文是以某煉化企業正在實施的門戶搜索引擎技術為主要研究內容,通過現有的搜索引擎技術進行簡單分析,結合企業實際需求和自身特點,對該企業目前采用的門戶搜索技術進行了深入研究。研究表明通用搜索引擎用于企業信息門戶存在諸多缺陷和不足,只有針對門戶搜索開發的搜索引擎具備較好的靈活性和可擴展性,才能滿足企業信息化發展的需要。
參考文獻:
[1] 周祥,王麗芳,蔣澤軍.基于Lucene的企業信息門戶搜索引擎設計[J].微機處理,2009(4):62-64.
任何時候在搜索引擎中輸入查詢關鍵詞,你將會獲得數千條的搜索結果,太多的信息總是意味著沒有信息。用戶對信息的需求正朝著多元化的方向發展,對某一領域的信息需求不再是多而廣,而是精而深。其次,用戶對信息的要求不再是量,而是注重信息的質,即是否能給用戶解決實際的需求,提供的信息準確、權威、及時等等。通用搜索引擎的性質決定了其不能滿足用戶的特定需求,市場被不斷細分,滿足人們特定需求的垂直搜索引擎將相繼出現。
基于這種現狀,眾多行業垂直搜索引擎應運而生,像搜索電影的迅雷、搜索軟件的狗狗,搜索游戲的17173等搜索平臺廣泛得到大眾的認可。可以大膽的說,將來的搜索市場將不再是簡單的幾大搜索巨頭統治的時代!而商業搜索引擎,特別是針對性比較強的城市商業搜索引擎領域將是含金量最高的市場。因為他涉及到一個城市方方面面的商業需求。《城市商業搜索引擎》以其先進的運營構架、準確的信息采集方法和創新的競價排名模式造就了整個商業搜索引擎行業的標準,用戶完全可以拋棄所謂城市信息港、分類信息、便民網站。
因為我們的信息是通過面對面的信息采集方式獲得,是最真實、最全面的!城市商業引擎的推出不僅滿足的B2B的市場需要,還可延伸到B2C市場,擴展為一種給人們生產、生活方便快捷的便民綜合搜索引擎,其商業價值遠高于傳統的通用搜索引擎。因此誰能夠迅速的建立符合用戶需求的搜索平臺,誰將成為新一輪搜索行業的領軍企業。
基于城市的商業搜索服務-其搜索結果全部是產品或企業相關信息。內容更純粹,搜索的結果以產品或企業為主題結構化展示出來,便于用戶查看、了解。用戶可以對搜索結果帶有參與性、搜索結果也會隨著用戶的參與得到不斷豐富。這些都讓用戶更方便、快捷地找到自己想要的產品或服務,極大地滿足了人們的商業消費需求。如在工作時間,用戶要采購一批辦公用品“打印紙”,需要找相應的供應商或服務商,就可以到《城市商業搜索引擎》來查找:搜索結果只顯示供應“打印紙”的企業信息,沒有其他雜亂的信息,更方便用戶找到相應的產品供應商。如對某個企業感興趣,可以直接點擊查看,供應企業信息覆蓋包括企業獨立展示網站、B2B平臺商鋪及行業門戶商鋪在內的數據源,保證了供應商信息數量的最大化。用戶還可通過“企業評論空間”來查看不同用戶對供應商的看法,了解供應商更多內在的信息,便于對采購供應做出決策。
《城市商業搜索引擎》最大程度地覆蓋了商業用戶人群!本項目是黑蟻搜索團隊在多年從事互聯網行業的基礎上,根據自身及廣大用戶的實際需求,結合我國當前的互聯網產業發展趨勢逐步發展完善而確定的。該項目的提出,一方面符合國家的企業信息化產業政策,另一方面也是將傳統行業與互聯網有機結合實現真正意義上的網絡便民服務的必由之路。
【關鍵詞】Agent;元搜索引擎;個性化檢索
Agent技術最早源于分布式人工智能(DAI),從80年代以來,Agent技術已經從DAI領域中拓展開來,廣泛應用到很多其他領域,包括電子商務、工作流管理、運輸系統、網上信息檢索系統以及其他的網絡應用等。Multi-Agent技術在元搜索引擎中的應用就是Agent在信息檢索系統中的典型應用之一。目前,對于Agent技術的研究主要分為智能Agent、多Agent系統(Multi-Agent System,簡稱MAS)和面向Agent的程序設計(Agent Oriented Programming,簡稱AOP)三個方面。本文將Multi-Agent技術運用于元搜索引擎中,提出了一個基于多Agent的元搜索引擎系統模型。該模型既具備Agent技術智能性的特征,還具有元搜索引擎較傳統搜索引擎查全率高的優勢,不但能夠彌補元搜索引擎在智能化程度低、無法滿足用戶個性化需求等方面的缺陷,還能在一定程度上提高系統的靈活性和易用性。
1.基于Multi-Agent的元搜索引擎系統
由于每個獨立搜索引擎的覆蓋面有限,人們不得不同時調用多個獨立搜索引擎進行檢索,于是元搜索引擎應運而生。元搜索引擎是建立在多個獨立搜索引擎之上的一種綜合性搜索引擎,它接收用戶搜索請求并將查詢任務分發給各獨立搜索引擎,并將各獨立搜索引擎返回的查詢結果按照一定規則重新整理后呈現給用戶。因此,元搜索引擎又被稱為“搜索引擎之上的搜索引擎”或“搜索引擎之母”。由于元搜索引擎能夠利用多個獨立搜索引擎同時進行查詢,相對于傳統搜索引擎,信息的查全率就有了很大提高。但是,元搜索引擎還處在發展階段,某些技術尚不夠成熟,在一定程度上存在智能化程度偏低、無法滿足用戶的個性化檢索需求的缺陷。為解決這一問題,本文在元搜索引擎中引入Agent技術,建立一個基于Multi-Agent的元搜索引擎系統模型,該模型綜合了Agent和元搜索引擎兩者的優勢,能具備較高的系統性能。
1.1 基于Multi-Agent的元搜索引擎系統模型
圖1是建立的基于Multi-Agent的元搜索引擎系統模型。該模型采用Agent組織來實現元搜索引擎的智能化和個性化,利用多個Agent協同工作,通過各個Agent間的交互通訊和合作,不僅能夠開發新的問題求解方法,還能夠從相互學習中進一步完善提高各Agent的基本能力,理論上可提高查全率與查準率。
該系統主要由用戶交互Agent、興趣學習Agent、查詢擴展Agent、查詢管理Agent、成員Agent和結果整合Agent以及個性化模式庫和引擎性能評價庫組成。
1.2 基于Multi-Agent的元搜索引擎模型的系統功能
用戶交互Agent是用戶與元搜索引擎的交互接口,一方面它獲取用戶的查詢請求,遞交給查詢擴展Agent;另一方面將用戶的行為日志遞交給興趣學習Agent,由興趣學習Agent分析挖掘用戶興趣,將獲得的個性化模式存入個性化模式庫中,并實時調整、改善用戶興趣模型,智能地協助用戶進行信息檢索。查詢擴展Agent將請求中所含的有效參數分解出來,按一定語法格式重組后,將查詢指令發送給查詢管理Agent;查詢管理Agent除將查詢任務分發給各成員Agent外,還負責管理各Agent之間的協調和通訊;各成員Agent完成搜索任務后,將各自查詢結果發送給結果整合Agent,再由結果整合Agent進行歸并、去重、排序,最終按統一格式將查詢結果返回給用戶交互Agent,顯示給用戶。
個性化模式庫用于儲存用戶的個性化模式,這些個性化模式是由興趣學習Agent根據用戶以往的行為記錄經驗,對相關信息進行分析、挖掘和推理而得到的興趣模型,也可通過用戶主動提出自己的興趣愛好或對元搜索引擎查詢結果進行評價反饋獲得;引擎性能評價庫中存放各個成員搜索引擎的性能評價值信息、響應時間信息、返回鏈接數信息以及異常信息等。
2.多Agent間的通信
在基于Multi-Agent的元搜索引擎系統中,要想檢索到想要的結果,實現各Agent之間的信息傳遞,就需要有共同的通信語言和通信機制來保證各之間正常的交流通信。
2.1 Agent通信語言
目前國際上最通用的Agent通信語言主要是KQML(Knowledge Query and Manipulation Language)和FIPA ACL。本系統中各Agent間的通信語言可采用現在被廣泛使用和接受的KQML[15]。該語言既是一種Agent間的消息表達格式,也是一種消息處理協議,它規定了消息格式和消息傳送系統,為Multi-Agent系統的通信和協作提供了一種通用框架。因為標準是開放的,各種語言可以用來傳送知識,也可以集成在KQML中。
2.2 Agent通信機制
在多Agent系統中,通信方法大致可分為黑板系統和消息/對話系統。
(1)黑板系統原理
黑板系統是傳統的人工智能系統和專家系統的議事日程的擴展,通過使用合適的結構支持分布式問題求解。在多Agent系統中黑板提供公共工作區,Agent可以互相交信息、知識和數據。Agent可以在任何時刻訪問黑板,獲取新的信息。它一般只選取對當前工作需要和預測將要需要的信息。在黑板系統中Agent之間不發生直接通信。每個Agent獨立完成所求解的問題。黑板可以用在任務共享和結果共享系統中。各個Agent在訪問黑板時要從大量的信息中決定需要的內容。其原理如圖2所示。
(2)消息傳送原理
采用消息通信是實現靈活復雜的協同策略的基礎。一個Agent叫發送者,傳送特定的消息到另一個Agent,即接收者。與采用消息通信和黑板系統不同,兩個Agent之間直接進行數據交換,一個Agent直接將特定消息發送給另外的一個Agent。為了協同需要,Agent之間的通信協議必須定義好通訊過程、消息格式和通信語言,而且Agent必須明確知道語言的語義。消息的語義內容知識是分布式問題求解的核心部分。面向消息的Agent系統的原理如圖3所示。
3.多Agent協商
在基于Multi-Agent的元搜索引擎系統模型中,要想保證各Agent之間通過合作交流完成信息檢索,避免產生資源的沖突和死鎖,就需要有共同的協商機制來規范控制各Agent的行為,使之井然有序地進行,保證Agent之間通過協商對某些問題達成一致意見。
先根據功能及結構的不同,將本系統模型中各Agent劃分為兩大類:Facilitator-Agent和Crawler-Agent。Facilitator-Agent(簡稱F-Agent)又稱為管理Agent,它主要負責計劃的制定、任務的分配以及Agent之間的通信管理;Crawler-Agent(簡稱C-Agent)又稱為任務Agent,它們執行具體爬行的任務,受到F-Agent的管理。本模型中,除了查詢管理Agent具備F-Agent和C-Agent雙重身份外,其他各Agent都屬于C-Agent。
下面介紹兩種應用于搜索引擎中的Agent協商協議。
4.性能評價
在基于Multi-Agent的元搜索引擎系統中,系統的性能主要受到各Agent的自身能力和成員搜索引擎調度機制的影響。對Agent的自身能力評價,可通過其能力值來直接判定;成員搜索引擎的調度機制可通過其對應的成員Agent的獎勵情況進行調整。
4.1 Agent自身能力評價
5.結束語
近幾年,隨著Agent技術的不斷成熟,MAS在信息檢索中的應用研究逐漸成為熱點。利用MAS可以解決元搜索引擎中許多無法解決或解決不好的問題。本文提出一個適用于元搜索引擎的多Agent組織結構,在此基礎上將各Agent按功能不同分為管理Agent和任務Agent兩大類,同時對Agent的通信、協商以及能力評價都進行了詳細研究。隨著MAS系統方法的不斷改進,Multi-Agent技術在元搜索引擎中的應用也有了良好的發展前景。
參考文獻
[1]徐科,黃國景,崔志明.元搜索引擎中基于用戶興趣的個性化調度模型[J].清華大學學報(自然科學版),2005,45(S1): 1915-1919.
[2]董占兵.基于形式概念分析的主題搜索策略研究[D].成都:西華大學,2007:35-62.
[3]Jiang,Y.C.,Jiang,J.C.,A multi-Agent coordination model for the variation of underlying network topology,Expert Systems with Applations,2005(29):,372-382.
[4]Araujo Macedo,R.J.,Assis Silva,F.M.The mobile groups approach for the coordinationofmobileAgents,JournalofParallelandDistributedComputing,2005(65):275-288.
[5]趙文龍,侯義斌.多Agent系統及其組織結構[J].計算機應用研究,2000(7):12-14.
[6]何炎祥,陳莘萌.Agent和多Agent系統的設計與應用[M].武漢:武漢大學出版社,2001.
[7]向丹.專業搜索引擎中的多Agent協調研究[D].成都:西華大學,2007.
[8]Ronald C Arkin,Tucker Balch,Elizabeth munication of behavorial state in multi-agent retrieval tasks[J].Robotics and Automation,2003(3):588-594.
關鍵詞:搜索引擎;web鏈接;PageRank;HITS
中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2009)24-6748-02
Research and Improvement of the Web-link Algorithms in Search Engine
WANG Mei
(Jiangsu Maritime Institute, Nanjing211170, China)
Abstract: This article researches algorithms of search engine link structure, analyzes HITS PageRank and the algorithms of apparent defect. Improving measures are put forward. Through the test, the test in the search algorithm improves the quality, etc.
Key words: search engine; web-link; PageRank; HITS
隨著互聯網的迅猛發展,Web上信息量呈爆炸式增長,網上的資源及其豐富,但同時也充斥著大量的垃圾信息。 人們依據搜索引擎中的關鍵詞進行鏈接時,迫切需要從紛繁蕪雜的信息中找到有用知識,因此,通過有效的鏈接算法判斷網頁十分重要。
目前Google、百度等的鏈接算法使用PageRank算法和HITS算法。PageRank算法的特點在于對網頁進行了基于權威值的排序處理,最重要的網頁出現在結果的最前面。HITS算法是在描述網頁與主題的相關度時引入了權威網頁(Authority)和中心頁面(Hub)的概念,反映了權威網頁和中心網頁的相互加強關系。
1PageRank算法和HITS算法
1.1 PageRank算法
PageRank算法是將鏈接的網頁基于權威值按序排列。網頁的權威值基于下列考慮:1)一個網頁被多次引用,或者雖然沒有被多次引用,但是被重要的網頁引用,則它可能是很重要的。這種重要的網頁稱為權威(Authoritive)網頁。2)假定用戶一開始隨機地訪問網頁集合中的一個網頁,以后跟隨網頁的向外鏈接向前瀏覽網頁,不回退瀏覽,瀏覽下一個網頁的概率就是被瀏覽網頁的PageRank值。
PageRank算法描述如下:A(u)是網頁u的網頁集合,N(v)是網頁v指向外的鏈接數,v∈A(u),c是一個用于規范化的因子(Google通常取0.85),則u的PageRank值R(u)計算如下:
R(u)=cΣA(u)/N(v)(1)
但是如果有2個相互指向的網頁a,b,他們不指向其它任何網頁,另外有某個網頁c,指向a,b中的某一個,比如a,那么在計算中,a,b的PageRank值就無法分布而不斷地累計。解決這個問題的辦法可以在算法中引入衰退因子E(u),因此式(1)改進如下:
R’(u)= cΣA(u)/N(v)+cE(u)(2)
1.2 HITS算法
HITS的算法主要考慮權威網頁(Authority)和中心網頁(Hub)之間的加強關系。每個網頁都會有一個對應的權威值和中心值,如果某個網頁有許多中心值高的網頁指向它,則它就有高的權威值;同樣,如果某個網頁指向了許多高權威的網頁,那么它將具有較高的中心值。
它的算法描述為:將查詢q提交給基于關鍵字匹配的搜索引擎.搜索引擎返回很多網頁,從中取前n個網頁作為根集(root set),用S表示。S滿足如下3個條件:
1)S中網頁數量相對較小。2)S中網頁大多數是與查詢q相關的網頁。3)S中網頁包含較多的權威網頁
通過向S中加入被S引用的網頁和引用S的網頁將S擴展成一個更大的集合T,稱為基礎集。以T中的Hub網頁為頂點集V,以權威網頁為頂點集U,V中的網頁到U中的網頁的超鏈接為邊集E,形成一個二分有向圖SG=(V,U,E)。對V中的任一頂點v,用h(v)表示網頁v的Hub值;對U中的頂點u,用a(u)表示網頁的Authority值。開始時h(v)=a(u)=1,對u執行下列(3)式操作修改它的a(u),對v執行下列式(4)操作修改它的h(v),如此不斷地重復計算直到a(u),h(v)收斂。
a(u)=∑h(v) (3)
h(v)=∑a(u) (4)
(3)式反映了若一個網頁由很多好的Hub指向,則其權威值會相應增加(即權威值增加為所有指向它的網頁的現有Hub值之和)。式(4)反映了若一個網頁指向許多好的權威頁,則Hub值也會相應增加(即Hub值增加為該網頁鏈接的所有網頁的權威值之和)。
2 算法存在的問題和改進措施
2.1 PageRank和HITS算法存在的問題
PageRank算法只返回包含查詢項的網頁,然后根據網頁的PageRank值對搜索到的結果進行排序。它把PageRank值最高的網頁放置到最前面,但是如果最重要的網頁不在結果網頁集中,PageRank算法就無能為力了;另外,用戶在網頁瀏覽時,回退瀏覽較多。
同樣,HITS算法也存在問題,比如:1)有些網頁在制作時,加入了一些與查詢主題無關的鏈接;比如商業廣告,贊助商和用于友情交換的鏈接,這些都降低了HITS算法的精度。2)有時,主機A上的很多文檔可能指向另外一臺主機B上的某個文檔,這就增加了A上文檔的Hub值和B上文檔的Authority,相反的情況也如此。3)HITS算法最大的弱點是處理不好主題漂移問題(topic drift),也就是緊密鏈接TKC(Tightly-Knit Community Effect)現象。如果在集合T中有少數與查詢主題無關的網頁,但是他們是緊密鏈接的,HITS算法的結果可能就是這些網頁,偏離了原來的查詢主題。4)用HITS進行窄主題查詢時,可能產生主題泛化問題,即擴展以后引入了比原來主題更重要的新的主題,新的主題可能與原始查詢無關。
2.2 改進PageRank算法
去除PageRank算法需要的前提2,增加考慮了用戶從一個網頁直接跳轉到非直接相鄰的但是內容相關的另外一個網頁的情況。
2.3 改進HITS算法
1) 改進HITS算法中的第Ⅰ問題:
提取根集S中的每個文檔的前若干量的詞語,串連起來作為查詢主題T,計算每個文檔的主題相似度,根據不同的閾值進行刷選,閾值可以選擇所有文檔相似度的中值、根集文檔相似度的中值或最大文檔相似度。根據不同閾值進行處理,刪除不滿足條件的文檔。
2) 改進HITS算法中的第Ⅱ問題:
假定主機A上有k個網頁指向主機B上的某個文檔d,則A上的k個文檔對B的Authority貢獻值總共為1,每個文檔貢獻1/k,而不是HITS中的每個文檔貢獻1,總共貢獻k。類似的,對于Hub值,假定主機A上某個文檔t指向主機B上的m個文檔,則B上m個文檔對t的Hub值總共貢獻1,每個文檔貢獻1/m。
3) 改進HITS算法中的第Ⅲ問題(TKC問題)
得到根集并且擴展為網頁集合T,除去孤立節點;
從集合T構造無向圖G’=(Vh,Ua,E)
Vh = { Sh | S∈T and out-degree(S) > 0 } ( G’的Hub邊). (5)
Ua = { Sa | S∈T and in-degree(S) > 0 } (G’的Authority邊).(6)
E= { (Sh , Sa)}
這就定義了2條馬爾可夫鏈鏈,Authority鏈和Hub鏈。
以上改進算法并非完美算法,仍然有改進的空間,如計算網頁的Authority值時,只考慮網頁在直接相鄰網頁集中的受歡迎程度,忽略其它網頁對它的影響等等。
3 驗證與結果
自行開發搜索引擎系統,對以上HITS算法和改進算法進行測試。
3.1 測試數據
使用搜索引擎中的網絡爬蟲程序抓取網頁,收集近百個網站20多萬網頁。對這些網頁進行分析處理,并加以保存。
先為這些信息按HITS算法建立索引,保存在索引文件夾中。通過這些索引構建搜索器,將該索引映射到內存中,對提交的查詢關鍵字進行快速檢索。再對網頁信息按改進的算法優化索引,并保存在新的索引文件夾中。
3.2 測試結果
1)生成基礎集的質量方面
表2為改進算法與HITS算法生成基礎集質量比較。
2)搜索質量
用不同算法,搜索上述關鍵詞的前20名鏈接網頁加以排序,判斷這些網頁是否符合關鍵詞。
表3為改進算法和HITS算法搜索質量比較。
3)測試結論:用改進算法進行鏈接搜索,其結果較HITS算法更令人滿意。
4 結束語
本文就當前搜索引擎的鏈接問題分析了2種算法,同時對這2種算法的缺陷提出了改進的措施,使搜索引擎的主題鏈接在性能上有很大提高。
當然,關于搜索引擎的鏈接結構,可探討的問題還有許多,可總結的算法也有很多,以上2種算法還有未及之處,比如沒有有效的方法準確判定鏈接是否包含重要的信息、查詢的分類沒有明確界限等等。如果算法要取得更好的效果,還需要繼續做深入的研究。
參考文獻:
關鍵詞:上市公司;門戶網站;搜索引擎優化
中圖分類號:F27
文獻標識碼:A
1引言
搜索引擎作為用戶與網絡的主要接口,是用戶搜索網絡信息最常用的工具,在連接用戶與企業上扮演著關鍵角色。搜索引擎優化依托于搜索引擎而出現,是一種針對搜索引擎的檢索特點、排序規律,對網頁進行科學調整的優化方法。上市公司門戶網站是用戶獲取產品信息的重要途徑,其通過搜索引擎優化可以使網站更易被搜索引擎檢索收錄,提高網站在搜索引擎內的排名,進而吸引目標用戶,提高網站流量。
現有研究中,焦麗和路波基于自身經驗對搜索引擎優化策略進行了分析。唐衛東和劉存后結合某網站的優化實例,提出基于關鍵詞效能的搜索引擎優化策略。范哲重點分析了國內12家優秀企業門戶網站的外部鏈接優化情況。蔣雪瑛和徐福緣則以兩個農村創業型網站為例研究了國內小型創業網站的搜索引擎優化策略。
上述研究雖然從不同的角度探討了公司網站的搜索引擎優化情況,但缺乏對上市公司門戶網站搜索引擎優化實施情況的分析,且相關結論也缺乏大樣本數據的支持。
區別現有研究,本文調查82家汽車制造業上市公司的門戶網站,從標題、關鍵詞、描述、網頁大小及反鏈接設置等方面對網站的搜索引擎優化運用情況進行分析,最后提出上市公司門戶網站的搜索引擎優化建議。
2研究設計
搜索引擎優化是一種提升網頁在搜索引擎自然搜索結果中的排序位置的優化方法。具體的搜索引擎優化技術包括標題優化、關鍵詞優化、描述優化、網頁優化、鏈接優化、錯誤頁面優化和網站結構優化等多個方面。
由于上市公司門戶網站的搜索引擎優化涉及面廣,部分數據難以獲取,本文主要分析標題、關鍵詞、描述、網頁大小和鏈接優化,以及百度收錄和百度權重兩種優化效果表現。由于優化數據會隨著時間變化而改變,本文數據均在2017年2月27日,通過站長工具網站(http:///)收集。具體數據收集過程如下。
第一,上市公司名單獲取。通過中國證券監督管理委員會網站(http:///pub/newsite/scb/ssgshyfljg/)獲得2016年4季度上市公司行業分類結果,并從中選擇汽車制造業上市公司名單,共93家。本文選擇汽車制造業的原因在于:隨著經濟生活水平的提高,用戶對汽車的需求逐漸增多,上網獲取汽車信息的需求也逐漸增加,用戶與汽車公司門戶網站的接觸也越來越多。
第二,網址獲取。基于93家上市公司名單,通過百度搜索獲得公司門戶網站網址。
第三,數據收集。打開站長工具網站,逐一對93個網址進行SEO綜合查詢,記錄相關的搜索引擎優化數據。
第四,數據整理。對收集到的93組數據進行整理,刪除有重要變量數據缺失的公司數據,最終獲得82組數據。
3調查結果
通過對82組上市公司門戶網站的相關數據進行整理,其具體的搜索引擎優化實施情r如表1所示。
3.1標題優化
標題是搜索結果的重要組成部分,是網頁留給用戶的第一印象,可以提示網頁最主要的內容。調查顯示82家公司均設置標題,且超過半數的公司網站標題的設置與公司名稱有關。而其他的標題形式也多為公司名稱與經營產品的組合,只有極少數的標題僅用“首頁”等字樣。
3.2關鍵詞優化
關鍵詞優化是搜索引擎優化的核心內容。選擇合適的關鍵詞有利于搜索引擎檢索到公司網站,也有利于公司更為準確的傳遞其產品信息。調查顯示82家公司中有60家設置了關鍵詞,且多以公司名稱和經營產品為關鍵詞形式。
3.3描述優化
描述也是搜索結果的重要組成部分,是對網頁主要內容的簡要解釋。調查顯示82家公司中61家設置有描述標簽,占74.39%。特別的,描述標簽的長度一般不超過200字符,需要精簡準確的描寫出網頁的重要內容。設有描述標簽的61家公司中,僅有1家超過200字符。
3.4網頁大小優化
網頁大小越大越能提供給搜索引擎和用戶更多的信息。但過大的網頁又不能被搜索引擎完全檢索。因此,網頁設置時需要對網頁進行適當壓縮,以便于搜索引擎的檢索和收錄。調查顯示82家公司網站中,49家網站有對網頁進行壓縮,占59.76%。
3.5反鏈接優化
反鏈接是指其它網站指向該網站的外部鏈接,又稱導入鏈接。反鏈接代表其他網站本網站的信任和支持,反鏈接越多,證明本網站越受其他網站歡迎。網站擁有更多的高質量的反鏈接,越容易被搜索引擎檢索,且獲得更高的權重和收錄。調查顯示82家公司中72家有反鏈接,占87.8%,但其中46家公司的反鏈接數量在10條以下。
3.6百度收錄
百度收錄是指網站被百度搜索引擎收錄網頁的數量。從表1中可以看出,82家公司網站的收錄數相差較大。半數的公司其百度收錄數處于100到1000之間。
3.7百度權重
百度權重是指關鍵詞排名給網站帶來的流量,代表網站受歡迎程度,可以劃分為等級0-10。從表1中可以看出權重值超過5的網站只有3家,半數以上的網站百度權重在3以下。
4問題及建議
4.1問題
通過對調查結果分析發現:
第一,上市公司門戶網站主要關注標題的設置,對關鍵詞和描述的設置有所忽視。且在標簽(包括標題、關鍵詞和描述)內容的選擇上比較單一,主要圍繞公司名稱,只有部分考慮到公司的經營產品等內容,但也未考慮到更多的其他內容。且還有小半部分公司網站直接忽視了關鍵詞和描述的優化。
第二,在網頁大小的壓縮上,也存在部分公司未對網頁進行壓縮,這不利于搜索引擎的檢索,也可能導致用戶在打開網站時,由于網頁過大,受到網絡帶寬的影響。
第三,在反鏈接優化上,大多公司雖然都考慮到了對反鏈接的設置,但未足夠重視。這還可能是公司網站未加強推廣,以至于公司網站缺乏知名度,不能吸引來自外部的鏈接。
此外,從百度收錄和百度權重的統計來看,網站的百度收錄數偏低,百度權重值也不高。這也間接反映了上市公司門戶網站在搜索引擎優化上的實施還不到位。
4.2建議
首先,要重視標簽的設置。標題以公司名稱的形式是合理的,但可以進一步優化。標題在搜索引擎結果頁面中暴露程度最大,最易吸引用戶注意。因此,標題要精確的總結頁面的中心內容,還要簡潔、醒目。在關鍵詞優化上,公司不僅要重視對關鍵詞內容的選擇,還要注意對關鍵詞的管理,控制關鍵詞的數量和出現的次數等,避免造成關鍵詞堆砌。此外,關鍵詞反映了公司網站的定位,所以隨著公司網站定位的變化,以及響應競爭者的競爭活動等,關鍵詞的選擇應該是變化的。
其次,要控制網頁大小。網頁越大,呈現給搜索引擎和用戶的信息可能更多,但需要花費更多的時間去檢索和等待。因此,公司網站要合理的壓縮網頁大小。此外,公司網站還可以通過調整網站的內容和結構安排來為網頁“減負”。
最后,要加強反鏈接的設置。反鏈接可以增加網站被檢索的可能,好的反鏈接還會增加網站在搜索引擎中的排名。因此,公司網站不僅要主動的去接觸其他的與本公司有關的高質量的網站,與其建立鏈接,還要加強對自身內容的管理,使其更加豐富和權威,增加網站的價值,吸引其他網站來主動鏈接。最后,公司還要時常關注鏈接的有效性,避免出現錯誤鏈接和失效鏈接。
5總結
本文以82家汽車制造業上市公司門戶網站為樣本,調查分析了相關網站的搜索引擎優化實施情r。調查發現相關網站對搜索引擎優化還不夠重視,在標簽設置,網頁壓縮和引入反鏈接上都需要進一步的加強。為了提高上市公司門戶網站在搜索引擎中的收錄和排名,吸引更多的用戶,創造更好的收益,上市公司門戶網站應重視對搜索引擎優化的實施和管理。
參考文獻
[1]Egri G,Bayrak C.The Role of Search Engine Optimization on Keeping the User on the Site[J].Procedia Computer Science,2014,(36):335342.
[2]李憶,袁志會,袁梓翔.搜索引擎優化技術對網站友好性影響的實證研究[J].情報雜志,2014,(09):173180.
[3]焦麗,路波.搜索引擎優化策略研究[J].生產力研究,2010,(07):118119.
[4]唐衛東,劉存后.基于關鍵詞效能的搜索引擎優化策略分析[J].現代情報,2011,(10):3641.
[5]范哲.國內優秀企業門戶網站外部鏈接的分析與思考[J].情報雜志,2009,(09):146151.