前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的個(gè)性化推薦主題范文,僅供參考,歡迎閱讀并收藏。
關(guān)鍵詞:個(gè)性化推薦;icon;協(xié)同過濾算法;權(quán)值;關(guān)鍵點(diǎn);
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)03-0250-03
1 概述
隨著信息時(shí)代的不斷發(fā)展,網(wǎng)絡(luò)給人們的生活帶來了翻天覆地的變化,人們可以足不出戶就能夠在網(wǎng)絡(luò)上購買到自己想要的任何商品。網(wǎng)絡(luò)的便利,使得人們的購物方式得到了改變,同時(shí)也滋生了很多購物平臺(tái)的產(chǎn)生。無論大型還是小型的電子商務(wù)平臺(tái),都會(huì)存在著一些弊端,信息過載問題,就是商品的種類太過于豐富多樣性,以至于用戶不能很快地查找到自己喜歡的商品。所以平臺(tái)開發(fā)商們就會(huì)想盡辦法來避免這種情況,個(gè)性化推薦應(yīng)運(yùn)而生,個(gè)性化推薦就是在正確的時(shí)間把正確的商品推薦給正確的用戶,來拉攏用戶,防止用戶的流失,從而提升自己平臺(tái)的競(jìng)爭(zhēng)力。
1.1課題背景及研究的目的
當(dāng)今時(shí)代是信息的時(shí)代,每天人們都會(huì)被不同的海量數(shù)據(jù)所圍繞,如何從這些繁雜的數(shù)據(jù)中找到自己想要的數(shù)據(jù),是我們每個(gè)人都迫切需要的。我們都希望每個(gè)平臺(tái)系統(tǒng)都能給我們展示出契合我么自己的數(shù)據(jù),這樣我們就不需要花費(fèi)太多的精力在尋找數(shù)據(jù)上。
基于和老師同學(xué)們一起做的這個(gè)ICON項(xiàng)目(一個(gè)類似圖片交際購物系統(tǒng)),因?yàn)橛脩舻牟粩嘣黾?,所上傳的圖片也越來越多,為了滿足用戶查找數(shù)據(jù)的方便,就打算給系統(tǒng)添加一個(gè)個(gè)性化推薦策略。由于自己對(duì)推薦這一塊比較陌生,閱讀了多篇關(guān)于推薦系統(tǒng)的論文及報(bào)告,大多都會(huì)涉及諸多復(fù)雜的算法,就想到針對(duì)我們這個(gè)系統(tǒng)來設(shè)計(jì)一個(gè)較為簡(jiǎn)單的個(gè)性化推薦。
1.2 本文主要研究的內(nèi)容和組織架構(gòu)
1.2.1 本文主要工作
本文主要探討了一下個(gè)人設(shè)計(jì)的簡(jiǎn)單個(gè)性化推薦策略及相關(guān)工作。介紹了該推薦策略的研究背景和目的,然后又詳細(xì)地介紹了該策略算法。最后就該研究成果在ICON項(xiàng)目中的應(yīng)用效果進(jìn)行了展示,說明了我們算法的可行性。
1.2.2 本文的組織架構(gòu)
第一章是緒論部分,介紹了個(gè)性化推薦系統(tǒng)的背景,以及研究目的。簡(jiǎn)單個(gè)性化推薦策略的由來。
第二章是算法簡(jiǎn)述部分,大概地介紹了一下算法。
第三章是算法詳解部分,在本章節(jié)中詳細(xì)介紹了算法的構(gòu)成。
第四章是指標(biāo)的權(quán)重計(jì)算部分,介紹了算法中一個(gè)比較重要的權(quán)重計(jì)算方法,并計(jì)算出了算法中各個(gè)特性的權(quán)重值。
第五章是結(jié)果分析部分,對(duì)推薦前后用戶滯留系統(tǒng)的時(shí)間和點(diǎn)擊look的數(shù)量進(jìn)行觀察比較,得出分析結(jié)果。
2 算法簡(jiǎn)述
1) 找出平臺(tái)關(guān)鍵點(diǎn);
2) 統(tǒng)計(jì)關(guān)鍵點(diǎn)數(shù)據(jù);
3) 畫出涉及關(guān)鍵點(diǎn)的表格;
4) 整理分析,推薦圖片;
5) 通過圖片推薦給用戶商品。
3 算法詳解
3.1 找出平臺(tái)關(guān)鍵點(diǎn)
用戶發(fā)表一個(gè)look(即圖片),都會(huì)給這個(gè)look選擇一個(gè)性別、季節(jié)、品牌、風(fēng)格等,其中風(fēng)格包含有正裝、暗黑、韓國風(fēng)、運(yùn)動(dòng)、嘻哈等多達(dá)20多種的不同風(fēng)格,其中肯定會(huì)有一種是你發(fā)表的look風(fēng)格。性別和風(fēng)格是主要的,從這兩個(gè)特性中我們就能看出你平時(shí)穿衣打扮,因?yàn)榘l(fā)表的每一張look都是對(duì)自己平時(shí)的一個(gè)真實(shí)寫照。用戶發(fā)表的每一張look都是對(duì)應(yīng)自己所購買的衣服,從而我們就可以從look中對(duì)應(yīng)到相應(yīng)的商品中。
拋開性別這個(gè)普遍的共性來分析,我們可以根據(jù)用戶平時(shí)發(fā)表的look的風(fēng)格來觀察該用戶的穿衣習(xí)慣,從而得到用戶可能喜歡的商品類型,繼而向用戶推薦他們想要看到或者想要購買的衣服。
在icon的系統(tǒng)中,用戶看見自己喜歡的look時(shí),可以對(duì)其進(jìn)行點(diǎn)贊或者收藏。用戶也可以關(guān)注其他的用戶,成為他的粉絲,隨時(shí)關(guān)注他(她)發(fā)表的look,你們之間也可以相互交流探討穿衣打扮的技巧。
在認(rèn)真觀察項(xiàng)目后,可以看出用戶發(fā)表look的風(fēng)格就是所謂的關(guān)鍵點(diǎn)。
3.2 y計(jì)關(guān)鍵點(diǎn)數(shù)據(jù)
用戶發(fā)表的look,關(guān)注的look,點(diǎn)贊的look,以及收藏的look我們都統(tǒng)一存到了數(shù)據(jù)庫中。平臺(tái)是用mybatis連接的數(shù)據(jù)庫,所以,數(shù)據(jù)我們可以寫sql語句直接獲取到,而不用去分析歷史數(shù)據(jù)或者網(wǎng)絡(luò)爬蟲去解析用戶瀏覽行為等。
這個(gè)算法,我要求只需要能獲取到用戶偏重的前三個(gè)就行,所以常用到的mysql中的limit關(guān)鍵字,limit接受一個(gè)或兩個(gè)數(shù)字參數(shù),參數(shù)必須是一個(gè)整數(shù)常量,如果給定兩個(gè)參數(shù),第一個(gè)參數(shù)指定第一個(gè)返回記錄行的偏移量,第二個(gè)參數(shù)指定返回記錄行的最大數(shù)目。在使用limit時(shí),要先判斷查詢到的數(shù)據(jù)集的數(shù)目有多少,防止查詢的時(shí)候出錯(cuò)。
舉個(gè)例子,通過tbl_look表和tbl_user_likes表來查找id為131的用戶點(diǎn)贊的look風(fēng)格的前三個(gè)的mysql語句:
SELECT tul.id,tul.uid,tul.lookid,tl.style,COUNT(tl.style) AS sc FROM tbl_user_likes tul ,tbl_looks tl WHERE tul.uid=131 and tl.id=tul.lookid GROUP BY tl.style ORDER BY sc DESC LIMIT 3
3.3 畫出涉及關(guān)鍵點(diǎn)的表格
為了更形象的觀察用戶的自己的風(fēng)格以及自己和其他人的風(fēng)格,我們將查詢的數(shù)據(jù)用表格的形式展示出來。這樣就可以一目了然的通過觀察表格得出合理的結(jié)論。
3.4 整理分析,推薦內(nèi)容
分析表1,因?yàn)橛脩舭l(fā)表、點(diǎn)贊和收藏的數(shù)量差別可能比較大,所以我們就按照表格中展示的三項(xiàng)以及它們的權(quán)值來計(jì)算每個(gè)用戶表側(cè)重的風(fēng)格。
每個(gè)用戶的風(fēng)格評(píng)分計(jì)算如下:
[fur=i=03wiri]
[fur]表示u用戶r風(fēng)格的評(píng)分,其中[wi]表示每個(gè)i指標(biāo)的權(quán)值,會(huì)在第四章詳細(xì)介紹權(quán)值算法;[ri]表示u用戶r風(fēng)格是否存在i指標(biāo)的參數(shù),存在為1,不存在為0。
經(jīng)過計(jì)算,我們得出甲用戶和丁用戶都比較側(cè)重ABC折三種風(fēng)格,并且甲和丁也互相關(guān)注了,那么我們完全就可以認(rèn)為甲和丁用戶風(fēng)格類似,可以看成是相似用戶。按照基于用戶的協(xié)同過濾算法來考慮的話,我們可以把E風(fēng)格的服飾推薦給丁用戶,而把G風(fēng)格的服飾推薦給甲用戶。
我們還可以得出,BC風(fēng)格總是在一起,EF風(fēng)格總是在一起,我們就可以這樣認(rèn)為,喜歡B風(fēng)格服飾的人通常也會(huì)喜歡C風(fēng)格的服飾,喜歡E風(fēng)格服飾的人通常也會(huì)喜歡F風(fēng)格服飾的人,反過來也一樣。按照基于內(nèi)容的系統(tǒng)過濾算法考慮的話,我們就可以把B風(fēng)格的服飾推薦給乙用戶。
3.5 通過圖片推薦給用戶商品
整個(gè)系統(tǒng)的模式是這樣的,通過用戶的各項(xiàng)特征找到一個(gè)關(guān)鍵點(diǎn),再由該關(guān)鍵點(diǎn)給用戶推薦look,最后由推薦的look來決定用戶可能喜歡的商品(服裝)。如圖1所示:
4 指標(biāo)的權(quán)重計(jì)算
各項(xiàng)指標(biāo)的權(quán)重根據(jù)定量統(tǒng)計(jì)法算法計(jì)算得出。
定量統(tǒng)計(jì)計(jì)算權(quán)重的步驟如下:
1) 按照沒有關(guān)聯(lián)、有點(diǎn)關(guān)聯(lián)、關(guān)聯(lián)和非常關(guān)聯(lián)四個(gè)等級(jí)繪制出統(tǒng)計(jì)表格。
2) 以67%(2/3)位界限,若選擇“關(guān)聯(lián)”和“非常關(guān)聯(lián)”的比例合計(jì)小于67%,就刪除該指標(biāo),不予考慮。
3) 分別把沒有關(guān)聯(lián)賦值為1,有點(diǎn)關(guān)聯(lián)賦值為2,關(guān)聯(lián)賦值為3,非常關(guān)聯(lián)賦值為4,選擇出沒有關(guān)聯(lián)之外以上數(shù)據(jù)都進(jìn)入統(tǒng)計(jì),那么三種選項(xiàng)的權(quán)重分別為[w′1]=2/(2+3+4)=0.22;[w′2]=3/(2+3+4)=0.33;[w′3]=4/(2+3+4)=0.45。
4)指標(biāo)權(quán)重計(jì)算:
[wi=pii=13pi]
其中[pi]為指標(biāo)i的統(tǒng)計(jì)權(quán)值和:
[pi=j=13w′iaij]
其中,[aij]表示i指標(biāo)除沒有關(guān)聯(lián)外的其他關(guān)聯(lián)度的統(tǒng)計(jì)數(shù),[a11]就表示指標(biāo)1有點(diǎn)關(guān)聯(lián)的統(tǒng)計(jì)人數(shù),[a32]就表示指標(biāo)3關(guān)聯(lián)的統(tǒng)計(jì)人數(shù)。
我們對(duì)使用該系統(tǒng)的用戶進(jìn)行了一次統(tǒng)計(jì),隨機(jī)抽出統(tǒng)計(jì)過的100名用戶來計(jì)算權(quán)值。
首先畫出統(tǒng)計(jì)的表格如下:
分別代表用戶發(fā)表、點(diǎn)贊和收藏look的風(fēng)格權(quán)值。通過計(jì)算得到的數(shù)值可明顯看出,用戶發(fā)表和收藏的look風(fēng)格所占比重比較大,點(diǎn)贊風(fēng)格所占比重較小。所以,發(fā)表和收藏風(fēng)格的特性能較大反映出用戶的風(fēng)格類型,而點(diǎn)贊風(fēng)格的特性稍次于發(fā)表和收藏特性。
5 結(jié)果分析
項(xiàng)目中我們引入了cnzz流量統(tǒng)計(jì)、網(wǎng)絡(luò)分析數(shù)據(jù)專家,可以通過cnzz來獲取到用戶滯留平臺(tái)的時(shí)間和點(diǎn)擊各個(gè)look的數(shù)量。
為了驗(yàn)證該個(gè)性化推薦策略的可行性,我們隨機(jī)抽取了四名用戶,利用cnzz獲取到在推薦系統(tǒng)應(yīng)用的前后,用戶滯留系統(tǒng)的時(shí)間(從進(jìn)入系統(tǒng)到退出系統(tǒng)的滯留時(shí)間),以及用戶點(diǎn)擊look的數(shù)量,描繪成線形圖如下:
通^這兩個(gè)柱狀圖,可以明顯的觀察到推薦策略應(yīng)用前后的效果,證明了我們所做的工作的可行性。
參考文獻(xiàn):
[1] 丁宏飛,黃戰(zhàn).個(gè)性化電子商務(wù)系統(tǒng)中用戶興趣模型的研究[D].廣州:暨南大學(xué),2008.
[2] 王國霞,劉賀平.個(gè)性化推薦系統(tǒng)綜述[J].計(jì)算機(jī)工程與應(yīng)用,2012(9).
[3] 劉瑋.電子商務(wù)系統(tǒng)中的信息推薦方法研究[J].情報(bào)科學(xué),2006(4).
[4] 米鵬,段建勇,付曉宇.面向社區(qū)用戶的推薦策略研究[D].北京:北方工業(yè)大學(xué),2016.
[5] 曾春,邢春曉,周立柱.個(gè)性化服務(wù)技術(shù)綜述[J].軟件學(xué)報(bào),2002(5).
[6] 于波,陳庚午,王愛玲,等.一種結(jié)合項(xiàng)目屬性的混合推薦算法[J].計(jì)算機(jī)技術(shù)應(yīng)用,2017(5).
如何關(guān)閉微博個(gè)性化廣告推薦 2、點(diǎn)擊右上方的【設(shè)置圖標(biāo)】進(jìn)入設(shè)置。
如何關(guān)閉微博個(gè)性化廣告推薦 3、點(diǎn)擊【隱私設(shè)置】選項(xiàng)進(jìn)入。
如何關(guān)閉微博個(gè)性化廣告推薦 4、點(diǎn)擊底端【個(gè)性化廣告推薦】的開關(guān)按鈕。
如何關(guān)閉微博個(gè)性化廣告推薦 5、點(diǎn)擊關(guān)閉后,頁面顯示【設(shè)置成功】即可。
2、在“美團(tuán)”窗口中,點(diǎn)擊下方“我的”菜單選項(xiàng)。
3、在彈出窗口中,點(diǎn)擊右上方“設(shè)置”符號(hào)選項(xiàng)。
4、在“設(shè)置”窗口中,找到“通用”選項(xiàng)并點(diǎn)擊它。
5、在“通用”窗口中,找到“隱私管理”選項(xiàng)并點(diǎn)擊它。
6、在“隱私管理”窗口中,找到“接收個(gè)性化推薦”選項(xiàng)并點(diǎn)擊“關(guān)閉”按鈕。
7、在彈出窗口中,點(diǎn)擊“確認(rèn)關(guān)閉”按鈕選項(xiàng)。
關(guān)鍵詞:社會(huì)化標(biāo)簽;學(xué)習(xí)平臺(tái);協(xié)同過濾
中圖分類號(hào):TP311.56 文獻(xiàn)標(biāo)志碼:B 文章編號(hào):1673-8454(2014)19-0044-04
引言
泛在學(xué)習(xí)是一種隨時(shí)隨地的、個(gè)性化的學(xué)習(xí)過程,是人們最喜歡的一種學(xué)習(xí)模式。泛在學(xué)習(xí)是現(xiàn)在信息社會(huì)最流行的一種非正式學(xué)習(xí)方式,它彌補(bǔ)了數(shù)字學(xué)習(xí)的不足和限制,也是構(gòu)建學(xué)習(xí)型社會(huì)的主要途徑之一。泛在學(xué)習(xí)環(huán)境中需要數(shù)量巨大的各類學(xué)習(xí)資源,但由于泛在學(xué)習(xí)的隨時(shí)隨地性與個(gè)性化等特點(diǎn),學(xué)習(xí)主體對(duì)各類資源的需求層出不窮,如果能在數(shù)量巨大的各類學(xué)習(xí)資源中找到學(xué)習(xí)者需要的學(xué)習(xí)資源,屏蔽那些學(xué)習(xí)者不喜歡的學(xué)習(xí)資源,建立起這種學(xué)習(xí)者與學(xué)習(xí)資源的匹配機(jī)制,將大大提高學(xué)習(xí)者的學(xué)習(xí)效率。[1]不同的學(xué)習(xí)者興趣愛好不同,為不同的學(xué)習(xí)者提供自己喜歡的學(xué)習(xí)資源,讓學(xué)習(xí)資源來適應(yīng)學(xué)習(xí)者,這將是以后研究的熱點(diǎn)。
一、個(gè)性化學(xué)習(xí)的現(xiàn)狀
目前絕大多數(shù)的網(wǎng)絡(luò)學(xué)習(xí)資源平臺(tái)都可以對(duì)本平臺(tái)的資源進(jìn)行管理,可以進(jìn)行資源的分類瀏覽和基于關(guān)鍵知識(shí)點(diǎn)的資源檢索功能,當(dāng)不同的學(xué)習(xí)者訪問網(wǎng)絡(luò)學(xué)習(xí)資源平臺(tái),平臺(tái)為所有學(xué)習(xí)者的服務(wù)是完全一樣的,未考慮每位學(xué)習(xí)者的個(gè)性化需求,不能為學(xué)習(xí)者提供他們需要的、想要的服務(wù)和需求。 “大量資源”和個(gè)性化學(xué)習(xí)網(wǎng)絡(luò)的人的需求之間的矛盾就已經(jīng)存在,這種矛盾的存在,一方面降低了資源的有效利用、造成了資源的浪費(fèi);另一方面給學(xué)習(xí)者使用資源帶來了諸多困難。[2]
個(gè)性化推薦是目前一種重要的解決“信息過載”問題和提供個(gè)性化服務(wù)的方案。個(gè)性化推薦是利用已有的Web用戶興趣愛好和行為信息,講web學(xué)習(xí)者和學(xué)習(xí)資源關(guān)聯(lián)起來,通過Web用戶與Web用戶、Web用戶與學(xué)習(xí)資源之間相似性、相關(guān)性關(guān)系挖掘和發(fā)現(xiàn)學(xué)習(xí)者潛在感興趣的學(xué)習(xí)資源,進(jìn)而對(duì)Web學(xué)習(xí)者進(jìn)行個(gè)性化推薦服務(wù)。本質(zhì)上是對(duì)信息進(jìn)行帥選、提取,它根據(jù)Web用戶的偏好、興趣等,對(duì)其提供具有個(gè)性化特征的信息產(chǎn)品推薦。
二、推薦策略的組合使用
1.社會(huì)化標(biāo)簽的引入
社會(huì)化標(biāo)簽是近幾年新使用的一種標(biāo)注網(wǎng)絡(luò)資源的工具,其思想是根據(jù)用戶的訪問內(nèi)容來判斷用戶的行為和需求,和基于內(nèi)容的推薦很類似?;趦?nèi)容的推薦技術(shù)是以資源信息為研究對(duì)象,利用信息檢索技術(shù)來分析項(xiàng)目的內(nèi)容,通常應(yīng)用鄰居函數(shù)和分類技術(shù)來分析和聚類項(xiàng)目的文本內(nèi)容,并基于項(xiàng)目特征與用戶檔案產(chǎn)生推薦。[3]通過使用社會(huì)化標(biāo)簽,資源信息變得更加準(zhǔn)確和明白,進(jìn)而給資源信息定義了一種新的社會(huì)屬性。
標(biāo)簽由用戶定義,反應(yīng)了用戶的興趣偏好,我們可以通過分析用戶標(biāo)簽來判斷出用戶的興趣愛好。同時(shí),標(biāo)簽表達(dá)了與資源之間的語義關(guān)系,可以用來分析資源的潛在屬性。我們可以根據(jù)標(biāo)簽建立相似資源集,為目標(biāo)用戶找到感興趣的學(xué)習(xí)資源,同時(shí)社會(huì)化標(biāo)簽還提供了解決冷啟動(dòng)問題的方法。
因?yàn)闃?biāo)簽可以由用戶自己定義,會(huì)遇到同義詞標(biāo)簽的問題,解決方法為:通過窮舉的方式查詢同義詞庫,對(duì)同義詞標(biāo)簽進(jìn)行歸一。
2.協(xié)同過濾算法的改進(jìn)
(1)通過社會(huì)化標(biāo)簽計(jì)算資源之間的相似度
對(duì)于新增的學(xué)習(xí)者,由于學(xué)習(xí)者對(duì)資源的評(píng)分很少,不能進(jìn)行很好的協(xié)同過濾的推薦,這就是冷啟動(dòng)問題。這里我們根據(jù)用戶注冊(cè)時(shí)填寫的興趣標(biāo)簽,向?qū)W習(xí)者推送學(xué)習(xí)者所感興趣標(biāo)簽相似度最大的資源。
對(duì)于評(píng)分?jǐn)?shù)據(jù)稀疏的問題,我們通過社會(huì)化標(biāo)簽計(jì)算資源之間的相似度,通過資源間的相似度來對(duì)評(píng)分矩陣進(jìn)行進(jìn)一步的填充。其流程如圖1所示。
1)計(jì)算資源之間的相似度。這里使用向量空間模型(VSM)對(duì)資源和社會(huì)化標(biāo)簽進(jìn)行描述,向量空間模型就是用一組關(guān)鍵詞及其權(quán)重(形如((key1,weighty1),(key2,weight2),(key3,weighty3),(keyn,weightyn)),其中n為關(guān)鍵詞維度)。這里的關(guān)鍵詞即轉(zhuǎn)換為社會(huì)化標(biāo)簽,而權(quán)重通過TF-IDF算法計(jì)算得來(具體計(jì)算時(shí),對(duì)于資源――標(biāo)簽,weight的計(jì)算公式為:tag在該資源中年出現(xiàn)的次數(shù)/該資源所有的標(biāo)簽數(shù) + tag標(biāo)識(shí)過的資源數(shù)量/總的資源數(shù)量),形成(tag1,weight1), (tag2,weight2), (tag3,weight3)……(tagn,weightn)再根據(jù)標(biāo)簽和資源形成資源―標(biāo)簽矩陣表。[4]
2)通過Pearson算法計(jì)算資源之間的相似度,選取相似度最大K個(gè)資源。Pearson算法:Tij表示標(biāo)簽i和標(biāo)簽j所標(biāo)注的資源的交集,j表示標(biāo)簽j所占的平均權(quán)重,i表示標(biāo)簽i所占的平均權(quán)重。
3)根據(jù)資源的相似度來填充學(xué)習(xí)者――資源評(píng)分矩陣,解決數(shù)據(jù)稀疏問題。相似資源的集合Su,Rn,表示資源n的評(píng)分,sim(u,n)表示資源u、n的相似度,u表示資源u所得到的平均評(píng)分。
(2)通過協(xié)同過濾算法得到最相似的Top-N個(gè)學(xué)習(xí)者
協(xié)同過濾算法是根據(jù)學(xué)習(xí)者和資源的評(píng)分矩陣,計(jì)算出學(xué)習(xí)者之間的相似度,來推算出那些學(xué)習(xí)者沒有進(jìn)行評(píng)分的資源的評(píng)分,并且系統(tǒng)綜合學(xué)習(xí)者的興趣愛好,給學(xué)習(xí)者推送他們可能會(huì)評(píng)分高的資源[10]?;趨f(xié)同過濾的個(gè)性化推薦具體流程:
1)得到m個(gè)用戶對(duì)n個(gè)資源的評(píng)分矩陣。
2)通過Pearson算法計(jì)算用戶的相似度,選取相似度最大的前k個(gè)用戶。
Pearson算法:Iij表示用戶i評(píng)過分的項(xiàng)目和j評(píng)過分的項(xiàng)目的交集,j表示用戶j評(píng)分的平均分。
3)根據(jù)用戶的相似度得到用戶對(duì)其他的沒有評(píng)過分的項(xiàng)目的評(píng)分,產(chǎn)生推薦。相似用戶的集合Su,Rn,j表示用戶n對(duì)項(xiàng)目i的評(píng)分,sim(u,n)表示用戶u、n的相似度,u表示用戶u對(duì)項(xiàng)目的平均評(píng)分。
三、學(xué)習(xí)平臺(tái)的架構(gòu)
本學(xué)習(xí)平臺(tái)設(shè)計(jì)主要分為三部分:學(xué)習(xí)者管理模塊、資源管理模塊、個(gè)性化推薦模塊。其總體架構(gòu)如圖2所示。
學(xué)習(xí)資源建設(shè)主要通過兩種方式:服務(wù)器中存放的大部分的學(xué)習(xí)資源、學(xué)習(xí)者自己上傳自己感興趣的資源。學(xué)習(xí)者模塊主要是記錄學(xué)習(xí)者的學(xué)習(xí)情況,分析學(xué)習(xí)者的興趣愛好。學(xué)習(xí)者和資源之間有一個(gè)資源描述文件,該文件記錄了資源本身的內(nèi)容特征、學(xué)習(xí)者訪問的次數(shù)、訪問的時(shí)間和各種行為,形成一種學(xué)習(xí)者和資源之間的關(guān)系表。
個(gè)性化推薦模塊是平臺(tái)的主要功能模塊。該模塊中最主要的是推薦算法,推薦算法的使用直接會(huì)影響到本系統(tǒng)的準(zhǔn)確性。該平臺(tái)采組合使用了多種推薦算法,引入了社會(huì)化標(biāo)簽,并且對(duì)協(xié)同過濾算法做了一定的改進(jìn)。
四、學(xué)習(xí)者模型和資源模型的具體構(gòu)建
1.學(xué)習(xí)者模型
對(duì)學(xué)習(xí)者的學(xué)習(xí)興趣抽取,并對(duì)興趣愛好進(jìn)行量化,建立學(xué)習(xí)者模型,并且不斷地更新用戶的興趣變化,進(jìn)一步地完善學(xué)習(xí)者模型,凸顯出以學(xué)習(xí)者為中心的學(xué)習(xí)理念[2]。其創(chuàng)建流程如圖3所示。
(1)顯性數(shù)據(jù)的獲取
顯性數(shù)據(jù)主要包括學(xué)習(xí)者注冊(cè)時(shí)填寫的學(xué)習(xí)者的基本學(xué)習(xí)情況和相關(guān)的興趣愛好以及學(xué)習(xí)者的直接評(píng)分和評(píng)價(jià)。學(xué)習(xí)者注冊(cè)信息主要有學(xué)習(xí)者的教育層次、正在學(xué)習(xí)的課程資源、使用的資源標(biāo)簽、喜歡觀看視頻還是文字等。其相關(guān)數(shù)據(jù)如表所示。
(2)隱性數(shù)據(jù)的獲取
學(xué)習(xí)者在平臺(tái)中學(xué)習(xí)時(shí),對(duì)學(xué)習(xí)資源就會(huì)產(chǎn)生收藏、下載、瀏覽、在頁面停留的時(shí)間、瀏覽的次數(shù)和評(píng)價(jià)等學(xué)習(xí)行為,這些學(xué)習(xí)行為就表現(xiàn)出了他的學(xué)習(xí)興趣,我們將學(xué)習(xí)者的學(xué)習(xí)動(dòng)作收集并記錄下來。根據(jù)學(xué)習(xí)者的行為的不同進(jìn)行打分,作為學(xué)習(xí)者對(duì)資源的評(píng)分。[5]例如:瀏覽一次得2分、瀏覽并且收藏了得4.5分等。
用戶特征的提取中,不同用戶的瀏覽行為反映了不同用戶的興趣愛好,而且,用戶的興趣總會(huì)隨著時(shí)間的變化,具有一定的漂移性,動(dòng)態(tài)轉(zhuǎn)移的。這樣,在用戶模型中,用戶的興趣度值也會(huì)相應(yīng)變化的;用戶對(duì)感興趣的資源也會(huì)在一段時(shí)間內(nèi)是高頻點(diǎn)擊瀏覽的,時(shí)間也是會(huì)越長的,那么,用戶就會(huì)對(duì)其相應(yīng)感興趣的資源的興趣度值也會(huì)提高。[6]
2.學(xué)習(xí)資源模型
學(xué)習(xí)資源是學(xué)習(xí)者學(xué)習(xí)、交流、互動(dòng)的根本和媒介,建立符合學(xué)習(xí)者的學(xué)習(xí)資源模型同樣重要,目前大多數(shù)學(xué)習(xí)資源的建立都是根據(jù)學(xué)習(xí)者的學(xué)習(xí)需求建立的,但是學(xué)習(xí)資源之間的聯(lián)系很松散,學(xué)習(xí)資源都是在雜亂無序的生長,所以我們對(duì)學(xué)習(xí)資源進(jìn)行統(tǒng)一的管理和歸類。[7]
學(xué)習(xí)資源分為學(xué)習(xí)主題、學(xué)習(xí)文檔、學(xué)習(xí)序列,每個(gè)資源都必須要用兩個(gè)以上的標(biāo)簽進(jìn)行標(biāo)注,這樣每個(gè)學(xué)習(xí)資源都用標(biāo)簽來代替,標(biāo)簽的引入有助于對(duì)資源內(nèi)容進(jìn)行分類,實(shí)現(xiàn)資源的統(tǒng)一管理和高度共享。
五、展望
1.推薦系統(tǒng)實(shí)時(shí)性的提高
推薦系統(tǒng)都需要學(xué)習(xí)者的反饋,所以會(huì)產(chǎn)生一個(gè)冷啟動(dòng)的問題,一個(gè)新的資源很難很快地推薦給學(xué)習(xí)者。如果系統(tǒng)可以及時(shí)地向?qū)W習(xí)者推薦新的學(xué)習(xí)資源,推薦的質(zhì)量就要受到很大的影響,如何保證這兩個(gè)的協(xié)調(diào)需要進(jìn)一步的研究。
2.深化學(xué)習(xí)資源特征的描述
可以把學(xué)習(xí)資源先根據(jù)某些標(biāo)準(zhǔn)進(jìn)行分類,并且和學(xué)習(xí)者的教育級(jí)別相結(jié)合,在大的方向上向?qū)W習(xí)者推薦。隨著信息時(shí)代的發(fā)展,信息量的擴(kuò)大,數(shù)據(jù)挖掘技術(shù)的發(fā)展,我們可以將協(xié)同過濾算法和數(shù)據(jù)挖掘相結(jié)合,向?qū)W習(xí)者更準(zhǔn)確地推薦學(xué)習(xí)資源。同時(shí)加大對(duì)新的資源的引入和分類,將信息更及時(shí)地推向給學(xué)習(xí)者。
參考文獻(xiàn):
[1]楊麗娜,肖克曦,劉淑霞.面向泛在學(xué)習(xí)環(huán)境的個(gè)性化資源服務(wù)框架[J].中國電化教育,2012(7):84-88.
[2]楊麗娜,顏志軍,孟昭寬.基于個(gè)性化推薦思想的虛擬社區(qū)學(xué)習(xí)共同體動(dòng)態(tài)構(gòu)建[J].現(xiàn)代教育技術(shù),2012(1):88-92.
[3]王永固.基于協(xié)同過濾技術(shù)的學(xué)習(xí)資源個(gè)性化推薦研究[J].遠(yuǎn)程教育雜志,2011(3): 66-71.
[4]李高敏.基于協(xié)同過濾的教學(xué)資源個(gè)性化推薦技術(shù)的研究及應(yīng)用[D].北京交通大學(xué),2011:58.
[5]程成.基于社會(huì)化標(biāo)簽和混合模式的教學(xué)資源個(gè)性化推薦系統(tǒng)的設(shè)計(jì)[D].北京交通大學(xué),2012:66.
關(guān)鍵詞:推薦系統(tǒng);Mahout;單機(jī)內(nèi)存算法;組件
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)25-0171-02
隨著信息技術(shù)和互聯(lián)網(wǎng)的發(fā)展,人們逐漸從信息匱乏的時(shí)代進(jìn)入了信息過載的時(shí)代。推薦系統(tǒng)的出現(xiàn)可以幫助用戶發(fā)現(xiàn)對(duì)自己有價(jià)值的信息,同時(shí)能夠讓信息展現(xiàn)在對(duì)它感興趣的用戶面前。個(gè)性化推薦系統(tǒng)依賴于用戶的行為數(shù)據(jù),目前被廣泛地應(yīng)用在包括電子商務(wù)、社交網(wǎng)絡(luò)、電影和視頻、音樂、個(gè)性化郵件和廣告、基于位置的服務(wù)、閱讀等領(lǐng)域中,從而提高相關(guān)網(wǎng)站的點(diǎn)擊率和轉(zhuǎn)化率。Mahout是來自Apache的、開源的機(jī)器學(xué)習(xí)軟件庫,主要提供了機(jī)器學(xué)習(xí)領(lǐng)域的推薦引擎(協(xié)同過濾)、聚類和分類算法的實(shí)現(xiàn),為推薦系統(tǒng)的應(yīng)用和研究提供了支持。
本文通過對(duì)Mahout中的推薦算法進(jìn)行研究,使用一個(gè)示例對(duì)推薦算法進(jìn)行評(píng)估,從而找到一個(gè)有效的推薦程序應(yīng)用到示例中,為用戶實(shí)現(xiàn)推薦。
1 Mahout的推薦算法
基于Hadoop分布式框架的機(jī)器學(xué)習(xí)算法庫Mahout封裝了多種機(jī)器學(xué)習(xí)算法的分布式實(shí)現(xiàn),由多個(gè)組件混搭而成,各個(gè)組件的組合可以定制,從而針對(duì)特定應(yīng)用提供理想的推薦。通常包括的組件如下:數(shù)據(jù)模型由DataModel實(shí)現(xiàn);用戶間的相似性度量由UserSimilarity實(shí)現(xiàn);用戶近鄰的定義由UserNeighborhood實(shí)現(xiàn);推薦引擎由一個(gè)Reommender實(shí)現(xiàn)。從數(shù)據(jù)處理能力上,Mahout推薦算法可以分為單機(jī)內(nèi)存算法和基于Hadoop的分布式算法,本文僅討論單機(jī)內(nèi)存算法。
1.1 推薦數(shù)據(jù)的表示
推薦引擎的輸入是偏好數(shù)據(jù)(preference data),通常用(用戶ID,物品ID,偏好值)的元組集合來表示。在Mahout中使用DataModel對(duì)推薦程序的輸入數(shù)據(jù)進(jìn)行封裝,GernericDataModel是現(xiàn)有DataModel實(shí)現(xiàn)中最簡(jiǎn)單的,它通過程序在內(nèi)存中構(gòu)造數(shù)據(jù)表示形式,將偏好作為輸入,將用戶ID映射到這些用戶數(shù)據(jù)所在的PreferenceArray(一個(gè)接口,表示一個(gè)偏好的聚合)上。若用戶和物品的數(shù)據(jù)無偏好值時(shí),可以使用GenericBooleanPrefDataModel來實(shí)現(xiàn)。基于文件的數(shù)據(jù)使用FileDataModel,從文件中讀取數(shù)據(jù),將所得的偏好數(shù)據(jù)存儲(chǔ)到內(nèi)存,即GernericDataModel中。基于數(shù)據(jù)庫的數(shù)據(jù)用JDBCDataModel實(shí)現(xiàn),若使用MySQL數(shù)據(jù)庫,可以使用其子類MySQLJDBCDataModel。
1.2 相似性度量
基于用戶的推薦程序和基于物品的推薦程序都依賴于UserSimilarity這個(gè)組件,及用戶或物品之間的相似性,缺乏對(duì)用戶或物品的相似性定義的推薦方法是毫無意義的。相似度算法包括了歐氏距離相似度(EuclideanDistanceSimilarity)、皮爾遜相關(guān)系數(shù)相似度(PearsonCorrelationSimilarity)、曼哈頓距離相似度(CityBlockSimilarity)、對(duì)數(shù)似然相似度(LogLikehoodSimilarity)、谷本系數(shù)相似度(TanimotoCoefficientSimilarity)等
1.3 用戶近鄰
近鄰算法適用于基于用戶的協(xié)同過濾算法,選出前N個(gè)最相似的用戶構(gòu)成鄰域,作為最終推薦參考的用戶。近鄰算法分為2種:基于固定大小和基于閾值的。NearestNUserNeighborhood實(shí)現(xiàn)基于固定大小的鄰域,指定N的個(gè)數(shù),如選出前10個(gè)最相似的用戶;ThresholdUserNerghborhood實(shí)現(xiàn)基于閾值的鄰域,指定比例,如選擇前10%最相似的用戶。
1.4 推薦算法
Mahout的推薦算法以Recommender作為基礎(chǔ)父類,實(shí)現(xiàn)類有基于用戶的推薦算法、基于物品的推薦算法、基于物品的KNN的推薦算法、Slope-one推薦算法、基于奇異值分解(SVD)的推薦算法、基于聚類(TreeCluster)的推薦算法。推薦算法對(duì)比如表1所示。
2 Mahout在推薦系統(tǒng)中的應(yīng)用
上節(jié)介紹了Mahout提供的推薦算法,接下來講述如何在數(shù)據(jù)集上使用Mahout開發(fā)推薦系統(tǒng)。首先分析樣本數(shù)據(jù),對(duì)數(shù)據(jù)做預(yù)處理,然后選取一個(gè)方法,收集數(shù)據(jù)、評(píng)估結(jié)果,多次重復(fù)這個(gè)過程,找到最優(yōu)的推薦算法創(chuàng)建一個(gè)推薦引擎。
本示例數(shù)據(jù)來自捷克的一個(gè)約會(huì)網(wǎng)站(http://libimseti.cz)。該網(wǎng)站的用戶可以對(duì)其他用戶的檔案進(jìn)行評(píng)分,分值從1到10不等,分值1代表“喜歡”,分值10代表“不喜歡”。
2.1 數(shù)據(jù)的輸入
示例數(shù)據(jù)集有17359346份評(píng)分,存儲(chǔ)為ratings.dat文件,是一個(gè)簡(jiǎn)單地以逗號(hào)分界的文件,包含用戶ID、檔案ID和評(píng)分,檔案是指其他用戶的檔案。每行代表一個(gè)用戶對(duì)另一個(gè)用戶檔案的一次評(píng)分,如:1,133,8,表示用戶ID為“1”的用戶對(duì)檔案ID為“133”的評(píng)分值為8。輸入數(shù)據(jù)的格式直接可以用于Mahout的FileDataModel。即用戶和檔案是數(shù)字,文件按字段依次以逗號(hào)分隔:用戶ID,物品ID,偏好值。
2.2 尋找一個(gè)有效的推薦程序
為了創(chuàng)建一個(gè)推薦引擎來處理示例數(shù)據(jù),需要從Mahout中挑選一個(gè)推薦程序。通過在基于用戶的推薦程序和基于物品的推薦程序下選擇幾種不同的相似性度量和鄰域定義進(jìn)行嘗試性測(cè)試,測(cè)試結(jié)果如表2、表3所示。
以上的結(jié)果較為理想。這些推薦程序估計(jì)的用戶偏好平均偏差在1.12~1.56之間,而取值范圍為1~10。最佳的方案是選擇基于歐氏距離相似性度量和2個(gè)最近鄰域的基于用戶的推薦程序,其評(píng)分估值為1.12。
從結(jié)果看出,平均誤差,即估計(jì)值和實(shí)際值的平均差值翻了大概2倍,具體值超過了2,顯然基于物品的推薦方法相較于基于用戶的推薦方法效果不佳。
Slope-one推薦程序在數(shù)據(jù)模型中的大多數(shù)物品對(duì)之間求得一個(gè)差值。示例數(shù)據(jù)集中有168791個(gè)物品(檔案),意味著潛在存儲(chǔ)了280億個(gè)差值,它太龐大因而無法存入內(nèi)存。可以考慮在數(shù)據(jù)庫中存儲(chǔ)這些差值,但會(huì)極大地降低性能。對(duì)于示例數(shù)據(jù)集,Slope-one推薦程序也并非最佳選擇。
讀者還可以嘗試更多的組合進(jìn)行測(cè)試,經(jīng)過目前所做的測(cè)試進(jìn)行對(duì)比分析,這里在Mahout中選擇最佳方案:基于用戶的推薦程序,采用歐氏距離測(cè)度且鄰域?yàn)?。
2.3 評(píng)估性能
使用Mahout的LoadEvaluator類評(píng)估該數(shù)據(jù)集上使用的推薦程序,采用如下的標(biāo)識(shí)類參數(shù):-server Cd64 CXmX2048 CXX:+UseParallelGC CXX:+UserParallelOldGC。在測(cè)試機(jī)上平均每次推薦會(huì)用218ms。這個(gè)程序在運(yùn)行時(shí)僅占用1GB左右的堆空間。這些測(cè)試結(jié)果是否可被接受,依賴于應(yīng)用的需求和可用的硬件資源。對(duì)于許多應(yīng)用而言,這些測(cè)試數(shù)據(jù)應(yīng)該還是符合要求的。
3 結(jié)束語
本文通過使用一個(gè)來自約會(huì)網(wǎng)站的數(shù)據(jù)作為示例,分析了數(shù)據(jù)的格式,使之成為適合Mahout應(yīng)用的數(shù)據(jù)輸入格式。通過嘗試性測(cè)試不同算法組件的組合進(jìn)行對(duì)比,找出最佳的推薦程序,并對(duì)推薦程序進(jìn)行性能評(píng)估,使讀者了解在Mahout選擇和創(chuàng)建一個(gè)推薦引擎的基本過程。本文僅討論了基于單機(jī)內(nèi)存的算法,基于Hadoop的分布式算法將是今后考慮的研究方向。
參考文獻(xiàn):
[1] 朱倩,錢立.基于Mahout的推薦系統(tǒng)的分析與設(shè)計(jì)[J].科技通報(bào),2013(6):35-36.
[2] 韓懷梅,李淑琴.基于Mahout的個(gè)性化推薦系統(tǒng)架構(gòu)[J].北京信息科技大學(xué)學(xué)報(bào):自然科學(xué)版,2014(4):51-54.
關(guān)鍵詞:移動(dòng)電子商務(wù);個(gè)性化推薦;基于位置的服務(wù)(LBS);用戶興趣模型
一、引言
2011年中國移動(dòng)電子商務(wù)進(jìn)入了快速發(fā)展的軌道,部分電商企業(yè)在移動(dòng)終端取得了非常不錯(cuò)的成績(jī),到2012年年末,中國移動(dòng)電子商務(wù)的發(fā)展進(jìn)入爆發(fā)期。相對(duì)于傳統(tǒng)電子商務(wù)而言,移動(dòng)電子商務(wù)具有移動(dòng)性、虛擬性、非結(jié)構(gòu)化數(shù)據(jù)、個(gè)性化和社會(huì)性等主要特征,其移動(dòng)性一般體現(xiàn)在用戶的可移動(dòng)特征及用戶需求對(duì)情境的依賴性。推薦系統(tǒng)便是在這種大的環(huán)境下產(chǎn)生的,主要是為用戶推薦其感興趣的對(duì)象。
二、個(gè)性化推薦系統(tǒng)簡(jiǎn)介
個(gè)性化推薦系統(tǒng)主要是為了向用戶自動(dòng)推薦,是從信息中找出符合用戶喜好或需求的資源,在此基礎(chǔ)上為用戶提供一種智能推薦系統(tǒng),解決互聯(lián)網(wǎng)信息過載的問題。
(一)個(gè)性化推薦系統(tǒng)的構(gòu)成
個(gè)性化推薦系統(tǒng)可分三個(gè)部分:輸入模塊(Input Function)、推薦模塊(Recommendation Method)和輸出模塊(Output Function)。一個(gè)完整的個(gè)性化推薦系統(tǒng)包括三個(gè)部分:用戶信息的收集和分類、建立用戶喜好的模型、使用算法為用戶推薦。
(二)電子商務(wù)活動(dòng)與個(gè)性化推薦系統(tǒng)的結(jié)合
客戶在選擇商品時(shí)往往會(huì)碰到在商家提供的浩大的信息面前無法快速找到所需產(chǎn)品信息的問題,在此種情形下,商家通過個(gè)性化推薦可快速地為客戶提供服務(wù),找到其所需的商品,最終完成購買活動(dòng)。
1.將電子商務(wù)網(wǎng)站的瀏覽者轉(zhuǎn)變?yōu)橘徺I者
個(gè)性化推薦可快速的為客戶找到其所需的商品,可以將一個(gè)網(wǎng)頁的瀏覽者變成一個(gè)實(shí)實(shí)在在的購買者。可減少商家客戶的流失率,減少客戶瀏覽網(wǎng)頁查詢商品目錄的時(shí)間。
2.提高電子商務(wù)網(wǎng)站的銷售能力
個(gè)性化推薦可減少客戶瀏覽網(wǎng)頁的時(shí)間,為客戶提供精準(zhǔn)的推薦,如果推薦的產(chǎn)品得到客戶的認(rèn)同,可大大地提高網(wǎng)站的銷售量,訂單數(shù)量也會(huì)增加。
(三)個(gè)性化推薦系統(tǒng)的分類
從技術(shù)實(shí)現(xiàn)角度來看,個(gè)性化推薦系統(tǒng)主要?jiǎng)澐譃樗拇箢悾阂皇且?guī)則基礎(chǔ)上的推薦;二是內(nèi)容基礎(chǔ)上的推薦;三是協(xié)同過濾基礎(chǔ)上的推薦;四是混合型推薦。
1.規(guī)則基礎(chǔ)上的推薦
規(guī)則基礎(chǔ)上的推薦主要是通過系統(tǒng)之前的規(guī)則進(jìn)行推薦。規(guī)則基礎(chǔ)上的推薦所用的語句為IF-Then,根據(jù)事先設(shè)定的規(guī)則,“IF”主要規(guī)定了所出現(xiàn)的各種情形,在各種情形基礎(chǔ)上,“Then”將輸出提供的各種推薦資源和服務(wù)。這種規(guī)則也是可變的,客戶也可以制定規(guī)則。規(guī)則基礎(chǔ)上的推薦相對(duì)比較簡(jiǎn)單,客戶理解起來比較容易。
2.內(nèi)容基礎(chǔ)上的推薦
內(nèi)容基礎(chǔ)上的推薦主要是基于用戶之前喜歡的產(chǎn)品,通過分析之前所喜好的產(chǎn)品特征,通過相似度計(jì)算和其他技術(shù),最終為客戶提供與其偏好相似的新產(chǎn)品系列。
3.協(xié)同過濾推薦
協(xié)同過濾推薦是一種綜合推薦,結(jié)合客戶之前的購買活動(dòng)特征與新晉的目標(biāo)客戶之間的相似度進(jìn)行比較,為新客戶進(jìn)行推薦。
4.混合型推薦
和如上兩種推薦不同,混合型推薦不涉及比較用戶模型和信息的相似度,而主要是利用用戶對(duì)于各個(gè)資源的評(píng)分或評(píng)價(jià)來發(fā)掘各個(gè)用戶之前的相似點(diǎn),應(yīng)用這些相似點(diǎn)為新客戶提供更加精確的推薦。混合型推薦成立的前提是具有相似點(diǎn)的客戶對(duì)于一種資源的評(píng)價(jià)一致,那么其對(duì)另外一種資源的評(píng)價(jià)也將是一致的。這樣我們便可將不同興趣的用戶進(jìn)行劃分分類,為同一類的客戶推薦相似的產(chǎn)品。
三、移動(dòng)客戶端與個(gè)性化的結(jié)合
使用移動(dòng)客戶端的用戶,其興趣和需求并不是固定不變的,而是隨著時(shí)間和用戶所處的情景而變化。例如,用戶在旅行時(shí)往往會(huì)關(guān)注天氣、旅館和交通工具信息;在休假時(shí)一般會(huì)關(guān)注娛樂信息和促銷信息。這些都極大地增加了預(yù)測(cè)用戶行為和分析用戶偏好的難度。
(一)移動(dòng)電子商務(wù)環(huán)境下個(gè)性化推薦的特點(diǎn)
隨著3G技術(shù)的發(fā)展及移動(dòng)客戶端的開發(fā)應(yīng)用,用戶可在移動(dòng)環(huán)境下進(jìn)行辦公或購物。相比傳統(tǒng)電子商務(wù)環(huán)境下的推薦,移動(dòng)商務(wù)環(huán)境下的個(gè)性化推薦擁有新的特點(diǎn),主要表現(xiàn)在推薦范圍和推薦時(shí)間方面。從推薦范圍來看,移動(dòng)環(huán)境下的推薦并非是固定的,面對(duì)的用戶群也不是有限的;移動(dòng)推薦系統(tǒng)所面對(duì)的是“移動(dòng)”的用戶,而不是傳統(tǒng)的位置相對(duì)不變的傳統(tǒng)的臺(tái)式機(jī)訪問,移動(dòng)環(huán)境下更多的要考慮用戶的空間位置變化,要隨時(shí)將用戶位置納入到推薦序列中。
(二)基于LBS的個(gè)性化推薦系統(tǒng)
1.LBS簡(jiǎn)介
LBS(Location Based system)是在互聯(lián)網(wǎng)快速發(fā)展的基礎(chǔ)上新興的位置服務(wù)。伴隨著手機(jī)終端的迅速發(fā)展,使用LBS的用戶總數(shù)也在逐年增加。LBS也被稱為位置簽到服務(wù),其定義為采用GPS基站等相關(guān)定位技術(shù),結(jié)合GIS,以短信、彩信及客戶端軟件為用戶提供的基于地理位置的信息服務(wù)。下圖主要展示了我國提供LBS企業(yè)的市場(chǎng)情況。
特別對(duì)于旅行者而言,LBS可實(shí)時(shí)了解到旅行者的空間位置信息,針對(duì)移動(dòng)變化的位置也可以提供準(zhǔn)確的推薦。
2.LBS的特征及其對(duì)個(gè)性化推薦的要求
(1)LBS的特征
LBS的突出特征體現(xiàn)在位置敏感、突發(fā)性和即時(shí)訪問三個(gè)方面。在LBS環(huán)境下,可以方便地跟蹤到用戶的地理位置信息,很容易地識(shí)別用戶的身份及對(duì)用戶的需求進(jìn)行處理。在移動(dòng)環(huán)境下,即使發(fā)生突發(fā)事件,也能及時(shí)滿足用戶的需要,這些都提高了用戶使用LBS的便利性。例如,用戶可及時(shí)了解天氣、酒店和所感興趣的其他信息,不會(huì)受到時(shí)間、地點(diǎn)的阻礙,同步性增強(qiáng)。
(2)LBS對(duì)個(gè)性化推薦系統(tǒng)的要求
LBS環(huán)境下的用戶處于不斷變化的情境之下,用戶的興趣可分為短期的和長期的,因此必須區(qū)分出長期興趣和短期興趣,對(duì)于用戶興趣的變化要進(jìn)行及時(shí)響應(yīng),最終才能為用戶做出精準(zhǔn)的個(gè)性化推薦。
四、個(gè)性化推薦系統(tǒng)與情境的結(jié)合
(一)傳統(tǒng)二維推薦系統(tǒng)
傳統(tǒng)的推薦系統(tǒng)將用戶作為一個(gè)推薦列表輸出,將用戶項(xiàng)目描述成一個(gè)函數(shù),主要包括:輸入數(shù)據(jù)、二維推薦函數(shù)、推薦輸出列表。
傳統(tǒng)推薦系統(tǒng)使用的數(shù)據(jù)一般以用戶、項(xiàng)目、評(píng)分的形式出現(xiàn)。首先收集數(shù)據(jù),之后構(gòu)建推薦函數(shù),在構(gòu)建函數(shù)過程中主要是使用函數(shù)處理用戶u及每個(gè)用戶對(duì)項(xiàng)目的評(píng)價(jià)或評(píng)分,在分析后根據(jù)用戶的項(xiàng)目評(píng)分排序最終生成推薦列表。
(二)基于情境的推薦系統(tǒng)
和傳統(tǒng)的推薦系統(tǒng)相比,融入了情境的推薦流程會(huì)發(fā)生變化,數(shù)據(jù)由U*I*R變?yōu)閁*I*C*R,該模型中引入的C為情境維度,也就是將情境加入到推薦模型中。隨著應(yīng)用情境信息階段的不同,有了在推薦系統(tǒng)中整合情境信息的三種不同的方式。
1.前置情境過濾
這種方式的推薦模型主要是將情境C納入到用于選擇或構(gòu)建相關(guān)數(shù)據(jù)之中,在處理數(shù)據(jù)之前便將情境融入模型中。前置情境過濾方法使用情境信息作為過濾條件來選擇最相關(guān)的用戶X項(xiàng)目數(shù)據(jù)來生成推薦。前置情境過濾相比較其他兩種的優(yōu)勢(shì)主要是其使用是為傳統(tǒng)推薦方法。
2.后置情境過濾
與前置情境過濾相比較而言,在后置情境過濾下,一開始并沒有將情境信息融入進(jìn)來,應(yīng)用傳統(tǒng)的推薦系統(tǒng)事先將各種數(shù)據(jù)進(jìn)行處理和評(píng)分,在此之后再將情境信息C引入到模型中,調(diào)整之前的推薦結(jié)果,主要是剔除與情境不符合的推薦列表,調(diào)整列表推薦的順序,找出最符合用戶特定情境的推薦列表。
啟發(fā)式和模型式是后置情境過濾的兩種方法,前一種方法主要是找到用戶所共有的特征然后使用這些屬性來調(diào)整推薦。對(duì)于后置情境過濾而言,其可以使用任何傳統(tǒng)推薦技術(shù)。
3.情境建模
情境建模方法直接應(yīng)用了情境所包含的內(nèi)容信息,這種方法使用的為多維推薦,其整合了情境信息、用戶數(shù)據(jù)、項(xiàng)目信息的預(yù)測(cè)模型或啟發(fā)式計(jì)算方法。
四、結(jié)論
移動(dòng)環(huán)境下的個(gè)性化推薦研究日益被業(yè)界重視。抓住了用戶興趣建模也是抓住了個(gè)性化推薦的核心,本文主要在傳統(tǒng)的推薦模型下將情境信息引入到用戶興趣模型,將情境融入到推薦矩陣中,將情境與用戶對(duì)項(xiàng)目的興趣度相結(jié)合,為移動(dòng)環(huán)境下的用戶模型構(gòu)建提供理論框架。
參考文獻(xiàn):
[1]吳麗花,劉魯.個(gè)性化推薦系統(tǒng)用戶建模技術(shù)綜述[J].情報(bào)學(xué)報(bào),2006(02).
[2]曾春,邢春曉,周立柱.個(gè)性化服務(wù)技術(shù)綜述[J].軟件學(xué)報(bào),2002(10).
[3]裴仰軍.個(gè)性化服務(wù)中用戶興趣模型的研究[D].重慶大學(xué),2005.
[4]費(fèi)洪曉,戴戈,穆等.個(gè)性化信息過濾系統(tǒng)中用戶興趣模型建立和更新[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2007(08).
隨著印本圖書資源的不斷豐富,如今的圖書館成為名副其實(shí)的“書?!?。沒有“羅盤”的用戶進(jìn)入圖書館非但不能遨游書海,反而迷失于書海,因此,用戶希望擁有能夠快速幫助自己找到目標(biāo)書籍的“羅盤”,降低尋找書籍的精力和時(shí)間成本,而圖書館工作者也希望能夠?yàn)橛脩籼峁┮环N高效的工具來滿足用戶需求,改善用戶體驗(yàn)。圖書館個(gè)性化推薦系統(tǒng)正是解開這把雙向鎖的鑰匙,為解決用戶和圖書館所面臨的信息過載問題而提出的一種智能系統(tǒng)[1,2],成為跨越用戶與館藏資源之間信息鴻溝的橋梁。
如齊普夫省力法則所述,一個(gè)系統(tǒng)即使其效用性很高,但是其易用性不好也會(huì)使用戶的使用概率大打折扣。從目前圖書館的推薦系統(tǒng)來看,大多數(shù)是從推薦的準(zhǔn)確性及推薦算法改進(jìn)方面開展的,注重用戶模型的研究,但忽略了用戶與信息標(biāo)志物之間的距離問題,即在信息推送的同時(shí),讀者并不在該書籍附近,如果是非必需的書籍,讀者忽略推薦的可能性就會(huì)比較大,推薦就起不到良好的效果。而基于定位的個(gè)性化推薦加入用戶此時(shí)所處位置,將位置與用戶的興趣相結(jié)合,便能很好地為用戶提供個(gè)性化服務(wù)。本文試圖參考大眾點(diǎn)評(píng)基于位置信息服務(wù)的個(gè)性化推薦方式,結(jié)合RFID無線射頻識(shí)別技術(shù),探尋一種適合于定位圖書館用戶的方法。
2 RFID技術(shù)與圖書館個(gè)性化推薦系統(tǒng)的國內(nèi)外研究現(xiàn)狀
2.1 RFID技術(shù)的國內(nèi)外研究現(xiàn)狀
RFID是一種非接觸式的自動(dòng)識(shí)別技術(shù),主要利用無線射頻信號(hào)和空間耦合的數(shù)據(jù)傳輸原理,對(duì)物體進(jìn)行自動(dòng)識(shí)別,并讀寫相關(guān)數(shù)據(jù),而在識(shí)別系統(tǒng)和特定目標(biāo)之間無須接觸。在圖書館中,應(yīng)用RFID系統(tǒng)可以將圖書的書名、條形碼、借閱記錄以及讀者信息等匯集在一起,并能快速識(shí)別,起到優(yōu)化借還書操作程序,提高館藏圖書清點(diǎn)速度,提高圖書整價(jià)和歸位等良好效果,此外,它具有的良好穿透能力也能改進(jìn)用戶自助體驗(yàn),省時(shí)高效,提高用戶的滿意度。目前,RFID技術(shù)在國內(nèi)外發(fā)展都很快,應(yīng)用范圍很廣,如圖書館、門禁系統(tǒng)、高速公路自動(dòng)收費(fèi)系統(tǒng)、停車場(chǎng)管理系統(tǒng)、食品安全溯源等。
國外圖書館應(yīng)用RFID技術(shù)開始較早,同時(shí)發(fā)展也比較迅速。目前,在英國、美國、德國、日本及新加坡等都有較成熟的RFID系統(tǒng)。Elisha OndiekiMakori[3]指出,在發(fā)展中國家,RFID技術(shù)被當(dāng)做一種現(xiàn)代信息系統(tǒng)廣泛應(yīng)用于圖書館,提高圖書館為用戶服務(wù)的效率和質(zhì)量。Yogesh K. Dwivedi[4]以問卷調(diào)查的方法調(diào)查了經(jīng)常使用RFID技術(shù)的181名圖書館用戶,調(diào)查結(jié)果表明,系統(tǒng)質(zhì)量、用途和用戶滿意度是影響用戶選擇RFID的主要因素。此外,國外圖書館使用RFID技術(shù)還顯現(xiàn)出很多優(yōu)勢(shì),如提高用戶滿意度,提高工作效率等[5]。
國內(nèi)圖書館應(yīng)用RFID技術(shù)較晚,2006年,“射頻識(shí)別(RFID)技術(shù)與應(yīng)用”等20個(gè)重大課題,同時(shí)設(shè)立了中國國家高技術(shù)研究發(fā)展技術(shù),意味著國家正以計(jì)劃和資金啟動(dòng)RFID技術(shù)的全面應(yīng)用,圖書館成為試點(diǎn)對(duì)象,逐漸開始了RFID技術(shù)的使用,集美大學(xué)、汕頭大學(xué)、北京石油化工學(xué)院、西安理工大學(xué)、北京理工大學(xué)等圖書館隨后使用了RFID技術(shù)[6]。余昭芬提出,RFID技術(shù)可以為智能便攜式找書器的到來奠定基礎(chǔ),實(shí)現(xiàn)與圖書館固定資產(chǎn)數(shù)字化管理的無縫對(duì)接,對(duì)圖書借閱數(shù)據(jù)的統(tǒng)計(jì)與分析,使現(xiàn)代圖書館實(shí)現(xiàn)智能化書車管理,實(shí)現(xiàn)智能化移動(dòng)書亭成為可能[7]。
2.2 高校圖書館個(gè)性化推薦系統(tǒng)的國內(nèi)外研究現(xiàn)狀
高校圖書館的個(gè)性化推薦,是指圖書館根據(jù)用戶的興趣愛好、借閱記錄、個(gè)人需求等,主動(dòng)分析用戶的興趣愛好特點(diǎn),進(jìn)而智能高效地為用戶提供一一對(duì)應(yīng)式的圖書推薦。圖書館的個(gè)性化推薦方法是主動(dòng)服務(wù)用戶,使用戶滿意推薦結(jié)果并快速、準(zhǔn)確地定位自己所需要的書籍。
國外圖書館個(gè)性化推薦的研究始于20世紀(jì)七八十年代,當(dāng)時(shí)學(xué)者們提出“采用圖書館推送的服務(wù)來滿足讀者的需求”,此概念可以稱之為最初關(guān)于圖書館個(gè)性化推薦的雛形[8]。隨著信息技術(shù)的飛速發(fā)展,美國康奈爾大學(xué)研制了MyLibrary系統(tǒng),隨后,很多大學(xué)及公共圖書館以此為標(biāo)準(zhǔn),創(chuàng)建并使用了類似MyLibrary的系統(tǒng)和服務(wù),如My Gateway(美國華盛頓大學(xué)圖書館)、BraryDog(德國梅克倫堡州公共圖書館),My Library(美國加州工藝州立大學(xué)圖書館),My Library@UT(美國西南得克薩斯醫(yī)學(xué)中心圖書館),my.library(加拿大多倫多大學(xué)圖書館),MyLibrary(新西蘭克萊斯特徹奇教育學(xué)院)以及My UCLA(美國加利福尼亞大學(xué)洛杉磯分院)[9]。
在國內(nèi)也有不少學(xué)者對(duì)圖書館的個(gè)性化推薦展開了相關(guān)研究,孫雨生和董慧針對(duì)當(dāng)前數(shù)字圖書館個(gè)性化推薦過程中出現(xiàn)的問題,分析了互聯(lián)網(wǎng)、語義網(wǎng)、網(wǎng)格技術(shù)在數(shù)字圖書館個(gè)性化推薦領(lǐng)域的應(yīng)用局限性,提出基于語義網(wǎng)格的數(shù)字圖書館個(gè)性化推薦體系結(jié)構(gòu)與總體框架[10]。聶飛霞對(duì)數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則與聚類分析技術(shù)進(jìn)行了系統(tǒng)研究,并將其應(yīng)用到高校圖書館數(shù)據(jù)挖掘工作中,對(duì)讀者的閱讀興趣以及圖書的利用率進(jìn)行分析,最終設(shè)計(jì)了一個(gè)適合西北大學(xué)圖書館的個(gè)性化推薦服務(wù)系統(tǒng)[11]。此外,還有很多學(xué)者致力于探討適合高校圖書館個(gè)性化服務(wù)的推薦算法、推薦模型和推薦系統(tǒng)。
3 利用RFID技術(shù)實(shí)現(xiàn)圖書館個(gè)性化推薦服務(wù)探討
伴隨著移動(dòng)網(wǎng)絡(luò)及智能手機(jī)的普及,信息環(huán)境發(fā)生了巨大的變化,引發(fā)了由靜態(tài)信息服務(wù)向動(dòng)態(tài)信息服務(wù)的轉(zhuǎn)變,帶來數(shù)字化信息服務(wù)的全面升級(jí)[12-14]。著眼于圖書館領(lǐng)域,移動(dòng)信息環(huán)境的變革將催生出有別于傳統(tǒng)圖書館信息服務(wù)的新方式。
3.1 普適環(huán)境給圖書館個(gè)性化推薦服務(wù)帶來的變革
在移動(dòng)終端設(shè)備、移動(dòng)通信網(wǎng)絡(luò)飛速發(fā)展及用戶信息需求個(gè)性化的影響下,普適環(huán)境悄然興起,由此所產(chǎn)生的普適服務(wù)也逐漸呈現(xiàn)在用戶面前。普適服務(wù)是基于Weiser于1991年提出的普適計(jì)算思想[15],在普適計(jì)算模式下,通過計(jì)算機(jī)、通信和數(shù)字媒體等多種技術(shù)的融合,將信息空間與人們生活的物理空間關(guān)聯(lián)成一個(gè)和諧的智能環(huán)境,從而提供無處不在的信息服務(wù),人們可以隨時(shí)隨地、無任何障礙地獲取這些服務(wù)。普適環(huán)境中用戶位置信息的變換性使得在普適服務(wù)中用戶的個(gè)性化特點(diǎn)逐漸凸顯。具體表現(xiàn)在:
(1)實(shí)時(shí)性推薦
在有線網(wǎng)絡(luò)時(shí)代,臺(tái)式機(jī)及筆記本電腦等設(shè)備限定了用戶的位置,使用戶在靜止的狀態(tài)下接受圖書館推薦服務(wù)。進(jìn)入普適服務(wù)時(shí)代,移動(dòng)設(shè)備的便捷性使得用戶在請(qǐng)求圖書館提供服務(wù)時(shí)常常是在不斷的“移動(dòng)”中,這種位置信息的不斷變換就要求系統(tǒng)有較強(qiáng)的快速反應(yīng)能力,能夠?qū)崟r(shí)反饋用戶的服務(wù)需求,如果用戶已經(jīng)從文學(xué)庫移動(dòng)到歷史書庫了,系統(tǒng)才將用戶在文學(xué)庫的服務(wù)要求結(jié)果反饋給用戶,此時(shí)用戶的需求因?yàn)槲恢玫淖儞Q也已發(fā)生改變,延遲性的服務(wù)結(jié)果無法滿足普適服務(wù)的要求。
(2)云端化推薦
雖然目前智能手機(jī)已進(jìn)入八核時(shí)代,但和傳統(tǒng)的PC設(shè)備相比,移動(dòng)終端在硬件方面仍然具有較大差距,無線網(wǎng)絡(luò)信號(hào)的不穩(wěn)定性及延遲性,同樣使得移動(dòng)端設(shè)備只能作為接收設(shè)備,大部分的數(shù)據(jù)處理都需放在云端才能實(shí)現(xiàn)。
(3)開放式推薦
圖書館目前所采用的信息推薦服務(wù)方式多為定制化服務(wù),其中RSS是圖書館最為常用的信息推薦服務(wù)方式,只有申請(qǐng)了相關(guān)服務(wù)并填寫相關(guān)資料的用戶才能享受推薦服務(wù),沒有開通的用戶則無法使用,而普適服務(wù)的開放性使得每一個(gè)用戶在信息獲取方面都處于相同的地位,只要是該圖書館的用戶,擁有相應(yīng)的移動(dòng)接收終端,進(jìn)入服務(wù)環(huán)境后就能夠享受圖書館提供的信息推薦服務(wù)。同樣,加入RFID電子標(biāo)簽的書籍也是整個(gè)開放普適環(huán)境中的一份子,用戶或管理員能夠隨時(shí)隨地感知書籍的位置信息,提高找尋及管理效率,有效節(jié)約時(shí)間成本。
3.2 定位技術(shù)在圖書館個(gè)性化推薦服務(wù)中的作用
個(gè)性化推薦能夠促進(jìn)借閱轉(zhuǎn)化,改善借閱體驗(yàn),提高館藏利用率,還能完善用戶體驗(yàn)效果,增加用戶對(duì)圖書館的黏性。而定位技術(shù)能夠準(zhǔn)確定位用戶所在書庫,給用戶提供當(dāng)前位置附近的書籍,往往更能貼近用戶此時(shí)的需求,達(dá)到令用戶滿意的效果。筆者總結(jié)出目前利用RFID定位技術(shù)在圖書館個(gè)性化推薦中的作用主要有以下三點(diǎn):
(1)實(shí)現(xiàn)書庫隔離
利用RFID進(jìn)行空間定位是一種全新的定位技術(shù),它可以有效定位用戶當(dāng)前所在位置,現(xiàn)有的個(gè)性化推薦是針對(duì)整個(gè)圖書館這一整體而言的,推薦的書籍也是分散在不同的書籍庫中,在個(gè)性化推薦中,加入定位技術(shù)可以為后續(xù)的計(jì)算提供強(qiáng)有力的支撐。此外,按照?qǐng)D書館所采取的分類標(biāo)準(zhǔn),把整個(gè)圖書館分成不同的書庫,以位置信息為尺度實(shí)現(xiàn)書庫之間的隔離,有助于后臺(tái)數(shù)據(jù)庫的整理,簡(jiǎn)化計(jì)算的流程,而且“位置―用戶―書籍”的立體化結(jié)構(gòu)可以更方便地分析用戶之間的關(guān)聯(lián)性,這樣就可以為推薦提供更加有針對(duì)性的參考。
(2)實(shí)現(xiàn)數(shù)據(jù)降維,減小運(yùn)算負(fù)荷
傳統(tǒng)的推薦方式往往是以整個(gè)圖書館的書籍為基礎(chǔ)進(jìn)行計(jì)算,當(dāng)有新的用戶出現(xiàn)時(shí),為了尋找相似性用戶,保證推薦的準(zhǔn)確性,往往需要調(diào)用所有學(xué)生的數(shù)據(jù)記錄,因此,運(yùn)算負(fù)荷比較大。而利用RFID技術(shù)進(jìn)行個(gè)性化推薦,在個(gè)性化推薦中加入位置因素,可以通過尋找用戶所在位置,然后調(diào)用用戶當(dāng)前所在書庫中的數(shù)據(jù),而不需要調(diào)用整個(gè)圖書館的數(shù)據(jù),并且當(dāng)出現(xiàn)新的需求變更時(shí),只需在本書庫內(nèi)進(jìn)行興趣偏好的更新,就可以大大降低運(yùn)算維度,從而降低計(jì)算機(jī)的運(yùn)算負(fù)荷,提高運(yùn)算的速度。
(3)提高推薦的實(shí)時(shí)性和針對(duì)性
用戶在尋找書籍時(shí),一旦有目的地來到某個(gè)書庫,就表示用戶此時(shí)的需求是該書庫中的書籍,而利用RFID技術(shù)進(jìn)行個(gè)性化推薦,在個(gè)性化推薦系統(tǒng)中加入定位技術(shù),可以快速地定位用戶當(dāng)前所在位置,根據(jù)用戶的位置,將計(jì)算得出的書籍推薦給用戶,不但具有實(shí)時(shí)性,即用戶在圖書館的某一個(gè)書庫時(shí)只給用戶推薦該書庫中的書籍,不需要很長的時(shí)間間隔,而且具有很好的針對(duì)性,推薦的書籍正好是用戶所在位置附近的書籍,同時(shí)提高了借閱率,促進(jìn)了圖書的流通。
關(guān)鍵詞:搜索引擎;關(guān)鍵詞推薦;個(gè)性化;專利分析
引言
隨著互聯(lián)網(wǎng)的普及,搜索引擎已經(jīng)成為人們獲取信息的主要手段之一。搜索引擎采用的主要交互方式為用戶自主輸入關(guān)鍵詞,檢索系統(tǒng)根據(jù)輸入的關(guān)鍵詞提供檢索結(jié)果。然而,由于用戶輸入的關(guān)鍵詞通常較短,且可能存在歧義、意圖模糊等情況,使其不能精確地表達(dá)其搜索意圖。為了幫助用戶更好地構(gòu)造關(guān)鍵詞,通常搜索引擎會(huì)使用個(gè)性化關(guān)鍵詞推薦技術(shù)。其通過分析文檔結(jié)構(gòu)、用戶瀏覽行為及用戶對(duì)文檔的評(píng)價(jià)等信息,建立用戶的興趣模型,推薦出用戶實(shí)際所需的關(guān)鍵詞,提高搜索準(zhǔn)確性,改善用戶智能、便捷的搜索體驗(yàn)。
1 個(gè)性化關(guān)鍵詞推薦技術(shù)概述
早在上世紀(jì)90年代,學(xué)者就開展了一些關(guān)鍵詞推薦相關(guān)研究,如今已成為搜索引擎的必備技術(shù)之一。個(gè)性化關(guān)鍵詞推薦根據(jù)所依賴的數(shù)據(jù)源不同大體可分為三類:基于文檔詞典、基于搜索日志和其他相關(guān)技術(shù),如圖1所示。
(1)基于文檔詞典的關(guān)鍵詞推薦技術(shù)是以當(dāng)前關(guān)鍵詞返回的文檔內(nèi)容為對(duì)象,對(duì)文檔進(jìn)行概括來提取關(guān)鍵詞,并將關(guān)鍵詞按類別進(jìn)行聚類,最后將關(guān)鍵詞反饋給用戶。該技術(shù)不考慮用戶的歷史記錄,根據(jù)文檔內(nèi)容之間的相似度來提取用戶興趣,并基于各種詞庫(如分類詞庫、同義詞庫、關(guān)聯(lián)詞庫、外語詞庫、糾錯(cuò)詞庫和分詞詞庫等)來推薦關(guān)鍵詞。
(2)基于用戶搜索日志的關(guān)鍵詞推薦技術(shù)是從用戶角度出發(fā),以用戶搜索日志中的歷史記錄作為對(duì)象,采用聚類技術(shù)計(jì)算關(guān)鍵詞之間的相似度,并返回相關(guān)度較高的關(guān)鍵詞。該技術(shù)通常會(huì)從搜索日志中分析用戶操作行為,提取用戶標(biāo)識(shí)和群體特征。
(3)對(duì)于個(gè)性化關(guān)鍵詞推薦中的其他相關(guān)技術(shù),其主要包含了能夠使用戶更加便捷地使用搜索引擎所采用的一些其它技術(shù)。例如,與用戶之間進(jìn)行語音交互、結(jié)合用戶當(dāng)前位置信息等手段來提供關(guān)鍵詞。
2 個(gè)性化關(guān)鍵詞推薦相關(guān)專利申請(qǐng)分析
本文在CNABS和DWPI數(shù)據(jù)庫中,通過“搜索”、“關(guān)鍵詞”、“推薦”及其中英文擴(kuò)展詞匯作為主要關(guān)鍵詞,并排除IPC分類號(hào)為G06Q的噪聲文獻(xiàn),檢索得到的2016年5月以前公布的300余篇專利文獻(xiàn)作為樣本,對(duì)全球的專利申請(qǐng)量的趨勢(shì)、申請(qǐng)區(qū)域分布以及重要申請(qǐng)人分布進(jìn)行分析,從中得到技術(shù)發(fā)展趨勢(shì),以及各階段專利申請(qǐng)人所屬的國家分布和主要申請(qǐng)人分布。其中,以每個(gè)同族中最早優(yōu)先權(quán)日期視為該申請(qǐng)的申請(qǐng)日,一系列同族申請(qǐng)視為一件申請(qǐng)。
2.1 國際專利申請(qǐng)量趨勢(shì)分析
圖2給出了個(gè)性化關(guān)鍵詞推薦技術(shù)的全球?qū)@暾?qǐng)趨勢(shì),大致可以分為四個(gè)時(shí)期,各時(shí)期劃分以申請(qǐng)量增長率的變化為標(biāo)準(zhǔn)。
2.1.1 萌芽階段(2003年之前)
搜索引擎起源于1990年,經(jīng)歷近10年的發(fā)展后,開始向個(gè)性化趨勢(shì)邁進(jìn)。1998-2003年是個(gè)性化搜索引擎中的關(guān)鍵詞推薦技術(shù)從無到有的萌芽階段,該階段申請(qǐng)量極少。具有代表性的申請(qǐng)人是國際商業(yè)機(jī)器(IBM)公司以及皇家飛利浦(KONINK PHILIPS)電子股份有限公司。
2.1.2 平穩(wěn)增長階段(2004年-2007年)
從2004年開始,關(guān)于個(gè)性化關(guān)鍵詞推薦技術(shù)的專利每年的申請(qǐng)量明顯比2003年之前的申請(qǐng)量多,申請(qǐng)量和申請(qǐng)人的發(fā)展總體趨勢(shì)趨于平穩(wěn)增長。在此階段,申請(qǐng)量前三位的國別分布如圖3所示。美國申請(qǐng)的專利量占67%,其中,前四位的申請(qǐng)人分別是微軟公司、谷歌公司、雅虎公司、IBM公司。另外,韓國和中國分別占25%和5%,這也從側(cè)面說明這個(gè)時(shí)期內(nèi),中國和韓國在搜索引擎所涉及的IT技術(shù)領(lǐng)域發(fā)展迅猛。
2.1.3 快速增長階段(2008年-2011年)
在2008年-2011年之間,除了2009年出現(xiàn)了下滑趨勢(shì)(經(jīng)濟(jì)環(huán)境背景的影響)以外,該技術(shù)的申請(qǐng)量和申請(qǐng)人數(shù)量呈現(xiàn)跨越式增長。這是由于在此期間IT產(chǎn)業(yè)的迅猛發(fā)展,使得企業(yè)對(duì)于個(gè)性化關(guān)鍵詞推薦技術(shù)的關(guān)注度急劇提升,因此出現(xiàn)了申請(qǐng)量的快速增長。在此階段,申請(qǐng)量占前四位的國別分布如圖4所示??梢钥闯觯袊谶@一時(shí)期內(nèi)的申請(qǐng)保持著較快的發(fā)展,并且申請(qǐng)量超過起步較早的韓國和日本,這與中國在2008年之后各種IT類型企業(yè)迅猛發(fā)展息息相關(guān)。而美國的申請(qǐng)量趨于穩(wěn)定,技術(shù)發(fā)展成熟度也較高,保持著絕對(duì)的領(lǐng)先地位。
2.1.4 成熟階段(2012年-至今)
個(gè)性化關(guān)鍵詞推薦技術(shù)的專利申請(qǐng)量從2012年至今呈現(xiàn)出穩(wěn)步增長的趨勢(shì)。在此階段,申請(qǐng)量占前五位的國別分布如圖5所示。在這一階段,中國國內(nèi)的大型公司充分意識(shí)到了知識(shí)產(chǎn)權(quán)的重要性,申請(qǐng)量超過了美國成為第一。特別是國內(nèi)如百度、奇虎、騰訊等公司申請(qǐng)的專利在數(shù)量和質(zhì)量上都有明顯提升。
2.2 本領(lǐng)域重要申請(qǐng)人分析
本節(jié)對(duì)本領(lǐng)域重要申請(qǐng)人方面做進(jìn)一步分析,主要考慮申請(qǐng)人歷年的申請(qǐng)總量,按照申請(qǐng)總量進(jìn)行排名。前16名申請(qǐng)人分布如圖6所示。其中GOOG:谷歌(美國);MICT:微軟(美國);BAID:百度(中國);YAHO:雅虎(美國);IBMC:國際商業(yè)機(jī)器公司(美國);QIHU:奇虎(中國);ABAB:阿里巴巴(中國);NHNN:NHN株式會(huì)社(韓國);TNCT:騰訊(中國);ETRI:韓國電子通信研究院(韓國);EBAY:電子灣(美國);FUIT:富士通株式會(huì)社(日本);INCR:INCRUIT公司(n國);KING:金山軟件(中國);NITE:日本電信電話株式會(huì)社(日本);SOGO:搜狗(中國)。
從圖6可以看出,在本領(lǐng)域,諸如谷歌、微軟、雅虎、IBM等的國際化大公司一直是較為活躍的申請(qǐng)人,這些申請(qǐng)人在申請(qǐng)數(shù)量以及質(zhì)量方面都占據(jù)領(lǐng)頭羊地位;諸如百度、奇虎、阿里巴巴、騰訊等的國內(nèi)知名大公司也占據(jù)著較重要的席位。
3 個(gè)性化關(guān)鍵詞推薦相關(guān)專利技術(shù)發(fā)展分析
個(gè)性化關(guān)鍵詞推薦技術(shù)可分為基于文檔詞典、基于搜索日志和其他相關(guān)技術(shù)。圖7給出了從1998年到2015年,三類技術(shù)相關(guān)的專利申請(qǐng)量分布。從圖7可知,基于文檔詞典和基于搜索日志的個(gè)性化關(guān)鍵詞推薦技術(shù)為主要技術(shù)。
本章將對(duì)基于文檔詞典和基于搜索日志這兩類技術(shù)的發(fā)展路線方面進(jìn)行分析,給出了每個(gè)年度具有代表性的專利技術(shù)。
以申請(qǐng)時(shí)間為主線,基于文檔詞典的個(gè)性化關(guān)鍵詞推薦技術(shù)示例性專利如圖8所示。
以申請(qǐng)時(shí)間為主線,基于搜索日志的個(gè)性化關(guān)鍵詞推薦技術(shù)示例性專利如圖9所示。
4 結(jié)束語
本文結(jié)合國內(nèi)外專利申請(qǐng)的狀況,對(duì)個(gè)性化搜索引擎中關(guān)鍵詞推薦專利技術(shù)進(jìn)行了較為全面的分析和研究,并對(duì)其發(fā)展歷程進(jìn)行了回顧。從以上分析可知,我國關(guān)鍵詞推薦技術(shù)雖然起步較晚,但近十幾年發(fā)展很快,也涌現(xiàn)出一批具有競(jìng)爭(zhēng)力的大企業(yè)。另外,目前基于文檔詞典和搜索日志的關(guān)鍵詞推薦技術(shù)已經(jīng)發(fā)展成熟,且應(yīng)用廣泛。今后的關(guān)鍵詞推薦技術(shù)應(yīng)該會(huì)向混合推薦方向發(fā)展,充分發(fā)揮每種推薦方法的優(yōu)勢(shì),提高推薦的效率。
參考文獻(xiàn)
[1]張博,周瑞瑞,魚冰.協(xié)同過濾推薦算法專利綜述[J].河南科技,2015(10):3-5.
[2]王瑩,羅坤,姜磊,等.基于內(nèi)容的圖像檢索技術(shù)的專利技術(shù)綜述[J].電視技術(shù),2013,37(2):62-65.
[3]李亞楠,王斌,李錦濤.搜索引擎查詢推薦技術(shù)綜述[J].中文信息學(xué)報(bào),2010,24(6):75-84.
關(guān)鍵詞:個(gè)性化推薦;協(xié)同過濾;聚類;廣電運(yùn)營
1 背景
近年來,廣電運(yùn)營在高清、互動(dòng)電視平臺(tái)的建設(shè)方面取得了長足的進(jìn)步,包括點(diǎn)播、時(shí)移、回看、資訊信息在內(nèi)的大量交互業(yè)務(wù)在各地紛紛上馬,大大改善了各地電視用戶的收視體驗(yàn),同時(shí)也為運(yùn)營商平臺(tái)化進(jìn)行了深入的探索和驗(yàn)證。個(gè)性化推薦技術(shù)是解決上述問題的重點(diǎn)方案之一,通過主動(dòng)把熱點(diǎn)內(nèi)容、最新內(nèi)容或者用戶喜好的內(nèi)容推送給用戶,用戶無需進(jìn)行繁瑣的內(nèi)容瀏覽,就能快速定位到自己感興趣的內(nèi)容,一方面提升了用戶體驗(yàn),另一方面也大大增加了運(yùn)營商投資購入的節(jié)目?jī)?nèi)容的長尾效應(yīng)[1]。本文針對(duì)廣電家庭用戶個(gè)性化推薦技術(shù)的難點(diǎn),重點(diǎn)討論利用協(xié)同過濾推薦技術(shù)與注重速度和精度的智能聚類算法來為用戶精準(zhǔn)推薦和推送其感興趣的節(jié)目?jī)?nèi)容。
2 協(xié)同過濾推薦技術(shù)
2.1 協(xié)同過濾算法分類
隨著協(xié)同過濾技術(shù)在電子商務(wù)領(lǐng)域的廣泛應(yīng)用,協(xié)同過濾算法主要分為基于內(nèi)存、基于知識(shí)、基于模型和混合式推薦等,其中各種算法各有千秋,只能根據(jù)自身的實(shí)際情況選擇適合自身的算法。
2.2 聚類技術(shù)
一種基于用戶相似度矩陣實(shí)現(xiàn)近線分析的算法簡(jiǎn)單描述為新物品上線后,通過門戶Portal、選單、榜單及非個(gè)性化推薦方式被老用戶收看后,可以基于系統(tǒng)通過用戶協(xié)同過濾算法得到的用戶相似度矩陣,將新物品推薦給與收看過該物品的用戶相似的其他用戶[3]。通過這種基于相似群體(簇)推薦的方式,可以將新物品的推薦能夠快速推薦給大量老用戶。
而聚類技術(shù)就是將有共同特性的項(xiàng)目或事物聚集在一起,在該模型中通過將有共同興趣愛好的用戶聚集在一起,認(rèn)為該聚集簇中的目標(biāo)用戶與鄰居用戶有相同的產(chǎn)品風(fēng)格喜好,從而就可以向目標(biāo)用戶推薦鄰居用戶喜好的商品,這種模型推薦算法不僅可以推薦用戶所喜歡已知種類的商品,還可以向用戶推薦用戶可能會(huì)喜歡的新鮮商品。
3 k-means聚類算法
3.1 K-means聚類算法原理
K-means的算法原理是:首先從數(shù)據(jù)集(包含N個(gè)數(shù)據(jù)樣本點(diǎn))中隨機(jī)選擇k個(gè)數(shù)據(jù)樣本點(diǎn)作為初始聚類中心,對(duì)于剩余的(N-k)個(gè)其他數(shù)據(jù)樣本點(diǎn),分別將他們分配給距離那k個(gè)中心簇最近(相似度最大)的簇中,然后再分別重新計(jì)算他們的聚類中心(即該簇中所有數(shù)據(jù)樣本點(diǎn)的均值),不斷重復(fù)這一過程,直到聚類中心不再改變,標(biāo)準(zhǔn)測(cè)度函數(shù)開始收斂為止。否則繼續(xù)迭代執(zhí)行聚類,其算法描述如下:
輸入:數(shù)據(jù)集(包含N個(gè)數(shù)據(jù)樣本點(diǎn)),初始k個(gè)數(shù)據(jù)簇中心。
輸出:滿足終止迭代條件的k個(gè)數(shù)據(jù)簇。
3.2 基于k-means算法的用戶聚類
現(xiàn)實(shí)生活中,相似的用戶有共同的用戶特征、喜好特征、行為特征,而非相似用戶的用戶特征、喜好特征、行為特征等也都大相徑庭。具體來講,從用戶特征可以從這幾個(gè)大的方面來進(jìn)行區(qū)分,比如說,性別,年齡,職業(yè),學(xué)歷等多方面,一般來說,不同學(xué)歷的人,由于他們對(duì)知識(shí)基礎(chǔ)的積累層次不一,導(dǎo)致他們選擇不同的分別適合他們自己的視節(jié)目對(duì)象,相似的用戶群體他們的職業(yè)、年齡或者其他方面具有一定的相似性,導(dǎo)致他們選擇了共同的電視節(jié)目。從喜好特征來講,有相同愛好的用戶,自然他們?cè)谶x擇電視節(jié)目對(duì)象時(shí),很有可能選擇同一個(gè)對(duì)象。從行為特征來講,兩個(gè)有相似行為特征的用戶很有可能選擇的電視節(jié)目對(duì)象也是同一類,所以在本文中,我們認(rèn)為相似的用戶在選擇電視節(jié)目對(duì)象時(shí)也具有一定的相似性,所以我們根據(jù)用戶訂閱過的電視節(jié)目對(duì)象便可以將相似的用戶聚類。
4 改進(jìn)的K-means算法
4.1 改進(jìn)策略
(1)計(jì)算出數(shù)據(jù)集中N個(gè)樣本點(diǎn)兩兩之間的距離(本文衡量的是相似度)dis(),找到滿足的兩個(gè)樣本點(diǎn)d1和d2,并將它們?cè)O(shè)為初始兩個(gè)聚類中心。
(2)在剩余的(N-2)個(gè)樣本點(diǎn)中,選取滿足
的樣本點(diǎn)d3作為第三個(gè)初始聚類中心樣本點(diǎn),其中,di是除去數(shù)據(jù)集中樣本點(diǎn)d1、d2、d3的任意一個(gè)樣本點(diǎn)。
(3)依此類推,直到剩余的(N-k+1)個(gè)樣本點(diǎn)中,選取滿足
的樣本點(diǎn)dk作為第k個(gè)初始聚類中心樣本點(diǎn),其中,di是除去數(shù)據(jù)集中樣本點(diǎn)d1,d2,…dk的任意一個(gè)樣本點(diǎn)。
(4)對(duì)于數(shù)據(jù)集中剩余的(N-k)個(gè)樣本點(diǎn),計(jì)算每個(gè)樣本點(diǎn)與上面求得的k個(gè)聚類中心樣本點(diǎn)之間的距離,并將這些樣本點(diǎn)歸入距離其最近的聚類中心簇中。
(5)重新計(jì)算k個(gè)數(shù)據(jù)簇的聚類中心值和標(biāo)準(zhǔn)測(cè)度函數(shù),中心值為該簇類所有樣本點(diǎn)的平均值,其計(jì)算公式為,標(biāo)準(zhǔn)測(cè)度函數(shù)為,其中,nj為第j類中的數(shù)據(jù)樣本點(diǎn)個(gè)數(shù),為聚類子類Dj的數(shù)據(jù)樣本點(diǎn)。;
(6)如果滿足(表示子類簇中樣本點(diǎn)的誤差平方和已經(jīng)收斂)或達(dá)到了最大的迭代次數(shù),表示子類樣本成員不再發(fā)生變化,就可以結(jié)束聚類。否則,返回4)步驟繼續(xù)迭代,其中,是一個(gè)任意小的數(shù),E1與E2代表前后兩次迭代的測(cè)度函數(shù)值。
4.2 相似特征用戶聚類算法流程
通過建立的矩陣模型對(duì)相似特征用戶進(jìn)行聚類,首先,根據(jù)用戶與電視節(jié)目資源對(duì)象標(biāo)簽之間的訂閱關(guān)系來建立矩陣模型,根據(jù)這個(gè)矩陣模型可以獲得所有的數(shù)據(jù)集樣本點(diǎn),矩陣的每行數(shù)據(jù)代表一個(gè)樣本點(diǎn),且每個(gè)樣本點(diǎn)都是高維的,然后就是對(duì)該海量數(shù)據(jù)集應(yīng)用k-means聚類算法來對(duì)相似用戶(簇)聚類,然而由于K-means算法對(duì)初始聚類中心點(diǎn)比較挑剔,為了合理高效的得到有效的聚類中心點(diǎn),先采取簡(jiǎn)單隨機(jī)抽樣算法,在抽樣的數(shù)據(jù)樣本集中應(yīng)用改進(jìn)的最大距離法對(duì)初始聚類中心得到優(yōu)化,同時(shí),將K-means算法中的距離量度換為本文改進(jìn)的相似度計(jì)量方式,最后根據(jù)抽樣樣本輸出的K個(gè)聚類中心,在總數(shù)據(jù)集上應(yīng)用K-means算法,將相似特征用戶進(jìn)行聚類。