前言:想要寫出一篇引人入勝的文章?我們特意為您整理了標簽庫推薦下互聯網電視智能運營平臺淺析范文,希望能給你帶來靈感和參考,敬請閱讀。
[摘要]互聯網電視已經成為視頻傳輸的主要通道之一,與有線電視、IPTV并駕齊驅。隨著人工智能技術的發展,基于標簽庫推薦的智能運營平臺已經成為互聯網電視賴以發展的重要基礎。本文通過深入剖析智能運營推薦平臺及其支撐體系,總結智能運營推薦的四種模式,探索互聯網電視的內容運營價值和流量變現能力。
[關鍵詞]互聯網電視;標簽庫;智能運營
與發達國家互聯網電視行業有所不同,在我國,互聯網電視是指通過公共互聯網傳輸,以電視機為接收終端,由國有廣播電視機構提供可控可管視頻內容服務的新型媒介形態。[1]隨著2010年我國三網融合進入實質推進階段,互聯網電視產業有了長足發展。到2013年,我國互聯網電視機頂盒和智能電視一體機的出貨量迎來爆發式增長,以樂視、小米、阿里為代表的大批互聯網企業進軍互聯網電視產業,2013年也被稱為中國互聯網電視發展元年。我國互聯網電視產業在經歷了早期的規模化圈地發展之后,2014年后迎來了“史上最嚴監管”。隨著監管力度的不斷加強,內容提供商、內容服務牌照商、集成業務牌照商、網絡運營商、硬件設備商和IP服務商等產業鏈各方不斷調整策略,探索新的發展模式。近年來,互聯網電視產業將滿足用戶需求作為產品的終極向導,更加重視大數據和智能化技術的運用,深耕內容,拓展運營,不斷滿足用戶低頻度需求、高場景度需求和體驗性需求,開發利基市場和長尾市場。至2018年我國互聯網電視用戶覆蓋超過2億戶,互聯網電視家庭覆蓋率超過40%,成為視頻傳輸的主要通道之一,與有線電視、IPTV并駕齊驅。[2]互聯網電視具有雙向互動的獨有優勢,能夠采集到數以億計用戶每天產生的海量數據信息。互聯網電視牌照商運營主體應如何有效分析和挖掘數據,進行判斷和分析,實現高效率的價值匹配,將海量內容和增值產品智能化推薦給用戶,提升內容運營價值和流量變現能力,已成為互聯網電視產業的核心競爭力所在。從現階段互聯網電視產業的內容運營形態來看,已由單一依靠人工推薦轉向基于標簽庫的智能運營推薦,從運營管理角度來看,這極大解放了屏幕運營的生產力,從運營成效角度來看,實現了千人千面,為用戶提供了更多元的產品形態。
一、標簽庫的分類與作用
標簽庫是互聯網電視智能運營推薦平臺的核心要素,標簽庫的創建和完善是一切運營策略生成的基礎。根據不同主體,標簽庫分為內容標簽庫、用戶標簽庫和廣告標簽庫三種類型。由于針對的主體不同,各標簽庫獲取數據的來源也不盡相同。內容標簽庫的數據來源不僅包括內容運營系統中媒資庫的基礎屬性標簽,也包括從豆瓣、時光、1905等影音資料庫網站上實時抓取公開數據而得到的用戶定義標簽。基礎屬性標簽包括視頻分類(如:電視劇、電影、紀錄片、動漫、動畫片等)、視頻類型(如:科幻、喜劇、動作、懸疑、奇幻等)、導演、演員、出品年代、獲獎情況等。用戶定義標簽則包括用戶評分、評論數量、評價標簽(如:漫威、超級英雄、真實事件改編等)、協同過濾推薦標簽(如根據用戶的評分、評價、點贊、分享等歷史行為數據,向喜歡《飛馳人生》的用戶推薦《羞羞的鐵拳》、《西虹市首富》等協同過濾推薦標簽)。建設內容標簽庫的主要目的在于通過對內容進行標簽矢量化處理,有效進行數據分析。例如:電影《流浪地球》通過標簽矢量化處理后,形成的向量集{2019,科幻,災難,太空,劉慈欣,小說改編,國產片,9.5分,…}成為識別這部影片的標簽代碼。當媒資庫的視頻內容全部完成標簽矢量化處理后,則實現了內容標簽庫的初步創建。內容標簽庫也會隨著視頻內容的不斷增加,用戶定義標簽的不斷調整,人工定義標簽的不斷豐富、對視頻名稱進行語義分析和關鍵字提取使標簽不斷補充等手段而得以持續性改進和完善。用戶標簽庫的數據來源于從運營商運營支撐系統中提取的用戶基礎屬性標簽和通過終端日志上報大數據分析平臺并清洗沉淀下來的用戶行為標簽。基礎屬性標簽包括用戶屬性標簽和終端屬性標簽兩大類,前者包括地域、手機號碼、性別、年齡、行業等,后者包括出貨地市、終端型號、終端版本、終端狀態、激活時間等。用戶行為標簽包括娛樂行為標簽、收視行為標簽、消費行為標簽、內容偏好標簽和復合標簽等五大類,其中娛樂行為標簽包括游戲時長,游戲次數,點擊次數、下載次數等;收視行為標簽包括有線或無線收視、收視時長、開機次數、收視次數、活躍情況、點擊次數等;消費行為標簽包括每用戶平均收入(AverageRevenuePerUser)、最近購買時間、消費片單、消費金額等;內容偏好標簽則是根據一段時間內用戶收視內容所對應的內容標簽庫而生成;復合標簽則是針對用戶的多種標簽組合而再定義生成,例如將打上內容偏好為韓劇、收視時長一周內超過3小時、收視次數一周內大于3次等標簽的用戶綜合定義為“韓劇愛好者”。建設用戶標簽庫的核心在于對用戶基礎屬性和行為進行標簽化處理,將用戶按照不同的維度進行矢量化,建立用戶的全景視圖,其目的是實現快速圈人的精準推薦和精準營銷。廣告標簽庫則是將廣告媒資庫中的內容信息通過人工定義的方式進行標簽向量化處理。例如,完成標簽矢量化處理后,通過一條向量集{賽車,越野,冒險,運動,公路,科技,德國,…}來標簽化一則奔馳SUV的廣告宣傳片。廣告標簽庫的核心作用是能夠將廣告標簽與用戶標簽和內容標簽進行相似度匹配,進而實現基于標簽庫的智能廣告推薦。
二、智能運營推薦平臺及其支撐體系
在基于標簽庫的智能運營推薦平臺及其支撐體系的運行中,先由終端生成終端日志和播放行為日志,日志內容經過聯機在線處理和非實時處理后,進入到大數據采集和清洗環節,數據處理完畢后再進行標簽向量化處理形成用戶標簽庫、內容標簽庫和廣告標簽庫,然后通過相似度算法匹配生成榜單推薦、內容運營推薦和廣告運營推薦,最后通過內容運營系統和廣告運營系統識別對應內容和廣告的元數據,實現用戶終端的個性化推送。(圖1)
1.終端日志和播放行為日志
終端日志收集了用戶在使用終端時間段內的所有操作日志。按照日志類型大致分為開關機日志、播放行為日志和其他行為日志等。因終端日志每天產生的數據量較大,故采取非聯機處理方式,按日上傳分析。播放行為日志則僅僅收集了用戶在播放內容過程中產生的操作日志,屬于終端日志的一部分,比終端日志的數據量小很多,故采取聯機在線處理方式對播放行為日志進行實時分析。
2.日志聯機在線處理和非實時處理
日志聯機在線處理是指將播放行為日志,比如播放內容與時段、播放與暫停的時間、暫停到下一次播放所經過的時間等,實時地上傳到大數據中心進行處理。日志非實時處理則是將一天內的所有終端日志,比如開關機時間、終端心跳、遙控器點擊操作等,以非實時集中的方式上傳到大數據中心進行處理。
3.大數據采集和數
據清洗按照日志處理的方式不同,大數據采集分為實時采集和非實時采集兩種,所使用到的技術也有差異。前者通常使用kafka采集工具將數據采集到Spark或Storm中,再經過數據清洗轉換,生成實時用戶收視行為標簽,供智能運營推薦系統使用。后者使用Flume采集工具將數據采集到Hadoop分布式文件系統(HDFS)中,經過數據清洗轉換后,再將結構化數據提供給數據倉庫(Hive),最終轉換到關系型數據庫(RDBMS),形成所需的標簽庫數據。(圖2)
4.標簽庫建設和智能運營推薦
通過智能規則和人工規則對視頻內容、用戶基礎屬性與行為、廣告信息進行標簽矢量化處理,完成對內容標簽庫、用戶標簽庫和廣告標簽庫的建設。標簽庫的建設與不斷完善將有助于有效建立榜單、廣告、內容與用戶之間的相互聯系,為智能運營推薦提供基礎保障。在榜單運營推薦、廣告運營推薦和內容運營推薦過程,運營人員通過相似度算法,分別將視頻內容標簽與媒資庫中已創建的榜單標簽、將廣告標簽與用戶的觀看內容標簽、將視頻內容標簽與媒資庫中的其他視頻內容標簽進行匹配。根據匹配結果,系統以元數據的形式推薦較高相似度的榜單、廣告和視頻內容。
5.內容運營推薦與廣告運營推薦
根據智能運營推薦的元數據,內容運營系統和廣告運營系統分別查找對應的視頻內容和廣告內容,并將其推送給用戶終端。用戶終端再次生成終端日志和播放行為日志,進入下一輪智能推薦運營,循環往復,形成信息甄選、推送、反饋和修正的閉環,使內容推薦越來越精準,越來越高效。
三、智能運營推薦的四種模式
1.基于視頻內容的智能運營推薦
基于視頻內容的智能運營推薦主要是通過內容標簽(Tag)建立相關性鏈接。這種智能運營推薦模式主要分為四個步驟,即提取內容標簽、進行運營策劃、制定相關規則、生產推薦榜單。基于視頻內容的智能運營推薦主要運用內容相似度的推薦算法,計算向量相似度的算法有很多,包括余弦相似度、歐式距離、皮爾遜相關性等。通過這類相似度算法,可以計算某部影片A(標簽向量{a1,a2,a3,a4,a5,a6…})與另一部影片B(標簽向量{b1,b2,b3,b4,b5,b6…})內容相似度c(c處于0-1之間,值越接近1,影片A與影片B的內容相似度越高)。由于我國采取的是“可管可控”式的互聯網電視發展模式,在智能運營推薦過程中,人工參與必不可少。基于視頻內容的智能運營推薦主要有兩種方式:一種是先智能推薦后人工篩選,一種是先人工策劃制定提取規則后再智能排序。以《流浪地球》為例,這部電影在內容標簽庫中所定義的標簽包括科幻、中國大陸、災難、太空、劉慈欣、小說改編等。在第一種方式中,先通過計算《流浪地球》這部影片的內容標簽與內容運營系統中其他視頻標簽之間的內容相似度,再根據相似度從高到低生成智能推薦榜單,比如:1、星際穿越(相似度0.842)、2、火星救援(相似度0.751)等,最后由人工根據智能推薦榜單內容進行篩選并構思策劃主題。在第二種方式中,先由人工根據《流浪地球》這部電影的內容標簽策劃多個運營專題,比如“2019國產科幻影片”“小說改編科幻電影”等,再通過人工制定規則分別按照“2019”“中國大陸”“科幻”和“小說改編”、“科幻”等標簽與內容運營系統中的視頻內容標簽進行匹配和提取,形成推薦榜單。通過人工規則提取的榜單也同樣需要根據相似度高低生成榜單中的內容排名。依照不同的智能運營推薦方式,依照不同的策劃主題,最后生成的推薦榜單也不盡相同。
2.基于用戶群體行為標簽的智能運營推薦
基于用戶群體行為標簽的智能運營推薦模式首先是通過播放行為日志獲得某一地區的用戶在一段時間內(通常為一周或一個月)的收視內容排行,然后通過大數據計算完成收視內容排行對應的標簽計數,并根據標簽權重生成詞云,最后再依據群體用戶偏好標簽詞云進行運營策劃,創建推薦榜單。比如,某一地區一周內的群體用戶偏好內容標簽詞云主要包括幽默、勵志、國產劇、時尚、奇幻、小說改編等關鍵詞。在先智能推薦后人工篩選方式中,系統根據智能規則將內容運營系統中的視頻內容標簽與群體用戶偏好標簽詞云進行相似度匹配,生成智能推薦榜單,比如:1、大話西游2、美人魚3、我不是潘金蓮等,然后人工再根據榜單內容進行篩選和主題策劃。在先人工策劃制定提取規則再智能排序的方式中,先由人工根據詞云中群體用戶的偏好標簽進行專題策劃,比如“2018年國產勵志電視劇”和“小說改編的奇幻劇”等,再分別提取“2018”“勵志”“電視劇”和“科幻”“小說改編”等標簽,最后再與內容運營系統中的視頻內容標簽進行匹配提取,形成推薦榜單。
3.基于用戶收視播放行為的智能推薦
基于用戶收視播放行為的智能推薦則是基于用戶的收視播放行為數據,通過聯機在線的處理方式,將海量視頻內容與用戶的興趣偏好相匹配,實時為用戶提供個性化的榜單和視頻內容。例如用戶在一段時間內收看了電視劇《都挺好》,智能推薦平臺基于《都挺好》這部電視劇的內容標簽與所有已在系統中創建的榜單和視頻內容進行相似度匹配,獲得排名靠前的榜單,比如“姚晨”、“家庭親情推薦榜單”等和影視劇,比如“蝸居”“金婚”“小別離”等。由于用戶的播放行為日志采取的是聯機在線處理方式,推薦榜單和視頻內容能夠基于用戶個人收視偏好實現實時更新,達到增加用戶粘性和實現精準運營的目的。
4.基于標簽庫的廣告智能運營推薦
基于標簽庫的廣告智能運營推薦包含兩種使用場景:一是廣告定向投放,二是廣告智能推薦。廣告定向投放需要首先定位廣告的目標用戶群體,然后將其定位轉換成用戶標簽庫能夠識別的標簽代碼,再通過用戶標簽篩選出目標用戶群體,進而實現基于用戶群體的精準廣告投放。廣告智能推薦則是首先需要對媒資庫中的廣告信息創建標簽,再將廣告標簽與用戶觀看的視頻內容標簽進行相似度匹配,然后智能推薦與視頻內容具有高相似度的廣告內容,實施廣告的精準投放。人工智能已成為互聯網電視產業發展的重要推手。通過基于標簽庫推薦的智能運營平臺,互聯網電視能夠為用戶推薦高質量的個性化產品和服務,不斷創造主動服務的能力,實現有效而充分的價值流動。借力人工智能技術,未來互聯網電視將通過為用戶提供更優質的體驗、更高效的服務和更多元的內容產品,滿足客廳用戶的個性化需求,帶來更大規模的“客廳回歸潮”。
注釋:
[1]張國濤:《OTTTV———觸及電視全產業鏈的挑戰》,《傳媒》2013年第9期。
[2]格蘭研究智慧家庭研究部:《2018中國互聯網電視發展白皮書》,
[3]成洪榮:《互聯網電視發展八大趨勢》,
作者:張帆 單位:湖北大學新聞傳播學院