前言:想要寫出一篇引人入勝的文章?我們特意為您整理了數(shù)據(jù)挖掘的電影票房分析范文,希望能給你帶來靈感和參考,敬請閱讀。
【摘要】在電影產(chǎn)業(yè)迅猛發(fā)展的今天,票房直接反映了一部電影所帶來的經(jīng)濟效益,也是衡量一部電影成功與否的重要指標,因而對電影票房進行分析和預測來輔助電影投資和排片十分必要。本文選取了2015~2017年三年的電影數(shù)據(jù),通過建立C5.0決策樹模型,分析了類型、檔期、發(fā)行公司、國家地區(qū)等八個重要因素對電影票房高低的影響,構(gòu)建了電影票房預測模型。在此基礎(chǔ)上,本文也對這些影響因素進行了關(guān)聯(lián)規(guī)則分析。通過實驗分析,得出了諸多有意義的結(jié)論,如制式是影響票房的關(guān)鍵因素。此外,結(jié)果表明,本文構(gòu)建的預測模型效果良好,可將其用于電影票房預測。
【關(guān)鍵詞】電影票房;數(shù)據(jù)挖掘;分類預測;決策樹;關(guān)聯(lián)分析
1引言
隨著人們生活水平不斷提高,我國影視行業(yè)發(fā)展迅速,成為全球第二大電影市場,同時也是增長最快的市場之一。據(jù)中國新聞出版廣電總局調(diào)查顯示,2017年全國電影總票房已經(jīng)超過550億[1],這說明中國電影產(chǎn)業(yè)有著良好的發(fā)展前景。然而,電影行業(yè)本身的高風險性和社會環(huán)境的多樣性也為電影票房帶來許多不確定因素,高投入低票房低收益的電影案例也屢見不鮮,如2016年上映的《封神傳奇》斥資5億,卻只收獲2.84億的票房。因而,研究電影票房的預測模型和相關(guān)影響因素對電影投資和排片的決策有著至關(guān)重要的指導性作用。電影作為一種特殊的生存期短的商品,對其票房的預測難度非常大。然而,電影在制作和宣傳過程中的高成本、高風險使得對電影票房的預測至關(guān)重要。吳發(fā)翔等[2]選取了2015年上映的200部國產(chǎn)電影作為實驗數(shù)據(jù),通過觀眾期待度、電影自身影響度、同期競爭力等作為預測因變量,提出了基于決策樹C5.0的票房預測模型。鄭堅等[3]選取2008~2010年之間192部國產(chǎn)電影作為數(shù)據(jù)集,提出了一種基于多層反饋神經(jīng)網(wǎng)絡(luò)的票房預測模型。王煉等[4]選取了2011年上映的211部電影進行分析,提出了基于網(wǎng)絡(luò)搜索的票房預測模型。對比這些現(xiàn)有的票房預測研究[5],他們選取的數(shù)據(jù)集多為2016年之前,缺乏時效性。此外,他們并未將電影制式作為影響票房的因變量因素進行分析?;诖?,本文將2015~2017三年間在中國內(nèi)地上映的所有電影票房數(shù)據(jù)作為實驗數(shù)據(jù),選取了類型、檔期、發(fā)行公司、國家地區(qū)、制式、導演影響力、主演影響力、同期競爭力八個影響因素,對電影票房進行了分類分析和關(guān)聯(lián)規(guī)則分析,建立了電影票房預測模型。本文選取的實驗數(shù)據(jù)具備很強的時效性,覆蓋度廣,同時創(chuàng)新性地選取了電影制式作為因變量影響因素,對電影票房預測模型的研究具有非常重要的意義。
2數(shù)據(jù)選擇和處理
數(shù)據(jù)的選擇和處理作為數(shù)據(jù)分析的重要組成步驟,會直接影響到數(shù)據(jù)分析的結(jié)果。
2.1數(shù)據(jù)選擇
本文選取了2015~2017三年的電影票房數(shù)據(jù),與其他已有的電影票房預測模型相比,具備很強的時效性和適用性。本文抓取的電影數(shù)據(jù)來源于中國票房網(wǎng),中國票房網(wǎng)是電影票房統(tǒng)計官方網(wǎng)站,提供詳細的電影相關(guān)信息,保證了數(shù)據(jù)的權(quán)威性、準確性和完整性。本文預測的目標變量為電影票房,預測的因變量為電影票房的八個影響因素(詳見第3章)。
2.2數(shù)據(jù)處理
本文的數(shù)據(jù)預處理分三個部分:異常處理,如,對空數(shù)據(jù)通過其他途徑得到并進行填充或者直接剔除;數(shù)據(jù)去重,對重復數(shù)據(jù)進行刪除;字段處理,統(tǒng)一每個字段的格式和類型,僅保留有效字段。
3電影票房的重要影響因素
電影票房預測對于降低電影的投資風險至關(guān)重要。電影票房預測模型的好壞很大程度上取決于電影票房影響因素的選擇。電影自身的影響力決定了這部電影的質(zhì)量和口碑,而質(zhì)量和口碑影響著電影的后期票房。主創(chuàng)團隊影響力影響的則是觀眾對電影的期待度,這會影響電影的前期票房?;诖?,本文主要從電影自身影響力和主創(chuàng)團隊影響力這兩方面出發(fā),研究了類型、檔期、發(fā)行公司、國家地區(qū)、制式、導演影響力、主演影響力和同期競爭力對電影票房的影響。
3.1類型
不同類型的電影有不同的受眾群體,不同的群體又具有不同的消費水平。例如動畫類電影,觀影人群大多為兒童,相對其他群體來說人數(shù)較少,且消費水平較低,因此會對票房產(chǎn)生一定影響。本文將電影的類型通過離散化分為12類,分別為愛情、災難、藝術(shù)、恐怖、戰(zhàn)爭、記錄、動畫、喜劇、科幻、奇幻、動作、劇情,分析了類型對票房的影響。
3.2檔期
從某種程度上來說,檔期是電影的縱向市場。一年中的不同時段,人們的觀影需求和消費能力有明顯差異,比如節(jié)假日通常會比非節(jié)假日的觀影需求要大得多,進而影響票房。本文將數(shù)據(jù)進行了離散化處理,將檔期分為5類,分別為五一檔(4.27-5.10)、暑期檔(7.1-9.1)、國慶檔(9.27-10.10)、賀歲檔(12.26-次年2.1)和其他。
3.3發(fā)行公司
好的電影發(fā)行公司一般具有專業(yè)的制作團隊,先進的技術(shù)條件和雄厚的資本積累,是電影票房的潛在保障。本文對數(shù)據(jù)進行了離散化,通過調(diào)研和總結(jié),將制片公司分為3類:好萊塢八大電影公司、中國十大電影公司和其他。其中,好萊塢八大電影發(fā)行公司包括:華納兄弟公司、米高梅電影公司、派拉蒙影業(yè)公司、哥倫比亞影業(yè)公司、環(huán)球影片公司、聯(lián)美電影公司、20世紀??怂闺娪肮?、迪士尼電影公司,而中國八大電影發(fā)行公司包括:中影CFGC(中國電影集團公司)、光線傳媒(北京光線傳媒股份有限公司)、華誼兄弟(華誼兄弟傳媒股份有限公司)、博納影業(yè)BONA(博納影業(yè)集團股份有限公司)、上影(上海電影(集團)有限公司)、萬達影業(yè)(大連萬達集團股份有限公司)、樂視影業(yè)(樂視網(wǎng)信息技術(shù)(北京)股份有限公司)、寰亞(香港寰亞綜藝集團有限公司)、安樂EDKO(安樂影片有限公司)、嘉映影業(yè)(北京嘉映文化傳媒有限公司)。
3.4國家地區(qū)
各個國家和地區(qū)的電影風格各具特色,因此也會受到人們不同程度的喜愛,所以國家地區(qū)也是要考慮的因素之一。本文通過對數(shù)據(jù)進行離散化,結(jié)合不同國家和區(qū)域的電影出品特點,將國家地區(qū)分為5類:中國大陸(中國)、港臺(香港、臺灣)、歐美(美國、英國、法國、意大利)、日韓(日本、韓國)和其他。3.5制式近年引入的電影制式,如3D、IMAX等,其具備的立體動畫和巨型屏幕會比2D電影的代入感更強,會帶給觀眾更好的觀影體驗,所以被不少觀眾青睞。通過分析抓取到的電影詳情數(shù)據(jù),發(fā)現(xiàn)很多電影有多種制式,如2D和3D并存。本文選取一部電影最先進的制式(IMAX制式>3D制式>2D制式)作為離散化標準,將電影制式離散化為四類:2D、3D、IMAX和其他。
3.6導演影響力
如果一名導演自身有很高的知名度,則通常他導演的電影也將被大眾所期待,對電影票房起著積極作用。本文將導演影響力作為影響電影票房的因素之一。具體地,某部電影的導演影響力可通過計算該電影的導演在此之前導過的兩部電影票房總和得到。通過分析2015~2017年三年來每部電影的導演影響力,本文將導演影響力離散化為5類:很低(<100)、較低(100-1000)、一般(1000-5000)、較高(5000-10000)和很高(>10000)。
3.7主演影響力
主演是電影的主角,是電影表現(xiàn)力和票房號召力不可或缺的一部分。如果參演人員本身具有表演實力和一定知名度且受人們喜愛,則電影的受期待程度通常較高,對電影票房有著積極影響。本文將主演影響力作為影響電影票房的因素之一。具體地,某部電影的主演影響力可選取該電影排名前三的主演進行分析,即分別計算每位主演在此之前作為排名前三的主演參與演出的前三部電影票房總和,最后將其求和作為該電影的主演影響力。通過分析計算出的結(jié)果,本文將主演影響力離散化為4類:很低(<1000)、較低(1000-80000)、較高(80000-300000)和很高(>300000)。
3.8同期競爭力
因為觀眾通常會選擇質(zhì)量好、話題度高且性價比高的電影,因此同期其他電影的上映情況會間接對該電影票房產(chǎn)生影響。本文將同期競爭力作為影響電影票房的重要因素之一。本文通過計算某部電影上映前后一周(共兩周)的電影票房總和得到同期競爭力,對其離散化后分為4類:很低(<50000)、較低(50000-120000)、較高(120000-200000)、很高(>200000)。
4實驗與分析
本文采用IBMSPSSModeler對2015~2017三年的電影票房進行分析:用C5.0決策樹[2,5,6]分析影響電影票房的因素,用Apriori算法[5,6]分析各影響因素之間存在的關(guān)聯(lián)規(guī)則。
4.1分類分析
為了降低電影投資的風險,幫助投資者做出相關(guān)決策,本文對電影票房進行了預測與分析。
4.1.1決策樹的構(gòu)建
本文采用C5.0決策樹對票房預測模型進行構(gòu)建。C5.0決策樹是基于C4.5開發(fā)的分類算法。由于國家地區(qū)和發(fā)行公司間存在關(guān)聯(lián)性,而貝葉斯分類算法需要各因素間相互獨立,因此并不適用于電影票房預測模型。此外,線性回歸和神經(jīng)網(wǎng)絡(luò)預測模型適用于連續(xù)的因變量預測,且不易理解和部署,因此C5.0決策樹算法更為適合電影票房的預測分析。決策樹是一種樹形的數(shù)據(jù)結(jié)構(gòu),其中每個非葉子節(jié)點表示一個屬性,每個葉子節(jié)點代表一種分類結(jié)果。C5.0決策樹算法[6]是目前最經(jīng)典的決策樹算法之一,根據(jù)能帶來最大信息增益的特征屬性來拆分樣本,經(jīng)過數(shù)次迭代,可生成決策樹或規(guī)則集以完成分類和預測。本文采用IBMSPSSModeler數(shù)據(jù)分析軟件,首先將類型、檔期、發(fā)行公司等八個電影票房的重要影響因素(詳見本文第3章)進行離散化,作為決策樹的輸入變量,同時將票房通過離散化分為5類:非常低(<1000=、較低(1000-5000)、一般(5000-10000)、較高(10000-50000)和非常高(>50000)作為決策樹的目標變量,采用C5.0算法建立了決策樹模型。
4.1.2實驗結(jié)果與分析
該模型的準確率為76.06%,通過分析實驗結(jié)果可知,電影制式對票房的影響最大,預測變量重要性高達0.39。其次是主演影響力和國家地區(qū)。而同期競爭力、發(fā)行公司是重要性最低的兩個因素。在此基礎(chǔ)上,本文將實驗結(jié)果分析如下:(1)由于3D、IMAX等技術(shù)相對先進,制作成本高,因此票價比一般2D電影貴,導致票房普遍較高,這可能是制式影響票房的主要原因。其次,觀眾對3D、IMAX電影更有新鮮感,同時這些電影也會給觀眾帶來好的觀影體驗,觀影人數(shù)較多,所以票房較高。(2)除制式外,國家地區(qū)也是影響票房的關(guān)鍵因素之一,原因可能是大多在中國內(nèi)地能夠上映的國外電影,都已經(jīng)在該地區(qū)內(nèi)上映,并且取得了良好成績,電影質(zhì)量、口碑也相對較好。因此,國外電影在中國內(nèi)地上映后能取得高票房也在情理之中。(3)發(fā)行公司是影響票房的因素中重要性最低的,這可能是因為目前國內(nèi)制片公司仍然沒有形成“幾支獨秀”的局面,即國內(nèi)還沒有形成像美國好萊塢一樣占有絕對領(lǐng)先地位的制片公司或集團,因此發(fā)行公司對電影票房的影響相對較低。
4.2關(guān)聯(lián)分析
為進一步梳理影響票房的重要因素之間的相關(guān)性,本文對類型、檔期、發(fā)行公司等八個影響因素進行了關(guān)聯(lián)規(guī)則分析。
4.2.1關(guān)聯(lián)規(guī)則構(gòu)建
關(guān)聯(lián)規(guī)則[6]是形如的蘊含式,其中X是關(guān)聯(lián)規(guī)則的條件,Y是關(guān)聯(lián)規(guī)則的結(jié)果。支持度和置信度是衡量關(guān)聯(lián)規(guī)則質(zhì)量的重要指標。其中,支持度指的是X和Y同時出現(xiàn)的概率,置信度指的是X出現(xiàn)時,Y出現(xiàn)的概率。通過設(shè)定最小支持度和最小置信度,可將高于這兩個閾值的關(guān)聯(lián)規(guī)則作為強關(guān)聯(lián)規(guī)則,進而指導決策結(jié)果。在電影票房的分析中,很多因素之間具有很強的關(guān)聯(lián)性,研究其中的關(guān)聯(lián)規(guī)則對電影產(chǎn)業(yè)的發(fā)展能夠提供一定的幫助。本文采用IBMSPSSModeler數(shù)據(jù)分析軟件,通過Apriori算法[6]研究了類型、制式、國家地區(qū)、檔期、發(fā)行公司、同期競爭力、主演影響力、導演影響力之間的關(guān)聯(lián)規(guī)則,設(shè)置最小條件支持度為20%,最小規(guī)則置信度為95%。
4.2.2實驗結(jié)果與分析
通過關(guān)聯(lián)規(guī)則實驗,本文選擇了兩條最有意義的關(guān)聯(lián)規(guī)則如下:(1)當某部電影的主演影響力低,在其他檔期上映,國家地區(qū)為中國大陸,并由其他發(fā)行公司發(fā)行時,該電影的制式很大可能為2D(置信度98%,支持度21%)。原因可能是此類電影影響力和制作資本均不夠,沒有制作成更高級制式的條件。(2)當電影類型為愛情時,電影制式通常為2D(置信度97%,支持度20%)。原因可能是愛情片通常靠劇情吸引觀眾,通過考量各種綜合因素,將愛情片制作成2D性價比更高。
5討論
本文提出的C5.0決策樹模型的準確率為76.06%,限制其正確率的原因有兩點:本次采用的電影票房數(shù)據(jù)時間跨度較大,在不同時期下,人們的消費水平不同,因此票房會產(chǎn)生普遍的差異,對分析得到的模型準確度可能也會有較大影響。此外,對連續(xù)的數(shù)據(jù)的離散化可能也會影響實驗結(jié)果。
6總結(jié)與展望
本文采用C5.0決策樹算法,基于中國票房網(wǎng)上的數(shù)據(jù),對2015~2017三年間的電影票房進行了分類分析,選取了類型、檔期、發(fā)行公司、國家地區(qū)、制式、導演影響力、主演影響力、同期競爭力八個因素,構(gòu)建了電影票房預測模型,得到76.06%的準確率,效果良好。通過對各因素之間的關(guān)聯(lián)性進行分析,本文還得到了一些關(guān)聯(lián)規(guī)則,如當電影類型是愛情時,制式通常為2D。然而,本文的票房預測模型的準確率由于數(shù)據(jù)和離散化的限制仍有待提升,筆者將會把下一步的工作更多地聚焦于提高模型準確率方面。一方面,筆者將研究離散化過程,同時增加票房影響因素,如網(wǎng)絡(luò)輿情數(shù)據(jù)等。同時,筆者將探索其他預測模型,如線性回歸、神經(jīng)網(wǎng)絡(luò)等,研究更適合電影票房預測的模型。
參考文獻
[1]2017年中國電影票房559億元[EB/OL].2018.
[2]吳發(fā)翔,錢佳威,劉江帆.一種基于C5.0決策樹算法的票房預測研究[J].科技廣場,2016(4):186~192.
[3]鄭堅,周尚波.基于神經(jīng)網(wǎng)絡(luò)的電影票房預測建模[J].計算機應用,2014,34(3):742~748.
作者:席稼瑋 單位:陜西省西安市高新唐南中學