2020年12月10日第4卷第23期
现代信息科技
Modern Information Technology
Dec.2020 Vol.4 No.23
137
2020.12
收稿日期:2020-10-29
基于离散选择模型的票房预测研究
董永聪,施一梁
(浙江农林大学,浙江 杭州 311300)
摘 要:该文基于随机性原则抽取了1 205个中国大陆电影市场2014年至2019年的电影数据作为样本,
使用离散选择模型对票房进行预测。最终得到:IP 、电影质量得分、票价、演员得分、3D 放映技术、地区、电影种类、档期、电影时长对票房的影响显著。通过模型的稳健性检验和预测效果两方面证明模型的估计结果是可靠,精确的。根据实证结果,文章为电影制片方面提供一些可行性建议。
关键词:电影票房预测;离散选择模型;电影质量得分中图分类号:TP391.3;J943
文献标识码:A
诺丽酵素文章编号:2096-4706(2020)23-0137-04
帮助近义词Research on Box Office Forecast Based on Discrete Choice Model
DONG Yongcong ,SHI Yiliang
(Zhejiang A & F University ,Hangzhou 311300,China )
Abstract :Bad on the principle of randomness ,the paper lects 1 205 Chine mainland movie market data from 2014 to 2019
as samples ,and us discrete choice model to predict box office. The final results are as follows :IP ,movie quality score ,ticket price ,
actor score ,3D projection technology ,region ,movie type ,schedule and movie duration have a significant impact on box office. It is proved that the estimation result of the model is reliable and accurate through two aspects of the model ’s robustness test and the prediction effect. According to the empirical results ,this paper provides some feasible suggestions for film production.
Keywords :movie box office forecast ;discrete choice model ;movie quality score
0 引 言
近年来,随着收入水平的提高,人民生活娱乐需求不断增加,促使国内电影市场繁荣发展。我国电影市场具有规模大,发展快,增长稳的特点,在推动我国经济发展的过程中展现出蓬勃的动力。票房是衡量电影商业价值的重要指标之一,它是指一部电影的影院放映收益情况。电影票房收入既是制片方最主要的收入来源,也从经济学角度上反映了大众对电影的认可程度——一部电影的票房越高,说明有更多人愿意为这部电影票买单。因此在电影市场生产者和消费者双方决策过程中,票房都起着至关重要的作用。
我国电影票房分布呈正偏态,总体上符合“二八定律”,即20%的电影占据了80%的票房市场[1]。一些电影产生的票房是令人惊异的。2017年的《战狼2》总票房达到56.39亿。而排名第二的《速度与激情8》票房未及其一半,与之同年上映的电影仅有15部票房超过10.00亿(数据来自猫眼专业版)。事实上在电影市场中,绝大多数的电影票房难以突破1亿大关。故本文对影响电影票房的因素进行研究具有直接的现实意义。
自20世纪80年代以来,票房预测方面的研究有许多,如Litman 票房预测模型[2],Sochay 票房预测模型[3]。学术界普遍采用普通最小二乘法(OLS ),使用多元线性回归模型对票房进行拟合回归,分析票房的影响因素。但使用离散
选择模型的研究较少。离散选择模型能有效解决数据中的极端值对回归时的影响。由于票房分布为有偏分布,使用离散选择模型是合理的。
1 实证研究
1.1 变量设置
本文将电影的一些基本特征设为票房的解释变量,下文对各变量进行分析、描述。
1.1.1 电影质量得分
素食电影本身的根本属性是商品[4]。作为商品,电影质量的高低决定电影票房,即“价值决定价格”。纵观影史,票房轰动一时的电影绝大多数是质量绝佳,广受人称赞的。然而电影质量具体表现为人们主观的观影感受。所谓“一千个读者就有一千个哈姆雷特”,每个人的观影感受都不尽相同。为相对客观的得出电影质量得分,使用专业电影评分网站的评分进行计算。
本文假定专业电影评分网站常出现“水军控评”现象并不影响评分结果。在专业电影评分网站为电影打分的人足够多,以豆瓣为例,热门电影的评分人数常在百万级左右。根据大数定理,电影得分最终会趋于一个稳定的值,这个值就是所需要的相对客观的电影质量得分。
本文选取两个较为权威的、评分人数足够多的电影评分网站:猫眼专业版和IMDb 。将两个网站的电影评分的算术平均数作为电影质量得分,该得分为十分制。得分越高,表
DOI:10.19850/jki.2096-4706.2020.23.038
第23期现代信息科技
1382020.12
示电影质量越高。1.1.2 导演和演员得分
知名导演和演员往往意味着更强大的粉丝基础,更雄厚的资金投入,更可靠的电影质量保障,这些都对高票房电影的产生有正向促进作用。受“马太效应”影响,一部电影的观影人数越多,更多人就越容易去观看这部电影[5]。故总体来看,观众流量向导演和演员阵容强大的电影倾斜。导演和演员出名能为电影票房起飞带来较高的起点。
根据电影界的七个较出名的奖项(分别为奥斯卡奖、金棕榈奖、金熊奖、欧洲电影奖金鸡奖、金马奖、金像奖)的提名和获奖次数,设置导演得分。
根据截至2020年12月9日的微博粉丝数,将前三位主演的粉丝总数作为演员得分,单位为百万,不足百万的记为0。
在实际搜索中,一些演员(主要为台湾、香港和国外演员)未注册微博账号,导致缺失值的出现。本文根据演员作品和主观认识计算出近似数据作为粉丝数来弥补缺失值。
1.1.3 档期
在国内,电影放映集中在四个档期,分别为贺岁档、五一档、暑期档、国庆档。划分档期的主要原因是电影消费者的消费集中在节假日。节假日人们的娱乐需求提高,观影意愿普遍更强。然而集中放映带来需求量的提高的同时也会导致同期竞争更加激烈。故电影放映的档期选择与票房之间可能具有较
强的相关性。本文将档期分为五种,即五一档:5月1日至5月8日;国庆档:10月1日至10月7日;暑假档:6月1日至9月1日;贺岁档:1月1日至各年农历正月十五;其他。
1.1.4 电影种类
近年来,我国电影创作的类型化意识越来越强[6]。电影种类繁多,由于消费者的偏好不同,不同类型的电影票房也存在差异。本文根据业界标准将电影分为15种:爱情片、动作片、惊悚片、悬疑片、喜剧片、动画片、战争片、剧情片、灾难片、科幻片、奇幻片、冒险片、武侠片、纪录片、历史片。根据这14个电影种类分别设置了15个虚拟的0-1变量,值为1表示是,值为0表示否。
上海的秋天
1.1.5 票价
理论上,票价在电影市场中对观影人数的影响总体上满足市场均衡理论,即票价越高,观影人数越少。2013年,王峥得到的结论是票价与票房正相关,且在1%水平下显著[1]
。但近年来随着人民生活水平提高,对于大多数人来说,看电影已经不是一种奢侈消费,而是一种寻常的休闲娱乐方式。当人们有观影需求时,对价格的敏感性大大降低,电影价格弹性较低。
本文选取电影的平均票价作为票价变量的取值。由于2014年至2019年货币实际购买力不同,需要使用居民消费价格指数(CPI )对变量取值进行调整。CPI 计算公式为:
=
×
将2014年1月设为基期,电影的平均票价除以基期至
电影上映当月的定基比,最终得到较为准确的票价变量取值。
1.1.6 IP
IP ,即“知识产权”。诸如漫威的漫威宇宙、DC 的DC 宇宙、哆啦A 梦系列,都是出名的影视IP 。近年来,IP 热潮迅速兴起,猫眼数据显示,IP 类电影中动画、漫画、电影翻拍比重上升,“猫眼想看”观众购票指数远超非IP 类电影。有研究表示,IP 热的根本原因在于,IP 对核心用户的聚集能力强以及核心用户群对其他人群的发散影响能力强[7]。受“品牌效应”影响,对于一些IP 电影,观众往往对影片表现出更多的消费意向,对影片质量表现出更强的包容性。
本文将IP 设为0-1变量,值为1表示影片是IP 类电影,值为0表示影片不是IP 类电影。
1.1.7 电影时长
电影时长是一把双刃剑。电影时长过长往往使人感觉电影的叙事节奏拖沓。而电影时长过短也不利于完整的讲述电影内容。这些都直接影响观众的观影体验及影片口碑,反映在电影票房的数字上。故研究票房与电影市场之间的关系是有意义的。
1.1.8 3D 放映技术
3D 放映技术在影院的广泛使用,极大地提高了观众的观影体验。相较于传统2D 放映,3D 放映技术给观众带来的是更深层的沉浸式体验——更真实的画面,更震撼的特效,更强的代入感。而观众能否获得满意的观影体验直接影响到影片票房的高低。故研究票房与影片是否采用了3D 放映技术之间的关系有意义。
本文将3D 设为0-1变量,值为1表示使用3D 放映技术,值为0表示未使用3D 放映技术。
1.1.9 地区
受不同国家文化影响,电影创作在风格、质量等方面均会有明显差异。这些差异都会反应在票房数据上。国产片可能更加符合中国人的审美标准,票房会更高。
将地区变量根据是否为中国大陆,设置为0-1变量,值为1表示是中国大陆,值为0表示不是中国大陆。
32届金鸡奖1.2 分析流程
使用Stata 16对数据建模进行回归分析。由于电影票房的解释变量并不满足线性假设,且电影票房数据中存在许多极端值,容易影响模型的估计结果,故本文不使用传统的多元线性回归模型,而是使用Probit 模型作为基准回归模型进行实证分析。为解决使用Probit 模型导致的原数据信息利用不充分的问题,本文还使用到了Oprobit 模型。通过对比Oprobit 模型与Probit 模型回归结果,进行稳健性检验,并使用模型进行预测。
1.3 数据描述
本文爬取猫眼专业版中国大陆电影市场2014年至2019年的影片信息,对数据进行清洗,删除冗余项,补充缺失值,并根据随机性原则,最终抽取了1 205个样本。该样本数据具有时效性,对当下中国大陆电影市场具有实际意义,数据描述表如表1所示。
第23期
139
2020.12根据表1中的电影数据分布特征,得到一些初步结论:(1)电影票房方差极大,说明不同电影之间票房差异显著。(2)IP 类电影占比达到了23%,说明IP 类电影占比不小。(3)电影评分均值
为6.91,且方差较小,说明电影评分相对稳定。(4)电影平均票价为31.92元,且方差较小,说明电影票价相对稳定。(5)采用3D 放映技术电影仅占比30%,说明3D 放映技术在电影制作中使用不够广泛。(6)58%的电影不选择在五一、国庆、暑假、贺岁这四个热门档期上线。说明大多数电影选择不参与竞争。可能是因为这四个热门档期竞争激烈。(7)动作、喜剧、剧情为电影种类的票房前三甲。战争、灾难、武侠、记录、历史占比低。
1.4 模型介绍
本文使用的离散选择模型为Probit 模型和Oprobit 模型。电影票房预测的Probit 模型使用公式为:
==( )( )
电影票房预测的Oprobit 模型使用公式为:
==---( )( )( )其中,βi 为各估计系数,X i 为各解释变量,复合函数Φ
(x )为标准正态分布的分布函数。
probit_bo 为Probit 模型的被解释变量。本文分别取分界值为10 000万元、20 000万元和60 000万元建立3个Probit 模型。根据给定的分界值设置probit_bo 的值,将票房大于分界值的设为1,小于分界值的设为0。
oprobit_bo 为Oprobit 模型的被解释变量,取10 000万元、60 000万元作为分界值。根据分界值设置oprobit_bo 的值,票房小于10 000万元的设为1,为低票房电影,票房在10 000万元至60 000万元之间的设为2,为中票房电影,票
房大于60 000万元的设为3,为高票房电影。
由于引入的电影类型、档期两个虚拟变量具有完全的多重共线性,为避免陷入“虚拟变量陷阱”,选择style 1和schedule 1作为电影类型和档期的基准组。
1.5 实证结果
表2 模型的实证结果表
变量名Probit
Oprobit 10 000万20 000万60 000万ip 0.988***0.975***0.736***0.859***(-0.124)(-0.122)(-0.155)(-0.098)score 0.654***0.689***0.903***0.694***(-0.076)(-0.084)(-0.140)(-0.069)ticket 0.051***0.052***0.0280.046***(-0.016)(-0.015)(-0.017)(-0.014)director -0.054-0.096*-0.121*-0.060(-0.044)(-0.051)(-0.068)(-0.037)actor 0.014***0.011***0.006***0.011***(-0.001)(-0.002)(-0.002)(-0.001)style 20.303***0.273**0.
433***0.323***(-0.117)(-0.121)(-0.163)(-0.100)style 30.325*0.2010.597**0.356**(-0.174)(-0.206)(-0.259)(-0.147)style 40.0080.063-0.730**-0.122(-0.151)(-0.174)(-0.338)(-0.135)style 5
0.342***
0.338***
0.522***
偷梁换柱的意思0.357***
(-0.115)(-0.120)(-0.167)(-0.099)
变量名变量解释均值方差变量名变量解释均值方差BoxOffice
票房(万元)22 944.842.28E +09style 2动作0.320.22ip IP 类电影0.230.18style 3惊悚0.110.10score 电影评分(十分制)
6.911.17style 4悬疑0.140.12ticket 票价(元)31.3216.49style 5喜剧0.330.22standard 3D 放映技术0.
300.21style 6动画0.170.14area 中国大陆0.580.24style 7战争0.040.03time 时长(分钟)106.60268.65style 8剧情0.360.23schedule 1五一档0.010.01style 9灾难0.020.02schedule 2国庆档0.010.01style 10科幻0.100.09schedule 3暑期档0.240.19style 11奇幻0.130.11schedule 4贺岁档0.160.12style 12冒险0.240.19schedule 5其他0.580.24style 13武侠0.010.01director 导演获奖次数0.341.61style 14纪录0.020.02actor 演员粉丝数(百万)
21.851 456.38style 15历史0.030.03style 1
爱情
0.23
0.18
—
—
—
—
表1 数据描述表
注:票房、票价、档期、地区、3D 放映技术、电影种类、时长数据来源为猫眼专业版,其中票房和票价使用以2014年1月为基期的CPI 指数调整。电影评分来源于猫眼专业版和IMDb ,导演根据七大奖项的获奖和提名名单由作者自行整理,演员根据微博粉丝数由作者自行整理。IP 元素由作者自行整理。董永聪,等:基于离散选择模型的票房预测研究
第23期现代信息科技
1402020.12
(续表)变量名Probit
Oprobit
10 000万
20 000万
60 000万
style 6-0.709***-0.877***-1.062***-0.708***(-0.179)(-0.191)(-0.270)(-0.153)style 70.130-0.1540.0290.127(-0.281)(-0.276)(-0.327)(-0.228)style 8-0.183-0.1900.144-0.104(-0.124)(-0.130)(-0.175)(-0.108)style 9-0.158-0.3940.126-0.007(-0.359)(-0.343)(-0.428)(-0.343)style 100.329*-0.0280.379*0.335**(-0.175)(-0.178)(-0.215)(-0.142)style 110.2330.078-0.060.127(-0.156)(-0.155)(-0.204)(-0.128)style 120.220*
0.176
0.378**0.199*(-0.131)(-0.142)(-0.192)(-0.114)style 13-1.450***-1.865***—-1.606***(-0.429)(-0.629)—(-0.303)style 14-0.880*-0.770—-0.988**(-0.516)(-0.645)
—(-0.490)style 15-0.566*-0.084-0.752*-0.603**(-0.304)(-0.309)(-0.415)(-0.268)area 0.445***0.577***1.278***0.636***(-0.121)(-0.138)(-0.234)(-0.113)standard 0.725***0.851***0.820***0.693***(-0.137)(-0.141)(-0.190)(-0.114)time 0.020***0.023***0.017***0.019***(-0.004)(-0.004)(-0.005)(-0.004)schedule 2-1.406-0.402—-1.445**(-0.929)(-0.771)
—(-0.714)schedule 3-0.0051.027**0.4530.031(-0.760)(-0.519)(-0.580)(-0.557)schedule 40.2041.110**0.5640.236(-0.766)(-0.526)(-0.593)(-0.563)schedule 50.142
1.012**
0.306
0.084(-0.752)(-0.515)(-0.572)(-0.551)Constant -9.854***-11.809***-12.952***—(-1.055)(-1.035)(-1.557)
—cut 1———9.847———(-0.885)cut 2———11.491———(-0.908)R 20.4000.4190.4450.349RIGHT
81.990%
85.390%
间笔画91.970%
74.440%
注:表中数据为变量估计系数和对应的标准差,*表示在10%
水平下显著,**表示在5%水平下显著,***表示在1%水平
下显著。下同。设置预测正确的标准:Probit 和Oprobit 模型将预测发生概率最高的区间作为预测的结果,预测结果与实际票房所在区间相同的视为预测成功。
根据表2得到以下结论:
IP 元素对电影票房具有正向影响。电影得分、电影票价、演员粉丝数与电影票房正相关。导演对票房影响不显著。惊悚片和喜剧片的票房最高,动画片、武侠片的票房最低。国产片的票房比国外片更高。采用3D 放映技术的电影票房更高。电影时长越长,票房越高。贺岁档的票房最高,国庆档的票房最低。
Probit 模型的预测正确率最高,均在80%以上。说明使用Probit 模型进行票房预测是合理的。Oprobit 模型正确率其次,但由于Oprobit 预测区间划分的更多,故预测结果相较于Probit 模型更加精准。
1.6 稳健性检验
对基准回归模型——Probit 模型进行稳健性检验,本文的思路是更改电影质量得分数据。使用猫眼得分和IMDb 得分代替原数据进行回归。更改数据后的模型结果估计系数符号及显著性与原基准模型的估计结果无明显差异,进一步证实了Probit 模型的估计结果是稳健的。
2 结 论
本文使用的几种票房预测模型适用于目前中国大陆的电影市场,具有时效性和直接的现实意义。由于电影票房分布的二八定律,最终能在同期竞争市场中脱颖而出的影片屈指可数。而影片制作又具有周期长,成本高的特点,故在电影制作过程中制片方常面临着“收不回本”的挑战,承担的风险极大。为了保证电影收益,电影制片方常处于理想与现实的取舍困境。这不利于形成电影创作百家齐放、百家争鸣的局面。而使用本文的票房预测模型,能为投资方与制片方的决策提供参考依据,起到降低风险的作用。
参考文献:
[1] 王铮,许敏.电影票房的影响因素分析——基于Logit 模型的研究 [J].经济问题探索,2013(11):96-102.
[2] LITMAN B R. Predicting Success of Theatrical Movies :An Empirical Study [J ].The Journal of Popular Culture ,1983,16(4):159–175.
[3] SOCHAY S. Predicting the Performance of Motion Pictures [J].Journal of Media Economics ,1994,7(4):1-20.
[4] 钟淯媛.电影消费需求经济分析 [J].中国报业,2020(14):44-45.
[5] 王晓通.大数据背景下电影智能推送的“算法”实现及其潜在问题 [J].当代电影,2019(5):64-70.
[6] 刘藩.中国电影的现状和问题 [J].北京电影学院学报,2014(1):2-11.
[7] 程武,李清.IP 热潮的背后与泛娱乐思维下的未来电影 [J].当代电影,2015(9):17-22.
作者简介:董永聪(2001—),男,汉族,浙江台州人,本科在读,研究方向:应用统计;通讯作者:施一梁(1982—),男,汉族,浙江杭州人,就职于艺术学院,专任教师,导演,硕士,研究方向:纪录片拍摄。
>连锁店怎么加盟