搜索

文章查询

x

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

网络直播平台数据挖掘与行为分析综述

郭淑慧 吕欣

网络直播平台数据挖掘与行为分析综述

郭淑慧, 吕欣
PDF
HTML
导出引用
导出核心图
计量
  • 文章访问数:  380
  • PDF下载量:  56
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-11-22
  • 修回日期:  2020-03-20
  • 刊出日期:  2020-04-01

网络直播平台数据挖掘与行为分析综述

    基金项目: 国家自然科学基金(批准号: 82041020, 71771213, 91846301, 71790615)和湖南省科技计划项目(批准号: 2017RS3040, 2018JJ1034)资助的课题

摘要: 随着移动通信和互联网技术的不断发展, 网络直播逐渐成为了新媒体环境下人们青睐的在线娱乐和信息传播方式. 目前广泛应用于课堂教学、真人秀、电竞赛事、品牌营销等方面. 数百万主播与数亿计观众的活跃加入和互动, 产生了丰富的在线人群行为活动数据, 为开展大规模人群行为动力学、平台内容推荐与检测、在线社群演化等研究提供了丰富的实验场景. 本文通过梳理国内外网络直播平台数据挖掘与行为分析的相关研究文献, 分析了直播平台负载水平、观众行为、主播行为以及社群网络的特征和变化规律, 并对直播平台中大规模人群行为表现出的时空规律和重尾效应进行了总结. 直播平台中各种社群网络的形成和演化机制、内容推荐与检测等是未来网络直播领域研究的发展趋势.

English Abstract

    • 网络直播是一种新型信息交流方式, 可以让观众收看到主播所处场景中正在进行的音、视频实况, 同时观众可以通过打赏或发表评论的方式与主播进行互动, 相对于传统信息传播媒体来说有着互动性强、时空适应性强等优势. 网络直播平台则是由公司或组织管理的供主播发布直播以及观众收看直播的网站. 随着互联网经济的发展, 网络直播日益火爆, 斗鱼TV、虎牙TV、抖音等网络直播平台在市场中异军突起, 以超低的门槛吸引了大量主播和观众, 截至2019年6月, 我国直播用户规模已达4.33亿[1].

      网络直播目前的应用领域比较广泛, 除了应用于娱乐性的真人秀、电竞赛事之外, 还有课堂教学[2,3]、品牌营销[4,5]、传统文化与工艺技术传承[6,7]、政务会议与庭审过程公开[8,9]等方面. 不同领域的网络直播和观众都会产生大量交互数据, 这些数据一方面可以用于挖掘直播平台的负载变化模式和用户参与及交互的内在机制, 探究用户行为和偏好, 进而对相应情境下的大规模人群行为进行模式分析和规律挖掘[10-17]. 另一方面还可以基于直播平台负载的测量结果及从中挖掘的用户行为的特征和偏好, 提升网络直播平台内容推荐和内容检测水平[18-22].

      本文从国内外网络直播平台用户行为数据挖掘的研究入手, 对直播平台负载水平、观众行为、主播行为以及社群网络的特征和变化规律进行梳理和总结, 并讨论网络直播平台研究在当前面临的问题和未来的研究方向.

    • 网络直播是通过网络直播平台进行实时信息传输的新媒体形式. 随着网络的发展和普及, 网络直播作为一种学习、娱乐的便捷资源被人们越来越广泛地使用. 直播平台负载的水平差异反映了直播平台用户的分布规律和使用偏好, 对直播平台的负载研究可以从整体上把握直播平台的资源消耗与服务使用情况, 对直播平台优化资源配置、提供经济稳定的负载支持有指导意义.

      目前关于平台负载研究主要是通过统计直播平台的运行负载, 挖掘负载水平产生规律性差异的时间因素、空间因素以及其他影响因素, 总结直播平台情境下的大规模人群行为偏好和行为特征.

    • 受时间节律的影响, 人类行为会在诸多方面不同程度地体现出日内效应(diurnal effect)、周内效应(weekly effect)等时序规律, 如金融市场的流动性[23]、人类的情绪积极程度[24]、反应灵敏度[25]、器官工作机能[26]等都会在一天内不同时段表现出显著差异, 股市收益率和波动还存在明显的周内效应[27]. 目前对直播平台的负载研究大部分集中于从系统带宽、主播规模、观众数量、打赏额和评论量等方面的时序变化规律中挖掘直播平台负载的日内效应、周内效应和长期规律等时序特征.

      Veloso等[11]最早根据巴西某网络电视直播平台的网站日志对负载的时序特征进行了研究. 在2002年为期28天的统计中, 用户的访问模式显示出了明显的日内效应和周内效应, 昼夜模式造成凌晨4:00—11:00在线观众数量偏低, 峰值和谷值分别在3:00和9:00附近取得; 双休日的平均观众数量明显高于工作日. 尽管该直播平台的用户规模超过69万、覆盖65个国家, 但受当时的网络发展水平限制, 平台使用的带宽峰值仅仅为80 Mbps.

      随着Twitch, YouTube Live等专门化网络直播平台的兴起, Kaytoue等[28]根据2011年末Twitch平台的直播间数量和在线观众数量变化对直播平台负载的周内效应进行分析, 发现Twitch平台的双休日负载明显高于工作日(后续学者[29,30]也得出了一致结论), 原因是Twitch平台的主要直播内容是电子竞技, 而大型电子竞技的竞赛通常在双休日举行. Pires和Simon[31]对比了Twitch平台和YouTube Live平台在2014年的系统带宽和直播间数量发现, 两个平台的带宽峰值都超过了1 Tbps, 但Twitch平台的带宽水平更高, 峰值超过了1.6 Tbps. 两个平台在直播间的数量在双休日都明显高于工作日, 但Twitch平台和YouTube Live的日内负载峰值分别在5:00和18:00附近取得, 而且Twitch平台在日内和周内负载变化模式的敏感度均低于YouTube Live. 原因是Twitch平台的开放时间较早, 用户在全球范围内的覆盖范围更广, 减弱了昼夜更替造成的时序差异.

      近年来逐渐出现了对国内直播平台负载的研究, Zhu等[32]通过收集国内直播平台斗鱼TV在2016年12月为期14天的直播数据, 发现观众数量和主播数量在一天中显示出几乎一致的变化规律, 都在21:00—8:00减少, 8:00—21:00增加, 在晚上9:00—10:00达到最高水平. Wang等[33]通过分析2016年9月起为期124天内的斗鱼TV主播开播数量、观众打赏总额和评论量来挖掘斗鱼TV平台负载的日内效应和周日效应, 从观众的打赏总额、评论量和主播直播次数、直播时长分别展现观众和主播在一天之中的活跃程度变化趋势. 结果发现观众和主播的活动都表现出很强的昼夜规律, 并且高度同步, 任意两个数据系列之间的皮尔逊相关系数都高于0.85. 但观众活动的高峰时段出现在23:00—24:00, 主播最活跃的时段是20:00—22:00, 说明观众的活跃时间存在一定的时滞现象, 与之前的研究结论[32]略有差异.

      总体上说, 国内外直播平台负载在一天之中都呈现“倒N型”[34], 直播平台负载具有明显的“日内效应”[25], 负载水平在一天中呈现降低-升高-降低的循环模式(如图1所示).

      图  1  国内外直播平台负载日内效应[30,32]

      Figure 1.  The diurnal effects of domestic and foreign live streaming workloads[30,32].

      但由于直播平台的直播类型各有侧重, 而且直播平台随着时间在逐渐发展, 即使是同一直播平台在不同的统计期内表现的平台负载时序规律也不完全相同. 多个直播平台、不同时期的负载变化时序特征见表1.

      直播平台年份日内效应周内效应
      Anonymous[11]20023, 19时观众数量最多双休日观众数量更多
      Twitch[30]201517, 0时直播间最多双休日直播间数量显著增多
      YouNow[35]2015直播间和观众最多: 22时双休日直播间和观众数量更多
      斗鱼[32]2016直播间和观众最多: 21—22时
      斗鱼[33]2018直播间最多: 20—21时, 观众最多: 23—24时双休日直播间和观众数量更多

      表 1  不同直播平台的负载时序特征

      Table 1.  The workload changes of different live streaming platforms.

    • 除了分析直播平台负载的时序特征之外, 部分研究通过分析主播、观众和直播平台服务器的位置对直播平台负载产生的影响来挖掘直播平台负载的地理分布特征, 进而对直播负载的资源分配及优化进行指导.

      Veloso等[11]对早期网络电视直播平台的观众数量和观看次数在所覆盖区域间的数量分布进行了统计分析, 发现观众数量和观看次数在划分的地理区块之间的分布形式都近似Zipf分布[36]:

      $Z(r) = A{r^{ - \alpha }}, $

      其中参数$r$代表地理区块按照观众数量或观看次数降序排列的排名, $Z(r)$则代表排名为$r$的区域中的观众数量或者观看次数, $\alpha $的取值分别为1.29和1.49, 展现了早期网络电视直播的观众在地理分布上的不均匀现象. 与之相对的, Li等[37]统计分析了PPTV直播频道的观众地理分布熵(viewer geographical entropy)的累积分布函数, 发现大多数频道的观众地理分布熵超过0.8, 显示了现代网络直播平台观众观看者在地理位置上均匀分布. 观众地理分布熵形式为

      $ {e_k} = \dfrac1{\log N}\left( { - \sum\limits_{i = 1}^N {{p_{ki}}\log {p_{ki}}} } \right), $

      ${e_k}$是直播间$k$的观众地理分布熵, 其中$N$是直播间全部观众所覆盖区域的数量, ${p_{ki}}$代表直播间$k$在区域$i$的观众数量占全部观众数量的比例.

      Kaytoue等[28]通过统计分析Twitch平台的主播在不同时区的分布, 表明平台中的大多数主播都来自北美、欧洲和东亚, 与Twitch平台的服务器集中布置在北美、欧洲和亚洲的分布规律[38]相符合, 反映了直播平台负载的地理特征对直播平台服务器设置的指导意义.

      Yan等[39]对比了用户生成视频、短视频和直播视频三种平台的城市、郊区及整个区域的移动网络用户的观众地理分布熵, 结果显示无论市区、郊区还是整个区域, 用户生成视频的熵都高于其他服务, 表明观看直播的用户比观看用户生成视频的用户在空间分布上更不均匀, 主要原因是直播内容通常耗费的流量更多, 用户更倾向于在固定的场所使用WiFi或宽带网络而不是移动流量来观看直播.

    • 除了时空对直播平台负载的影响之外, 少量学者对主要直播电子竞技内容的直播平台Twitch、斗鱼TV的负载水平是否受到大型电子竞技竞赛项目直播的影响进行了研究. Kaytoue等[28]通过观察Twitch平台在2011年12月29日到2012年1月9日每天的观众数量变化情况, 发现在直播一些重要的电子竞技比赛时, 观众数量会出现明显增加, 说明了电子竞技竞赛项目直播对Twitch平台的负载有强烈的刺激作用. 类似地, Deng等[12]统计了Twitch平台电子竞技竞赛项目直播吸引的观众占整个平台观众的比例, 结果显示某些热门的电子竞技竞赛项目直播所产生的观众数量能占直播平台全部观众的30%以上, 即使是不太流行的电子竞技赛事的直播也能吸引大量观众, 峰值超过全平台观众10%. 但Wang等[33]在对斗鱼TV观众评论数以及打赏额在2016年为期124天的统计期中的变化中却并未发现重大赛事对平台负载产生的显著影响, 原因可能是斗鱼TV存在大部分娱乐类直播, 受电子竞技竞赛项目直播的影响并不明显.

    • 直播平台内可能出现以下的一种或几种观众行为: 选择直播间进行观看、切换或退出直播间、在直播间中评论或打赏、以及观众观看直播而引发的行为(如被主播引导购买商品). 众多学者对直播平台观众行为中的观看规律进行分析和建模, 研究观众各种行为以及背后的心理, 对于理解用户参与网络直播的原因、提升用户体验、为用户提供更有价值的网络直播服务有重要的决策价值.

      已有研究中对观众的观看规律主要从观众的观看次数与时长、频道选择与切换、观众评论与打赏等方面入手, 从观众的观看记录中提取直播平台中观众的各种观看行为, 挖掘其中观众的偏好及心理动机, 进一步开展直播平台观众的行为动力学建模和社群网络演化研究.

    • 众多研究结果表明, 直播平台内观众的观看时长、观看次数呈现一定的重尾效应, 即直播平台中存在大量观看次数很少、观看时间非常短的用户, 但同时还有极少量用户观看直播的次数很高、观看时长相对非常长.

      Veloso等[11]于2002年的研究结果显示早期直播平台中观众观看次数分布近似Zipf分布, 其中参数$r$代表的是按照观看次数降序排列的观众排名, $Z(r)$则代表排名为$r$的观众的观看次数, 参数$\alpha $的取值为0.719; Li等[37]于2016年发现PPTV平台内观众观看次数分布更符合互补Weibull分布而不是幂律分布, 累计概率分布函数形式为

      $ P\left( {X \geqslant x} \right) = {{\rm{exp}} [-{{( {{x}/{{{x_0}}}} )}^c}}], $

      其中参数$c$为拉伸因子, ${x_0}$为常数参数.

      Sripanidkulchai等[40]则于2004年对早期直播平台观看时长分布进行了探索, 结果显示不同直播间内观众的观看时长分布均近似Zipf分布, 其中参数$r$代表的是按照观看时长降序排列的观众排名, $Z(r)$则代表排名为$r$的观众的观看时长, 参数$\alpha $的取值在0.7—2.0之间. 而Tang等[41]于2006年发现CCTV多个直播频道的观众观看时长的概率密度函数形式符合对数正态分布:

      $ f(x) = \frac{1}{{x\sigma \sqrt {2{\text{π}}} }}{{\rm{exp}}\bigg[{\frac{{ - {{(\ln x - \mu )}^2}}}{{2{\sigma ^2}}}}}\bigg], $

      其中$f(x)$是观看时长为$x$分钟的概率密度函数值, $\mu $$\sigma $的取值均在4—5和1—2之间. Li等[37]于2016年对PPTV中观众观看时长分布的概率密度函数进行了研究, 结果显示观众观看时长的概率密度函数形式为混合指数分布:

      $f(x) = {\sum\limits_{i = 1}^n {{\alpha _i}\frac{1}{{{\mu _i}}}{\rm{exp}}} \Big({ - \frac{1}{{{\mu _i}}}x}}\Big), $

      其中$f(x)$是观看时长为$x$分钟的概率密度函数值, ${\mu _i}$${\alpha _i}$是第$i$个指数分布的均值和权重, $\displaystyle\sum\nolimits_{i = 1}^n {{\alpha _i}} \!=\! 1$.

      特别地, Tang等[41]通过分析观众观看直播的时长记录, 发现观众已经观看直播的时长与继续保持观看的时长存在显著的正相关关系, 即观众如果已经花费了比其他观众长的时间观看直播, 则会更倾向于比其他观众花费更长的时间继续观看直播.

    • 如果在观看直播的过程中发生网络故障、主播关闭直播、不感兴趣等情况, 观众就有可能对当前直播间进行重新连线、切换到其他直播间或者直接退出直播平台. 目前已有相关研究对观众在观看直播中的重连、切换、退出等进行统计建模与系统分析, 展现直播平台内观众流动的动态过程和内在机理.

      Li等[37]对客观原因造成直播中断时的观众重连行为进行了研究. 由于观看出现中断的原因可能是网络连接失败等客观问题, 也可能单纯是由于观众的兴趣发生变化而主动退出直播间, 所以作者首先定义了由客观问题造成中断的直播段特征, 是观众在某直播间内发出观看请求之后的一小段时间之内对该直播间重复发出了观看请求. 进一步分别统计了观众对直播中断次数的容忍程度和放弃观看的概率分布, 结果显示随着直播中断次数的增加, 观众放弃的概率递增, 但增幅在逐次减小. 在移动网络下观看直播的观众在直播中断时的耐心程度比在WiFi或者宽带环境下的更高, 在遇到2次连续的直播中断时, 放弃观看的概率小于50%, 甚至在某些情况下观众能忍受10次连续的直播中断.

      Nascimento等[42]对Twitch平台中的观众切换行为进行了建模分析. 作者首先定义了直播间共存在三种状态, 分别是直播中、直播即将结束和直播结束(如图2所示). 由于主播下播之后直播间内的观众并不会被强制清空, 所以会出现主播已经下播但观众数量不为0的情况. 直播间三种状态中的“直播即将结束”包含了主播即将关闭直播以及关闭直播后观众数量仍保持一定水平时期, “直播结束”指的是直播间内观众数量非常低甚至为0的状态.

      图  2  直播间状态演化图[42]

      Figure 2.  The graph of live streaming channel’s state dyna-mics[42].

      由直播间的三种状态任意组合可以归纳出观众切换行为共包含9种类型, 通过统计观众不同类型切换行为的比例发现观众在频道之间的切换行为中, 大约20%的ON-ON切换(即从一个正在直播的直播间切换到另一个正在直播的直播间)和30%的OFF-OFF切换(即从一个未开播的直播间切换到另一个未开播的直播间)持续不到1 min, 表明观众进入直播间时并不事先知道他们想观看的内容. 77%的切换行为是ON-X(X可能是ON或者OFF), 这说明大部分的直播间切换是由于观众对切换前直播间的内容不满意.通过对比观众在ON-ON切换前后的观看时长的分布, 发现观众在切换后的直播间会观看更长的时间, 同样验证了大部分观众是主动退出了之前不满意的直播间. 由于观众对直播间选择的随意性较强、满意度较低, 部分研究[18-20]设计了针对直播平台的内容推荐算法及系统, 为观众选择直播频道进行个性化推荐.

      Li等[37]对直播节目中观众的进入和退出过程进行了建模和分析. 通过统计直播过程中观众加入和离开的速率变化, 发现在直播节目开始之前的一小段时间内会出现观众大量进入和立刻退出的现象, 而且观众的加入和离开速率在很大程度上依赖于某些子事件的发生. 考虑到以上因素, 作者使用高斯径向基函数(RBFs)之和来拟合直播过程中观众加入和离开行为, 较低的RMSE值表明模型与实际过程相符. 形如

      $\lambda (t) = \sum\limits_{i = 1}^m {{a_i}{{\rm{exp}}\bigg[{\frac{{ - {{(t - {T_i})}^2}}}{{2{\sigma _i}^2}}}}}\bigg], $

      其中${T_i}$是第$i$个子事件发生的时刻, ${a_i}$是子事件$i$的影响权重.

    • 观众向直播间赠送虚拟礼物被称之为“打赏”, 已有研究对国内直播平台内的打赏金额分布规律进行挖掘. Zhao等[43]统计了映客平台内某些主播收到的打赏, 结果显示观众打赏的金额服从长尾分布. 也就是说, 极少比例的观众贡献了大部分打赏, 贡献排名前20名的观众的打赏额占所有观众打赏的90%以上. 相似地, Zhu等[32]通过统计斗鱼TV中打赏额在主播之间的分布情况, 发现打赏额在主播之间分布的幂律性, 几个最受欢迎的主播拥有非常高数量的打赏, 其他频道分享的很少, 而且仅2.7%的打赏观众贡献了80.2%的打赏额. 兰荣亨等[44]则根据观众的观看、评论和打赏记录对观众群体行为进行特征构建, 成功对不同特征的观众群体进行了聚类区分.

      Wang等[33]对打赏行为的时间规律进行分析, 发现不论是第一次打赏出现的时间还是打赏间隔时间的分布形式都高度符合Weibull分布, 其累计分布函数形为

      $F(t) = \Pr [X \leqslant t] = 1 - {{\rm{e}}^{ - {{\left( {{t}/{\lambda }} \right)}^k}}}, $

      其中$\lambda $$k$是分布的尺度和形状因子. 拟合结果显示两个分布的形状因子$k$均小于1, 即说明直播平台中主播已经等待打赏的时间越长, 那么后续打赏到来所需的等待时间越长.

      观众评论是观众利用文字和表情符号在直播间中进行交流的一种方式, 目前对观众评论的研究主要是对评论的情感、特征、观众交互进行分析. Poyane[45]对Twitch平台部分直播Dota2的直播间内的观众评论文本数据进行了情感分析, 发现随着直播间观众规模的增加, 观众评论的消极色彩会相应增强. 类似地, Nematzadeh等[46]也发现随着观众数量的增加, 评论区会由正常对话向过载的、不和谐对话转变.

      Olejniczak[47]对Twitch平台观众的评论内容从语句特征上进行了分析. 发现观众更倾向于使用大量的表情符号和重复信息来表达态度, 使用新颖的词汇和独特的表情符号来力求与众不同. 由于评论区只显示最新的几条评论内容, 评论长度会随着观众数量增加而缩短. Li等[33]发现了观众评论与打赏的周内模式存在很强的相关性(皮尔森相关系数超过0.85), 且评论与视频内容同步性很强, 提出了根据评论情感标注直播亮点的算法[48]. 周钰淇[22]则提出了根据评论内容对直播内容是否合法进行检测的深度学习算法.

    • 直播平台中的主播行为研究主要集中在主播的直播次数、直播时长以及流行度排名与预测三方面. 通过分析主播群体独特的行为模式, 挖掘直播平台内主播直播规律和活动特征, 对进一步开展直播平台内大规模人群行为分析和研究、优化直播平台系统建设有重要意义.

    • 国内外直播平台的主播直播次数普遍呈现出一定程度的幂律分布特点, 即直播次数较少的主播占了很大部分, 直播次数多的主播占比很少[14,32,35,42].

      对国外直播平台的主播直播次数规律的研究中, Stohr等[35]挖掘Younow平台的主播直播数据发现, 超过40%的主播只直播了一次, 约10%的主播在一周内直播了7次以上. 这表明, 有一小部分高度活跃主播愿意每天直播多次, 而大多数主播仅进行少量的直播. 类似地, Nascimento等[42]发现Twitch平台的少部分专业主播团队直播的次数达到每天19次, 而大量主播(40%—50%)每天直播次数不超过1次, 与Jia等[14]的结论基本一致.

      对国内直播平台的主播直播次数规律的研究中, Zhu等[32]通过统计14天内斗鱼TV主播开播天数的分布, 发现约63%的主播每周直播的天数不超过1天, 只有14%的主播在统计期中至少直播了一半的时间. 大多数主播并不经常直播, 但整个平台每天约有4%的主播会进行直播.

    • 众多研究表明主播在直播时长方面表现出重尾分布规律. Zhu等[32]通过收集斗鱼TV主播在为期14天统计期内的所有开播记录来统计主播直播时长分布, 发现70%以上的直播时长都小于200 min, 但存在极少比例(小于1%)的主播直播时长达到1000 min. 统计结果显示斗鱼TV主播的直播时长中位数是90 min, 比Twitch平台的45 min[28]更长, 原因是相对于Twitch平台主要针对游戏内容进行直播, 斗鱼TV的直播类型更多样, 许多直播间播放已经制作好的视频或大型活动, 提高了直播的持续时间. 类似地, 对Younow[35]和Twitch平台[14,30,42,49]的主播直播时长特征的研究结果均显示主播直播时长分布呈现重尾效应.

      研究中通常以直播平台内所有主播直播时长的中位数作为衡量该直播平台主播直播时长的指标, 由于直播内容和针对观众等方面的差异, 各个直播平台的直播时长中位数不尽相同. 即使是相同的直播平台, 不同直播类别的直播时长中位数也会有一定的变化. 部分结论总结如表2所列.

      文献直播平台采集年份中位数
      [35]YouNow201516 min
      [42]Twitch(StarCraftII的
      较大型直播间)
      2013—20143.7 h
      [30]Twitch(点播的视频)20158 min
      [49]Twitch2014150 min
      [28]Twitch2011—201295 min
      [32]斗鱼201690 min

      表 2  各个网络直播平台的直播时长中位数

      Table 2.  Median live streaming duration of each live streaming platform.

    • 主播的“流行度”指的是主播吸引观众的能力. 通过某些衡量指标对主播吸引力进行排名, 排名越靠前则说明主播吸引观众的能力越强、主播流行度越高. 这一排名在体现主播在直播平台中的地位和水平的同时也反映出了观众的访问模式. 目前的研究中通常以粉丝或观众数量、打赏金额、评论数量作为衡量指标来对直播平台主播的流行度进行排序.

      大量对主播流行度排名的研究显示, 主播流行度存在一定的重尾分布规律[12,14,30,35,40,43,45,49,50]. Pires等[31,50]研究发现Twitch平台的观众数量分布符合Zipf分布, 且参数$\alpha $的值在1.0—1.5之间变动, 说明大量观众在很少几个直播间中聚集, 少数主播吸引了绝大部分观众. Stohr等[35]对Younow平台观众数量分布的研究也得出了类似的结论. 但Zhang和Liu[49]则发现Twitch平台的观众数量分布形式不是标准的幂律分布. 由于著名主播通过直播吸引了极大比例的观众观看, 观众数量分布的尾部出现了明显的下降, 更符合Gamma分布或者Weibull分布的特点, 与Wang等[33]对斗鱼TV内评论数量和打赏金额分布形式一致. Arnett等[51]则对主播在社交平台上的公开活动对主播流行度是否产生影响进行了研究, 并没有发现主播的观众和粉丝数量变动与在社交平台上的活动存在统计学上显著的相关性.

      对主播流行度预测的研究中, Kaytoue等[28]分析线上内容发布后短期和长期的流行度相关性, 提出线性回归模型, 以此来通过前期观众数较准确地预测后期观众数. 还提出了一种流行度的定义(不仅仅只比较在线人数, 还考虑上线时间的早晚等因素), 并以此对主播进行新的排序. 基于主播流行度预测线性回归模型, Netzorg等[52]提出了基于主播行为的主播未来流行度预测模型, 发现主播的努力行为(如发布更多直播、定期直播、在其他社交媒体账号上发布直播信息等)在提升主播流行度方面是有效的, 而且职业主播比业余主播更受欢迎. 类似地, Szabo等[53]用浏览次数代表视频的流行度, 从前期数据预测视频未来长期的流行度. Zhu等[32]对直播间出现的总观众数和礼物总价值进行线性相关分析, 计算得出直播间内观众总数和礼物总价相关系数是0.6421$(p < 0.001)$. Jia等[14]计算得出直播间在线人数和主播直播次数的相关系数也较高, 即直播次数多的主播流行度可能更大.

    • 网络直播吸引了大量的主播与观众参与, 直播平台中大规模人群交互形成了很多独具特色的社群现象. 通过统计分析直播用户的使用特征, 识别和发现直播平台内的社群及社群网络, 进一步分析直播社群网络的节点属性、结构特征以及形成、演化过程, 开展对直播平台大规模人群参与、流动及交互的规律挖掘和动力学研究, 对信息传播、网络营销、舆情监测引导等策略的制定等都有参考和指导意义.

    • 直播平台具有的社交属性使得其中存在大规模人群的交互关系, 从而形成了多种类型的用户关系复杂网络. 而直播平台用户网络的节点属性、结构和形成演变机制则体现了直播平台情景下大规模人群活动的交互特征和选择偏好. 部分研究对用户观看、关注、评论、打赏等关系网络中的社区发现[54]方法进行了探索, 通过识别用户关系网络中相似用户形成的社区为直播平台用户关系网络发展动态的研究奠定基础.

      Churchill和Xu[55]于2016年发表了首个对直播平台用户社区的研究并提出了社区发现和成员识别算法. 该社区发现算法是通过可视化主播共享观众关系网络实现主播社区识别. 作者首先收集了游戏直播平台Twitch的主播信息, 包括主播直播的游戏类型及粉丝列表. 进一步地, 作者构建了以主播为节点, 共享观众关系为边的主播关系网络, 其中节点大小代表了主播拥有的粉丝数量, 颜色代表主播的直播游戏类型, 主播之间共享的粉丝数量越多, 那么连边越粗、节点之间的距离越短. 通过可视化主播关系网络, 根据节点颜色和距离的分布直观分析主播之间联系的紧密程度, 实现主播关系网络中的社区规模和结构的识别.

      作者提出的社区成员识别算法则是根据主播与主播之间的关注关系, 自动识别出社区成员. 作者首先人工挑选出实际属于Twitch平台三大主流社区[56]的四位主播作为种子节点, 种子节点的关注者中粉丝量在28000以上的则被程序自动判定与该主播所属同一社区, 从而实现了对主播所在社区成员的识别和发现. 识别结果与Gephi中的模块化识别结果基本一致, 说明了社区发现算法的有效性. 类似地, Lykousas等[57]通过设定违规用户作为种子节点, 从Live.me平台和Loops Live平台的观看关系网络中自动判定用户是否违规, 实现了违规用户所在社区的成员发现.

    • 前文总结了直播平台中观众数量、评论量和打赏金额在主播间的分布普遍呈现出重尾效应, 说明以主播为节点, 以观众观看、评论或打赏为节点重要性衡量指标的网络中, 存在少量中心节点, 它们在整个主播社群网络中的地位和重要性非常高. 但由于网络直播发展的时间较短, 目前尚未出现对直播平台主播社群网络的节点性质进行专门分析的文献.

      在观众与主播共同形成的社群网络中, 由于观众对主播有天然的选择权利, 社群中的观众成员对主播的喜爱和认可促使主播成为了社群的意见领袖和核心, 研究普遍认为主播促进了整个社群建立和发展, 对社群的发展方向起决定作用. William等[58]对Twitch平台的主播和观众进行访谈, 发现直播间的社群氛围折射了主播的品质和态度, 即主播成为了整个直播间的意见领袖. 而且直播间内的核心成员发挥吸引其他参与者、促进互动以及缓和聊天的重要作用以建立社群, 也即社群中的意见领袖促进了整个社群建立和发展. 庄庆玲和周丽[59]以斗鱼游戏主播为例研究了弹幕式互动直播平台主播和观众之间形成的社群, 发现在直播间的互动中主播会成为意见领袖, 与追随者也就是观众基本属于同一阶层, 拥有共同的兴趣但意见领袖对该领域有更全面和深入的了解, 依靠平台进行有偿信息交流.

    • 研究复杂系统内的社群网络结构有助于理解或预测系统的表现[60], 少量研究对直播社群网络的结构特征进行了描述, 通过社群网络的结构性质反应直播社群的交互特点, 以解释直播平台中的社群表现.

      Churchill和Xu[55]对Twitch平台主播社群的网络结构性质进行了研究. 发现主播直播的游戏相同或相似, 那么他们拥有的粉丝相似度也很高, 体现了观众对直播类型的偏好性. 而且通过识别Twitch平台中三大主流社区的成员, 发现社区规模大小与直播难度相关, 成为该类主播的难度越大则该类主播数量越少. Lykousas等[57]通过对直播平台违规用户所形成的观看网络结构进行统计分析, 对网络的平均度、密度和相互性进行分析发现, 违规用户网络的互惠性很差(${\rm{reciprocity}} < 0.15$), 即违规用户社群网络中节点与节点之间在互惠互利方面的表现并不好.

    • 综上所述, 网络视频直播用户行为挖掘的国内外相关研究目前已取得一定的进展. 从大量相关文献发现, 直播平台负载、观众行为、主播行为和社群网络是本领域的研究重点. 其中, 直播平台负载水平的变化模式体现出了明显的日内效应和周内效应, 大规模人类行为在直播平台中体现出明显的重尾特征, 如观众观看次数与时长、打赏额和评论量、主播直播次数和时长、吸引观众的能力等分布均从不同程度上符合重尾分布. 说明直播平台内人群分布的异质性很强, 可以据此对直播平台的经营模式如用户(观众、主播)激励模式、虚拟礼物打赏机制等进一步优化. 网络直播平台中大规模人群交互形成了多种用户社群网络, 识别用户社群和分析社群网络的结构和属性对优化直播平台的发展和应用有重要意义.

      由于网络直播以及相关研究发展的时间尚且较短, 对网络直播的研究广度和深度有待进一步探索. 从研究主题发展轨迹和当前研究重点可以预测, 挖掘直播平台中各种社群网络的形成和演化机制、设计针对直播平台的内容推荐和检测算法等是网络直播领域研究的未来发展趋势.

参考文献 (60)

目录

    /

    返回文章
    返回