搜索

文章查询

x

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

一种基于分支过程的信息流行度动力学模型

吴联仁 李瑾颉 齐佳音

一种基于分支过程的信息流行度动力学模型

吴联仁, 李瑾颉, 齐佳音
PDF
HTML
导出引用
导出核心图
  • Web 2.0时代, 建模和预测在线信息流行度是信息传播中的重要问题. 本文基于社交网络系统信息传播的机制, 通过假设和简化, 提出了分支过程的概率模型, 来描述在线社交网络信息的流行度动力学过程. 对典型在线社交网络系统的信息流行度数据和网络结构数据进行了分析, 统计结果表明信息流行度衰减遵循幂律分布(幂指数为1.8), 微博网络的入度和出度分布也均服从幂律分布(幂指数为1.5). 模型仿真结果发现, 该模型能够再现真实社交网络数据的若干特征, 且信息流行度与网络结构相关. 对模型方程进行求解得到理论预测的结果与仿真分析和实际数据结果相符合.
      通信作者: 李瑾颉, leejinjie@shnu.edu.cn
    • 基金项目: 国家自然科学基金重大研究计划(批准号: 91546121)和国家自然科学基金青年科学基金(批准号: 71601005)资助的课题.
    [1]

    Wang D, Song C, Barabási A L 2013 Science 342 6154

    [2]

    Sasahara K, Hirata Y, Toyoda M, Kitsuregawa M, Aihara K 2013 PloS one 8 e61823

    [3]

    Quattrociocchi W, Caldarelli G, Scala A 2014 Sci. Rep. 4 4938

    [4]

    Kim Y, Park S, Yook S H 2016 Sci. Rep. 6 23484

    [5]

    Song B, Jiang G P, Song Y R, Xia L L 2015 Chin. Phys. B 24 100101

    [6]

    Wang J R, Wang J P, He Zhen, Xu H T 2015 Chin. Phys. B 24 060101

    [7]

    闵磊, 刘智, 唐向阳, 陈矛 2015 物理学报 64 088901

    Min L, Liu Z, Tang X Y, Chen M, Liu S Y 2015 Acta Phys. Sin. 64 088901

    [8]

    王金龙, 刘方爱, 朱振方 2015 物理学报 64 050501

    Wang J L, Liu F A, Zhu Z F 2015 Acta Phys. Sin. 64 050501

    [9]

    李勇军, 尹超, 于会, 刘尊 2016 物理学报 65 020501

    Li Y J, Yin C, Yu H, Liu Z 2016 Acta Phys. Sin. 65 020501

    [10]

    Gleeson J P, O’sullivan K P, Banos R A, Moreno Y 2016 Phys. Rev. X 6 021019

    [11]

    Zapperi S, Lauritsen K B, Stanley H E 1995 Phys. Rev. Lett. 75 4071

    [12]

    Iribarren J L, Moro E 2011 Phy. Rev. E 84 046116

    [13]

    Xu Y, Guo L P, Ding N, Wang Y G 2010 Chin. Phys. Lett. 27 078901

    [14]

    Zhu J F, Han X P, Wang B H 2010 Chin. Phys. Lett. 27 068902

    [15]

    Li J J, Wu L R, Qi J Y, Sun Q M 2017 Chin. Phys. Lett. 34 068901

    [16]

    杨李 宋玉蓉 李因伟 2018 物理学报 67 190502

    Yang L, Song Y R, Li Y W 2018 Acta Phys. Sin. 67 190502

    [17]

    Cetin U, Bingol H O 2014 Phys. Rev. E 90 032801

    [18]

    Weng L, Flammini A, Vespignani A, Menczer F 2012 Sci. Rep. 2 335

    [19]

    Gleeson J P, Ward J A, O’sullivan K P, Lee W T 2014 Phys. Rev. Lett. 112 048701

    [20]

    Yan Q, Yi L L, Wu L R 2012 Physica A 391 1540

    [21]

    Yan Q, Wu L R, Zheng L 2013 Physica A 392 1712

    [22]

    Miotto J M, Altmann E G 2014 PloS one 91 e111506

    [23]

    Sinatra R, Wang D S, Deville P, Song C Y, Barabási A L 2016 Science 354 6312

  • 图 1  流行度模型示意图

    Fig. 1.  Schematic of the model.

    图 2  微博的流行度分布

    Fig. 2.  Distribution of micro-blogs popularity.

    图 3  微博用户度分布

    Fig. 3.  Distribution of out-degree and in-degree.

    图 4  微博信息平均流行度

    Fig. 4.  Mean popularity of Micro-blogs.

    图 5  微博信息流行度的互补累积概率分布(CCDF)

    Fig. 5.  Complementary cumulative distribution functions (CCDFs)—the fraction of micro-blogs with popularity$ \geqslant n$.

    表 1  一个时间步节点(用户)“微博首页”的结果

    Table 1.  Single time-step outcomes of user’s list.

    列表S概率${G_{jk}}\left( {t,\varOmega ;x} \right)$
    (a)被新收到的信息所占据$k\Delta t$1
    (b)创造了一条新的信息${\mu} \Delta t$1
    (c)以概率$1 - {\mu} $转发信息$(1 - {\mu} )\Delta t$$x{G_{jk}}\left( {t - \Delta t,\varOmega ;x} \right){\left[ {G\left( {t - \Delta t,\varOmega ;x} \right)} \right]^k}$
    (d)保持原样$1 - \left( {k + 1} \right)\Delta t$${G_{jk}}\left( {t - \Delta t,\varOmega ;x} \right)$
    下载: 导出CSV
  • [1]

    Wang D, Song C, Barabási A L 2013 Science 342 6154

    [2]

    Sasahara K, Hirata Y, Toyoda M, Kitsuregawa M, Aihara K 2013 PloS one 8 e61823

    [3]

    Quattrociocchi W, Caldarelli G, Scala A 2014 Sci. Rep. 4 4938

    [4]

    Kim Y, Park S, Yook S H 2016 Sci. Rep. 6 23484

    [5]

    Song B, Jiang G P, Song Y R, Xia L L 2015 Chin. Phys. B 24 100101

    [6]

    Wang J R, Wang J P, He Zhen, Xu H T 2015 Chin. Phys. B 24 060101

    [7]

    闵磊, 刘智, 唐向阳, 陈矛 2015 物理学报 64 088901

    Min L, Liu Z, Tang X Y, Chen M, Liu S Y 2015 Acta Phys. Sin. 64 088901

    [8]

    王金龙, 刘方爱, 朱振方 2015 物理学报 64 050501

    Wang J L, Liu F A, Zhu Z F 2015 Acta Phys. Sin. 64 050501

    [9]

    李勇军, 尹超, 于会, 刘尊 2016 物理学报 65 020501

    Li Y J, Yin C, Yu H, Liu Z 2016 Acta Phys. Sin. 65 020501

    [10]

    Gleeson J P, O’sullivan K P, Banos R A, Moreno Y 2016 Phys. Rev. X 6 021019

    [11]

    Zapperi S, Lauritsen K B, Stanley H E 1995 Phys. Rev. Lett. 75 4071

    [12]

    Iribarren J L, Moro E 2011 Phy. Rev. E 84 046116

    [13]

    Xu Y, Guo L P, Ding N, Wang Y G 2010 Chin. Phys. Lett. 27 078901

    [14]

    Zhu J F, Han X P, Wang B H 2010 Chin. Phys. Lett. 27 068902

    [15]

    Li J J, Wu L R, Qi J Y, Sun Q M 2017 Chin. Phys. Lett. 34 068901

    [16]

    杨李 宋玉蓉 李因伟 2018 物理学报 67 190502

    Yang L, Song Y R, Li Y W 2018 Acta Phys. Sin. 67 190502

    [17]

    Cetin U, Bingol H O 2014 Phys. Rev. E 90 032801

    [18]

    Weng L, Flammini A, Vespignani A, Menczer F 2012 Sci. Rep. 2 335

    [19]

    Gleeson J P, Ward J A, O’sullivan K P, Lee W T 2014 Phys. Rev. Lett. 112 048701

    [20]

    Yan Q, Yi L L, Wu L R 2012 Physica A 391 1540

    [21]

    Yan Q, Wu L R, Zheng L 2013 Physica A 392 1712

    [22]

    Miotto J M, Altmann E G 2014 PloS one 91 e111506

    [23]

    Sinatra R, Wang D S, Deville P, Song C Y, Barabási A L 2016 Science 354 6312

  • [1] 司夏萌, 刘云. 虚拟社区中人际交互行为的统计分析研究. 物理学报, 2011, 60(7): 078903. doi: 10.7498/aps.60.078903
    [2] 张海峰, 王文旭. 复杂系统重构. 物理学报, 2020, 69(8): 088906. doi: 10.7498/aps.69.20200001
    [3] 周漩, 张凤鸣, 李克武, 惠晓滨, 吴虎胜. 利用重要度评价矩阵确定复杂网络关键节点. 物理学报, 2012, 61(5): 050201. doi: 10.7498/aps.61.050201
    [4] 高忠科, 金宁德. 两相流流型复杂网络社团结构及其统计特性. 物理学报, 2008, 57(11): 6909-6920. doi: 10.7498/aps.57.6909
    [5] 阮逸润, 老松杨, 王竣德, 白亮, 陈立栋. 基于领域相似度的复杂网络节点重要度评估算法. 物理学报, 2017, 66(3): 038902. doi: 10.7498/aps.66.038902
    [6] 阮逸润, 老松杨, 王竣德, 白亮, 侯绿林. 一种改进的基于信息传播率的复杂网络影响力评估算法. 物理学报, 2017, 66(20): 208901. doi: 10.7498/aps.66.208901
    [7] 张聪, 沈惠璋, 李峰, 杨何群. 复杂网络中社团结构发现的多分辨率密度模块度. 物理学报, 2012, 61(14): 148902. doi: 10.7498/aps.61.148902
    [8] 闵磊, 刘智, 唐向阳, 陈矛, 刘三(女牙). 基于扩展度的复杂网络传播影响力评估算法. 物理学报, 2015, 64(8): 088901. doi: 10.7498/aps.64.088901
    [9] 段东立, 战仁军. 基于相继故障信息的网络节点重要度演化机理分析. 物理学报, 2014, 63(6): 068902. doi: 10.7498/aps.63.068902
    [10] 刘树新, 季新生, 刘彩霞, 郭虹. 一种信息传播促进网络增长的网络演化模型. 物理学报, 2014, 63(15): 158902. doi: 10.7498/aps.63.158902
    [11] 李钊, 徐国爱, 班晓芳, 张毅, 胡正名. 基于元胞自动机的复杂信息系统安全风险传播研究. 物理学报, 2013, 62(20): 200203. doi: 10.7498/aps.62.200203
    [12] 余晓平, 裴韬. 手机通话网络度特征分析. 物理学报, 2013, 62(20): 208901. doi: 10.7498/aps.62.208901
    [13] 胡耀光, 王圣军, 金涛, 屈世显. 度关联无标度网络上的有倾向随机行走. 物理学报, 2015, 64(2): 028901. doi: 10.7498/aps.64.028901
    [14] 闫小勇, 王明生. 增长速度对合作网络参与者节点度分布的影响. 物理学报, 2010, 59(2): 851-858. doi: 10.7498/aps.59.851
    [15] 袁超, 柴毅. 基于簇相似度的网络社团结构探测算法. 物理学报, 2012, 61(21): 218901. doi: 10.7498/aps.61.218901
    [16] 徐明, 许传云, 曹克非. 度相关性对无向网络可控性的影响. 物理学报, 2017, 66(2): 028901. doi: 10.7498/aps.66.028901
    [17] 侯凤贞, 戴加飞, 刘新峰, 黄晓林. 基于网络连接度指标的脑梗死患者脑电信号相同步分析. 物理学报, 2014, 63(4): 040506. doi: 10.7498/aps.63.040506
    [18] 李明杰, 吴晔, 刘维清, 肖井华. 手机短信息传播过程和短信息寿命研究. 物理学报, 2009, 58(8): 5251-5258. doi: 10.7498/aps.58.5251
    [19] 张 立, 刘 云. 虚拟社区网络的演化过程研究. 物理学报, 2008, 57(9): 5419-5424. doi: 10.7498/aps.57.5419
    [20] 黄飞虎, 彭舰, 宁黎苗. 基于信息熵的社交网络观点演化模型. 物理学报, 2014, 63(16): 160501. doi: 10.7498/aps.63.160501
  • 引用本文:
    Citation:
计量
  • 文章访问数:  165
  • PDF下载量:  6
  • 被引次数: 0
出版历程
  • 收稿日期:  2018-11-02
  • 修回日期:  2019-01-17
  • 上网日期:  2019-03-23
  • 刊出日期:  2019-04-01

一种基于分支过程的信息流行度动力学模型

  • 1. 上海对外经贸大学工商管理学院, 上海 201620
  • 2. 上海师范大学数理学院, 上海 200234
  • 3. 北京邮电大学, 可信分布式计算与服务教育部重点实验室, 北京 100876
  • 通信作者: 李瑾颉, leejinjie@shnu.edu.cn
    基金项目: 国家自然科学基金重大研究计划(批准号: 91546121)和国家自然科学基金青年科学基金(批准号: 71601005)资助的课题.

摘要: Web 2.0时代, 建模和预测在线信息流行度是信息传播中的重要问题. 本文基于社交网络系统信息传播的机制, 通过假设和简化, 提出了分支过程的概率模型, 来描述在线社交网络信息的流行度动力学过程. 对典型在线社交网络系统的信息流行度数据和网络结构数据进行了分析, 统计结果表明信息流行度衰减遵循幂律分布(幂指数为1.8), 微博网络的入度和出度分布也均服从幂律分布(幂指数为1.5). 模型仿真结果发现, 该模型能够再现真实社交网络数据的若干特征, 且信息流行度与网络结构相关. 对模型方程进行求解得到理论预测的结果与仿真分析和实际数据结果相符合.

English Abstract

    • 社交媒体上的信息流行度演化与预测给复杂系统的研究者提出了诸多挑战, 如识别“病毒式”传播的原因、网络结构特征以及通过信息的内容和早期的关注预测未来的流行度. 虽然在线信息流行度的建模与预测已经取得了一定的研究进展[1-4], 然而这个方向的研究大多由于可用的大规模数据缺少而受到阻碍. 近年来, 从在线社交网络获得的大规模社交数据为探索人类行为特征及其对在线内容流行的影响创造了前所未有的机会.

      建模和预测信息流行度的困难在于各种混杂因素的共存[5-9]. 同时, 它给研究人员带来了许多挑战, 包括原因的识别[10-13], 时间效应[14] 和结构特征[15,16]. 一些学者对这一问题提出了不同的看法. Cetin和Bingol[17]认为个人注意力对信息的流行有重要影响, 并且提出能见度的衰退和分散注意力的结合解释了为什么社交网络中的大多数信息级联不能成为流行. Weng等[18]采用agent-based模型来研究模因(memes)之间的竞争是否会影响其流行度, 结果表明模因的流行度存在异质性, 这种现象是由模因竞争用户有限的注意力和在线网络的结构共同导致的. Gleeson等[19]认为, 有限的用户注意力资源限制了消息的流行, 并且自然地导致一些消息变得非常流行, 其他消息只是中等流行, 或者被忽略. Yan等[20,21]通过微博信息数据从人类动力学方面研究微博信息传播及扩散.

      针对上述问题, 本文对新浪微博的信息数据和网络结构数据进行了分析, 结果发现信息流行度衰减遵循标度律. 其次, 提出了基于分支过程的概率模型, 来描述微博信息流行度变化的过程. 第三, 对所提出的模型进行数值仿真和理论求解, 发现该模型能够再现真实社交网络数据的若干特征. 此外, 信息流行度分布的幂指数与微博网络的度分布幂指数相关, 微博系统中信息流行度受网络结构的影响.

    • 在线社交网络用户之间相互关注形成有向网络(如Twitter、新浪微博等). 在新浪微博系统中, 每个用户具有“微博首页”和“个人页面”两个列表. 用户关注的好友如果发出信息, 这些信息按时间先后顺序都将显示在“微博首页”这个列表上. 当用户打开微博系统查看“微博首页”列表上的信息时, 就会对感兴趣的微博进行转发或评论. 转发的微博信息同时会显示在“个人页面”这个列表上. 本文定义$n\left( t \right)$表示微博信息的流行度, 即从信息被生成后$t$时间内获得转发和评论的总数. ${q_n}\left( t \right)$表示在时间$t$信息获得流动度$n\left( t \right)$的概率.

      由于“微博首页”存储列表的顶部是最新收到的信息, 之前收到的信息会逐渐淹没在列表的底部. 根据用户注意力有限的假设, 每次用户从“微博首页”列表顶部开始查看信息, 并且查看的信息是有限的. 这就会导致一些被淹没在列表底部的信息不被用户评论或转发. 不失一般性, 此处假设“微博首页”和“个人首页”存储信息的能力为1, 即都只能保存一条信息, 新的信息到来时将覆盖掉原来保存在列表上的信息.

      图1描述的是微博系统中信息传播的过程. 对于每个用户在当前时刻有两个动作(或状态): 1)以概率${\mu}$生成一条新的信息发出去; 2)以概率$(1 - {\mu} )$转发“微博列表”上已有的信息. 如用户1在${t_1}$时刻以概率${\mu} $生成了一条信息(用圆圈表示), 同时发给其粉丝用户2和3; 在${t_2}$时刻用户2以概率$(1 - {\mu} )$转发这条信息给其粉丝用户4和5; 在${t_3}$时刻, 用户3又以概率${\mu} $生成一条新的信息(用方框表示), 并将该信息发给其粉丝用户6和7. 每当信息被传播一次, 信息的流行度加1.

      图  1  流行度模型示意图

      Figure 1.  Schematic of the model.

    • 根据第2节的模型描述, 本节采用分支过程来刻画信息的流行度动力学过程, 微博系统中每条消息的传播都遵循一个分支过程.

      首先, 引入$H\left( {t,x} \right)$作为流行度分布的概率生成函数, 则

      $ H\left( {t;x} \right) = xG\left( {t,x} \right)f\left( {G\left( {t,x} \right)} \right) = \sum\limits_{n = 1}^\infty {{q_n}\left( t \right)} {x^n}, $

      其中${q_n}\left( t \right)$表示的是在$t$时间, 信息具有流行度$n$的概率. 同时, 在时间$t =\varOmega $, 定义${G_{jk}}\left( {t,\varOmega ;x} \right)$作为信息$M$流行度分布的概率生成函数, 并且信息$M$是由节点${n_{jk}}$(节点$n$$j$个出度(关注)和$k$个入度(粉丝))生成的或第一个转发的.

      根据网络的度分布概率${p_k}$, 可得到如下关系:

      $ G\left( {t,x} \right) = \sum\limits_k {{p_k}{G_{jk}}\left( {t,\varOmega ;x} \right)} , $

      在时间$t = \tau $, 随机选择一个节点(用户), 那么在下一个时间$t = \tau + \Delta t$, 该节点(用户)“微博首页”存在四种可能的结果, 如表1所列.

      列表S概率${G_{jk}}\left( {t,\varOmega ;x} \right)$
      (a)被新收到的信息所占据$k\Delta t$1
      (b)创造了一条新的信息${\mu} \Delta t$1
      (c)以概率$1 - {\mu} $转发信息$(1 - {\mu} )\Delta t$$x{G_{jk}}\left( {t - \Delta t,\varOmega ;x} \right){\left[ {G\left( {t - \Delta t,\varOmega ;x} \right)} \right]^k}$
      (d)保持原样$1 - \left( {k + 1} \right)\Delta t$${G_{jk}}\left( {t - \Delta t,\varOmega ;x} \right)$

      表 1  一个时间步节点(用户)“微博首页”的结果

      Table 1.  Single time-step outcomes of user’s list.

      表1中的四种结果相加, 得到${G_{jk}}\left( {t,\varOmega ;x} \right)$表达式如下:

      $\begin{split} &{G_{jk}}\left( {t,\varOmega ;x} \right) = \\ &\quad k\Delta t + {\mu} \Delta t + (1 - {\mu} )\Delta tx{G_{jk}}\left( {t - \Delta t,\varOmega ;x} \right)\\ &\quad {\left[ {G\left( {t - \Delta t,\varOmega ;x} \right)} \right]^k} + 1 - \left( {k + 1} \right)\\ &\quad \Delta t{G_{jk}}\left( {t - \Delta t,\varOmega ;x} \right), \end{split}$

      $\lim \Delta t \to 0$ 得到${G_{jk}}\left( {t,\varOmega ;x} \right)$的一个常微分方程,该微分方程含有参数$x$:

      $\frac{{\partial {G_{jk}}}}{{\partial t}} = k + {\mu} - \left( {k + 1} \right){G_{jk}} + (1 - {\mu})x{G_{jk}}{\left[ G \right]^k}.$

      通过乘以网络度分布概率${p_k}$, 对节点${n_{jk}}$可能的入度进行平均, 得到关于$G\left( {t,\varOmega ;x} \right)$的方程:

      $\frac{{\partial G}}{{\partial t}} = k + {\mu} - \left( {k + 1} \right)G + (1 - {\text{μ}} )x\sum\limits_k {{p_k}{G_{jk}}{{\left[ G \right]}^k}}, $

      要从方程5中求解$G$需要知道在所有度$k$下的函数${G_{jk}}\left( {t,\varOmega ;x} \right)$, 但如果做如下的近似:

      $\begin{split} &\sum\limits_k {{p_k}\left( {{G_{jk}}{{\left[ G \right]}^k}} \right)} \approx \left( {\sum\limits_k {{p_k}{G_{jk}}} } \right)\\ &\left( {\sum\limits_k {{p_k}{{\left[ G \right]}^k}} } \right) = Gf\left( G \right), \end{split}$

      则(5)式变为

      $\frac{{\partial G}}{{\partial t}} = k + {\mu} - \left( {k + 1} \right)G + \left({1 - {\mu}}\right) xGf\left( G \right).$

      将上面的推导一般化为每个用户的列表具有容量c, 即用户的“微博首页”和“个人页面”可同时保存c条微博信息:

      $c\frac{{\partial G}}{{\partial t}} = k +{\mu} - \left( {k + 1} \right)G + \left( {1 - {\mu}}\right)xGf\left( G \right), $

      $\begin{split} &m\left( t \right) = \sum\limits_{n = 1}^\infty {n{q_n}\left( t \right)} = \frac{{\partial H}}{{\partial x}}\left( {t,1} \right) = \\ &\quad 1 + \left( {k + 1} \right)\frac{{\partial G}}{{\partial x}}\left( {t,1} \right), \end{split}$

      可得到信息$M$在时间$t$的平均流行度$m\left( t \right)$的方程为

      $c\frac{{{\rm{d}}m\left( t \right)}}{{{\rm{d}}t}} = \left( {k + 1} \right)\left( {1 - {\mu} m} \right). $

      $m\left( 0 \right) = 1$, 得到平均流行度$m\left( t \right)$的解为

      $m\left( t \right) = \left\{ {\begin{aligned} &{1 + \frac{{\left( {k + 1} \right)}}{c}t,\begin{array}{*{20}{c}} {}&{{\mu} = 0} \end{array}}\\ &{\frac{1}{{\mu} } - \frac{{1 - {\mu} }}{{\mu} }{{\rm{e}}^{ - \frac{{{\mu} \left( {k + 1} \right)}}{c}t}},\begin{array}{*{20}{c}} {}&{{\mu} > 0}. \end{array}} \end{aligned}} \right.$

      下面对流行度${q_n}\left( t \right)$进行分析, ${q_n}\left( t \right)$表示在时间$t$信息获得流动度$n\left( t \right)$的概率, 表达式可以通过(1)式在$t \to \infty $时近似求解:

      $ \mathop {\lim }\limits_{t \to \infty } H\left( {t;x} \right) = x{G_{jk}}\left( {\infty ,\varOmega ;x} \right)f\left( {{G_{jk}}\left( {\infty ,\varOmega ;x} \right)} \right), $

      其中, ${G_{jk}}\left( {\infty,\varOmega ;x} \right)$= $\mathop {\lim }\limits_{t \to \infty } {G_{jk}}\left( {t,\varOmega ;x} \right)$. 如果

      $H\left( {\infty ;x} \right) = x{G_{jk}}\left( {\infty,\varOmega ;x} \right)f({G_{jk}}\left( {\infty,\varOmega ;x} \right))$

      为流行度概率${q_n}\left( t \right)$的生成函数, 且${G_{jk}}( \infty,\varOmega ;$$1 - w ) \sim 1 - \phi \left( w \right)\;{\rm as}\;{w \to 0} $, 其中$w = 1 - x$. 则$H\left( {\infty ;x} \right)$的近似形式为

      $H\left( {\infty ;1 - w} \right) \sim 1 - w - \left( {k + 1} \right)\phi \left( w \right)\;{\rm as}\;{w \to 0} .$

      因此, ${G_{jk}}\left( {\infty,\varOmega ;x} \right)$是方程10的解

      $k + {\mu} - \left( {k + 1} \right){G_{jk}} + \left( {1 - {\mu} } \right)x{G_{jk}}f\left( {{G_{jk}}} \right) = 0.$

      如果网络度分布服从幂律分布, 即${p_k} \sim D{k^{ - \gamma }}$$\gamma $满足$1 < \gamma < 3$, 在这种情况下, 可得到当$t \to \infty $

      ${q_n}\left( \infty \right) \sim \left\{ {\begin{aligned} &{B{n^{ - \frac{\gamma }{{\gamma - 1}}}}\begin{array}{*{20}{c}} {}&{{\mu} = 0} \end{array}}\\ &{C{n^{ - \gamma }}\begin{array}{*{20}{c}} {}&{{\mu} > 0}, \end{array}} \end{aligned}} \right. $

      其中因子$B = - \left( {k + 1} \right)\displaystyle\frac{{{{\left( {D\Gamma (1 - \gamma )} \right)}^{ - \frac{1}{{\gamma - 1}}}}}}{{\Gamma \left( {\displaystyle\frac{1}{{1 - \gamma }}} \right)}}$$C =$$ \left( {k + 1} \right)\left( {\displaystyle\frac{{1 - {\mu} }}{{{\mu} \left( {k + 1} \right)}}} \right)$.

      从(11)式可知, 当$t \to \infty $, 信息流行度分布${q_n}\left( t \right)$服从幂律分布, 且幂指数为$\displaystyle\frac{\gamma }{{\gamma - 1}}$$\left( {{\mu} = 0} \right)$$\gamma $$\left( {{\mu} > 0} \right)$, 幂指数等于或大于网络度分布的幂指数$\gamma $.

    • 本文分析了两个数据集, 均通过新浪微博开放平台API收集(www.weibo.com), 新浪微博是目前中国最流行的微博平台之一. 第1个数据集是微博信息数据, 通过滚雪球采样的方法收集了某个话题在2009/8/20―2010/9/3之间发布的125139条微博, 以及这些微博被转发了2260826次和1822450条评论. 每条微博包括发出用户ID、微博ID、微博发布时间、微博内容、转发次数和评论次数. 此外还采集了微博的评论时间, 微博的转发时间虽无法获得, 但微博的转发流行度分布和评论流行度分布具有相同的分布特征(如图2所示), 均服从幂指数约为1.8的幂律分布. 因此, 评论流行度的变化可近似表示微博整体流行度的变化(评论流行度和转发流行度).

      图  2  微博的流行度分布

      Figure 2.  Distribution of micro-blogs popularity.

      第2个数据是微博用户数据, 第2个数据集收集了参与话题讨论的41667个用户信息. 对每个用户, 采集了用户ID、用户关注数和关注关系、用户粉丝数. 从而获得微博网络用户度分布情况, 数据统计分析发现用户入度(粉丝)和出度(关注)分布均服从幂指数约为1.5的幂律分布(如图3所示), 但出度分布在2000附近具有一个截断, 这是由于新浪微博系统初期允许关注的上限是2000.

      图  3  微博用户度分布

      Figure 3.  Distribution of out-degree and in-degree.

    • 为了验证分支过程近似的精确性, 并探讨网络结构与有限注意力的相互作用, 本文将模型的数值仿真结果与实际数据和理论预测结果进行比较. 首先生成具有指定度分布的有向网络, 网络的度分布服从幂律分布${p_k} \sim {k^{ - \gamma }}$, $\gamma = 1.5$. 模型参数设定为节点总数是$N = {10^5}$, 且

      ${\mu} = \frac{\text{数据集1中不重复的微博数}}{\text{数据集1中微博总数}} = \frac{{125139}}{{2260826}} \approx 0.055.$

      ${\mu} $值反映的是微博系统中原创微博信息的占比, 从本数据集中的${\mu} $值可知, 该话题下大部分微博是重复转发的, 原创微博的占比很小.

      数值仿真的微博信息的平均流行度(蓝圆线), 与实际数据(黑钻石线)和方程6的理论预测(红方线)的比较如图4所示. 其中参数取值为微博生成概率${\mu} = 0.055$, 平均入度$k = 12.3$, 微博列表存储信息能力$c = 1$. 因新浪微博网络中不同时间窗口、不同主题话题下微博信息流行度存在差异, 本文实证数据计算结果与理论模拟存在偏差. 从图4可见, 在初始阶段, 平均流行度的实际数据与理论预测和仿真偏差较大, 随着时间$t$不断增加, 偏差先减小后增大, 最后实际平均流行度值和理论预测值均趋向于定值, 偏差稳定. 另外在数据处理与选择时, 单个微博信息流行度时间序列$\left\{ {n\left( t \right)} \right\}$数据点大于等于10时, 该微博信息才被纳入计算平均流行度的数据. 每个微博信息流行度的时间序列$\left\{ {n\left( t \right)} \right\}$数据点不相等, 也导致了平均流行度的计算结果和理论模拟的偏差.

      图  4  微博信息平均流行度

      Figure 4.  Mean popularity of Micro-blogs.

      图5比较了微博信息流行度模型仿真结果、实际数据和理论预测的结果. 其中参数取为${p_k} \sim {k^{ - \gamma }}$, $\gamma = 1.5$,$N = {10^5}$, ${\mu} = 0.055$. 网络结构是新浪微博中41667个用户数据生成的网络. 在$n$较小时, 模型仿真结果与实际数据及理论预测结果一致, 当$n \to \infty $时, 实证数据与仿真结果和理论预测之间存在一定偏差, 但大致结果是符合的. 导致偏差的主要原因是, 基于分支过程的流行度模型是建立在假设微博网络是树形结构基础上的, 但实际上, 新浪微博41667用户生成的网络中34%的链接是互惠链接. 基于树形结构理论的精确结果应用于现实世界的网络中, 因此导致了一定的偏差.

      图  5  微博信息流行度的互补累积概率分布(CCDF)

      Figure 5.  Complementary cumulative distribution functions (CCDFs)—the fraction of micro-blogs with popularity$ \geqslant n$.

      通过对微博信息评论转发数据和网络结构数据的统计分析可知, 在微博系统中存在高度的异质性, 如流行度小于100的微博信息占比达到95.8%, 而流动度超过1万的微博信息数量是非常少的. 粉丝数(入度)小于100的用户占比达56.4%, 而有的用户粉丝数高达百万. 通过仿真, 重现了复杂社会系统中的高度异质性, 大量的流行度(或关注)都被少量的信息(或用户)获得, 得到了流行度依赖时间的重尾分布特征. 本文所提出的框架构成了社会传播现象的零模型, 与纯粹的实证研究或基于模拟的模型相比, 它清楚地区分了影响信息流行度的两个不同因素的作用, 即用户的记忆时间和社交网络的连接结构.

    • 在线社交媒体极大地影响了人们彼此沟通的方式. 近年来, 在线社交媒体信息流行度的预测和建模引起了众多学者的关注. 例如, 预测和建模社交媒体上的新闻流行度[22]和量化论文流行度[23]. 本文引入并分析了一种信息传播的概率模型, 该模型具有分析易处理性, 可以再现实际数据的若干特征. 但是该模型也存在一定的局限性, 其中要求做出一些假设以获得分析结果. 在将来的研究中, 我们希望对模型进行一些可能的扩展.

参考文献 (23)

目录

    /

    返回文章
    返回