一种基于话题演化的意见领袖发现方法

引用本文

王祎珺, 张晖, 李波, 杨春明, 赵旭剑. 一种基于话题演化的意见领袖发现方法[J]. 山东大学学报(工学版), 2016, 46(2): 35-42. DOI: 10.6040/j.issn.1672-3961.1.2015.165. 复制到剪切板

WANG Yijun, ZHANG Hui, LI Bo, YANG Chunming, ZHAO Xujian. A method of opinion leaders discovering based on the topical evolution[J]. Journal of Shandong University(Engineering Science), 2016, 46(2): 35-42. DOI: 10.6040/j.issn.1672-3961.1.2015.165. 复制到剪切板

基金项目

四川省教育厅资助项目(14ZB0113,12ZB326); 绵阳网络融合实验室资助项目(12ZXWK04);西南科技大学博士基金资助项目(12zx7116)

作者简介

王祎珺(1991— ),女,四川绵阳人,硕士研究生,主要研究方向为社交网络,舆情演化.E-mail:anny6629882@163.com

通讯作者

张晖(1972— ),男,安徽宿州人,教授,博士,主要研究方向为文本挖掘与知识工程. E-mail: zhanghui@swust.edu.cn

文章历史

收稿日期：2015-05-12
网络出版日期：2016-03-02 11:19:29

Contents Abstract Full text Figures/Tables PDF

一种基于话题演化的意见领袖发现方法

王祎珺¹, 张晖² ^* , 李波^{1, 3}, 杨春明¹, 赵旭剑¹

1. 西南科技大学计算机科学与技术学院, 四川绵阳 621010;
2. 西南科技大学教育信息化推进办公室, 四川绵阳 621010;
3.中国科学技术大学计算机科学与技术学院, 安徽合肥 230027

收稿日期：2015-05-12; 网络出版日期：2016-03-02 11:19:29

基金项目：四川省教育厅资助项目(14ZB0113,12ZB326); 绵阳网络融合实验室资助项目(12ZXWK04);西南科技大学博士基金资助项目(12zx7116)

作者简介：王祎珺(1991— ),女,四川绵阳人,硕士研究生,主要研究方向为社交网络,舆情演化.E-mail:anny6629882@163.com

通讯作者：张晖(1972— ),男,安徽宿州人,教授,博士,主要研究方向为文本挖掘与知识工程. E-mail: zhanghui@swust.edu.cn

摘要: 微博中的意见领袖不仅在社交网络的信息传播中发挥着举足轻重的作用,而且在网络舆情演化中也表现出显著的意见代表性。针对已有的意见领袖挖掘方法仅从复杂网络或者基本图模型来建模发现意见领袖,忽略了意见领袖在具体的话题演化中的意见代表性的问题,提出了基于话题演化的意见领袖发现的方法。该方法首先根据用户之间的交互构建图模型,然后利用寻找中心节点的图论算法挖掘潜在意见领袖,再利用话题演化模型判断潜在意见领袖的演化中心度,最后发现在整体舆情上的具有意见代表性的真实意见领袖。在新浪微博的话题数据集上的试验结果表明,该算法较仅考虑网络模型的意见领袖发现方法更优。

关键词: 意见领袖话题演化微博意见代表性图模型演化中心度

A method of opinion leaders discovering based on the topical evolution

WANG Yijun¹, ZHANG Hui²^* , LI Bo^{1, 3}, YANG Chunming¹, ZHAO Xujian¹

1.School of Computer Science and Technology, Southwest University of Science and Technology, Mianyang 621010, Sichuan, China;
2. Educational Informationization Office, Southwest University of Science and Technology, Mianyang 621010, Sichuan, China;
3. School of Computer Science and Technology, University of Science and Technology of China, Hefei 230027, Anhui, China

Abstract: Existing studies about opinion leaders mining only adopted complex network methods or built graph model from networks, which ignored the specific role that opinion leaders play in the evolution of public opinion. To solve this problem, an opinion leaders discovering method based on the topic all evolution was presented. First, this method found latent opinion leaders by building a graph model based on the interaction between users and using the graph theory algorithm of looking for central node. Second, the evolution model of public opinion was used to judge the opinion representation of these opinion leaders. Finally, the true opinion leaders were found out, which had real lead resistance in the overall evaluation of public opinion. Experiment based on Sina MicroBlog datasets showed that this method performed better than those methods only consider the network model.

Key words: opinion leaders topical evolution microblog opinion representation graph model center of evolution

0 引言

近年来,微博作为一种主流的社交平台被广泛使用^[1],如何快速准确地从众多用户产生的数据中获取和分析所关注的舆情信息引起了大量研究者和政府部门的关注。为了更好地分析社交网络上主要舆情的变化,快速监测和预测社交网络舆情的演化情况,意见领袖挖掘是其中的关键问题。意见领袖挖掘已有不少方法^{[2, 3, 4, 5]},但意见领袖能否在某一领中起到意见代表性的作用^[6],是鉴别意见领袖在实际舆情演化中是否有价值的一个关键因素,这一点在以往的意见领袖发现算法中并没有考虑过。本研究从发现潜在的意见领袖的算法出发,利用话题演化模型来对比意见领袖舆情与整体舆情的相似性,计算出演化支持度,最后基于话题演化模型来判别其意见代表性的强度,找出舆情演化中具有意见代表性的意见领袖。与仅考虑网络模型的意见领袖不同,本研究中的意见领袖是指在某个时间段的舆情演化中具有意见代表性的网络用户。基于新浪微博数据的试验表明,相较于只考虑网络模型的意见领袖发现算法,本研究提出的方法发现的意见领袖在舆情演化中更具有实际意见代表性,可以更好地应用在社交网络的动态舆论监控中。

在意见领袖的挖掘研究方面,已有方法主要分社交网络结构和用户指标打分两大类。社交网络结构类主要是根据社交网络结构和特点建模,利用数学模型分析意见领袖^[2];用户打分投票类有PageRank^[3],Hyperlink-Induced Topic Search(简称HITS)^[4],LeaderRank^[5]等算法以及其改良算法。PageRank算法的缺点主要在于主题无关性,最基本的PageRank算法没有区分一些无意义的投票;PageRank算法的另一弊端是,旧的主体等级会比新主体高,新主体不会获得太多投票。这使得PageRank需要结合多项算法以考虑其他细节。HITS算法和LeaderRank等算法虽然考虑了用户的一些关系特征并利用图模型建模,但没有针对微博中舆情演化的实际情况查看意见领袖是否具有一定时间段内整体舆情代表性的研究。

单一的意见领袖发现方法虽然考虑了用户特征以及网络重要性^[7],但没有对于针对微博中舆情演化的实际情况查看意见领袖是否具有一定时间段内的引领性,并没有联系舆情的实际被引导情况来发现意见领袖。在舆情演化方面,已有方法主要分为社交网络模型和舆情演化特征等两大类。第一类主要利用演化在社交网络和话题模型上的特点建模^{[8, 9, 10, 11]};第二类主要利用舆情基本的特征,应用特有方法来进行建模分析^{[12, 13, 14, 15]}。而在话题演化模型的研究方面,目前的方法都是依照时间线来进行演化研究,分为连续时间演化模型和离散时间演化模型,连续时间话题演化模型^[16](topic over time,TOT),在线话题模型^[17](online-LDA,OLDA)等多个著名模型,这里主要重点提及动态话题模型^[18](dynamic topic model,DTM)。由于DTM将时间离散,所以演化的效果决定于时间粒度的选择,粒度太大会导致演化并不真实,粒度太小使得在模型参数推导中引入太多的时间节点。这个是DTM现在存在的最大的问题。

本研究将基于PageRank^[19]改进的意见领袖发现算法与舆情演化模型相结合,发现具有实际意见代表性的意见领袖。

1 基于话题演化判别影响力的意见领袖发现模型

意见领袖作用表现在其对于舆论活动的推动能力上^[20]。所提出的方法能够基于舆情演化中意见领袖的意见代表性,来判别意见领袖的影响力。该方法不仅考虑意见领袖在社交网络中处于中心位置,还能够实际代表舆情演化情况,从而使找到的意见领袖具有更强的意见代表性。

由于试验数据的局限性,本研究主要采用话题演化模拟舆情演化过程。话题的舆情演化过程^[20]一般具有阶段性。随着舆情的演化,每个阶段中每个用户对当前话题的舆情热度是不同的。合理拆分整体舆情,构成舆情阶段分片,可以更好地从每个独立的舆情中观察用户在不同舆情发展阶段对于相关话题讨论热度的变化。而用户发表的微博信息中评论转发数目越多,则表明该用户在当前时间段中起到的舆情代表性越强。由于舆情引导性是意见领袖的一个基础要求,所以,通过观察社交网络的评论转发结构,可以找出与网络结构相关的潜在意见领袖,作为舆情意见领袖的筛选基础。在整体话题舆情演化中,能够起到代表舆情意见变化的意见领袖即本研究所提舆情意见领袖。潜在意见领袖的舆情演化过程与整体舆情演化趋势越接近,则表明其作为意见领袖越有价值。

1.1 意见领袖影响力模型构建

舆情意见领袖发现流程如图1所示。

图1 意见领袖影响力模型图 Fig.1 Opinion leaders influence model diagram

首先,用户节点的交互量和交互的动态过程是发现潜在意见领袖不可或缺的参照条件。在构建潜在意见领袖发现的图模型之后,通过对用户节点的获取建立图模型的点,通过转发和评论建立有向边。本研究认为转发是计算其所有迭代转发至其停止转发,评论根据发表的时间段也有相应的权重分配,用PageRank^[19]的随机游走思想获取用户权重w_i降序排列的意见领袖｛L₁,L₂,L₃,…,L_k｝,k∈N^*,其中,定义用户权重w_i降序排名前30位为潜在意见领袖结果P_Leader=｛L₁,L₂,L₃,…,L₃₀｝。

其次,为了更好地从每个独立的舆情中观察用户在不同舆情发展阶段对于相关话题讨论热度的变化,根据舆情发展的阶段性,利用微博内容之间的相似度进行最小条件熵分片。按照时间顺序对整体舆情发展进行划分,获取最终划分的时间片T。本研究中设分片数为4,则定义T=｛T₁,T₂,T₃,T₄｝。

再次,由于要利用整体舆情的演化趋势来判别潜在意见领袖的意见代表性,本研究中,利用动态话题演化模型(DTM),结合分片T,读取该组话题在整个时间段的话题强度变化,同时得出每个潜在意见领袖的话题强度变化趋势。

最后,因为在潜在意见领袖舆情演化趋势与整体舆情趋势越接近,意见代表性越强,所以通过计算每个时间段中的整体趋势与P_Leader的舆情支持度来判别意见代表性的强度。归一化整体舆情趋势与每个潜在意见领袖的舆情趋势,计算其舆情支持度,通过舆情支持度的排序得出其舆情影响力大小,从而得出具有意见代表性的意见领袖。

1.2 潜在意见领袖发现

利用链接分析法建立图模型发现潜在意见领袖。该图模型可以用G表示,G=(V,E),其中,V表示用户节点的集合,E表示有向边的集合。这里的用户节点和边都有相应的权重,如图2所示,权重计算方法采用层次分析法和利用转发关系构建相邻两个用户的关系^{[21, 22]},并用相应的属性权重的线性组合表示,如图3所示。

图2 图模型的权重关系 Fig.2 The weight relationship of graph model

图3 微博评论权重值划分 Fig.3 Microblog comments weight value

用户节点v_i的权重w_i由用户活跃度W_active-i和话题参与度W_topic-i构成。用户活跃度包括用户的微博发表数目W_num-i、粉丝数W_fans-i 、关注数W_attention-i和互相关注数W_mix-i等子属性。如式(2)所示,其中v_i是各类百分比指标的参数。话题参与度由迭代转发数W_rep-i和相关话题微博评论数W_reals-i两部分组成,W_rep-i迭代转发数是由追溯一条微博信息被转发的次数来计算,由式(3)、(4)说明;而W_reals-i主要由微博评论分布数W_com-i是由当前微博的所有评论按时间分布的权重值来表示,由式(5)说明,C_t1是在前百分之五时间段的评论数目,C_t2是在5％～50％时间段之间的数目,C_t3是余下时间段的评论数目,具体评论数目关系如图3所示。如式(1)、(2)、(6)所示,其分别表示相应的权重,整个权重值中的系数的和为1。

w_i=w_active-i+w_topic-i,

(1)

W_active-i=γ₁W_num-i+γ₂W_fans-i+γ₃W_attention-i+γ₄W_mix-i,

(2)

W_rep-i=w_turn-i1+w_turn-i2+…+w_turn-ik (k=1,2,3…,),

(3)

w_turn-ik=w_turn-i(k-1)×φ (k=2,3,4…,),

(4)

W_com-i=μ₁C_t1+μ₂C_t2+μ₃C_t3,

(5)

W_topic-i=γ₅w_reals-i+γ₆w_rep-i。

(6)

另外,与利用用户之间的关注关系来构建边相比,从用户话题相关信息交互来构建边更能凸显特定话题下的用户间的实际影响关系。若用户v_i转发或者评论了用户v_j发表的话题相关的微博,则建立一条从用户v_i到用户v_j的有向边e_ij,且用户v_k再次转发用户v_i曾经转发的用户v_j发表的话题相关的微博,将强化有向边e_ij的权重,因此用户的转发次数表明该条微博信息对于当前话题的重要价值。微博评论前部分时间段的评论价值,称为决定舆论价值,因此给予其较高的分布权重,后面时间段的评论较为不具有舆论造就价值,因此给予其较少的分布权重。所以,权重w_ij中的话题参与度W_topic-ij是由用户v_i对用户v_j迭代转发数W_rep-ij和微博评论分布数W_com-ij决定。结合前面所提及的用户活跃度W_active-ij,可定义有向边e_ij的边权重

w_ij=W_active-ij+W_topic-ij,

(7)

通过构建图模型,意见领袖的发现问题可以转化为在已构建的图模型中寻找中心节点的问题。这里根据基于PageRank算法随机游走思想的(opinion leader rank,OLR)算法^[23],作为初次发现潜在意见领袖的方法。

在建立的图模型中,用户节点的重要性由随机游走到该节点的概率表示。概率越大,则中心度越高。该算法定义每个用户节点的被访问概率是相同的,然后开始随机游走,游走的同时更新每个节点被访问的概率,直到每个节点被访问的概率趋于稳定。本研究新构建的图模型不仅考虑了新旧节点的概率关系,还考虑了比节点度更丰富的信息,包括节点用户活跃度和话题参与度等,这些信息反应在节点的权重中。图4展示了本研究试验用到的话题数据集(以“单独二胎”数据集为例)的节点权重的分布统计结果(在计算用户权重时,涉及的参数与试验部分一致)。为了展示方便,统计时将节点权重的取值范围从小到大分成20等份,然后统计每个小范围的节点数。从图4可以看出:节点权重基本服从幂律分布,即当节点权重增加时,节点所占比例迅速下降。

图4 “单独二胎”数据集中的节点权重分布 Fig.4 The node right redistribution of the “single child” data set

为了证明本研究中潜在意见领袖方法发现潜在意见领袖的正确性,采用意见领袖发现方法OLR^[23]中提出的扩展核心率(extended core radio,ERC)作为评价指标,并与该文中设计的意见领袖图模型进行对比。通过在 “单独二胎”数据集上建模与计算,文献^[12]中基于OLR算法的意见领袖图模型的ERC值为32.55,而本研究的潜在意见领袖图模型的ERC值为30.0。文献^[12]中定义,ERC值越小,说明算法的效果越好。因此,本研究所构建的图模型算法的效果较文献^[12]中的更优。

1.3 时间片划分与话题演化强度获取

通过意见领袖发现算法找出潜在意见领袖之后,依靠改进后的话题演化模型对意见领袖进行二次筛选。针对某一个话题,通过分片演化模型分析意见领袖的话题演化强度。为了将意见领袖在舆情演化中的具有的代表体现出来,本研究通过基于时间的动态话题演化模型DTM^[18],来体现话题演化本身所代表的话题强度随时间变化而推移的现象,这样可以检查出话题是否有一个相关的热点起伏度。

由于DTM的思路是先根据时间段离散化文档,需要根据离散的文档建立话题模,所以演化的效果取决于时间粒度的选择。本研究的时间分片使用最小条件熵方法^[24],其基本思路是将分片问题看作是文档关于所有分片方案的最大似然问题,进而可以转化为寻找最小条件熵的最优分片方案。

具体地,设微博总集合R=｛r₁,r₂,r₃,…,r_n｝,其中r_i(1≤i≤n)表示一个微博。微博分片就是将R分割成N个连续的片段S=｛s₁,s₂,s₃,…,s_N｝ ,其中s_i(1≤i≤N) 表示一个微博分片。也就是在随机的分割方案下,寻找最优分割S^*=argmax_sL(R|S) ,其中L(R|S) 表示给定分割方案的似然。如果假设:(1)对于每个微博r_i,它被划分到一个分片S的概率是独立的;(2)对于每个微博r_i中的词P,它被划分到一个给定的分片S的概率也是独立的。则目标函数S^* 可以被转换为给定分片S条件下所有词p的条件熵,即S^*=argmin_sH(R|S) 。

微博分片的最小条件熵这一最优化问题可以使用贪心算法来解决。具体来说,为得到一个最小熵的N分割集,需要预先得到一个最小熵的N+1分割集,然后通过合并N+1分割方案中最相似的两个临近微博从而得到新的分割集S′,分割集S′是一个局部最优解,将S′近似为最小熵分割集S^*。该分割算法的最坏情况下的时间复杂度为O(NlogN)。实验中的时间片针对整体微博数据来进行划分。由于2013-11-01之前的微博发表数极少,所以第一个时间点可能对于总时间段来说相对靠后。数据试验中所划分的时间片如表1所示。

表1 “单独二胎”数据集时间片划分 Table 1 Time slice division of “selective two child policy” data set

根据划分的时间片,针对前期潜在意见领袖在每个划分好的时间段中发表的微博信息,用潜在狄利克雷分配模型(latent dirichlet allocation,LDA)^[25]进行话题关键字和强度值的提取。潜在狄利克雷分配模型是一种非监督机器学习技术,可以用来识别大规模文档集模型,也可以用来预测社会网络链接^[26]。在本研究中,若该时间段某意见领袖没有发布微博信息,则记为该意见领袖在这个时间片上的舆情强度为零,即不参与后期对比。

2 试验 2.1 试验数据与参数设置

本试验采用新浪微博的数据作为试验数据,包括用户信息(是否加V、粉丝数、微博数等),微博转发信息(转发者、被转发者等),微博评论信息(评论数、评论内容等),微博发布信息(微博内容)。详细数据如表2所示。

表2 数据集信息 Table 2 Data set information

试验中的所有子属性都通过归一化处理,包括后面试验对比的数据。关于潜在意见领袖发现的参数,在计算用户权重的时候,设用户活跃度与其话题参与度的涉及参数值符合如下条件:

γ₁+γ₂+γ₃+γ₄+γ₅+γ₆=1。

(8)

由于用户的微博发布数表示其对于当前话题的看法关注程度,其粉丝数则是用户长期积累的并且具有舆情传播的绝对基础,设置微博发布数系数γ₁=0.2,粉丝数γ₂=0.2。用户互相关注度以及用户自身的关注数对于其舆情传播作用相对较小,设置用户互相关注度系数γ₃=0.1,用户自身关注数γ₄=0.1。话题参与度中的用户的迭代转发值占舆情传播的重要值,评论部分的总值作用仅供评价当前舆情的热度,设定评论参数γ₅=0.1,迭代转发参数γ₆=0.3。关于评论部分,评论由初始舆情爆发到中期平滑及后期消亡,评论的数目前后的权值不同。以时间轴递增为基础,C_t1指前5％的评论数目,C_t2指5％至50％的评论数目,C_t3指余下部分的评论数目。由于初始评论最为频繁且更能体现舆情爆发点,设其权重系数μ₁=0.5;中期评论趋于缓和平滑,设权重系数μ₂=0.25;余下评论系数设为μ₃=0.25。实验中，所涉及公式的权重取值汇总如表3所示。

表3 试验公式中权重取值表 Table 3 Weight values of experimental formulas

2.2 评价方法

由于目前没有统一的意见领袖评价标准,多数意见领袖的测评仍采用人工评价的方法。本研究根据潜在意见领袖获取方式以及后续的舆情演化模型的设计提出一种新的评价指标,命名为演化中心度(evolution centrality,EC)。中心度值越高,证明意见领袖用户在实际舆情演化中起到的代表意见的作用更加明显。具有意见代表性的意见领袖的演化中心度由3部分组成:用户微博的评论转发数(平均值)、用户微博的微博数、用户微博对于舆情演化提供的持续的演化支持度。相关公式如下:

EC=ηa_i+(1-η)b_i,

(9)

${{a}_{i}}=\frac{\sum\limits_{k}^{{}}{{{N}_{rep-ik}}/\left( 1000{{N}_{wei-i}} \right)+\sum\limits_{k}^{{}}{{{N}_{com-ik}}}/\left( 1000{{N}_{wei-i}} \right)+{{N}_{wei-i}}}}{Time},$

(10)

b_i=10λ

(11)

由于,微博数目是一个大于1的常数,加上过低或过高的权值都不会有明显的区别,所以这里将转发数、评论数同比例降至以1为基数的数值,而演化支持度以0.1为基数的数值,所以本次试验用同比例升至基数为1的数值,便于在同一个数量级作比较。a_i是指用户每天的基本信息值(同比例化为一个数量级),包括N_rep-ik第k条微博的转发数,N_com-ik第k条微博的评论数,分别算其均值,然后与微博发布总数求和,再除以时间(按日期计算),得到每天的用户基本信息值。b_i是指用户所用的发布微博在区域时间段内的演化支持度,这里同样同比例化到一个数量级。由于本方法的主导放在舆情演化支持度对于意见代表性的意见领袖的提取上,所以η≤0.5。经多次试验发现η取0.3时,整体结果趋于预想,并且表现较为平稳。EC值越高,表示演化支撑度越高,本身就越具有意见领袖的意见代表性。

2.3 试验分析与结果对比 2.3.1 发现潜在意见领袖

主要使用改进后的PageRank算法发现潜在意见领袖,设定构件图模型,并根据随机游走的思想设计改良算法,利用概率模型来计算。表4是潜在意见领袖的前十位。下一步试验将计算出具有意见代表性的意见领袖,并与其对比。

表4 “单独二胎”数据集发现潜在意见领袖结果 Table 4 “Single child” data set found results based opinion leaders

2.3.2 话题演化对比模型

时间片划分试验中,抽取前30位的潜在意见领袖,并提取与其所有的相关微博信息。试验中,取出DTM模型得出的前十个有意义的话题词语,统计其和作为话题值的总热度。首先,利用整体舆情计算最小条件熵来分片,尝试分成了1~10片。10次分片试验证明,当划分值q=5的时候,整体舆情与意见领袖的舆情变化趋势最为接近。图5即是q=5时,前30位意见领袖与整体舆情的变化趋势(未用归一法)。

图5 前30位意见领袖与整体舆情的变化趋势图 Fig.5 The chart of top 30 opinion leaders and the overall changes in public opinion trend

2.3.3 基于话题演化的意见领袖发现

表5是潜在意见领袖的EC值,可以看到705^＃的EC值较大,甚至较700^#、530^#大,整体评测结果不是很理想。

表5 “单独二胎”数据集潜在意见领袖EC评测结果 Table 5 “Selective two-child policy” opinion leaders base dataset EC evaluation results

利用本研究提出的求意见领袖演化支持度的方法求得前十位,并与潜在意见领袖用EC指标进行对比,结果如表6所示。除了700^＃与488^＃外,其余均按降序排列。因此,EC对于本研究所提算法模型的评测结果,较仅考虑用户信息的算法模型更为理想,能够挖掘出具有实际演化中具有意见代表性的意见领袖。

表6 “单独二胎”数据集意见代表性的意见领袖EC评测结果 Table 6 “Selective two-child policy” data influential opinion leaders of public opinion EC evaluation results

3 结论

本研究通过综合考虑网络模型、微博信息的话题相关性以及针对单个话题的话题演化,提出了基于话题演化的舆情相似度的意见领袖发现方法。相较于仅考虑用户关系和用户属性的模式,本研究还考虑了意见领袖在实际舆情的意见代表性,发现的意见领袖对于实际舆情演化的代表性体现得更加明显。同时,根据用户基本信息、微博信息数以及话题演化结果,本研究提出了一个新的基于意见代表性的意见领袖评价指标演化中心度EC。评测结果表明,从意见代表性的角度来看,意见领袖是在整个时间段中发布具有显著代表性消息的微博用户,是这个时间区域舆情的实际意见代表者。

在下一步的研究中,将考虑对演化模型进行进一步的改进。模型中对时间分片方法的选择仅仅依靠最小条件熵是不够的,而是需要更加灵活的根据舆情演化的动态来进行时间划分,这样对于挖掘时间片上的区域意见领袖有很重要的意义。

参考文献

[1]	骆岗. 微博对社会交往的影响研究[D]. 成都:成都理工大学, 2013. LUO Gang. Study on influence of micro-blog social interaction[D]. Chengdu:Chengdu University of Technology, 2013.(1)
[2]	田占伟, 隋玚. 基于复杂网络理论的微博信息传播实证分析[J]. 图书情报工作,2012, 56(8):42-46. TIAN Zhanwei, SUI Chang. Empirical analysis of microblogging information dissemination based on complex network theory[J]. Library and Information Service, 2012, 56(8):42-46.(2)
[3]	ZHOU H, ZENG D, ZHANG C. Finding leaders from opinion networks[C]//IEEE International Conference on Intelligence and Security Informatics. Dallas, Texas, USA:IEEE, 2009:266-268.(2)
[4]	肖宇, 许炜, 夏霖. 网络社区中的意见领袖特征分析[J]. 计算机工程与科学, 2011, 33(1):150-156. XIAO Yu, XU Wei, XIA Lin. A feature analysis of the opinion leader in on-line communities[J]. Computer Engineering & Science, 2011, 33(1):150-156.(2)
[5]	LYU L, ZHANG Y C, YEUNG C H, et al. Leaders in social networks, the delicious case[J]. PloS One, 2011, 6(6):1-9.(2)
[6]	周而重,钟宁,黄佳进.基于意见领袖引导作用的网络舆论演化研究[J]. 计算机科学,2013, 40(11):287-290. ZHOU Erzhong, ZHONG Ning, HUANG Jiajin. The study of online public opinion opinion evolution under guiding role of opinion leaders[J]. Computer Science, 2013, 40(11):287-290.(1)
[7]	ROMERO D M, GALUBA W, ASUR S, et al. Influence and passivity in social media[M]//Machine learning and knowledge discovery in databases. Berlin Heidelberg:Springer, 2011:18-33.(1)
[8]	HE Y, LIN C, GAO W, et al. Dynamic Joint sentiment-topic model[J]. ACM Transactions on Intelligent Systems & Technology, 2013, 5(1):328.(1)
[9]	兰月新,邓新元. 突发事件网络舆情演进规律模型研究[J].情报杂志,2011, 30(8):47-50. LAN Yuexin, DENG Xinyuan. Research on the evolution model of network public opinion of sudden events[J]. Journal of Information, 2011, 30(8):47-50.(1)
[10]	ZHU Y, LI W, CAI X. Opinion evolution on a BA scaling network[J]. Physica A:Statistical Mechanics and its Applications, 2013, 392(24):6596-6602.(1)
[11]	KOUTN′IK J, GREFF K, GOMEZ F, et al. A clockwork RNN[C]//International Conference on Machine Learning. Beijing, China:ICML, 2014:1863-1871.(1)
[12]	DRUCKMAN J N, FEIN J, LEEPER T J. A source of bias in public opinion stability[J]. American Political Science Review, 2012, 106(2):430-454.(3)
[13]	陈涛,林杰. 基于搜索引擎关注度的网络舆情时空演化比较分析—以谷歌趋势和百度指数比较为例[J]. 情报杂志,2013, 32(3):7-10. CHEN Tao, LIN Jie. Comparative analysis of temporal spatial evolution of online public opinion based on search engine attention-cases of google trends and baidu index[J]. Journal of Information, 2013, 32(3):7-10.(1)
[14]	ZHANG Y. The evolution of public opinion in social simulation[C]//2014 Seventh International Joint Conference on Computational Sciences and Optimization (CSO). Beijing, China:IEEE, 2014:343-345.(1)
[15]	SOUZA S R, GONALVES S. A dynamical model for competing opinions[J]. Physical Review E Statistical Physics Plasmas Fluids & Related Interdisciplinary Topics, 2012, 85(85):226-253.(1)
[16]	WANG XUERUI,ANDREW MCCALLUM. Topics over time:a non-markov continuous-time model of topical trends[C]//Proceedings of International Conference on Knowledge Discovery and Data Mining. Philadelphia, PA, USA:ACM, 2006:424-433.(1)
[17]	ALSUMAIT L, BARBARA D, DOMENICONI C. On-line LDA:adaptive topic models for mining text streams with applications to topic detection and tracking[C]// IEEE International Conference on Data Mining. Pisa, Italy:IEEE, 2008:3-12.(1)
[18]	DAVID M,BLEI JOHN D,LAFFERTY. Dynamic topic models[C]//Proceedings of the 23rd International Conference on Machine Learning. Pittsburgh, Pennsylvania, USA:ICML, 2006:113-120.(2)
[19]	PAGE L, BRIN S, MOTWANI R, et al. The pagerank citation ranking:bringing order to the web[R]. California, USA:Stanford University, 1998:1-17.(2)
[20]	潘崇霞. 网络舆情演化的阶段分析[J]. 计算机与现代化,2011, 194(10):203-206. PAN Congxia. Stage analysis of the evolution of online public opinion[J]. Computer and Modernization, 2011, 194(10):203-206.(2)
[21]	熊涛, 何跃. 微博转发网络中意见领袖的识别与分析[J]. 现代图书情报技术, 2013(6):55-62. XIONG Tao, HE Yue. Identification and analysis of opinion leaders in the microblogging forwarding network[J]. Modern Library and Information Technology, 2013(6):55-62.(1)
[22]	LIN Yan, LI Huaxian, LIU Xueqiao, et al. Hot topic propagation model and opinion leader identifying model in microblog network[J]. Abstract & Applied Analysis, 2013, special issue (4):2541-2565.(1)
[23]	吴岘辉, 张晖, 杨春明,等. 一种话题相关的微博意见领袖挖掘算法[J]. 小型微型计算机系统, 2014, 35(10):2296-2301. WU Xianhui, ZHANG Hui, YANG Chunming, et al. A mining algorithm of topics related microblogging opinion leaders[J]. Small Micro Computer Systems, 2014, 35(10):2296-2301.(2)
[24]	BAO T, CAO H, CHEN E, et al. An unsupervised approach to modeling personalized contexts of mobile users[J]. Knowledge and information systems, 2012, 31(2):345-370.(1)
[25]	BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of machine Learning Research, 2003(3):993-1022.(1)
[26]	卢文羊, 徐佳一, 杨育彬. 基于 LDA 主题模型的社会网络链接预测[J]. 山东大学学报(工学版), 2014, 44(6):26-31. LU Wenyang, XU Jiayi, YANG Yubin. Prediction based on the theme of social network links LDA model[J]. Journal of Shandong University(Engineering Science), 2014, 44(6):26-31.(1)

本文献在全文中的定位：

... 近年来,微博作为一种主流的社交平台被广泛使用^[1],如何快速准确地从众多用户产生的数据中获取和分析所关注的舆情信 ...[View in article]

本文献在全文中的定位：

... 演化情况,意见领袖挖掘是其中的关键问题。意见领袖挖掘已有不少方法^{[2, 3, 4} ...[View in article]

... 结构类主要是根据社交网络结构和特点建模,利用数学模型分析意见领袖^[2];用户打分投票类有PageRank^[3] ...[View in article]

本文献在全文中的定位：

... 问题。意见领袖挖掘已有不少方法^{[2, 3, 4, 5]} ...[View in article]

... ^[2];用户打分投票类有PageRank^[3],Hyperlink-Induced Topic Search(简称 ...[View in article]

本文献在全文中的定位：

... ^{[2, 3, 4, 5]},但意见领袖能否在某一领中起到意 ...[View in article]

... Hyperlink-Induced Topic Search(简称HITS)^[4],LeaderRank^[5]等算法以及 ...[View in article]

本文献在全文中的定位：

... ^{3, 4, 5]},但意见领袖能否在某一领中起到意见代表性的作用 ...[View in article]

... 简称HITS)^[4],LeaderRank^[5]等算法以及其改良算法。PageRank算法的缺点主要在于主题无关性,最基本 ...[View in article]

本文献在全文中的定位：

... 但意见领袖能否在某一领中起到意见代表性的作用^[6],是鉴别意见领袖在实际舆情演化中是否有价值的一个关键因素,这一点 ...[View in article]

本文献在全文中的定位：

... 单一的意见领袖发现方法虽然考虑了用户特征以及网络重要性^[7],但没有对于针对微博中舆情演化的实际情况查看意见领袖是否具有一 ...[View in article]

本文献在全文中的定位：

... 征等两大类。第一类主要利用演化在社交网络和话题模型上的特点建模^{[8, 9, 10} ...[View in article]

本文献在全文中的定位：

... 社交网络和话题模型上的特点建模^{[8, 9, 10, 11]} ...[View in article]

本文献在全文中的定位：

... ^{[8, 9, 10, 11]};第二类主要利用舆情基本的特征, ...[View in article]

本文献在全文中的定位：

... ^{9, 10, 11]};第二类主要利用舆情基本的特征,应用特有方法来进行建模分析 ...[View in article]

本文献在全文中的定位：

... 第二类主要利用舆情基本的特征,应用特有方法来进行建模分析^{[12, 13, 14} ...[View in article]

... 领袖图模型进行对比。通过在 “单独二胎”数据集上建模与计算,文献^[12]中基于OLR算法的意见领袖图模型的ERC值为32.55,而本研究的潜在意见领袖 ...[View in article]

... ,说明算法的效果越好。因此,本研究所构建的图模型算法的效果较文献^[12]中的更优。 ...[View in article]

本文献在全文中的定位：

... 征,应用特有方法来进行建模分析^{[12, 13, 14, 15]} ...[View in article]

本文献在全文中的定位：

... ^{[12, 13, 14, 15]}。而在话题演化模型的研究方面, ...[View in article]

本文献在全文中的定位：

... ^{13, 14, 15]}。而在话题演化模型的研究方面,目前的方法都是依照时间线来进行演 ...[View in article]

本文献在全文中的定位：

... 究,分为连续时间演化模型和离散时间演化模型,连续时间话题演化模型^[16](topic over time,TOT),在线话题模型 ...[View in article]

本文献在全文中的定位：

... (topic over time,TOT),在线话题模型^[17](online-LDA,OLDA)等多个著名模型,这里主要重点提及动态话题模 ...[View in article]

本文献在全文中的定位：

... 等多个著名模型,这里主要重点提及动态话题模型^[18](dynamic topic model,DTM)。由于DTM将时间离散,所以演化的效果决 ...[View in article]

... 化中的具有的代表体现出来,本研究通过基于时间的动态话题演化模型DTM^[18],来体现话题演化本身所代表的话题强度随时间变化而推移的现象,这样 ...[View in article]

本文献在全文中的定位：

... 本研究将基于PageRank^[19]改进的意见领袖发现算法与舆情演化模型相结合,发现具有实际意见代 ...[View in article]

... 转发至其停止转发,评论根据发表的时间段也有相应的权重分配,用PageRank^[19]的随机游走思想获取用户权重w_i降序排列的意见领袖 ...[View in article]

本文献在全文中的定位：

... 意见领袖作用表现在其对于舆论活动的推动能力上^[20]。所提出的方法能够基于舆情演化中意见领袖的意见代表性,来判别意 ...[View in article]

... 限性,本研究主要采用话题演化模拟舆情演化过程。话题的舆情演化过程^[20]一般具有阶段性。随着舆情的演化,每个阶段中每个用户对当前话题的 ...[View in article]

本文献在全文中的定位：

... ,权重计算方法采用层次分析法和利用转发关系构建相邻两个用户的关系^{[21, 22]},并用相应的属性权重的线性组合 ...[View in article]

本文献在全文中的定位：

... 转发关系构建相邻两个用户的关系^{[21, 22]},并用相应的属性权重的线性组合表示,如 ...[View in article]

本文献在全文中的定位：

... 问题。这里根据基于PageRank算法随机游走思想的(opinion leader rank,OLR)算法^[23],作为初次发现潜在意见领袖的方法。 ...[View in article]

... 潜在意见领袖方法发现潜在意见领袖的正确性,采用意见领袖发现方法OLR^[23]中提出的扩展核心率(extended core radio,ERC)作为评价指标,并与该文中设计 ...[View in article]

本文献在全文中的定位：

... 的效果取决于时间粒度的选择。本研究的时间分片使用最小条件熵方法^[24],其基本思路是将分片问题看作是文档关于所有分片方案的最大似然问 ...[View in article]

本文献在全文中的定位：

... 段中发表的微博信息,用潜在狄利克雷分配模型(latent dirichlet allocation,LDA)^[25]进行话题关键字和强度值的提取。潜在狄利克雷分配模型是一种非监督 ...[View in article]

本文献在全文中的定位：

... 习技术,可以用来识别大规模文档集模型,也可以用来预测社会网络链接^[26]。在本研究中,若该时间段某意见领袖没有发布微博信息,则记为该意见 ...[View in article]