以下为《新浪微博用户及其微博特征分析》的无排版文字预览,完整内容请下载
Computer Engineering and Applications 计算机工程与应用 2015,51(7) 141 新浪微博用户及其微博特征分析 梁 宏,许某某,卢 罡 LIANG Hong, XU Nanshan, LU Gang XX化工大学 信息科学与***,XX 100029 Information Science and Technology College, Beijing University of Chemical Technology, Beijing 100029, China LIANG Hong, XU Nanshan, LU Gang. Analysis of users and users’Weibo information in Sina Weibo. Computer Engineering and Applications, 2015, 51(7):141-148. Abstract:Based on the relationship network of Weibo users, the number of fans, User PR values and users’activities are considered as measurements of users’influence on Weibo with the distributions of the three factors. Results show that both the distributions of the number of fans and User PR values follow power-law distribution. It is found that there are much more verified users in top User PR ranking list than in fans ranking list and it is suggested that top activity users are much more popular in advertisement campaign after analyzes the top users and their posts in fans ranking, User PR ranking and activity ranking. It is also found that Sina Weibo users prefer to repost and comment on other users’Weibo. There are a large number of images, videos and links on Sina Weibo, and most of them are reposted from another user. Key words:Sina Weibo; User PR values; user activity; user influence; power-law distribution 摘 要:基于新浪微博用户之间的关注关系网络,分析了衡量微博用户影响力的三个指标——粉丝数、User PR 值以 及用户活跃度,发现粉丝数分布和 User PR 值分布均服从幂律分布,活跃度分布不同于前两种分布。分别对三种排 名靠前的用户及其发布的微博进行分析,发现排名靠前的用户中,User PR 值的认证用户多于粉丝数;活跃度排名靠 前 的 用 户 在 广 告 营 销 活 动 中 受 到 广 泛 的 青 睐 ;新 浪 微 博 用 户 乐 于 转 发 和 评 论 他 人 的 微 博 ,微 博 中 嵌 入 了 大 量 的 图 片、视频和链接。 关键词:新浪微博;User PR 值;用户活跃度;用户影响力;幂律分布 文献标志码:A 中图分类号:TP38 doi:10.3778/j.issn.1002-8331.1305-0264 1 引言 近 年 来 ,各 种 在 线 社 交 网 站 呈 现 爆 炸 式 的 增 长 趋 势 ,社 交 网 站 越 来 越 受 到 人 们 的 关 注 和 青 睐 ,包 括 社 交 网络服务、论坛、博客等。国外主要流行的社交网站有: Facebook、Twitter、LinkedIn 等,在国内,人人网、新浪微 博等社交网站已成为人们耳熟能详的社交网络服务,在 线社交网站已成为年轻人搜集信息和与志同道合的人 交朋友的主要平台 。 [1] 新浪微博于 2009 年 8 月推出以来,迅速受到广大网 民的欢迎。截止 2012 年 12 月底,新浪微博注册用户已 超 5 亿,日活跃用户达到 4 620 万,在 2013 年蛇年新春之 际,第一分钟内共有 731 102 条微博发出,目前用户平均 每天发布超过 1 亿条微博内容。如今,微博正迅速渗透 到人们生活的方方面面,改变着人们的生活。对于社交 网 站 ,一 个 重 要 的 研 究 问 题 是 表 征 和 识 别 有 影 响 力 的 人 ,这 些 有 影 响 力 的 人 可 以 定 义 为 影 响(在 新 浪 微 博 中 可以理解为一个用户发布的微博信息被其他用户接受 和转发)大部分其他用户行为的用户 。 [2] 对于全球在线 微博服务 Twitter,近年来已有许多的研究工作是基于其 影 响 力 的 研 究 的 。 邵 凤 [3] 等 分 别 从 微 观 、中 观 和 宏 观 三 个层次对微博系统的研究现状进行了回顾,分析了不同 指 标 的 有 点 ,并 指 出 其 不 足 及 未 来 若 干 可 能 的 研 究 方 向。Cha 等 假 [4] 定 Twitter 上用户关某某的数量不是衡量 用户影响力的有效方法,提出了三种不同的测量用户影 基金项目:中央高校基本科研业务费项目(No.ZZ1224)。 作者简介:梁某某(1988—),女,硕士研究生,主要研究领域为复杂网络与社会计算;许某某(1956—),男,副教授,主要研究方向为 数据库;卢某某(1981—),通讯作者,男,博士,讲师,主要研究方向为复杂网络与社会计算。E-mail:***6@qq.com 收稿日期:2013-05-21 修回日期:2013-07-18 文章编号:1002-8331(2015)07-0141-08 CNKI 网络优先出版:2014-03-13, http://doc.001pp.com/kcms/doi/10.3778/j.issn.1002-8331.1305-0264.html 142 2015,51(7) Computer Engineering and Applications 计算机工程与应用 响力的方法——用户的入度即用户的粉丝数、用户的微 博被转发的次数以及用户的提及数。Romero 等[5]通过 实验数据证明了 Twitter 上基于用户关某某的数量衡量 用户影响力的方法并不好,提出了被动性转发作为衡量 用户影响力的一种方法。Kwak 等 提 [6] 出了以 Twitter 粉 丝 网 络 的 PageRank 值 作 为 衡 量 用 户 影 响 力 的 有 效 方 法。然而,对于国内最受欢迎的微博服务 ——新浪微 博,目前对其研究工作主要是集中于传播学领域的定性 分析 ,而 [7-9] 对于其影响力的定量分析的研究还相当少。 Yu 等人[10]基于新浪微博热门话题的统计分析对其进行 了定量研究。 新浪微博用户之间的交流是通过一种“关注与被关 注 ”的 机 制 ,微 博 用 户 通 过 这 一“ 关 注 与 被 关 注 ”机 制 形 成了庞大的社会关系网络。一个微博用户 A 可以“关 注”用户 B,成为用户 B 的“粉丝”,同时也可以被用户 B “关注”,使得用户 B 成为用户 A 的“粉丝”。一旦用户 A 成为新浪微博上的一个关注者,那么用户 A 就可以接收 其所关注的用户发布的所有微博,并且可以转发和评论 关注的用户发布的微博。用户可以在新浪微博上发布 140 字内的微博,同时还可以发布图片和视频等信息,这 不同于美国的 Twitter,Twitter 目前还没有支持图片和视 频的链接。 本文根据新浪微博用户关注关系网络拓扑结构,分 析用户关某某分布与粉丝数分布;并借鉴 PageRank 算 法思想[11-13],基于粉丝网络的 User PR(用户的 PageRank) 值分析其 User PR 值分布;基于用户发布、转发的微博 数以及用户对其他用户的微博的评论数研究用户的活 跃度分布;基于用户的粉丝数排名、粉丝网络的 PageRank 值 排 名 以 及 用 户 的 活 跃 度 排 名 ,分 析 用 户 的 影 响 力 ,并 对统计中有影响力的微博用户发布的微博进行随机抽 样统计分析,观察用户的信息分享特征。 2 微博用户影响力因素 微博用户的粉丝数是衡量一个用户受欢迎程度的最 直观的参数,表明一个用户影响力的最初的覆盖范围 ; [14] 微博用户的 User PR(用户 PageRank)值不仅考虑了用 户 的 粉 丝 数 ,还 考 虑 了 用 户 粉 丝 的 质 量 ,用 户 的 粉 丝 影 响 力 越 大 ,那 么 此 用 户 的 影 响 力 越 大 ;微 博 用 户 的 活 跃 度体现了用户参与微博信息交流的频度,越活跃的用户 其 发 布 、转 发 微 博 以 及 评 论 他 人 微 博 就 越 多 ,参 与 的 微 博互动就越多,其发布的微博信息越容易被其他用户浏 览和接受,对其他用户的影响力也就越大。本章详细分 析 影 响 新 浪 微 博 用 户 影 响 力 的 这 三 个 因 素 —— 用 户 的 粉丝数、用户的 User PR(用户 PageRank)值以及用户的 活跃度的分布情况。 2.1 实验数据 本文的实验数据是基于新浪微博 API 接口,采用广度 优先的方式,从大度节点开始爬取的。从 2011 年 5 月 30 日开始,一直爬取到 2012 年 1 月 6 日,共得到 6 509 075 个用户信息(集合 U ),这些用户发布的共 32 627 963 条 微博和 26 884 365 条评论(集合 S ),以及 37 736 037 个 用户关系(将这些用户关系中的所有用户的集合称为集 合 R)。 由于大量的垃圾用户如僵尸、水军等加入到新浪微 博 中 ,在 爬 取 的 数 据 中 ,必 然 存 在 一 些 垃 圾 用 户 。 在 集 合 U 中,存在这样一些用户,他们的用户信息是不完整 的,所发布的微博数以及参与的评论数很少甚至为 0。 在对数据进行处理的过程中,将这部分用户视为垃圾用 户并去除与之相应的连某某。 同时,用户关系 R 和用户信息 U 是通过两个不同 的进程基于相应的 API 接口爬取的。由于 API 接口的 特性不同,用户关系的 API 允许在每次爬取的过程中获 取大量的用户关系,因此用户关系的数据获取速度比用 户信息的数据获取速度要快很多。在对初始数据集进 行初步分析后,为了更好地结合集合 U 中的用户信息 进行研究,分别在集合 U 和集合 R 中筛选了 U ? R 的用 户以及他们之间的关注关系,进行了二次分析。 最终得到 3 585 761 个用户节点,14 842 707 条用户 关注关系以及 27 591 951 条微博和 15 263 141 条评论。 2.2 用户关系网络拓扑结构分析 微博用户的粉丝数是衡量一个用户受欢迎程度的 最直观的参数,表明了一个用户影响力的最初的覆盖范 围 。 [14] 用户的粉丝数越多,用户发布的微博的受众就越 多,信息扩散的可能性就越大,用户影响力就越大。 图 1 显示的是初始数据的用户关某某分布和粉丝 数分布的分布情况,图 2 显示的是经过处理后的用户关 注数分布和粉丝数分布的分布情况。从图 1 和图 2 中可 以 看 出 ,在 去 除 数 据 集 中 的 无 效 用 户 后 ,用 户 的 关 注 数 分布和粉丝数分布均发生了一定的变化,分布曲线均趋 于某某,关某某分布和粉丝数分布均服从幂律分布。 在关某某分布中,去除无效用户后分布图中明显的 两个毛刺没有了。初始数据集中存在大量的垃圾用户, 在对数据进行处理的过程中,发现大部分被定义为垃圾 用户的用户账号在新浪微博中已不存在,可见他们在新 浪微博上存在的时间很短,并且他们的关某某大都大约 在 30 人左右,因此导致了初始数据中用户的关某某分 布在 X = 30 的时候出现了一个尖峰,第二个毛刺出现在 X = 2 000 的时候。从图中可以看出,X > 2 000 ,用户的 关某某迅速下降。在 2012 年 7 月 4 日以前,新浪微博用 户的关某某上限为 2 000,也即一个微博用户最多可以 关注其他 2 000 名微博用户;2012 年 7 月 4 日以后,新浪 微博推出了会员制,开通会员的新浪微博用户的关某某 上限可以超过 2 000 人。 梁 宏,许某某,卢 罡:新浪微博用户及其微博特征分析 2015,51(7) 143 Number of followings 108 107 106 105 104 103 102 101 101000 Followings 101 102 103 104 Followings (a)用户关某某分布 108 107 106 105 104 103 102 101 101000 Fans 101 102 103 104 105 106 Fans (b)用户粉丝数分布 图 1 初始数据集的拓扑结构分布 Number of fans Number of followings 107 106 105 104 103 102 101 101000 Followings of Handled 101 102 103 104 Followings (a)用户关某某分布 107 Fans of Handled 106 Number of fans 105 104 103 102 101 101000 101 102 103 104 105 Fans (b)用户粉丝数分布 图 2 经过处理后的数据集的拓扑结构分布 从 粉 丝 数 分 布 图 中 可 以 看 到 ,经 过 数 据 处 理 后 ,初 始数据集分布在 X = 5 000 时候的尖峰已经没有了。由 于初始数据中存在大量的垃圾用户,而这些垃圾用户大 都 会 有 选 择 的 去 关 注 粉 丝 数 较 多 的 用 户 ;同 时 ,由 于 新 浪微博 API 接口的限制,在每次爬取数据时最多只能获 取用户的 5 000 个粉丝;因此导致了初始数据集中粉丝 数分布在 X = 5 000 的时候出现了尖峰。新浪微博中一 些大度节点用户的粉丝中往往存在一些僵尸粉(垃圾用 户),去除了这些僵尸粉之后,新浪微博用户的粉丝数分 布严格服从幂律分布。这与 Twitter 的粉丝数分布有一 定的不同,在 Twitter 上,用户的粉丝数分布在 X = 105 之 前符合幂律分布,而超出了 X = 105 的数据表示用户的 粉丝数超过幂律分布预测 。 [10] 2.3 PageRank 算法排名 借鉴 PageRank 算法思想 ,在 [11-13] 新浪微博中,用户 A 关注用户 B,表明用户 A 认为用户 B 是有价值的,也即 用户 A 为用户 B 投了一票。用户 B 收到的投票数越多, 其 受 欢 迎 程 度 越 大 ,在 微 博 中 的 重 要 性 越 大 ,对 其 他 用 户的影响力也就越大,那么其 PageRank 值也就越高。 在新浪微博粉丝网络中,考虑到每个粉丝用户的影 响 力 ,如 果 粉 丝 用 户 越 重 要 ,那 么 他 所 关 注 的 用 户 就 能 获得较高的重要性。如果一个用户关注了 N 个用户, 可以认为此用户将其重要性平均分配给了 N 个用户, 则 每 个 获 得 关 注 的 用 户 将 从 此 用 户 获 得 1 N 的 User PR 值(用户的 PageRank 值)。据此可以定义一个微博用 户的重要性由所有关注他的用户的重要性经过递归算 法得到。则微博用户的 User PR 算法定义为 : [15] å UPR(ui) = 1-r N + r u j Î M (u j) U PR(u L(u j ) j ) (1) 其中 u1啜 u2啜 ?啜 un 是微博粉丝网络中的微博用户,M (uj) 是 uj 用户的粉丝数量,L(uj) 是 uj 的关某某,而 N 是所 有的用户数量。 r 是阻尼因素,一般为 0.85,表示一个 用 户 关 注 另 一 个 用 户 时 所 获 得 的 实 际 UPR 分 值 。 (1 - r)/N 可以抑制微博用户 User PR 值的传播,使得所 有用户的 User PR 值不会为 0,至少是 (1 - r)/N 。 图 3 为根据公式(1)得出的基于新浪微博用户关注 关系网络的用户之间的 User PR 值分布,其中 x 轴表示 的是 User PR 值的大小,y 轴 f 表示具有某一特定的 Us- er PR 值的微博用户占总用户数的比值。从图中可以看 出 ,除 了 极 个 别 散 列 的 点 之 外 ,基 于 新 浪 微 博 用 户 关 注 关系网络的新浪微博用户的 User PR 值服从幂律分布。 图3 100 10-1 10-2 10-3 f 10-4 10-5 10-6 101-70-8 10-7 10-6 10-5 10-4 User PR 10-3 10-2 基于用户关注关系网络的用户的 User PR 值分布 144 2015,51(7) Computer Engineering and Applications 计算机工程与应用 Number of statuses 106 105 104 103 102 101 101000 Statuses 101 102 103 104 105 Statuses (a)微博数分布 Number of comments Number of activity 106 Comments 105 104 103 102 101 101000 101 102 103 104 Comments (b)评论数分布 图 4 新浪微博用户活跃度分布 106 105 104 103 102 101 101000 Activity 101 102 103 104 105 Activity (c)活跃度分布 2.4 微博用户的活跃度分析 微博用户的活跃度定义为用户在微博上发布微博、 转发他人微博以及评论他人微博的频率。用户的活跃 程度,直接影响其对其他微博用户的影响:越活跃,发布 内 容 越 频 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 scheme[J].IEEE Transactions on Signal Processing,2003,51(4):950-958. [15] Lowe D G.Distinctive image features from scale-invariant key points[J].International Journal of Computer Vision, 2004,60(2):91-110. [16] Lindeberg T.Feature detection with automatic scale selection[J].International Journal of Computer Vision,1998, 30(2):79-116. [17] Weinheimer J,Qi X J.Towards a robust feature-based watermarking scheme[C]//Proceedings of IEEE International Conference on Image Processing,2006:1401-1404. [文章尾部最后500字内容到此结束,中间部分内容请查看底下的图片预览]请点击下方选择您需要的文档下载。
以上为《新浪微博用户及其微博特征分析》的无排版文字预览,完整内容请下载
新浪微博用户及其微博特征分析由用户“niejiangmin123”分享发布,转载请注明出处