广东工业大学学报 ›› 2017, Vol. 34 ›› Issue (03): 15-20.doi: 10.12052/gdutxb.170023

• 大数据基础理论与应用专题 • 上一篇    下一篇

基于Spark平台的社交网络在不同文化环境中的中心度加权算法

饶东宁1, 温远丽1, 魏来2, 王雅丽3   

  1. 1. 广东工业大学 计算机学院, 广东 广州 510006;
    2. 香港大学 经济与金融学院, 中国 香港 999077;
    3. 华南师范大学 经济与管理学院, 广东 广州 510631
  • 收稿日期:2017-01-15 出版日期:2017-05-09 发布日期:2017-05-09
  • 通信作者: 温远丽(1992-),女,硕士研究生,主要研究方向为金融智能.E-mail:1978113898@qq.com E-mail:1978113898@qq.com
  • 作者简介:饶东宁(1977-),男,副教授,博士,主要研究方向为金融智能、智能规划.E-mail:raodn@gdut.edu.cn
  • 基金资助:

    中央高校基本科研业务费专项资金资助项目(21615438);广东省自然科学基金资助项目(2016A030313084,2016A030313700,2014A030313374);广东省科技计划项目(2015B010128007)

A Weighted Centrality Algorithm for Social Networks Based on Spark Platform in Different Cultural Environments

Rao Dong-ning1, Wen Yuan-li1, Wei lai2, Wang Ya-li3   

  1. 1. School of Computers, Guangdong University of Technology, Guangzhou 510006, China;
    2. School of Economics and Finance, the University of Hong Kong, Hong Kong 999077, China;
    3. School of Economics and Management, South China Normal University, Guangzhou 510631, China
  • Received:2017-01-15 Online:2017-05-09 Published:2017-05-09

摘要:

社交网络广泛应用于科技、商业、经济和生物等领域.社交网络一般用中心性指标来对节点的重要性进行量化,常用的中心性指标有节点中心度、接近中心度、介数中心度、三角计数等等.已有的中心度算法通常只考虑单一的度量标准,本文提出加权中心度的思想,结合不同的中心度指标来进行综合考虑.该实验使用社交网络的真实BoardEX数据库,由合作单位香港大学提供,基础数据约600 G,需借助Apache Spark处理大数据的能力来进行集群并行计算.社交网络数据分成美国、英国、欧洲和其他国家4个地区,计算各地区上市公司的首席技术官和首席信息官的个人中心度,从而得到每个地区的平均加权中心度.实验结果表明,通过调整权值,可以使不同区域的加权中心度的差异尽可能小,且由权值大小可知不同中心度度量标准对加权中心度的影响不同.基于真实数据库和处理大数据的集群计算,本文的研究成果更具有现实意义和应用前景.

关键词: 社交网络, 大数据, 中心性, 加权中心度

Abstract:

Social networks are developed rapidly and used widely in the fields such as science and technology, business, economic and biological fields. People often use the centrality to quantify the importance degree of nodes in a social network. However, in the existing centrality algorithms, researchers only use a single centrality measuring, without considering the co-effects of different measuring. Therefore, a weighted centrality is proposed which is a function of different centrality measuring. Experiments here use a real social network database BoardEX, which is provided by our cooperative research institution, the University of Hong Kong. The size of the database is about 600G. This inspires us to use the Apache Spark platform to calculate such a big data. The experimental social network is divided into four regions:the U.S.A, the United Kingdom, Europe, others. First, the degree centrality of some persons, e.g. the chief technology officers or the chief information officers in a quoted company, in each region, is calculated. Then, a weighted function is constructed to calculate the average centrality. Experimental results show that, by setting the weighted values, the difference between the weighted centrality of regions is minimized. Besides, the weighted values reflect the contributions of various centrality measuring to the weighted centrality. With the application of real social network database and big data cluster computing, a more practical and promising application prospect is showed.

Key words: social networks, big data, centrality, weighted centrality

中图分类号: 

  • TP182

[1] LARCKER D F, SO E C, WANG C C. Boardroom centrality and stock returns[J]. Journal of Accounting & Economics, 2013, 55:225-250.
[2] HWANG B H, KIM S. It pays to have friends[J]. Journal of Financial Economics, 2009, 93:138-158.
[3] FRACASSI C, TATE G. External networking and internal firm governance[J]. Journal of Finance, 2012, 67(1):153-194.
[4] ISHII J, XUAN Y. Acquirer-target social ties and merger outcomes[J]. Journal of Financial Economics, 2014, 112:344-363.
[5] FALEYE O, HOITASH R, HOITASH U. The costs of intense board monitoring[J]. Journal of Financial Economics, 2011, 101(1):160-181.
[6] SURI N, NARAHAR Y. A shapley value based approach to discover influential nodes in social networks[J]. IEEE Trans Autom Sci Eng, 2010, 99:1-18.
[7] 郑巍, 潘倩, 邓宇凡. 移动社交网络中基共同邻居网络中心度的链路预测方法[J]. 计算机应用研究, 2016, 33(9):2743-2746. ZHENG W, PAN Q, DENG Y F. Link prediction algorithm based on common neighbors network centrality in mobile social networks[J]. Application Research of Computers, 2016, 33(9):2743-2746.
[8] 李明雪. 基于社会网络的社区发现和中心性分析算法研究[D]. 长春:吉林大学计算机科学与技术学院, 2016.
[9] 郭静. 社会网络影响力传播的分析与挖掘研究[D]. 北京:北京邮电大学计算机学院, 2014.
[10] JACKSON M O. Social and economic networks[M]. Princeton:Princeton University Press, 2010.
[11] CAI Y, SEVILIR M. Board connections and M&A transactions[J] Journal of Financial Economics, 2012, 103:327-349.
[12] 李静茹, 喻莉, 赵佳. 加权社交网络节点中心性计算模型[J]. 电子科技大学学报, 2014, 43(3):322-328. LI J R, YU L, ZHAO J. A Node Centrality evaluation model for weighted social networks[J]. Journal of University of Electronic Science and Technology of China, 2014, 43(3):322-328.
[13] 刘欣, 李鹏, 刘璟, 等. 社交网络节点中心性测度[J]. 计算机工程与应用, 2014, 50(5):116-120. LIU X, LI P, LIU J, et al. Centrality for nodes in social networks[J]. Computer Engineering and Applications, 2014, 50(5):116-120.
[14] 王晓彤. 基于PageRank的微博用户影响力度量[J]. 广东工业大学学报, 2016, 33(3):49-54. WANG X T. An evaluation of microblog users'influence based on Page Rank[J]. Journal of Guangdong University of Technology, 2016, 33(3):49-54.
[15] 林穗, 赵菲. 基于Spark的线性模型在广告投放系统中的应用研究[J]. 广东工业大学学报, 2016, 33(5):28-33. LIN S, ZHAO F. An application research of linear model in the advertising system based on Spark[J]. Journal of Guangdong University of Technology, 2016, 33(5):28-33.
[16] 曾碧, 林展鹏, 邓杰航. 自主移动机器人走廊识别算法研究与改进[J]. 广东工业大学学报, 2016, 33(5):9-21. ZENG B, LIN Z P, DENG J H. Algorithm research on recognition and improvement for corridor of autonomous mobile robot[J]. Journal of Guangdong University of Technology, 2016, 33(5):9-21.
[17] 陆靖桥, 傅秀芬, 蒙在桥. 复杂网络的鲁棒性与中心性指标的研究[J]. 广东工业大学学报, 2016, 33(4):302-308. LU J Q, FU X F, MENG Z Q. Research on robustness and centrality metrics of complex networks[J]. Journal of Guangdong University of Technology, 2016, 33(4):302-308.
[18] PAGEL, BRINS, MOTWASNIR, et al. The PageRank citation ranking:bringing order to the web[R].[S.l.]:Stanford InfoLab, 1999.
[19] 金宏桥, 董一鸿. 大数据下图三角计算的研究进展[J]. 电信科学, 2016, (6):153-162. JIN H Q, DONG Y H. Research progress of triangle counting in big data[J]. Telecommunications Science, 2016, (6):153-162.

[1] 谢光强, 许浩然, 李杨, 陈广福. 基于多智能体强化学习的社交网络舆情增强一致性方法[J]. 广东工业大学学报, 2022, 39(06): 36-43.
[2] 刘洪伟, 梁周扬, 左妹华, 陆丹, 范梦婷, 何锐超. 利用消费者浏览行为识别品牌竞争关系研究[J]. 广东工业大学学报, 2019, 36(05): 1-6,13.
[3] 黄健文, 朱雪梅, 徐莹, 熊璐, 张伟国. 基于多源大数据的岭南地区老旧小区空间形态量化研究[J]. 广东工业大学学报, 2019, 36(04): 70-79.
[4] 白颉, 姚家进, 张茂军, 李桥兴. 金融大数据中条件非相关波动模型的单纯形搜索算法[J]. 广东工业大学学报, 2018, 35(05): 26-30.
[5] 彭嘉恩, 邓秀勤, 刘太亨, 刘富春, 李文洲. 融合社交和标签信息的隐语义模型推荐算法[J]. 广东工业大学学报, 2018, 35(04): 45-50.
[6] 孙为军, 谢胜利, 汪谷银, 刁俊武, 阮航. 智能工厂工业大数据云平台的设计与实现[J]. 广东工业大学学报, 2018, 35(03): 67-71.
[7] 李卫华, 李志猛. 基于大数据运输集团生产运营决策系统的构建及应用[J]. 广东工业大学学报, 2018, 35(03): 113-118.
[8] 饶东宁, 王军星, 魏来, 王雅丽. 并行最小割算法及其在金融社交网络中的应用[J]. 广东工业大学学报, 2018, 35(02): 46-50.
[9] 谢振东, 吴金成, 李之明, 伍冠桦. 企业大数据能力的构建与培育研究[J]. 广东工业大学学报, 2017, 34(03): 110-114.
[10] 刘冬宁, 卢明俊, 黄宝莹, 梁路. 先序约束下的群组角色指派及其优化[J]. 广东工业大学学报, 2017, 34(03): 21-29.
[11] 毛莉娜, 李卫华. 用信息流和知网构建大数据语义共享通道研究[J]. 广东工业大学学报, 2017, 34(03): 30-35.
[12] 王晓彤. 基于PageRank的微博用户影响力度量[J]. 广东工业大学学报, 2016, 33(03): 49-54.
[13] 谭思妮, 陈平华. 蛛网态微博关系网中有影响力用户的识别研究[J]. 广东工业大学学报, 2015, 32(3): 61-66.
[14] 杜汉昌, 丁磊, 冯永晋. 面向零售业的大数据商业智能系统研究[J]. 广东工业大学学报, 2014, 31(4): 41-45.
[15] 李桥兴, 强保华, 杨春燕. 大数据基元的HBase数据库存储模型与实现[J]. 广东工业大学学报, 2014, 31(3): 8-13.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!