加入收藏 | 设为首页 | 会员中心 | 我要投稿 源码网 (https://www.900php.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

计算社会初探

发布时间:2021-02-23 05:03:51 所属栏目:大数据 来源:网络整理
导读:副标题#e# “计算社会科学”的学科概念已提出四年多,但国内信息科学界的很多学者认为计算社会科学基本等同于社会计算,或者干脆将计算社会科学看作社会计算的一部分,我认为为计算社会科学与社会计算之间确有交叉,但两者同时也有不同的侧重面向。社会计算关
副标题[/!--empirenews.page--]

首页图片

“计算社会科学”的学科概念已提出四年多,但国内信息科学界的很多学者认为计算社会科学基本等同于社会计算,或者干脆将计算社会科学看作社会计算的一部分,我认为为计算社会科学与社会计算之间确有交叉,但两者同时也有不同的侧重面向。社会计算关注的重点有两个:

  • 其一是关注信息技术在社会活动中的应用,关注在信息技术中如何嵌入人文知识使之更好地服务于社会活动;
  • 其二是为社会科学领域研究提供研究工具,重点关注信息技术的使用和发展。

计算社会科学关注的重点主要是使用信息存储、分析技术研究社会科学领域中的各种问题,发现社会运行规律。

计算社会在发现社会规律过程中的处理流程如下:

  1. 数据
  2. 处理
    • 社会网络分析
    • 社会建模
    • 数据挖掘
    • 机器学习
  3. 统计知识,验证知识

数据

计算社会科学以计算机等现代计算科学技术工具获取和分析海量社会化数据,数据形式主要包括文本 、图像 、视频和音频等,其大部分来源于Web网络信息,还有一部分来源于传感设备。
传统的关系型数据库并不能够支持海量数据,要获取海量大数据,肯定是从网页数据的获取:各种爬虫

爬虫


例如:
在R软件中有很多包可以方便爬取,比如RCurl拿网页,xmlParse对标准XML文件解析,XPath匹配想要的内容,如抓取财经数据http://vip.stock.finance.sina.com.cn/q/go.php/vIR_CustomSearch/index.phtml
这里很容易能够拿到表格里的内容:

财经数据

实例分析

计算社会科学领域研究者眼中的社会网络分析对象,主要包括对虚拟社会网络下的人物节点分析 、社群挖掘和社会图关系分析。

人物节点

个体网络行为分析市根据具体网络行为来分析人物个体,比如2015年首届天池大数据大赛的题目“阿里移动推荐算法”。
根据前一个月的用户行为数据来预测一个月后的行为,这就是社会挖掘,相关方法可以参见前五名的ppt1。
此外https://tianchi.shuju.aliyun.com/competition/index.htm?spm=5176.100170.1234.3.iKoqeh中的淘宝穿衣搭配算法、新浪互动微博算法也是对个体节点进行社会挖掘的实例。

社群挖掘

社群挖掘是社会网络分析的另一研究重点,社群通常由性质相似或功能相近的人物节点构成,在一定程度上反映了个体自发、无序行为背后的局部弱规则性和全局有序性口因此,发现虚拟网络中有意义的 、相对稳定的社群对网络信息的搜索与挖掘 、信息的推荐以及网络演化与扩散的预测具有重要价值 。
实例:广东公共交通大数据竞赛
主要面向人群:各种分类的通勤人群

社交网络图分析/计算

社交图


如上社交网络图在计算机存储的方式使用传统的关系型数据库的话会产生性能问题。比如要查询Richard指向谁,直接通过索引查询就可以找到其他人;但要查找谁指向Richard,就会引发数据库的全表扫描。但从图中明显只要判别下入度就可以了。

Neo4J
Neo4J是当前主流的图数据库产品,其社交网络图表示如下:

Neo4J


简单分析图数据库,有几个特点:

  1. 图在节点上记录数据(节点的属性,property)
  2. 节点由关系组织成图,关系也具有属性
  3. 寻路(Traversal,另一意思是遍历)在图上定位由节点组成的路径
  4. 索引(index)将属性映射到节点或关系
  5. 图数据库管理系统管理图其上的索引

GraphX

GraphX是 Spark中用于图(e.g.,Web-Graphs and Social Networks)和图并行计算(e.g.,PageRank and Collaborative Filtering)的API,可以认为是GraphLab(图像处理模型的开源图计算框架)和Pregel(google图算法引擎)在Spark(Scala)上的重写及优化,跟其他分布式图计算框架相比,GraphX最大的贡献是,在Spark之上提供一栈式数据解决方案,可以方便且高效地完成图计算的一整套流水作业。GraphX最先是伯克利AMPLAB的一个分布式图计算框架项目,后来整合到Spark中成为一个核心组件。
Graphx是Spark生态中的非常重要的组件,融合了图并行以及数据并行的优势,虽然在单纯的计算机段的性能相比不如GraphLab等计算框架,但是如果从整个图处理流水线的视角(图构建,图合并,最终结果的查询)看,那么性能就非常具有竞争性了。

GrahpX


其中GraphLab是图算法库,图中使用的是PageRank算法,可以参见:

PageRank

(编辑:源码网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读