作者:数据猿Riggle

来源:文科数据员

经过前两篇的学习,我们已经对社会网络分析有一个模糊概念了。

社会网络分析(一) | python的Networkx库基础知识

社会网络分析(二) | Network的论文

今天数据猿就整理了一下社会网络分析的基本概念,阅读时可不求甚解,遇到实际问题再进一步深究。

本文目录如下——

每一个节点连接的所有边的数量,包括出度和入度。一般来说,无向图中就是所有边的数量,在有向图中就是出度和入度之和。

出度

从该节点连出的边的数量

入度

从该节点连入的边的数量

平均度

网络中的平均度等于度除以节点数量。

  • 无向图中,平均度=度总数/节点数量

  • 有向图中,出度总数等于入度总数,平均度=出度总数/节点数量

平均加权度

在统计节点度时,也考虑边的权重。边权重非1情况时,就不能套用平均度的公式,需要加权计算。

可简单理解为和所有节点连接线

边的权重

每条边与之对应的值。因计算方式和意义而异。如边上是距离,权重就是距离。如果是社区探测,就是社区的联系程度。

中心性

计算出网络直径等网络的边的特性后,就可以计算出中介中心度(Betwenness Centrality)、亲密中心度(Closeness Centrality)、离心度(Eccentricity),还有新增的Harmonic closeness Centrality等。在Gephi中,

度中心性(Degree Centrality)

单纯的数量来衡量。又叫点度中心度,度越多,就越大。

接近中心性(Closeness Centrality)

一个节点能到达节点的数量除以所能到达节点的最短路径之和。

简单理解为与其他中心的中心性。接近中心性的值为路径长度的倒数。接近中心性需要考量每个节点到其它节点的最短路的平均长度。也就是说,对于一个节点而言,它距离其它节点越近,那么它的中心度越高。

中介中心性(Betweenness Centrality)

统计某个节点被其他节点,以最短路径通过的数量与图中最短路径总数之比。

一个结点充当“中介”的次数越高,它的中介中心度就越大。

离心度

从一个节点所有可以到达的节点中,找出最长的最短路径。即一个节点所能达到的最大的最短路径。

特征向量中心性(Eigenvector Centrality)

一个节点的重要性既取决于其邻居节点的数量(即该节点的度),也取决于其邻居节点的重要性。核心思想就是,一个重要的节点不仅与其他许多节点有连接,而且与他相连的节点也是比较重要的节点。

图密度

实际有的边数与最大可能边数之比。比如,3个节点,可只有一条边。那么图密度就是1/6.

连接组件

可以确定一个图中连接组件的数量。

  • 无向图中,如果所有的节点都可以连通,称为为连通图。

  • 有向图中,从任何一个节点沿着边的方向都可以到达任何一个节点,因此被称为强连通图。弱连通图是有部分节点可以沿着边的方向到达任何一个节点。

社会网络分析算法

模块化(社区探测算法)

根据图的连接关系对节点做归类,类型相同的节点会增加一个字段,用相同的数字表示。模块化在社会学中可以用于社区发现。

衡量网络图结构的模块化程度。一般>0.44 就说明该网络图达到了一定的模块化程度 。

Pagerank

是一种根据网页之间的链接关系对网页的重要性进行评分的算法。

平均聚类系数

聚类系数:一个节点一度连接的节点中,实际的边数与最大边数之比。

比如4个节点,从其中一个节点a出发,连接了5条,有1条对角线没有。实际边数就是没有直接相连的两个节点通过a的对点连接的两条边。那么节点a的平均聚类系数就是实际边数2/最大边数3。

路径长度

网络整体会统计图的直径(Diameter)、半径(Radius)、平均路径长度(Aerage Path Length),三个指标都与最短路径数(Number of shortest paths)有关。

最短路径

如下图所示,如果节点2要到节点1,最短路径不是2→3→4→5→1,而是2→3→5→1。

网络直径

一个网络中,所有最短路径的最大值。

平均路径

一个网络中,所有最短路径之和的平均值等于这个网络的平均路径长度。平均路径长度是整个网络的一个指标。

往期好文:

社会网络分析(一) | python的Networkx库基础知识

社会网络分析(二) | 论文阅读:中国与国际媒体互引的社会网络分析

python办公自动化(一) | chardet库自动读写多编码格式的文件

文科数据员公众号历史记录 | 2020年2月-5月

python制作微信公众号聊天机器人

参考资料:

刘勇,杜一.网络数据可视化与分析利器:Gephi 中文教程(全彩)[M]. 北京:电子工业出版社.2017

Vincent D. Blondel, Jean-Loup Guillaume, Renaud Lambiotte, Etienne Lefebvre - Fast unfolding of communities in large networks (2008)

文字编辑:数据猿Riggle

首发平台:公众号:文科数据员(HSS_data)

◆ ◆ ◆  ◆ ◆

麟哥新书已经在当当上架了,我写了本书:《拿下Offer-数据分析师求职面试指南》,目前当当正在举行活动,大家可以用原价5折的预购价格购买,还是非常划算的:

点击下方小程序即可进入购买页面:


数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。

管理员二维码:

猜你喜欢

 麟哥拼了!!!亲自出镜推荐自己新书《数据分析师求职面试指南》

 厉害了!麟哥新书登顶京东销量排行榜!

 笑死人不偿命的知乎沙雕问题排行榜

 用Python扒出B站那些“惊为天人”的阿婆主!

 你相信逛B站也能学编程吗

点击阅读原文即可参与当当5折购书活动

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐