在线社交网络研究分析编辑本段回目录
来源:本文根据6月2日方滨兴院士在《2014年国际工程科技大会-信息网络和社会发展分会》报告整理
大家好,我想报告一下我们的一个研究,我们的一个研究室在线社交网络的研究与分析。这也是我们一个团队在做的一件事情。
先简单说下我们的背景和意义。社交网络大家都有接触。在这个社交网络中,他实际上是包括了四种现象,第一种我们把它称作即时消息,他之所以能作为一个独立的,一定有一个双方互信推送的方法,你认识我,我也认识你,然后信息实时推送。第二个是在线社交网络,在线社交网络就像我们的交友网,像facebook这种,这也是双方要相互信任,双方互信,然后呢它需要在线,否则就是一种推送,需要在线。第三种是微博,微博是单方推送,就是我相信你是做米粉,但是被粉的人他自己不了解自己是谁,所以我们说它是单信的,但它是一个推送的。再有就是共享空间,共享空间呢,我也是单信的。一个博客,我觉得这个博客好,我相信你的博主,我来看,我来评论,但是被评论人不知道是谁在评论,所以单向。包括购物也是,我知道你是商店,但是商店买家不明确,而且它是需要在线。
那么在线社交网络发展迅速大家都知道。那么这里它应该在各方面都发挥着它的重大影响力。政治方面它有正面的影响力,当然也有负面的影响力。同样经济方面也有正的影响力,它可以推动消费,但它也有负面影响力,涉及单信过程,这里会主动出现很多欺骗的行为。文化方面也一样,它有它的正面的影响力,它有一套很好的扩散方法,但是也可能会有一些负面的影响力,就是非时因现象可能导致极端思想的产生。生活方面也是有正面的,大家在一个圈子里面,当然也有负面的,这种隐私呢会被滥用破坏等。
那么这里面有些什么的科学问题,社交网络在这里边有三个核心。首先是表现在它的网络结构,其次表现他的群体互动,再一个表现是传播。这三个维度,涉及的面也比较广,涉及到信息学,数学,管理学,多学科融合。为理解人类各种社交关系的形成,形成特点分析以及形成规律,需要有一套分析方法。
这样的话我们就从数据特点的视角,来看在线的社交网络。社交网络是信息网络化与社会个体结合和社会个体之间的连接关系构成的,这里既然是连接关系,它就包含了关系的结构、网络群体、网络信息的三要素。我们说,由点和边构成,它显然就是一个关系结构,这个结构就可以用图的形式来表现。这里边每个点都代表了一个具体的个体,这样多个点混在一起就形成了网络群体,所以他形成了社交网络。在群体里边他会传播信息,所以信息呢是他的要素。那我们从结构角度来看,结构的特点,很高兴,刚才那个Philip S. Yu也提到了大数据的来源。所以社交网络是典型的大数据。复杂性也是大数据的五个要素之一。多位演化性,它也是多变性。这些都是属于社交网络结构的特点。再有群体互动,它有它的特性,首先它有它的群体集合,大家都在说一句话,在说这句话的过程中大家都持有一个鲜明的观点。这些观点之间是相互碰撞的,形成强交互。而且这里面的情感变化有助于人们在自己的生活中,他们的情感变化都可以在网上抒发。
信息传播也有它的特点。传播可能会有多样性,我们有些人可以在每个微博他都转。比较著名的大的微博,像新浪啊、Twitter、腾讯啊、网易、搜狐,很多人为了扩大影响力,五个他都有,每个都分别去说,因为现在还没有做到这五个互联互通。当然有的也放在MS、贴吧也可以放去。而且这里面要有一些相互的影响性,传播的信息是互相有影响力的。而且内容也可能是演化的,本来说的是这个内容,随着这个内容刷掉,最后演变成了另一个内容。这些都是它的一些特征。
这样的化我们说这里边的三个要素实际上就存在着三个科学问题,第一个科学问题是结构,第二个科学问题是它的行为,第三个科学问题就是围绕传播。
我们看围绕结构呢,它的分布是针对社交网络节点海量,结构复杂性和多维演化等特点,研究社交网络的建模方法、共性特征的分析方法以及社交网络的发现方法及其演化规律。
对行为而言,行为主要是要研究针对社交网络中群体交互强实时性,影响力动态演化的特性,研究群体行为形成机理、情感建模方法、群体交互影响度量,网络群体的产生、发展、消亡规律。
从传播角度来说,我们重点要研究针对社交网络中信息的多源并发,内容演化等特性,要研究信息内涵的表示方法,传播能力度量方法、信息传播规律、演化机理,以及信息传播影响力最大对抗策略。
第二块我们可以把它分成很多具体的研究点。第一个是社交网络特征分析及建模,那么呢社交网络特征分析建模呢,它是整个所有分析的基础。这里可能涉及到二部图模型,有向图模型,涉及到小世界现象呀,重尾分布特性,WS模型等等。第二个是虚拟社区的发现技术。围绕虚拟社区的发现技术,这里主要研究搞社交网络分析的发现社区是必须的,没有社区就达不到群体互动,但是社交是捆在一起的。你要简单纯互联的话,我们曾经测过,简单纯互联的话最大社区到两亿多,但是这只是一个互联,但是针对一个具体话题,它有一个虚拟社区,这群人研究这个问题,那群人研究那个问题,尽管他们本身有一部分的互联关系。但是从话题来说,它可能是新的社区。所以这里社区呢就涉及到这个社区具体的呢就涉及到利用类似于贪心算法、概率模型研究虚拟社区静态演化,同时还要通过类似于派系算法、标签传播呢研究虚拟社区动态演化发现。第三个就是社区他还在演化,随着离开社区或者社区话题的热闹啊加大,所以说这里边需要对演化机理进行分析和识别。这里面可能有的是在扩充,有的是在合并,有的是在缩小,主要研究基于结构多样性和平衡性演化方法来研究社区演化算法,或者是同质社区的识别稳定社区的识别来研究同质虚拟社区识别算法。
从行为的角度来说,第一个是个体行为的分析技术。群体行为是建立于个体行为之上,所以个体行为显得更为重要一些。个体行为可能在转发信息,可能在评论信息,也可能是在对谁去说。这里就涉及到一些模型,包括接受模型或者确认模型等来研究个体的现象描述。
再有就是研究个体情感的分析技术。社交网络当中每个人的情感是不一样的。从情感中也能看得出来,他看到了什么,或者是什么东西去触发了他。这里像生气、流泪、憨笑。其实不同的媒体可以拿出不同的表态,表现方式有的是7种,还有是9种,甚至是10种。总之很多是靠人主动去表达出的,现在就是这种情况。当然还有的呢是人工没有表达,通过语言来判断他是处于某种情感。所以这里就涉及到一些最大认证模型或者其他模型等等。
在行为里面第三个就是个体影响力的分析。因为我们要研究群体的分布,就要研究它的影响情况。群体影响是由个体影响组成的。个体影响最大了才能称为意见领袖。这里就需要研究影响力才能判断谁在这里是意见领袖。影响力大了扩散能力就很强,影响力小了扩散能力就很弱。尽管他只是一个节点,但是社交能力取决于影响力。所以就会涉及到HITS算法或者说PageRank算法等等。都是判断影响力的。
行为里边第四个就是群体聚集及影响机制。群体之间对个体是有影响的。一个单一的他本来没有太多情感在这里,但是由于群体一哄而上,他就可以带动起来。所以我们经常说“墙头草”啊,或者说“随波逐流”啊,这在社交网络中表现是特别明显的。明明你有这种观点,一发现呢,人人都提这个观点。甚至有人说的观点就会被人骂一顿,他就再也不敢说了,往往就不说话了。除非是在线下有很强的组织、结构啊,在线上才能强行地展开。所以线上的PK或者互相较量,往往靠线下。如果线下没有支持的话,线上一般就是一边倒。。个体影响力会受到虚拟影响力的强化。这里面像蚁群算法呀都在反映。
从传播的角度来说,实际就是信息检索技术,这么大量怎么检索信息,传统的是用关键字来检索。但关建字检索可能会精准度比较差,所以人们研究事件先验算法呀、微博语言模型呀这些微博搜索算法,或者通过共同分解模型、正则化模型研究基于模型的社会推荐算法。使得搜索的精度更高一些。信息传播规律也是研究的非常重要的一点。比方说通过研究规律,我们可以预测下面的信息是如何传播。这里边会涉及到一些经典的,像原子核式爆发传播,烟花式僵尸爆发传播,或者病毒爆发时传播等,一般真实状态能够感觉出来,但是像有的那个一看就是人为造出来的,或者说水军干出来的呢可能就是像这种。这些都是能判断出来的,哪些是真实的哪些是机器。所以这就是涉及到线性阈值模型、独立级联模型,来研究基于网络结构的传播模型。涉及到信息竞争传播模型和多源信息传播模型来研究基于信息特性的传播模型。再有就是话题发现和演化。一个新话题怎么发现,这个往往是舆情研究的人比较关注的,那么还有发现新话题还要看看他是怎么演化,比如越南反华这个,转转转就转到了,这就是一种演化,就是一种变化。这个呢就应该在预测中有所判断。这就涉及包括向量模型和测量算法去研究发现算法,以及基于组织模型话题演化去研究话题的演化算法。
再就是影响力最大化。主要是研究哪个信息传播影响力最大,哪个节点,如何传播的。这里边就涉及到包括叫做懒惰前向算法和混合贪心算法来去研究影响力最大化贪心算法。还有这个呢是基于线性阈值的模型、路径启发式算法来研究影响力最大化启发式算法。还有呢就是基于博弈的影响力最大化算法来研究影响力最大化问题延伸算法。
因为我们做一些研究在这几方面,包括基于加权想干领域紧密度的标签传播社区发现方法、基于种子扩散的局部社区发现方法、在线社会网络用户行为驱动力及模型研究、基于情感突发的在线突发事件监测模型、微博中基于多关系网络的话题层次影响力个体挖掘方法、微博流行度预测方法、微博中结合事件与网络位置的个体传播能力分析方法、基于个体知识的微博流事件检测方法、基于异构并行方法的的影响最大化加速算法。
因为时间有限,我就临时删掉一些,就选取了几个有代表性的。举个例子就是基于加权相干领域紧密度的标签传播社区发现方法。人们一般研究什么呢,研究都是看这个标签,因为要看邻居,标签,如果我有我的邻居,我周边哪个信息最强,比如说蓝色区域最强,我就获得这个最强信息这样的话我就会把它扩散,像这个点受他影响,比方说,他就变成这个颜色了。那么这个颜色就会扩散下来。按这种扩散方式呢就会往下演变。这个也是,这个点就会变红,他俩在一起会影响到他,他俩在一起会影响这一边,那么这两个就会强行往下走。我现在说的是社交网络的传统算法,这个传统的标签算法就会导致,其实我们从直觉来看这是两个社区,因为它的连接度是很单薄的,应该是两个社区,但是用传统的方法就会把它变成一个社区,所以这样的话就会导致社区的发现不太精准,不太精准的话我们就提出一些新的思想。在这儿就提出了几个词汇,我们叫他紧密度,一个叫直连紧密度,这两个能直接和哪个连。这两个本身有直连,,本身有直连的要给它加权,我们算一下紧密度,它俩肯定有共同的点,构成一个三角,有三角就会加强它俩之间的互相的耦合。再有一个是邻居节点,我们叫配合紧密度,就是他们邻居的邻居,是一起的叫配合紧密度。利用这三个权重,我们重新做一下计算,重新计算呢就是说我们依据一个边,每个边会有一个权重,这个值呢我们是用这个直接紧密度、三角紧密度和配合紧密度放在一起,放在一起呢来决定这个边。通过这种计算我们就可以,比如说这个紧密杜是1,在这个里面呢,因为他是有两个。这种扩散方法呢,因为对方是1,它就没有机会往这边送,而会使,因为这两个点,它走向它,通过直接紧密度和三角紧密度,它俩都是三,所以他俩作为目标影响。这个同理,这样的话我们就形成了两个社区,而这两个社区从拓扑结构来看他实际也是两个,所以这样的话我们算结果就是针对它。那么我们拿这个做了真实实验,通过真实实验判断我们这个算法对通过计算得出来的值是直接的用户值,这个用户值就比其他算法的值好。这个是通过实验得到的,采取这种方法,加权边,通过紧密连接,三角配合,计算因子得出来的社区,精准度比较高一些。
再看第三个,基于情感突发的在线突发事件检测。我们一般的在线突发事件检测呢,都是来了所有的工作量再去读,看那个文档流,查那个词。但是文档流因为量非常大,这里边哪个是突发事件,这个计算量比较大,所以算出来的结果精准度上会有很多问题,而且噪音很大,因为他说的话,没法表达判断出来他说的这个话是跟这个突然事件有关还是他自己很个性的一个事情。那么怎么办呢,我们就采取,既然突然事件是应急的。大家看到这个事情,一定会有各种情感的表达,比如说惊恐啊、惊喜啊、悲伤啊、等等,如果没有,很平淡,大家很平淡对这件事,它一定不是突发事件或者是过去的事件,或者是这件事件不足为奇。这样的话我们就抽取情感。因为情感词抽比较简单,平平淡淡说的话没有情感简单甩掉。所有的情感都汇聚起来,这样的话所有惊讶、悲伤、恐惧都汇聚起来。汇聚起来之后跟他有关的这个集合一下就变得很小,当这个集合变得很小的时候,从里边再抽事件,就没有什么噪音了,这就很精准了。这样的话,他们通过实验结果呢,他发现事件的发现呢效果就挺好。我觉得比其他的效果好,而且速度也快。主要就是说你甩掉了大量的可以不处理的信息,然后呢,集中去处理那些很小的集合。
我们再说一个是微博中基于多关系网络的话题层次影响力个体挖掘方法。到底谁有影响力,影响力一般人们采取简单的粉丝数多少啊,被转发数啊,转发量是多少啊,这种直截了当的。或者PageRank呀这都是人们常用的方法,但是我们发现这种传统方法呢,没有考虑到它里边特殊的更真实的东西,像这种算出来呢,精度并不是很高。所以呢,我们就说还有什么要考虑呢,我们就说,一个信息是有转发的,这个大家都看到了,还有回复的,也都看到了,这个没有问题。但是实际上我们还有,除了转发和回复,我们还有拷贝,也就是说拷贝人们从来没关注过。为什么呢,比如说人家说个话,突然有个人他也不是转发,也不是回复,他自己也说话,这个话一看跟人家是一样,所以这个呢我们认为人家先说你后说,我们就认为你是来自于他,尽管你没有直接亮。所以我们说那个人的影响力大,才导致你跟说这个话,这样的话呢就把这个复制现象找出来了,而复制你找不到人,所以人们都忽略这种方法,我们就把复制找出来了。当然还有就是评论。再一个就是阅读,阅读现在也有些人在关注,因为现在也有很多人可以看到他的阅读次数,也就是说,我们把五个全放在上边,你发贴,然后你转发,被评,被人回复,被阅读,拷贝,这些都放到里边,再去计算他的影响力的时候,他的真实影响力的表现一下就能反映出来,也就是说谁在这里边最具影响力,通过所以这些要素合在一起然后再进行计算的话他的影响力就计算出来了。我们用这种方法,对一些真实情况做了一些实验,实验的对比说明我们用我们这个影响力方法效果是最优的。
再举个例子,微博流行度的预测方法。一个微博,你在发,它会不会流行,为什么会流行,需要有个预测。这个预测我们就通过观察呢来给出一个结论。一个是要看微博的固有特征。微博的固有特征是能够影响到的。比如说这个是跟时事特别结合,或者这个特别抓人眼球,这个太怪了大家很少说这种话,或者这个是个大V,他说话大家都爱跟,这些都是固有特征。还有特征就是大家很少关注,他有早期传播的深度。信息早期传播的深度和早期的连接密度,实际上都影响了它的传播。我们通过研究,我们判断,如果早期的连接密度越低,什么叫链接密度越低呢,就是说你不是你一说一大堆你的粉丝都跟着转,如果你一说,你的粉丝都懵了,反而走下去了,这事热闹劲就过去了。你一说,你的粉丝转的必定多,这个往下走的深。他粉丝再往下转,就是深度很高。早期是这样的话,他就会突然间大爆发。为什么那些人觉得这真是个事儿,以为别人说的少,完了他说我赶紧告诉大家。就越转越多。所以说早期不能是轰一下转发,轰一下转发,就觉得很无聊这个话题,说着没意思。所以这个就是要抓住这个要害,最终流行度和早期传播深度都是有关的,要想让他流行的好,早期传播深度应该是高的。那么通过这个来做实验,就来看,根据他的早期连接深度深的和早期连接度低的来判断,最后判断结果来看 ,确实这些最后传播的部分的最终扩散的比较深。
最后一个呢再举一个例子,就是基于个体知识的微博流事件检测方法。我们说要检测一个微博流事件呢,我们去组织,我们过去呢,人们都是直接从一些事件来看,这个事件那个事件来判断。你这个新的事件是不是跟已有事件不一致,如果不一致的话你这个就是一个新事件,如果一致的话就说明不是一个新事件,大家都这个做。,他们这样做呢误判率也比较高,而且比较复杂。我们提出一个什么方法呢,我们就是随便盯住一批人,你要想盯住一批人呢这些人的博客你都拿到手了假定,这样你就可以扮演他的角色,然后你每发一件事情,当你看是新的话你就问这个人,当然不是真的问他,你就把这个信息和这个人所有的博客信息做个匹配,看看他在他的历史博客中说没说过这个事。也就等于他知道不知道这件事,他有没有转发过这件事,然后用他的信息去投票。如果有人说这个我见过,你模拟他,他的投票是这样的。那你的这种方法就会被否掉。所以用这种方法就跟用EP的方法,他来判断,你这个是我关注的东西啊,还是我参与的东西啊,还是我转播的东西啊,通过它,个性化对它做判断。然后呢我们说做个投票表决,这个投票表决的结果呢,来判断你这个是不是一个新的东西。如果呢主要都是不确信或者没见过,这个就肯定是新的。但凡是有见过的,那肯定就不是新的,所以用这种方法来判断,最后我们觉得,这个判断准确度也高,效果也比较好,因为有见过的。这样通过实验看出来,我们这个方法检测出来的准确率一下子就提高到60%多将近百分之六七十。我们这个研究是有一个社交网络的开源社区,这个开源社区有港澳分部有澳洲分部还有北美分部。近1300多名专家在这里做实际工作。这个Socialysis.org就是我们那个社区。那么我的报告就到这里。