AAAI2017 Student Abstracts
从多个社交网络进行用户个性分析
Towards User Personality Profiling from Multiple Social Networks
圣彼得堡国立信息技术机械与光学大学
ITMO University
【摘要】在线社交网络的指数增长激励我们从大数据角度解决个人用户属性推理的问题。众所周知,各种社交媒体网络呈现用户交互的不同方面,从而从不同的角度表示用户。在这项初步研究中,我们首先从多个社交网络中解决了个性分析的重大问题。具体来说,我们解决与预期问题密切相关的关系预测任务。实验结果表明,与单源基准方法相比,多源数据的融合有助于实现更好的预测性能。
用户分析在许多应用领域(Farseev,Samborskii和Chua 2016)中起着越来越重要的作用。用户分析的关键组件之一是个性分析(Pennebaker,Mehl和Niederhoffer 2003),旨在识别个人的精神和情感特征。了解这些个人属性可以帮助人们了解自己行为背后的原因(Pennebaker,Mehl和Niederhoffer 2003),选择合适的人选执行任务(Song et al。2015),并激励人们接受生活中新的挑战。到目前为止,已经进行了几次关于个性分析的研究尝试。例如,一些研究小组从社会科学的观点(Pennebaker,Mehl和Niederhoffer 2003)研究了这个问题。然而,已有的大多数工作在本质上是描述性的,并且依赖于手工收集数据,这解释了该领域大规模研究的缺乏。随着网络近年来的发展,个性分析可以通过利用在线社交网络中丰富的数据来实现。例如,这些数据已经被用于自动个性分析的几项研究和评估,例如TwiSty(Verhoeven,Daelemans和Plank 2016)或PAN(Rangel等人,2015)。即使这些研究在自动个性分析方面取得了重大进展,但大部分都是利用单一来源(即Twitter)或单一模式(即文本)的数据进行的。这种个性分析可能导致次优的表现(Farseev和Chua 2017)。考虑到大多数社交网络用户在日常生活中使用多个社交网络(Farseev等人,2015a),利用多种数据源和数据模式来解决个性分析任务是合理的。
研究界采用了几种个性分类方案。最为广泛接受的类型之一是迈尔斯·布里格斯型指标(MBTI),这是Mayer和Briggs在1985年基于Carl Jung的理论提出的。类型学旨在表现出人们如何看待周围世界的心理偏好,并区分16种人格类型。同时,还发现社交网络服务极大地影响和反映了用户与世界及他人之间沟通的方式(Kaplan和Haenlein,2010)。基于这些观察,MBTI分类模式理所当然地适用于社交媒体研究。此外,根据以前的研究(Farseev等人,2015b;Farseev和Chua 2017)和我们的研究结果,社交媒体用户在不同的社交媒体平台上展现不同的个人属性。例如,他们可以在诸如Instagram的照片共享服务中展示照片,或者在基于位置的社交网络(例如Foursquare)中进行签到。所有这些数据从360度视图中描述了用户,从而在基于社交媒体的个性分析中起着至关重要的作用。
然而,从多个社交网络进行个性分析具有以下挑战:
·跨源用户识别。通常,不可能识别属于同一个人的多个社交网络帐户,因为一些用户使用有限数量的社交网络。
·标签数据收集。并不是所有的在线资源被心理学家标注了MBTI信息,而只有少数社交网络的帖子具有对可信MBTI分析资源的引用。
·用户个性的时间变化。 在不同的生活方式和外部因素的影响下,用户的个性趋势随时间而变化,这在数据建模过程中需要额外考虑。
·数据源融合。在一个模型中有效融合来自不同来源的多视图数据是一个具有挑战性的问题(Song et al。2015)。
受到上述挑战的启发,在这项初步研究中,我们将研究问题制定为:是否可以通过融合来自多个社交网络的数据来提高个性分析的效果?
由于缺乏多源个性分析数据集,在本研究中,我们利用了最大的可用多源跨区域数据集NUS-MSS(Farseev等人,2015b),其中包括从三个社交网络中(Twitter,Foursquare和Instagram)收集的多模数据,以及用户关系状态的标签数据。这些数据来源于三个地理区域,即新加坡、纽约和伦敦。
Robin等人(2002)假设这种关系状态与人的个性密切相关。事实上,一个人的个性往往受到他/她现在的关系状态的影响,相反,一个人的关系状态往往取决于生活伴侣的个性类型。此外,与个性类型类似,关系状态属性也可以被认为是动态个人属性,因为它经常随时间而变化。所有这些都表明,关系状态与个性密切相关,这激励我们选择它来进行评估。
为了进行定量评估,我们将NUS-MSS用户分为“单身”和“非单身”组。 然后我们应用特征选择,并根据三个地理区域(即新加坡、纽约和伦敦)的平均准确度来评估分类表现。
评估结果如表1所示。在该研究中,我们仅研究了不同组合数据源的早期融合,即在模型训练前在一个向量中融合数据源的特征。从表1可以看出,早期融合多源数据有助于在某些情况下将分类性能提高17%以上。因此,我们的研究问题可以得到积极的答案,并展示了多源数据在我们进一步研究个性分析中的应用。
然而,值得注意的是,三个数据源的早期融合未能达到所有三个地理区域的最佳性能。这似乎表明早期融合方法无法有效地充分利用所有数据源的丰富性和多样性。这一观察结果与先前的发现(Song et al。2015; Farseev和Chua 2017)一致,并激励我们在未来的工作中探索其他数据融合策略,包括晚期融合。最后,Robins等(2002)表明,关系状态的变化往往与个性的变化相关。在未来的工作中,我们也计划利用关系状态信息进行模型正则化,这可能会提升个性分析性能。
关于个性相关数据的收集:为了进一步实验个性分析,从多个社交网络中获取数据以及相应的个性相关的标签数据很重要。为此,我们计划通过多个社交网络的数据丰富现有的个性分析数据集,这可以通过交叉监控用户的活动(Farseev et al。2015b; Farseev和Chua 2017)来实现。我们的初步实验表明,超过66%的具有个性标签的Twitter用户可以映射到他们的Instagram或Foursquare账户。
表1:关系状态预测评价结果
论文下载链接:
https://aaai.org/ocs/index.php/AAAI/AAAI17/paper/view/14731/14149
留言与评论(共有 0 条评论) |