来源:SCI期刊网 分类:教育论文 时间:2022-01-07 09:29 热度:
摘 要:互联网和计算机科学技术的快速发展,使得基于网络大数据的心理行为研究越来越受到研究者的关注。这为研究人类的心理与行为规律提供了新的视角。心理学作为社会科学的重要组成部分,在计算社会科学的大浪潮中也展示出了巨大的发展潜力,在情绪心理学、人格心理学、行为金融学、健康心理学、政治心理学等诸多领域催生了一批具有重要理论和现实意义的研究成果。我国的社会心理学研究者,已围绕微博情绪问题,并结合股市预测、社会风险感知、精英与大众关系、地区民族主义等诸多具有重要社会现实意义的研究问题,开展了一系列探索性研究。关于网络大数据的社会心理学研究,未来的研究者应该理性地看待这一新兴研究范式,并且充分发挥该范式的优势,从而更好地为解决社会科学的理论和现实社会问题服务。
关键词:大数据;心理信息学;微博;情绪
以互联网和信息科学技术的快速发展推动的信息技术革命,使得人类步入了数据充裕的数字化信息时代。在生产、存储数据的能力获得了巨大发展的信息化时代,人们生活在一个规模难以想象的庞大数字化世界里。人们在论坛、博客、微博、微信、电子商务交易平台、搜索引擎等平台上积累的海量数据,成为大数据时代宝贵的信息资源和财富。目前,大数据已经被广泛应用于政治选举、企业(尤其是电子商务公司)战略布局、金融交易、生物研发、医疗卫生、国防安全、公共 ● 理论前沿管理、社会治安、交通管理、气象监测等诸多实践领域。
一、心理学与大数据的相遇
网络的广泛应用以及与现实的密切交织,不仅改变了人们的生活方式,也推动了学术研究范式的变革。[1]一方面,海量的(移动)互联网用户借助微博、论坛等社交媒体产品和移动互联网工具记录自己的生活,并高密度地进行突破传统时间、空间限制的人际、人机互动,积累了前所未有的海量在线文本、图片、视频信息;另一方面,数据挖掘等计算机和信息科学技术的发展,使得高效处理和分析海量人类行为数据成为可能,从而奠定了海量数据挖掘的技术基础。[2]网络大数据为社会科学的发展带来了前所未有的机遇, Lazer 等一批来自政治学、计算机科学等诸多跨学科领域的研究者于 2009 年在《科学》杂志上联合撰文,正式提出了“计算社会科学”(Computational Social Science)的研究领域。[3]
心理学作为社会科学的重要组成部分,致力于探讨人类的心理与行为规律。(移动)互联网平台和网络应用积累的海量网络大数据记载着大规模人群所思、所想和所感,这为挖掘人类的心理与行为规律提供了庞大、客观、真实的数据资源。尤其是现代化数据分析技术的发展,例如,开源统计分析软件 R 语言、社会网络分析技术,为数据挖掘和数据分析提供了坚实的技术支撑。受信息科学在生物基因、天文学等领域成功应用的启发,Yarkoni 首次提出了“心理信息学” (Psychoinformatics)这一新颖的交叉学科概念。他把利用计算机和信息科学技术工具来获取、管理和分析心理学数据的研究领域称为“心理信息学”。[4]作为一门立足于心理学研究问题的新兴交叉学科,心理信息学的研究重点关注如何借助计算机和信息科学技术的优势,在心理学研究的各个分支领域和研究环节中充分发挥作用,从而为心理学问题提供更为科学、客观的研究证据。[1]
正如计算社会科学可追溯到社会物理学、社会计算(social computing)等研究领域,心理学与大数据、信息科学的相遇,并非出于历史的偶然巧合,而是心理学与信息科学为寻求自身发展而产生的必然结合。[1]心理学与大数据、信息科学的结合最早可追溯到 1998 年 Nowak 等提出的计算社会心理学(computational social psychology)研究领域。[2]该领域最早的内涵是指利用计算机模拟的技术手段对社会心理学中的群体心理与行为进行建模和仿真模拟,从而揭示社会群体的心理与行为模式和规律特征。但后来随着计算机科学技术的发展,尤其是社交媒体的发展,信息科学可为心理学提供的不再局限于仿真模拟这样一种特定的技术手段,而是数据获取、数据管理、数据分析等全方位的支持。研究者通过计算机数据抓取手段(例如,网络爬虫)或由网络服务商提供获得的 Twitter、新浪微博、Google 网络搜索等网络大数据,在数据的样本覆盖量、时间精度等方面都具有突破性优势。此外,研究者可以通过(移动)互联网平台和以更经济、更快捷的方式,招募大批量的被试,从而完成在线问卷调查或网络心理学实验。例如,比较流行的在线问卷调查平台 “调查猴子”(Survey Monkey),和被试招募平台“亚马逊土耳其机器人”(Amazon’s Mechanical Turk, MTurk)。有研究证据表明,由于网络覆盖面广、成本低等优势的存在,通过网络平台收集的数据在样本多样性、数据质量等方面等同于甚至高于传统研究方法采用的数据收集手段。[5-6]
心理学与网络大数据的结合,既为传统心理学通过具有代表性的大样本深入挖掘个体层面的心理与行为机制提供了更为广阔的平台和机会,也同时为深入挖掘大规模人群在群体层面涌现出来的群体心理行为规律提供了可能。近些年,在心理学等社会科学和信息科学研究者的合作和共同努力下,在应用社会心理学的诸多领域取得了一批具有代表性意义的研究成果。
二、大数据视角下的社会心理学研究进展
(一)大数据与情绪心理学
情绪是心理学研究的重要研究对象之一,也是目前为止和大数据结合最为紧密、成果最为丰富的研究领域。传统心理学关于个体情绪在日周期水平上的波动节律研究,尤其是主要围绕积极情绪和消极情绪开展的研究,一直没有得到较为一致的结果。在分析其原因时,研究者普遍承认目前的研究抽样存在偏差(主要以美国大学生样本为主),在实验室或者通过自我报告的调查等测量方式对情绪的波动节律进行精确测量也均存在较大的偏差。但遵循心理学范式的研究者又暂时无法找到切实可行的,能够对跨文化大样本人群进行数周以上以小时为时间精度上追踪研究的测量方法。考虑到以上研究现状,美国康奈尔大学心理学家 Golder 和其合作者 Macy 认为,社交媒体的兴起及其产生的覆盖跨文化、大样本、客观、实时的海量用户行为数据,为解决这一困境提供了可能。[7]他们发表在《科学》杂志的一项研究分析了 2008 年 2 月至 2010 年 1 月期间,覆盖全球 84 个使用英文的国家,约 240 多万用户产生的 5 亿多条 Twitter 数据的情绪信息。结果发现,积极情绪和消极情绪在一周七天内的波动节律几乎一致,积极情绪在周六、周日显著高于工作日。在日内波动上,积极情绪在早上(大约在人们上班的时间)开始下降,而在晚上(大约在人们下班的时间)回升;而消极情绪则在早上(早上 7~9 点附近)达到最低点,随后在一天内均呈上升趋势,达到 0 点左右的峰值。这种模式支持了人们可通过一晚上的睡眠恢复情绪的假设。关于积极情绪和消极情绪的关系,研究者发现消极情绪的波动模式并不完全等同于积极情绪的反向波动特征,二者仅呈现出低度相关(r=-0.08)。该证据通过跨文化、地域的大样本数据为积极情绪和消极情绪是两个独立的维度提供了支持。研究者进一步由情绪的日内波动规律拓展到季节性波动规律,并尝试同样借助 Twitter 情绪数据探索当前心理学研究中关于季节性情感障碍的成因的两种观点,即光照时间不足的解释和基于生物昼夜节律的“阶段转换假说”(phase-shift hypothesis)。结果发现,绝对日照时长对积极情绪和消极情绪均没有显著作用,但相对日照时长却与情绪有显著关联。因此,该结果支持了有关情绪与季节关联的“阶段转换假说”,而没有获得“情绪随日照时间变化” 的竞争假说证据。[7]
情绪传染和情绪传播也是社会心理学中关于社会影响领域的重要议题。Kramer等基于Facebook 上近 69 万用户的实验研究发现,人们的情绪状态会无意识地体验到与他人相同的情绪状态,即情绪可通过情绪传染机制传播给他人。他们通过客观实验的方法证实了仅仅暴露在完全缺乏非言语线索的好友情绪表达的网络环境中也可以发生情绪传染效应。[8]Coviello 等也探讨了类似的问题,研究者抓取了 2009 年 1 月至 2012 年 3 月期间美国 100 个大城市 Facebook 用户的“状态”数据,结果发现,下雨天会直接影响人们的 Facebook 状态中的情绪水平,有趣的是,这种情绪状态还能进一步影响到远在其他城市,没有直接体验到下雨天气的好友的情绪水平。该研究也证实了情绪传染的传染机制,并且揭示了在线社交网络在放大全球情绪同步中扮演的重要作用。[9]Facebook 数据已经成为心理学研究者探索大规模人群社会影响作用机制的重要工具。例如,Aral 和 Walker 通过 130 万 Facebook 用户的随机实验,较为系统地揭示了人们在社交网络中影响力和易受影响程度的规律特征。结果发现:年轻人相对年长者更容易被影响;男性比女性影响力大,但女性对男性的影响力比她们对其他女性的影响力大;已婚人士在新产品决策中最不容易受影响。[10]
(二)大数据与人格心理学
揭示人们心理行为一般规律的人格心理学是心理学的基础性研究领域。传统心理学研究主要通过自我报告的线下问卷调查方法对人格结构开展了一系列卓有成效的研究,例如经典的“大五人格模型”(Five-factor Model)。对于人格心理学研究者而言,网络大数据为刻画和挖掘人们的心理行为规律提供了新的视角和数据资源。对于计算机科学领域的研究者而言,挖掘用户的心理与行为规律对于提高技术的准确度、提升产品的用户体验具有重要意义。因此,基于大数据的人格心理学研究,也成为了心理学与信息科学结合的重要研究议题。
语言被认为是人们在表达自己内在想法和感受时使用最为普遍、稳定的方式。因此,研究者致力于挖掘人们在网络上的语言表达与人格特征之间的关联。例如,Schwartz 等基于 7.5 万志愿者提供的人格测验结果,以及从用户 Facebook 信息中提取得到的 7 亿条单词、短语和话题数据,较为系统地探索了用户在 Facebook 上的语言表达与其人格、性别、年龄之间的关系。结果发现:外向型的用户更倾向于提及“聚会”“爱你”等词汇;开放型的用户更倾向于提及“音乐”“艺术”“梦想”等词汇;而神经质的用户则更倾向于提及“厌烦”“抑郁”等词汇。研究者采用了开源词汇技术(open-vocabulary technique)来 构 建 人 格 预 测 模型,并在样本外测试中达到了 91.9% 的预测准确率。[11]该团队的 Park 等进一步通过 Facebook 用户的样本检验了该人格预测模型的稳健性,结果证明了基于社交媒体语言表达数据和开源词汇技术的自动化人格预测模型具有较好的信度和外在效度。[12]
还有不少研究发现,人们在社交网络上的一些客观行为,例如 Facebook 上的点赞行为,也为开发自动化预测用户人格或其他属性的计算机模型提供了可能。例如,Kosinski 等通过 5.8 万 Facebook 用户的点赞数据、人格测试等心理测验数据以及人口统计学调查数据,发现人们在 Facebook 的点赞数据能自动化地、较为准确地预测出用户的人格、性取向、民族、宗教信仰、政治观点、幸福感、物质滥用、年龄、性别等特征和属性。其中,对开放性人格维度的预测准确性几乎与标准化的人格测试精度相近,对性取向的预测准确率达到 88%,对民主主义和自由主义的政治态度预测准确率达到 85%。[13]Wu 等通过 8.6 万 Facebook 用户网络账户信息和人格测试数据发现,基于用户的 Facebook 点赞等电子化行为信息构建的机器学习计算机模型对人格具有显著预测力。尤为有趣的是,基于 Facebook 点赞数据构建的人格预测模型(与用户自身的人格测验相关 r=0.56)准确率要比与用户关系亲密的好友通过问卷调查的判断(r=0.49)准确率还高。[14]
(三)大数据与行为金融学
行为金融学的研究致力于揭示人们的非理性成分在金融决策中的作用,或者说人们在有限理性情境下的决策规律。其中,以情绪与决策之间的关系最具代表性,例如,情绪预测股市的研究。赖凯声等对情绪预测股市的理论机制,围绕投资者情绪指标、社会情绪指标的实证研究等多方面进行了较为系统的梳理。[15]他们认为,近些年随着网络的普及和信息科学技术的发展,基于网络大数据的社会情绪研究,为情绪与股市的关系这一远未形成定论的研究领域注入了新的活力。尤其是考虑到股市走势是宏观群体层面市场投资者共同决策的结果,传统行为经济学常用的实验范式难以直接回答宏观群体心理与金融决策之间的关系。因此,基于人们在网络环境下留下的客观行为数据成为挖掘群体心理与宏观金融决策关系研究的重要线索。
例 如,Bollen 等 利 用 心 理 学 情 绪 量 表 设 定的情绪分类标准,分析了 2008 年美国微博网站 Twitter 上的海量数据,发现 Twitter 用户微博条目中的“镇定”(calm)类情绪词汇量变化趋势可以成功预测 2~6 天后美国道琼斯工业指数的升降趋势,对于指数升降的预测准确率可达到 87%。[16] Bordino 等的研究发现,纳斯达克 100 指数与其成分股的雅虎搜索量显著相关,并且在搜索指数的峰值附近有提前 1 天的预测作用。[17]Preis 等系统考察了 98 个金融相关词汇的 Google 搜索数据与美国股市走势之间的关系。结果发现金融词汇的搜索数据能提前预测股市的走势,并且也证明了基于以上规律构建的量化策略的确能跑赢随机策略。[18]
(四)大数据与健康心理学
随着人们对健康问题的关注,与健康相关的心理与行为规律也逐渐受到公共医学、心理学等跨学科领域研究者的关注。大数据应用于健康相关的研究议题,无论是在学术界还是产业界都是关注度非常高的应用领域之一。利用网络大数据进行健康心理领域研究的基本前提假设是:人们线下的健康状况、健康行为等特征与其在线上的社交媒体表达、网络搜索关注等行为之间存在一定的联系。因此,基于大数据的健康心理学研究,可通过人们在网络上行为特征来尽可能地揭示、解释甚至预测人们的健康状况。
例如,Ginsberg 等认为,每年大约有 9 000 万成年人会通过网络搜索引擎搜索特定疾病相关的信息,这为通过网络搜索引擎数据监测疾病暴发状况提供了可能。[19]他们利用人们在 Google 上 5 000 万条搜索数据,成功开发了预测季节性流感传播的模型。相较于传统的流感预测工作,由于数据收集方法和过程的限制,往往会有 1 至 2 周的延迟。因此,他们的预测研究对于监测和预测流感的暴发趋势,从而为政府相关部门做好流感应急准备和部署具有重要的价值。该研究引领了一大批基于网络搜索数据预测各种疾病的探索和尝试。[20-22]此外,社交媒体数据也被证明对于预测健康问题具有重要作用。例如,Eichstaedt 等的研究发现,人们在 Twitter 上的网络表达对于美国郡层面的心脏病死亡率有显著预测作用。其中,与负面社会关系、分离和负面情绪(尤其是愤怒)相关的网络表达与心脏病死亡率正相关;而积极情绪和心理参与相关的网络表达与心脏病死亡率负相关。[23]
除了疾病预测外,还有一些研究者也开展了一些借助网络大数据揭示网络线上行为与线下健康行为(例如,自杀行为)之间关系的研究。例如, McCarthy 利用谷歌网站记录的 2004 年至 2007 年间网民对于自杀、自残类词汇的搜索量数据,发现其与美国疾病控制与预防中心(the Centers for Disease Control and Prevention,CDC)记载的 2004 年至 2007 年期间大众现实自杀、自残数据呈显著统计相关关系。但在大众群体中呈显著负相关,在青少年群体中却呈显著正相关。[24]
(五)大数据与政治心理学
大数据也被广泛应用到政治心理学议题中,包括选举行为及其相关心理规律,与政治意识形态相关的心理学规律。例如,Caldarelli 等的研究发现,意大利网民在 Twitter 上提及各党派领导人的微博数量及其随时间的变化特征对于预测全国政治大选具有显著价值。[25]Markey 通过分析 2004、2006、2008 年美国大选期间,搜索引擎网站 Google 上美国各州的色情类词汇搜索量波动趋势,发现如果某政党“票仓州”所支持的参选者最终确实获胜,选举之后该州的色情类词汇搜索量会快速上升,显著高于其他州。该网络行为现象验证了进化心理学中著名的“挑战假说” (Challenge Hypothesis)。[26]
在政治意识形态方面,Bond 和 Messing 的研究证明了通过 Facebook 数据预测大众政治意识形态的有效性和可行性,并提出了以此进一步开展政治计划、政治意识形态结构及其与政治参与率关系研究的研究方向。[27]Wojcik 等最近发表在《科学》杂志的一项研究试图探索到底持保守主义政治意识形态者和自由主义者谁更幸福。结果发现,在自我报告的问卷调查结果中,持保守主义政治意识形态者报告了比自由主义者更高的幸福感,而通过 Twitter 等社交媒体数据的客观幸福感指标(例如积极情绪的表达、微笑)看,保守主义者却显著地表达了比自由主义者更低的幸福感。[28]
(六)其他富有前景的应用领域
大数据已经广泛应用于心理学的各分支领域,并不局限于以上列举的这些应用领域。例如,在文化心理学研究领域,有研究者通过 Google Ngram 基于 Google 扫描全球所有已出版书籍中约 4% 数据集所提供的历时近 200 年的大数据来研究文化的变迁[29-30],包括个体主义—集体主义文化的历史变迁[31-33],美国性别平等文化与女性地位的历史变迁等[34]。还有其他丰富的数据来源也被巧妙地应用到各研究中。例如,通过 15 万历史名人的出生地、死亡地数据来反映欧洲和北美的文化历史变迁[35];智能手机的数据被应用于实时刻画大规模人群的人口分布[36],研究人们对突发事件的集群行为规律。[37]
三、我国的大数据社会心理学研究实践
我国的社会心理学研究者已经主要就中国微博情绪的在线测量和应用问题,尝试与信息科学领域的研究者一起展开了一系列的研究和探索。
(一)微博情绪测量工具的开发
微博积累的海量信息为直接测量大规模人群的态度、社会情绪提供了可能。对在线文本进行情感分析一直是信息科学领域的热点问题,但传统在线文本分析技术主要以数据驱动或者经验驱动,例如包含正向情绪和负向情绪的二分法。情绪、情感是心理学领域的经典研究问题,将心理学领域关于情绪相关的研究成果应用于在线文本分析技术,可从理论视角为提升在线文本分析技术的有效性提供支持和帮助。乐国安等对情感分析技术、情绪词库的构建与发展、在线文本情感分析技术的实践应用等问题进行了较为系统的总结和归纳。[38]
词汇匹配技术是目前分析海量微博客(例如 Twitter、新浪微博)使用最为广泛,也是效果相对较好的方法。该方法的原理主要是通过统计目标文本中与情绪词库中特定类型的情绪词的词频多少来计算该文本的情绪定向。[39]因此,情绪词库的建设是基于词汇匹配技术的在线文本情感分析技术的核心。董颖红等基于心理学经典的基本情绪结构理论,将微博情绪分为快乐、悲伤、愤怒、恐惧和厌恶五种(其中惊奇情绪由于在测试中发现使用频率较低而未纳入词库中),构建了包含 818 个情绪词(快乐 306 个;悲伤 205 个;厌恶 142 个;恐惧 72 个;愤怒 93 个)的标准化微博客基本情绪词库(Weibo Basic Mood Lexicon,Weibo5BML)。[39]
为了检验该情绪词库和工具的有效性,研究团队与华东师范大学软件学院海量计算研究所团队合作,在 160 多万新浪微博用户 2011 年 7 月至 2012 年 11 月期间发布的微博文本上进行测试。首先,对五种微博情绪之间的内部相关性进行测试,结果发现:快乐和悲伤、厌恶、愤怒、恐惧情绪均为显著负相关;而悲伤、厌恶、愤怒和恐惧情绪之间呈现显著正相关。该检验结果与心理学经典的情绪理论,例如效价—唤醒理论,有较好的一致性。其次,通过整理五种微博情绪在一周内(周一至周日)的周变化趋势,结果发现:快乐情绪在周末显著高于工作日,而周三的快乐情绪达到最低点。这为探索大规模人群的整体情绪的节律变化提供了新的证据。最后,为了检验微博情绪测量工具的生态效度,研究团队还分析了五种微博情绪对现实社会中重大节日、重大社会热点事件的反应。结果发现,微博情绪对 2011 年 “7·23 甬温线旅客列车特别重大事故”、2012 年 “钓鱼岛之争”、春节、中秋节、感恩节等重大事件和节假日都呈现出了较为灵敏而合理的反应。例如,2011 年 7 月 23 日,甬温线段发生了旅客列车特别重大事故,事故发生当天,快乐情绪开始下降,而悲伤、愤怒和恐惧情绪开始上升。随后的几天人们一直沉浸在悲伤、愤怒和恐惧的氛围中,一直到 7 月 29 日悼念活动结束以后公众的各种基本情绪才逐渐恢复到往日的水平。尤其是在事故发生之初,生命至上、紧急救援是主要问题,因此人们的悲伤情绪首先上升到高点;但随着时间的推移,事故的处理方式和对原因的调查使得公众对政府的不满、愤怒情绪不断推高。以上检验结果表明,研究团队基于基本情绪结构理论开发的 Weibo-5BML 微博情绪测量工具,在分析大众情绪信息时是有效的,这对于实时、高效地感知公众的社会情绪变化具有重要的意义。[39]——论文作者:乐国安* 赖凯声
文章名称:基于网络大数据的社会心理学研究进展