人工智能的情商比人类高
发布时间:2025-06-12 浏览次数:4次
日内瓦大学和伯尔尼大学的一个团队使用情商(emotional intelligence, EI)测试评估了6种生成性人工智能。结果显示:这些人工智能的表现优于人类的平均表现,甚至能够生成新的情商测试问卷。这些发现为人工智能在教育、辅导和冲突管理方面开辟了新的可能性。该研究发表在《传播心理学》杂志上。
大型语言模型(LLM)是能够处理、解释和生成人类语言的人工智能(AI)系统。例如,ChatGPT生成的AI就是基于这种模型。我们知道法学AI可以回答问题和解决复杂问题。但它们也能暗示情绪智能行为吗?
充满情绪张力的场景
为了找到答案,研究团队对6种大语言模型(ChatGPT-4、ChatGPT-o1、Gemini 1.5 Flash、Copilot 365、Claude 3.5 Haiku和DeepSeek V3)进行了情商测试。
“我们选择了常用的5种测试,”伯尔尼大学心理学研究所人格心理学、差异心理学和评估部门的讲师兼首席研究员、该研究的主要作者Katja Schlegel说:“这些测试与情绪化的场景,旨在评估这些AI 理解、调节和管理情绪的能力。”
例如,其中的一个题目是:迈克尔的一位同事窃取了他的想法,并对他冷嘲热讽。迈克尔最有效的反应是什么?
a) 与这位同事争论;
b) 和他的上级谈;
c) 默默地怨恨这位同事;
d) 从他那儿偷回一个想法;
选项 b)被认为是最合适的。
在测试AI的同时。研究人员让人类参与者也进行了相同的5项测试。参与这项研究的科学家Marcello Mortillaro说:“最终,LLM取得了更高的分数——82%的正确答案,而人类的正确答案为56%。这表明这些人工智能不仅理解情绪,还掌握了情商行为的含义。”
快速生成新的测试问卷
在第二阶段,科学家们要求ChatGPT-4创建新的情绪智力测试,并且改变旧有的语义场景、创造新的场景。然后,400多名参与者进行了这些自动生成的测试。
Katja Schlegel说:“事实证明,它们与经过多年开发的原始测试一样可靠、清晰和现实。因此,LLM不仅能够在各种可用选项中找到最佳答案,而且能够生成适应所需环境的新场景。这进一步证实了像ChatGPT这样的大语言模型情商颇高,可以对情感进行推理。”
这些结果为人工智能在被认为是为人类保留的环境中使用铺平了道路,例如教育、辅导或冲突管理,前提是由专家使用和监督。
Schlegel, K., Sommer, N. R., & Mortillaro, M. (2025). Large language models are proficient in solving and creating emotional intelligence tests. Communications psychology, 3(1), 80. https://doi.org/10.1038/s44271-025-00258-x