AI 不再只是冰冷的机器。最新的 EQ-Bench 3 情商评测榜单出炉,结果可能让你大吃一惊。本文将深入解析这份榜单,看看 Horizon-Alpha、Kimi、GPT-5 和 Gemini 等顶尖模型在「读懂空气」方面的真实表现,并探讨为何情商正成为 AI 发展的下一个关键战场。
你有没有想过,当我们跟 AI 聊天时,除了得到精准的答案,我们还期望什么?或许是一种被理解的感觉,一种温暖的回应,甚至是一种能「读懂空气」的默契。坦白说,这就是「情商」(Emotional Intelligence, EQ),而它正悄悄成为评断一个 AI 模型优劣的全新维度。
最近,权威的 AI 情商评测平台 EQ-Bench 发布了最新的第三版排行榜,这份榜单就像是 AI 界的「情商大考」,透过极具挑战性的角色扮演情境,来检视各大模型处理复杂情感互动的能力。
那么,在 2025 年的今天,究竟哪个模型最懂得「人心」?结果可能和你想的不太一样。
什么是 EQ-Bench?它为何如此重要?在我们揭晓榜单之前,得先聊聊 EQ-Bench 是什么。简单来说,它不是一个测试 AI 计算或写程式能力的平台,而是专门设计来衡量大型语言模型(LLM)在情感交流上的表现。
评测方式非常特别:它让模型参与到一些棘手、充满情感张力的模拟对话中,再由另一个高效能模型(目前由 Sonnet 3.7 担任评审)从同理心、洞察力、社交敏锐度等多个维度进行评分。最终,透过类似棋类比赛的 Elo 评分系统,给出一个综合的情商分数。
这为什么重要?因为随着 AI 融入我们的日常生活,无论是作为工作助理、学习伙伴还是生活伴侣,它的情商高低,将直接决定我们的体验是顺畅愉快,还是充满挫折。一个高 EQ 的 AI,才能真正成为我们的得力助手,而不只是一台会说话的计算机。
2025 年 8 月最新 AI 情商排行榜 (Elo Score)好了,重头戏来了。让我们看看这份截至 2025 年 8 月 14 日的最新榜单。请注意,Elo 分数越高,代表综合情商表现越强。至于旁边五颜六色的能力分数,它们不计入总分,但能让我们一窥各模型独特的「个性」。
排名模型 (Model)Elo 分数1horizon-alpha15682Kimi-K2-Instruct15653o315004gemini-2.5-pro-preview-06-0514705chatgpt-4o-latest-2025-03-2713706gpt-5-chat-latest-2025-08-07 (新)13577chatgpt-4o-latest-2025-04-2513208GLM-4.5 (新)13119o4-mini129110claude-opus-4129011gemini-2.5-pro-preview-03-25128412Qwen3-235B-A22B127513DeepSeek-k-R1127014claude-sonnet-4126015gemini-2.5-pro-preview-2025-05-071247资料来源:EQ-Bench 官方网站
榜单亮点与反思:谁是意外的黑马?看完这份榜单,你是不是也有些惊讶?这里有几个值得我们深入思考的发现:
新王登基:Horizon-Alpha 是谁?
榜首不再是我们熟悉的那些巨头。一个名为 horizon-alpha 的模型以微弱优势夺冠,Elo 分数高达 1568。这匹黑马的出现,证明了 AI 领域的竞争是多么激烈,永远有新的挑战者准备好颠覆格局。
紧追在后的 Kimi
来自中国的 Kimi-K2-Instruct 以 1565 的高分位居第二,与第一名仅有 3 分之差。从能力热图来看,Kimi 在洞察力 (Insight)、同理心 (Empathy) 和分析能力 (Analytic) 上都获得了惊人的 9.6 分,显示出它在深刻理解和回应使用者情感方面有着卓越的表现。
GPT-5 的情商「退步」了?
这可能是最让人意外的一点。最新发布的 gpt-5-chat-latest-2025-08-07 的 Elo 分数为 1357,竟然低于几个月前发布的 chatgpt-4o-latest-2025-03-27(1370 分)。这引出一个有趣的问题:模型的迭代更新,是否必然带来情商的提升?或许新模型在逻辑推理或程式码能力上更强,但在情感细腻度的调校上,反而没有旧版本来得讨喜。这提醒我们,AI 的「进步」是多维度的,不能只看单一指标。
不只是分数,更是「个性」的展现
仔细观察热图,你会发现每个模型都有自己的「个性」。例如,有些模型可能温暖 (Warm) 度很高,像个亲切的朋友;有些则分析 (Analytic) 能力突出,像个冷静的军师。而有些模型在道德说教 (Moralising) 上的分数偏高,意味着它可能更喜欢「教育」使用者,这在某些情境下可能会让人觉得有点烦。这正是 EQ-Bench 的魅力所在,它让我们看到 AI 多样化的性格轮廓。
解读 EQ-Bench:高情商 AI 具备哪些特质?EQ-Bench 的评分不仅仅是一个数字,它背后有一套完整的评估体系,主要围绕八个核心维度,同时也观察一些非计分的特质。
核心计分维度:展现同理心 (Demonstrated empathy): 能否辨识、理解并分享他人的感受。实用情商 (Pragmatic EI): 将情商应用于解决实际问题的能力。洞察深度 (Depth of insight): 能否提供深刻、新颖的观点,发现潜在问题。社交敏锐度 (Social dexterity): 在社交互动中应对自如。情感推理 (Emotional reasoning): 进行基于情感的逻辑思考。适当的验证与挑战 (Appropriate validation and/or challenge): 知道何时该给予肯定,何时该提出不同看法。针对性沟通 (Message tailoring): 根据对象和情境调整沟通方式。综合情商 (Overall EQ): 整体的情感智能表现。仅供参考的「个性」特质:拟人度 (Humanlike): 回应的自然、拟人程度。自信度 (Assertive): 在需要时能自信地设定界线。温暖度 (Warm): 友善、亲切、易于接近的语气。服从性 (Compliant): 遵循指令或同意使用者的意愿。结语:AI 的未来,始于「人心」EQ-Bench 的这份榜单,为我们揭示了 AI 发展的一个重要趋势:技术的竞赛,正从单纯的「智商」比拚,转向更为复杂的「情商」较量。
一个高情商的 AI,不仅能更高效地完成任务,更能建立起与人类之间的情感连结与信任。未来,当我们选择 AI 服务时,或许会像挑选朋友一样,不仅看它有多聪明,更看重它是否「懂我」。
这场 AI 情商大战才刚刚开始,下一次的榜单又会有怎样的惊喜?让我们拭目以待。
Sports Betting Data Provider · Sport Data, Odds Feeds & APIs
上海越剧艺术研究中心