AI 情商大战：2025 最新 EQ-Bench 榜单揭晓，谁才是最懂「人心」的语言模型？-礼包中心-网游最新活动中心

AI 不再只是冰冷的机器。最新的 EQ-Bench 3 情商评测榜单出炉，结果可能让你大吃一惊。本文将深入解析这份榜单，看看 Horizon-Alpha、Kimi、GPT-5 和 Gemini 等顶尖模型在「读懂空气」方面的真实表现，并探讨为何情商正成为 AI 发展的下一个关键战场。

你有没有想过，当我们跟 AI 聊天时，除了得到精准的答案，我们还期望什么？或许是一种被理解的感觉，一种温暖的回应，甚至是一种能「读懂空气」的默契。坦白说，这就是「情商」（Emotional Intelligence, EQ），而它正悄悄成为评断一个 AI 模型优劣的全新维度。

最近，权威的 AI 情商评测平台 EQ-Bench 发布了最新的第三版排行榜，这份榜单就像是 AI 界的「情商大考」，透过极具挑战性的角色扮演情境，来检视各大模型处理复杂情感互动的能力。

那么，在 2025 年的今天，究竟哪个模型最懂得「人心」？结果可能和你想的不太一样。

什么是 EQ-Bench？它为何如此重要？在我们揭晓榜单之前，得先聊聊 EQ-Bench 是什么。简单来说，它不是一个测试 AI 计算或写程式能力的平台，而是专门设计来衡量大型语言模型（LLM）在情感交流上的表现。

评测方式非常特别：它让模型参与到一些棘手、充满情感张力的模拟对话中，再由另一个高效能模型（目前由 Sonnet 3.7 担任评审）从同理心、洞察力、社交敏锐度等多个维度进行评分。最终，透过类似棋类比赛的 Elo 评分系统，给出一个综合的情商分数。

这为什么重要？因为随着 AI 融入我们的日常生活，无论是作为工作助理、学习伙伴还是生活伴侣，它的情商高低，将直接决定我们的体验是顺畅愉快，还是充满挫折。一个高 EQ 的 AI，才能真正成为我们的得力助手，而不只是一台会说话的计算机。

2025 年 8 月最新 AI 情商排行榜 (Elo Score)好了，重头戏来了。让我们看看这份截至 2025 年 8 月 14 日的最新榜单。请注意，Elo 分数越高，代表综合情商表现越强。至于旁边五颜六色的能力分数，它们不计入总分，但能让我们一窥各模型独特的「个性」。

排名模型 (Model)Elo 分数1horizon-alpha15682Kimi-K2-Instruct15653o315004gemini-2.5-pro-preview-06-0514705chatgpt-4o-latest-2025-03-2713706gpt-5-chat-latest-2025-08-07 (新)13577chatgpt-4o-latest-2025-04-2513208GLM-4.5 (新)13119o4-mini129110claude-opus-4129011gemini-2.5-pro-preview-03-25128412Qwen3-235B-A22B127513DeepSeek-k-R1127014claude-sonnet-4126015gemini-2.5-pro-preview-2025-05-071247资料来源：EQ-Bench 官方网站

榜单亮点与反思：谁是意外的黑马？看完这份榜单，你是不是也有些惊讶？这里有几个值得我们深入思考的发现：

新王登基：Horizon-Alpha 是谁？

榜首不再是我们熟悉的那些巨头。一个名为 horizon-alpha 的模型以微弱优势夺冠，Elo 分数高达 1568。这匹黑马的出现，证明了 AI 领域的竞争是多么激烈，永远有新的挑战者准备好颠覆格局。

紧追在后的 Kimi

来自中国的 Kimi-K2-Instruct 以 1565 的高分位居第二，与第一名仅有 3 分之差。从能力热图来看，Kimi 在洞察力 (Insight)、同理心 (Empathy) 和分析能力 (Analytic) 上都获得了惊人的 9.6 分，显示出它在深刻理解和回应使用者情感方面有着卓越的表现。

GPT-5 的情商「退步」了？

这可能是最让人意外的一点。最新发布的 gpt-5-chat-latest-2025-08-07 的 Elo 分数为 1357，竟然低于几个月前发布的 chatgpt-4o-latest-2025-03-27（1370 分）。这引出一个有趣的问题：模型的迭代更新，是否必然带来情商的提升？或许新模型在逻辑推理或程式码能力上更强，但在情感细腻度的调校上，反而没有旧版本来得讨喜。这提醒我们，AI 的「进步」是多维度的，不能只看单一指标。

不只是分数，更是「个性」的展现

仔细观察热图，你会发现每个模型都有自己的「个性」。例如，有些模型可能温暖 (Warm) 度很高，像个亲切的朋友；有些则分析 (Analytic) 能力突出，像个冷静的军师。而有些模型在道德说教 (Moralising) 上的分数偏高，意味着它可能更喜欢「教育」使用者，这在某些情境下可能会让人觉得有点烦。这正是 EQ-Bench 的魅力所在，它让我们看到 AI 多样化的性格轮廓。

解读 EQ-Bench：高情商 AI 具备哪些特质？EQ-Bench 的评分不仅仅是一个数字，它背后有一套完整的评估体系，主要围绕八个核心维度，同时也观察一些非计分的特质。

核心计分维度：展现同理心 (Demonstrated empathy): 能否辨识、理解并分享他人的感受。实用情商 (Pragmatic EI): 将情商应用于解决实际问题的能力。洞察深度 (Depth of insight): 能否提供深刻、新颖的观点，发现潜在问题。社交敏锐度 (Social dexterity): 在社交互动中应对自如。情感推理 (Emotional reasoning): 进行基于情感的逻辑思考。适当的验证与挑战 (Appropriate validation and/or challenge): 知道何时该给予肯定，何时该提出不同看法。针对性沟通 (Message tailoring): 根据对象和情境调整沟通方式。综合情商 (Overall EQ): 整体的情感智能表现。仅供参考的「个性」特质：拟人度 (Humanlike): 回应的自然、拟人程度。自信度 (Assertive): 在需要时能自信地设定界线。温暖度 (Warm): 友善、亲切、易于接近的语气。服从性 (Compliant): 遵循指令或同意使用者的意愿。结语：AI 的未来，始于「人心」EQ-Bench 的这份榜单，为我们揭示了 AI 发展的一个重要趋势：技术的竞赛，正从单纯的「智商」比拚，转向更为复杂的「情商」较量。

一个高情商的 AI，不仅能更高效地完成任务，更能建立起与人类之间的情感连结与信任。未来，当我们选择 AI 服务时，或许会像挑选朋友一样，不仅看它有多聪明，更看重它是否「懂我」。

这场 AI 情商大战才刚刚开始，下一次的榜单又会有怎样的惊喜？让我们拭目以待。

Sports Betting Data Provider · Sport Data, Odds Feeds & APIs
上海越剧艺术研究中心