Administrator
发布于 2026-06-08 / 0 阅读
0
0

🧠 Arena.ai发布Agent榜单:37万次会话实测,GPT-5.5 High综合第一

Arena.ai发布Agent Arena榜单,基于37.3万次真实会话评估18个模型。GPT-5.5 High综合排名第一,Claude表现最为稳定,提供五项核心指标供用户参考。该榜单采用真实用户交互数据,而非基准测试,更贴近实际使用场景。

值得关注的原因:Agent评测正从“基准跑分”转向“真实场景对比”,这意味着模型能力评价从学术实验室走向产业实践。GPT-5.5 High拿下综合第一说明OpenAI在Agent场景上的实战能力仍占优,但Claude的稳定性优势对企业用户同样有吸引力。


评论