Arena.ai发布Agent Arena榜单,基于37.3万次真实会话评估18个模型。GPT-5.5 High综合排名第一,Claude表现最为稳定,提供五项核心指标供用户参考。该榜单采用真实用户交互数据,而非基准测试,更贴近实际使用场景。
值得关注的原因:Agent评测正从“基准跑分”转向“真实场景对比”,这意味着模型能力评价从学术实验室走向产业实践。GPT-5.5 High拿下综合第一说明OpenAI在Agent场景上的实战能力仍占优,但Claude的稳定性优势对企业用户同样有吸引力。
Arena.ai发布Agent Arena榜单,基于37.3万次真实会话评估18个模型。GPT-5.5 High综合排名第一,Claude表现最为稳定,提供五项核心指标供用户参考。该榜单采用真实用户交互数据,而非基准测试,更贴近实际使用场景。
值得关注的原因:Agent评测正从“基准跑分”转向“真实场景对比”,这意味着模型能力评价从学术实验室走向产业实践。GPT-5.5 High拿下综合第一说明OpenAI在Agent场景上的实战能力仍占优,但Claude的稳定性优势对企业用户同样有吸引力。