4.5 历史更新 - 飞书文档
https://docs.feishu.cn/article/wiki/FjiOwWp2giA7hRk6jjfcPioCnAcSurge AI 别具一格地“雇佣”9 个AI 模型模拟电脑配件公司客服执行任务。测试发现,即便最强的GPT-5 和Claude Sonnet 4.5 也有超40%的任务失败。同时,该测试提出“Agent 能力 ...

Surge AI 别具一格地“雇佣”9 个AI 模型模拟电脑配件公司客服执行任务。测试发现,即便最强的GPT-5 和Claude Sonnet 4.5 也有超40%的任务失败。同时,该测试提出“Agent 能力 ...