Surge AI 别具一格地“雇佣”9 个AI 模型模拟电脑配件公司客服执行任务。测试发现，即便最强的GPT-5 和Claude Sonnet 4.5 也有超40%的任务失败。同时，该测试提出“Agent 能力 ...

飞搜侠

热门搜索