飞搜侠

斯坦福发布大模型排行榜AlpacaEval - 飞书文档

https://docs.feishu.cn/article/wiki/GASUwij3nilmAfkgw2xcqAiJnme

斯坦福发布大模型排行榜AlpacaEval · GPT-4 稳居第一，胜率超过了95%；胜率都在80% 以上的Claude 和ChatGPT 分别排名第二和第三，其中Claude 以不到3% 的优势超越ChatGPT。

国内大厂LLM模型综合排名与分析 - 飞书文档

https://docs.feishu.cn/v/wiki/TPCGwpGokiinqhk5vnTc6xaFndf/a6

**编程MELLM 算法打分（满分100分） ** ; qwen2-72b-instruct. 88.9 ; qwen1.5-110b-chat. 88.6 ; gpt-4. 87.2 ; Doubao-pro-128k-240515. 86.9 ; Moonshot-v1-32k-v1. 86.5.

Qwen2开源：性能卓越的大模型 - 飞书文档

https://docs.feishu.cn/v/wiki/LR4AwSqSIiZPxRkVxY1c1YDKnvc/a1

通义千问Qwen2系列模型大幅提升了代码、数学、推理、指令遵循、多语言理解等能力。 ... （图说：HuggingFace的开源大模型排行榜Open LLM Leaderboard是目前大模型领域最 ...

《数字人生成的AI 工具：Hedra、D-iD 等》 - 飞书文档

https://docs.feishu.cn/v/wiki/Hs7awnrMbiSXmdkrLGscwjTvndh/ah

【Claude-3.5 Sonnet】Arena 大模型竞技场免费版. https://lmarena.ai. 由加州大学伯克利分校领衔开发的AI 大模型能力排行榜，开源公益平台。该 ...

奇绩大模型日报（5月29日）

https://docs.feishu.cn/article/wiki/Zdecwr1yviWlzbkw8TdcxZPTnPe

2025年5月29日 ... 推特 · Gemini 各个版本上线Imsys org排行榜：Gemini 1.5 Pro/Advanced排名第二，接近GPT-4o · RoboCasa：一个大规模的日常任务模拟框架，使用生成式AI工具创建 ...

AI Coding模型多大合适？ - 飞书文档

https://docs.feishu.cn/v/wiki/O0ALwBonXiX11Kkqw17c1OeHntd/af

在代码补全领域，业界普遍认为模型规模越大，其补全效果往往越好。 · 在实际评估逻辑中，会通过一些类似Tabby的排行榜（leaderboard）进行评估，发现在成本效益方面表现较为理想的 ...

GPT-Fathom：大模型评测新工具 - 飞书文档

https://docs.feishu.cn/v/wiki/JB8ywgOiCis6MKka4Fsc4vChnXb/a7

探秘GPT-3到GPT-4进化之路. 最开头的进化图由作者们根据公开信息总结得出。 · 2、RLHF和SFT：编码能力提升的功臣 · 3、代码加入预训练，对推理帮助最大 · 4、“跷跷板”现象 · 帮助 ...

豆包大模型如何在代码能力评测中取得进步？ - 飞书文档

https://docs.feishu.cn/v/wiki/QGrzwuQD4iQiIXkZG9Lc6r4EnUh/a2

值得一提的是，此前智源研究院公布的覆盖全球91 个语言模型的评测报告中，在偏重考察中文能力的主观评测中，云雀Skylark2 排名第一，中文能力超过GPT-4。这也从一个侧面反映了 ...

奇绩大模型日报：多领域资讯全解析，从大模型评测到AI新成果

https://docs.feishu.cn/v/wiki/BXL7w3utFiDWUVkINmYc8gktngd/a1

文心一言、文心一格在问答理解类、推理类、创作表达类、数学类、代码类等基础能力，toC 通用场景类、toB 特定行业类等应用能力等7 大维度均具备领先优势。其他评测厂商中， ...

Code模型如何提升代码任务能力？ - 飞书文档

https://docs.feishu.cn/v/wiki/RDe0wf24Uio1CZkTZsHcaFk3nig/ar

2024年2月10日 ... IDEA Lab发布的姜子牙通用大模型是基于LLaMa的130亿参数的大规模预训练模型，具备翻译，编程，文本分类，信息抽取，摘要，文案生成，常识问答和数学计算等能力。