飞搜侠

国内大厂LLM模型综合排名与分析 - 飞书文档

https://docs.feishu.cn/v/wiki/TPCGwpGokiinqhk5vnTc6xaFndf/a6

**编程MELLM 算法打分（满分100分） ** ; qwen2-72b-instruct. 88.9 ; qwen1.5-110b-chat. 88.6 ; gpt-4. 87.2 ; Doubao-pro-128k-240515. 86.9 ; Moonshot-v1-32k-v1. 86.5.

斯坦福发布大模型排行榜AlpacaEval - 飞书文档

https://docs.feishu.cn/article/wiki/GASUwij3nilmAfkgw2xcqAiJnme

目前，AlpacaEval 团队已开源所有模型评估代码和分析数据，以及支持未来新模型榜单更新的测试工具。显然AlpacaEval 对LLM模型评测来说很实用，但它仍不是一个全面的的模型能力 ...

豆包大模型如何在代码能力评测中取得进步？ - 飞书文档

https://docs.feishu.cn/v/wiki/QGrzwuQD4iQiIXkZG9Lc6r4EnUh/a2

在专业知识和指令遵循的评测集上，豆包分别获得了33%和24%的性能提升，并且成为得分最高的国产模型。此外，豆包模型在数学能力、语言理解能力以及综合评测集CMMLU 和CEval 的 ...

o1-preview/mini模型的代码生成能力如何？ - 飞书文档

https://docs.feishu.cn/v/wiki/QR9xwE1tTiYwGXkNFjFcSgVFnGc/af

中间：o1 在竞争性编程问题（Codeforces）中排名第89 个百分位（这个版本的模型还没发布），而o1-preview拿到了62个百分位。

豆包大模型披露评测成绩，较上一代“云雀”提升19%

https://docs.feishu.cn/v/wiki/AUw8w45JgiddzOkKZYRcWsVBn7f/ag

2025年5月15日 ... 评测结果显示，在评估代码能力的两个评测集HumanEval 和MBPP 上，豆包相比上一代模型提升了50%左右；在专业知识和指令遵循的评测集上，豆包分别获得33%和24%的 ...

Claude 3 Opus 与Gemini 1.5 Pro：三大语言模型的深度比较 - 飞书文档

https://docs.feishu.cn/article/wiki/RLG3wWgsniVzH6k7Y3ScH2BsnYf

在科学提问方面，Claude 3 Opus 在GPQA 测试中排名第一，GPT - 4 Turbo 排名第二。在代码生成方面，GPT - 4 Turbo 和Claude 3 Opus 在Human Eval 测试中分别排名第一和第三， ...

DeepSeekMath模型与GPT-4数学推理能力对比如何？ - 飞书文档

https://docs.feishu.cn/v/wiki/L1DewhHnYiIC9vkpiXBcXTzGnHe/a9

排名第四的队伍同样使用了deepseek-math-7b-rl，参数设置temperature 为0.9、top_p 为1.0、max tokens 为2048。该模型搭配代码工具，在MATH 基准测试中可达到58.8%。

20240905-百模大战AI江湖风云再起：2024中文大模型测评报告深度 ...

https://docs.feishu.cn/article/wiki/UocewZd2biadwEkiAlicbhlOnIg

作为全球表现最强的中文AI，OpenAI的ChatGPT-4o-latest依旧霸榜，但腾讯的混元Turbo和AndesGPT等国内大模型，正以惊人的速度缩短差距，并在多项能力上展现出极大的潜力。中国AI ...

OpenAI与SWE发布测试集，Gru.ai排名第一 - 飞书文档

https://docs.feishu.cn/v/wiki/UYnDwQSgwiDWRtkKLsCcsbI8ndc/a1

资讯OpenAI 联合SWE 发布AI 软件工程能力测试集，Gru.ai 荣登榜首https://mp.weixin.qq.com/s/ExdTlJ91TNwof12jykNHLg 在9 月3 日，Gru.ai 在SWE-Bench-Verified 评估 ...

多模态模型如何解决模态矛盾？ - 飞书文档

https://docs.feishu.cn/v/wiki/PnWzwoezdiDizokGixzclousner/aa

它使用了15T 的训练词元，这一数量远远超过了其它同类模型。特别是混合代码与arxiv数据可能提升了模型的推理能力。 ... 排名大约在第三位（通过文本的特定模式，我们 ...