飞搜侠

国内大厂LLM模型综合排名与分析 - 飞书文档

https://docs.feishu.cn/v/wiki/TPCGwpGokiinqhk5vnTc6xaFndf/a6

**GPT4 打分（满分一百） ** ; MODEL NAME. SCORE ; ERNIE-3.5-8K（百度）. 85.4 ; gpt-4（OpenAI）. 85.2 ; Doubao-pro-128k-240515（字节）. 84.9 ; ERNIE-4.0-8K-Preview-0518（百度）.

斯坦福发布大模型排行榜AlpacaEval - 飞书云文档

https://waytoagi.feishu.cn/wiki/GASUwij3nilmAfkgw2xcqAiJnme

斯坦福发布大模型排行榜AlpacaEval · GPT-4 稳居第一，胜率超过了95%；胜率都在80% 以上的Claude 和ChatGPT 分别排名第二和第三，其中Claude 以不到3% 的优势超越ChatGPT。

Claude 3 Opus 与Gemini 1.5 Pro：三大语言模型的深度比较 - 飞书文档

https://docs.feishu.cn/article/wiki/RLG3wWgsniVzH6k7Y3ScH2BsnYf

在AI 基准测试方面，这些模型在不同的测试中表现各异。例如，在编码方面，GPT - 4 Turbo 在MBPP 测试中排名第一，Claude 3 Opus 排名第三，而Gemini 1.0 Pro 在该测试中排名第23 ...

清华领衔发布多模态评估MultiTrust：GPT-4可信度有几何？ - 飞书文档

https://docs.feishu.cn/v/wiki/EWG1w3KqCifO8bkRNVDca1dhnIe/a5

研究人员维护了一个定期更新的多模态大模型可信度榜单，已经加入了GPT-4o、Claude3.5等最新的模型，整体来看，闭源商用模型相比主流开源模型更为安全可靠。

奇绩大模型日报：多领域资讯全解析，从大模型评测到AI新成果

https://docs.feishu.cn/v/wiki/BXL7w3utFiDWUVkINmYc8gktngd/a1

文心一言、文心一格在问答理解类、推理类、创作表达类、数学类、代码类等基础能力，toC 通用场景类、toB 特定行业类等应用能力等7 大维度均具备领先优势。其他评测厂商中， ...

探索多模态模型排行榜 - 飞书文档

https://docs.feishu.cn/v/wiki/XJPAwujPBiA612klpKecsvuHnWb/a2

排行榜https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.git 综述A Survey on Multimodal Large Language Models，仓库即上面的Git 链接多模态 ...

奇绩大模型日报（5月29日）

https://docs.feishu.cn/article/wiki/Zdecwr1yviWlzbkw8TdcxZPTnPe

2025年5月29日 ... ... Gemini 各个版本上线Imsys org排行榜：Gemini 1.5 Pro/Advanced排名第二，接近GPT-4o https ... Yuan 2.0-M32的模型和源代码在Github上发布。数据集增长.

中国大模型Yi-Large与GPT-4o中文并列第一 - 飞书文档

https://docs.feishu.cn/v/wiki/PUGYwMp88irWVZkIlf4c4Zltnmb/a9

紧急黑客马拉松：GPT-4o vs. Gemini 1.5，入围者展示 · Elevator - 最佳Gemini 1.5应用。 · Generative UX - 交互式旅行代理，连接用户偏好与旅行指南、预订、照片、成本规划等 ...

豆包大模型披露评测成绩，较上一代“云雀”提升19%

https://docs.feishu.cn/v/wiki/AUw8w45JgiddzOkKZYRcWsVBn7f/ag

2025年5月15日 ... 评测结果显示，在评估代码能力的两个评测集HumanEval 和MBPP 上，豆包相比上一代模型提升了50%左右；在专业知识和指令遵循的评测集上，豆包分别获得33%和24%的 ...

奇绩大模型日报（6月13日） - 飞书云文档

https://miracleplus.feishu.cn/wiki/BXL7w3utFiDWUVkINmYc8gktngd

奇绩大模型日报（6月13日） · 迭代增强的LLM输出在AlpacaEval 2.0、MT-Bench和FLASK上超越了@OpenAI 的GPT-4 Omni！ · Mixture-of-Agents (MoA) · 1️⃣ 选择具有不同优势的多个LLM ...