飞搜侠

国内大厂LLM模型综合排名与分析 - 飞书文档

https://docs.feishu.cn/v/wiki/TPCGwpGokiinqhk5vnTc6xaFndf/a6

**GPT4 打分（满分一百） ** ; MODEL NAME. SCORE ; ERNIE-3.5-8K（百度）. 85.4 ; gpt-4（OpenAI）. 85.2 ; Doubao-pro-128k-240515（字节）. 84.9 ; ERNIE-4.0-8K-Preview-0518（百度）.

斯坦福发布大模型排行榜AlpacaEval - 飞书云文档

https://waytoagi.feishu.cn/wiki/GASUwij3nilmAfkgw2xcqAiJnme

来自斯坦福的团队，发布了一款LLM自动评测系统——AlpacaEval · ，以及对应的AlpacaEval Leaderboard。这个全新的大语言模型排行榜AlpacaEval，它是一种基于LLM 的全自动评估基准 ...

Claude 3 Opus 与Gemini 1.5 Pro：三大语言模型的深度比较 - 飞书文档

https://docs.feishu.cn/article/wiki/RLG3wWgsniVzH6k7Y3ScH2BsnYf

在科学提问方面，Claude 3 Opus 在GPQA 测试中排名第一，GPT - 4 Turbo 排名第二。在代码生成方面，GPT - 4 Turbo 和Claude 3 Opus 在Human Eval 测试中分别排名第一和第三， ...

豆包大模型：崭露头角的语言模型之星 - 飞书文档

https://docs.feishu.cn/article/wiki/WGmIwl4OeiNiKWkynmMcMHQTnyb

豆包大模型在有标准答案的“客观评测”中，以75.96 分的综合成绩排名第二，成为得分最高的国产大模型。这一成绩不仅彰显了其在知识运用和数学方面的卓越能力，也证明了其在大 ...

清华领衔发布多模态评估MultiTrust：GPT-4可信度有几何？ - 飞书文档

https://docs.feishu.cn/v/wiki/EWG1w3KqCifO8bkRNVDca1dhnIe/a5

以GPT-4o为代表的多模态大语言模型（MLLMs）因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手，还逐渐渗透到自动驾驶、医学诊断等 ...

C - Eval大模型排名公布，你想知道排名依据吗？ - 飞书文档

https://docs.feishu.cn/v/wiki/F87rwqLJZiTq9GkxbZOcWg1ZnZb/ac

苹果向开发者开放Vision Pro 头显使用申请，中文大模型权威排名公布丨RTE开发者日报Vol. ... Llama 2 是个非常强大的大语言模型。Meta 大可以像其他巨头公司一样选择发布闭源 ...

谁是最常用的大语言模型提供商？ - 飞书文档

https://docs.feishu.cn/v/wiki/X8AywxpJsiDO3Tkd3Vkcr95GnYd/a9

2024年1月16日 ... 在首位毫不奇怪的是OpenAI,紧随其后的是AzureOpenAI。OpenAI已成为2023年领先的大语言模型提供商,Azure(提供更多企业保证)也抓住了这一势头。

腾讯团队发布科学LLM大规模评测基准，国产大模型表现亮眼 - 飞书文档

https://docs.feishu.cn/v/wiki/WNbdw8rgiisxyakqwr3cb9htn5b/ah

随着大型语言模型（LLMs）在科学研究领域的广泛应用，评估这些模型在理解和应用科学知识方面的能力变得尤为重要，但是科学领域全面评估LLMs 科学知识的高级基准非常缺乏。

如何评估大语言模型？Chatbot Arena排行榜 - 飞书文档

https://docs.feishu.cn/v/wiki/Lfoiw2eFdiDDXgkTtc9cFzjtnfg/a6

2023年5月30日 ... 语言模型效果的评估一直是一个比较头疼的问题，如果差距很大其实我们是可以感知出来的，但是一些能力上差不多的模型就不太好进行排名，有时候数值上的优势并 ...

奇绩大模型日报（5月29日）

https://docs.feishu.cn/article/wiki/Zdecwr1yviWlzbkw8TdcxZPTnPe

2025年5月29日 ... 推特 · Gemini 各个版本上线Imsys org排行榜：Gemini 1.5 Pro/Advanced排名第二，接近GPT-4o · RoboCasa：一个大规模的日常任务模拟框架，使用生成式AI工具创建 ...