飞搜侠

斯坦福发布大模型排行榜AlpacaEval - 飞书云文档

https://waytoagi.feishu.cn/wiki/GASUwij3nilmAfkgw2xcqAiJnme

斯坦福发布大模型排行榜AlpacaEval · GPT-4 稳居第一，胜率超过了95%；胜率都在80% 以上的Claude 和ChatGPT 分别排名第二和第三，其中Claude 以不到3% 的优势超越ChatGPT。

国内大厂LLM模型综合排名与分析 - 飞书文档

https://docs.feishu.cn/v/wiki/TPCGwpGokiinqhk5vnTc6xaFndf/a6

**GPT4 打分（满分一百） ** ; MODEL NAME. SCORE ; ERNIE-3.5-8K（百度）. 85.4 ; gpt-4（OpenAI）. 85.2 ; Doubao-pro-128k-240515（字节）. 84.9 ; ERNIE-4.0-8K-Preview-0518（百度）.

探索多模态模型排行榜 - 飞书文档

https://docs.feishu.cn/v/wiki/XJPAwujPBiA612klpKecsvuHnWb/a2

LLaVA. 分析：【LLM多模态】LLava模型架构和训练过程| CLIP模型_llava数据构造-CSDN博客 · InstructBLIP · Qwen-VL · CLIP · EVA-CLIP · MoF · MLP · Transformer-Based.

SEAL排行榜推出，评估前沿模型 - 飞书文档

https://docs.feishu.cn/v/wiki/OTgmwUi6Oib5vEkst1dcpv33ngh/a6

... 代码模型. https://mp.weixin.qq.com/s/yPLyGyXSkliV2fVz1PxUhw. 对标OpenAI 的法国AI 独角兽Mistral AI有了新动作：首个代码大模型Codestral 诞生了。作为一个专为代码 ...

奇绩大模型日报（4月23日）中的AI模型评测结果说明了什么？

https://docs.feishu.cn/v/wiki/DZBgwd7TDizYWskmGOectAGGnxe/ad

2025年4月23日 ... 最终，Llama 3取得了榜单中的第五名，排在前面的是GPT-4的三个不同版本，以及Claude 3超大杯Opus。而在英文单项榜单中，Llama 3反超了Claude，与GPT-4打成了 ...

GPT-Fathom：大模型评测新工具 - 飞书文档

https://docs.feishu.cn/v/wiki/JB8ywgOiCis6MKka4Fsc4vChnXb/a7

... 编码能力的最大功臣是SFT和RLHF 在预训练中加入代码数据则提升了后续GPT ... 大模型排行榜和评测工具已经有很多了，为什么还要提出一个新的方法？作者介绍 ...

奇绩大模型日报（5月29日）

https://docs.feishu.cn/article/wiki/Zdecwr1yviWlzbkw8TdcxZPTnPe

2025年5月29日 ... 推特 · Gemini 各个版本上线Imsys org排行榜：Gemini 1.5 Pro/Advanced排名第二，接近GPT-4o · RoboCasa：一个大规模的日常任务模拟框架，使用生成式AI工具创建 ...

大模型开源生态之排行榜与横向对比 - 飞书文档

https://docs.feishu.cn/v/wiki/O8mkwcC1vi6UkFkdoSwcnoDbnCf/ac

⼤模型开发基础 · Embedding 101 · Embedding 起源、发展、应⽤与现状 · Embedding 之于⼤模型的独特价值 · ⾸个Embeddings 开源数据集：Alexandria · 实战OpenAI Embeddings 模块.

通义千问 - 飞书文档

https://docs.feishu.cn/article/wiki/LR4AwSqSIiZPxRkVxY1c1YDKnvc

通义千问Qwen2系列模型大幅提升了代码、数学、推理、指令遵循、多语言理解等能力。在MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard、LiveCodeBench等国际权威 ...

C - Eval大模型排名公布，你想知道排名依据吗？ - 飞书文档

https://docs.feishu.cn/v/wiki/F87rwqLJZiTq9GkxbZOcWg1ZnZb/ac

苹果向开发者开放Vision Pro 头显使用申请，中文大模型权威排名公布丨RTE开发者日报Vol.12 ; 一、有话题的新闻 ; 二、有态度的观点 ; 二、有思考的文章.