飞搜侠

斯坦福发布大模型排行榜AlpacaEval - 飞书文档

https://docs.feishu.cn/article/wiki/GASUwij3nilmAfkgw2xcqAiJnme

斯坦福发布大模型排行榜AlpacaEval · GPT-4 稳居第一，胜率超过了95%；胜率都在80% 以上的Claude 和ChatGPT 分别排名第二和第三，其中Claude 以不到3% 的优势超越ChatGPT。

国内大厂LLM模型综合排名与分析 - 飞书文档

https://docs.feishu.cn/v/wiki/TPCGwpGokiinqhk5vnTc6xaFndf/a6

**编程MELLM 算法打分（满分100分） ** ; qwen2-72b-instruct. 88.9 ; qwen1.5-110b-chat. 88.6 ; gpt-4. 87.2 ; Doubao-pro-128k-240515. 86.9 ; Moonshot-v1-32k-v1. 86.5.

AI Coding模型多大合适？ - 飞书文档

https://docs.feishu.cn/v/wiki/O0ALwBonXiX11Kkqw17c1OeHntd/af

在代码补全领域，业界普遍认为模型规模越大，其补全效果往往越好。 · 在实际评估逻辑中，会通过一些类似Tabby的排行榜（leaderboard）进行评估，发现在成本效益方面表现较为理想的 ...

Code模型如何提升代码任务能力？ - 飞书文档

https://docs.feishu.cn/v/wiki/RDe0wf24Uio1CZkTZsHcaFk3nig/ar

2024年2月10日 ... 2023年11月，01-AI 公司发布了Yi 系列模型，其参数规模介于60 亿至340 亿之间，训练数据量达到了300 亿token。这些模型在公开排行榜（如Open LLM ...

《数字人生成的AI 工具：Hedra、D-iD 等》 - 飞书文档

https://docs.feishu.cn/v/wiki/Hs7awnrMbiSXmdkrLGscwjTvndh/ah

【Claude-3.5 Sonnet】Arena 大模型竞技场免费版. https://lmarena.ai. 由加州大学伯克利分校领衔开发的AI 大模型能力排行榜，开源公益平台。该 ...

GPT-Fathom：大模型评测新工具 - 飞书文档

https://docs.feishu.cn/v/wiki/JB8ywgOiCis6MKka4Fsc4vChnXb/a7

探秘GPT-3到GPT-4进化之路. 最开头的进化图由作者们根据公开信息总结得出。 · 2、RLHF和SFT：编码能力提升的功臣 · 3、代码加入预训练，对推理帮助最大 · 4、“跷跷板”现象 · 帮助 ...

大模型开源生态之排行榜与横向对比 - 飞书文档

https://docs.feishu.cn/v/wiki/O8mkwcC1vi6UkFkdoSwcnoDbnCf/ac

⼤模型理论基础 · 初探大模型：起源与发展 · 预热篇：解码注意力机制（Attention ） · 变革里程碑：Transformer 的崛起 · 走向不同：GPT 与Bert 的选择 · GPT 模型家族:从始至今 · GPT ...

2023-08-21快手自研大模型「快意」亮相 - 飞书文档

https://docs.feishu.cn/article/wiki/WGUAwUt8FiMkuNk47wPcAC5YnSf

2023年8月21日 ... ... 模型浮出水面。作者| 拉风的极客近日，在多个知名大模型排行榜上，一个新面孔KwaiYii-13B 表现亮眼，并一举跃居CMMLU 中文向排名 ... 能力。 KwaiYii ...

LLaMA 3：大模型新征程的引领者 - 飞书文档

https://docs.feishu.cn/v/wiki/PnWzwoezdiDizokGixzclousner/a1

目前的排行榜如下：. LLaMA 3 70B的一个显著 ... 它使用了15T 的训练词元，这一数量远远超过了其它同类模型。特别是混合代码与arxiv数据可能提升了模型的推理能力。

AIGC Weekly #81 - 飞书云文档

https://waytoagi.feishu.cn/wiki/RcgXws8Ghidu0zk0Zrwc3ajsnvb

2024年7月22日 ... AIGC Weekly #81 · 这是一个专门针对数学推理和科学发现设计的7B 型号。 · 模型在MATH 上达到了56.6％，在MMLU 上达到了63.47％最重要的是推理能力，这个模型 ...