飞搜侠

LLMs / 开源大模型选型 · chatglm2-6b（默认） · Llama2-Chinese-13b-Chat（推荐） · Baichuan2-13B-Chat. 知识库 ...

评测结果表明，豆包大模型在多个方面表现出色。在评估代码能力的HumanEval 和MBPP 评测集上，豆包相比上一代模型提升了约50%，这一成绩令人瞩目。在专业知识和指令遵循的评测 ...

字节“开盒”OpenAI所有大模型，揭秘GPT-3到GPT-4进化路径！把李沐都炸出来了 · 探秘GPT-3到GPT-4进化之路. 最开头的进化图由作者们根据公开信息总结得出。 · 2、RLHF和SFT：编码 ...

在大会上，腾讯也“剧透”了一下背后的架构和技术细节。作为一个千亿大语言模型，混元同样基于Transformer打造，具备文本创作、工作计划、数学计算和聊天对话等能力 ...

百川智能发布了全球上下文窗口最长的Baichuan2-192K 大模型，窗口长度高达192K，可一次处理约35 万汉字，性能显著超越其他长窗口模型。该模型在多项长文本评测中取得了优异 ...

信鑫：基于大模型+ 知识库的Code Review 实践 ; gemma-7b-it』、『 ; Llama2-Chinese-13b-Chat』和『 ; chatglm2-6b』、『 ; Baichuan2-13B-Chat ...

根据官方数据，其中的代码大模型在CSDN的自动编程评测标准上能达到C3，和GPT-3.5处于同一等级“条件自动编程”。目前，专业的代码 ...

2024年11月9日 ... HumanEval：由OpenAI提出，包含164个Python编程问题，专门设计以避免与模型训练数据重合，评测模型生成代码的准确性，使用 pass@k 指标（生成多次，计算平均通过 ...

2024年8月30日 ... 代码助手和Artifacts场景应用：在Cursor和Artifacts应用中，Qwen2.5-Coder展示了代码补全和生成可视化作品的能力。在Humaneval-Infilling等5个评测集上均 ...

实现一个简洁的代码模型评测框架（以Qwen2.5-coder ... 5-Coder 系列模型的开源为代码生成大模型领域带来了新进展。其32B-Instruct模型在代码生成、代码修复和代码 ...