飞搜侠

在使用HumanEval 编程多语言测试数据集的评估中，DeepSeek Coder 在多种编程语言中的表现超越了现有的开源模型，在使用HumanEval、MBPP 和DS-1000 数据集的代码生成任务评估 ...

设问「预训练中使用的代码数据对代码生成以外的各种下游任务有何影响」。作者对范围广泛的自然语言推理任务、世界知识任务、代码基准和LLM-as-a-judge 胜率进行了广泛的 ...

·AI 开源模型列表自2019 年成立以来，智谱AI 致力于大模型 ... 基于上述方法和数据集，我们利用Llama2 微调了具备超强Agent 能力的AgentLM-7B ...

HumanEval [9]：一个由164 个原创编程问题组成的数据集，通过衡量从文档字符串生成程序的功能正确性，来够评估语言理解、算法和简单的数学能力。

2024年11月9日 ... HumanEval：由OpenAI提出，包含164个Python编程问题，专门设计以避免与模型训练数据重合，评测模型生成代码的准确性，使用 pass@k 指标（生成多次，计算平均通过 ...

原文链接： https://baijiahao.baidu.com/s?id=17... AI 大模型需要什么样的数据集数据将是未来AI 大模型竞争的关键要素人工智能发展的突破得益于高质量数据的发展。

... 代码、应用场景等，也会持续评估不同训练数据、训练算法等对模型表现的影响 ... 生成，常识问答和数学计算等能力。除姜子牙系列模型之外，该项目还开源了太乙 ...

最近，AI领域掀起了一股数据合成的热潮，各大厂商最近推出的模型都或多或少有数据合成的影子。英伟达的Nemotron-4-340B-Instruct、微软的Orca-3，以及Meta的Meta-Llama-3.1-8B ...

Nemotron-4 340B 技术报告 ; 大语言模型在预训练过程中如何获取事实知识？ ; Datacomp LM: 寻找下一代语言模型训练集 ; 长代码竞技场：长文本代码模型基准集 ; MINT-1T：将开源多 ...

通过结合多个模型的拒绝采样样本，RFT 性能得到进一步提升，例如LLaMA-7B 在GSM8K 数据集上的准确率从35.9 提升至49.3。这些发现对于大模型在数学推理领域的应用和优化具有 ...