飞搜侠

图解大模型计算加速系列：vLLM源码解析2，调度器策略(Scheduler). 在上一篇关于vLLM代码整体架构的文章中，我们提到过无论是“离线批处理（同步）”还是“在线流式服务 ...

编码器-解码器模型，如T5（Text-To-Text Transfer Transformer），独特地将各种自然语言处理任务转化为文本生成问题。具体来说，T5的编码器处理输入序列以捕获其含义，而解码器 ...

随着生成式AI的火热发展，高企的语言大模型（LLM）推理性能和成本成为阻碍其大规模应用的关键挑战。 LLM推理是指使用仅解码器 ...

在可行的情况下,这样的深思熟虑启发式方法可以比编程规则更灵活,也比学习模型更高效。与思维生成器类似,我们考虑两种策略来独立或一起评估状态: 独立评估每个状态:$V ...

为此，研究人员提出了一种自适应QA框架- adaptive RAG ，根据查询复杂度从最简单到最复杂的LLM中动态选择最合适的策略。该框架用小LM训练了一个分类器，预测查询的复杂程度。

离线算法通常是将策略作为分类器进行训练。但是，作为分类器，它们可能并不如代理偏好模型那样准确（因为对分类进行参数化的有效方式不同）。如果准确度提升，则其性能 ...

微调检索器多项研究利用大型语言模型（LLM）的反馈信号来精炼检索模型。例如，AAR通过使用编码器-解码器架构，通过FiD交叉注意力分数识别LM偏好的文档，为预训练的检索器引入 ...

毒性检测器采用Kaggle上“毒性评论分类挑战”的数据训练一个BERT模型；. 色情检测器是将去重后的数据采样一部分并使用Perspective API进行数据 ...

GPTCache 中的相似性评估模块从Cache Storage 和Vector Store 中收集数据，并使用各种策略来确定输入请求与来自Vector Store 的请求之间的相似性。该模块用于确定某一请求 ...

最近，检索增强生成（RAG）在解决大型语言模型（LLM）的挑战方面取得了显著的成功，而无需重新训练。通过引用外部知识库，RAG 优化了LLM 输出，有效缓解了“幻觉”、缺乏特定领域 ...

搜索推荐