飞搜侠

2023年7月5日 ... 完成数据集构建，对数据集中的语料进行分词并在构建好的模型中进行预训练之后，为了解模型的各方面能力，还需要对模型进行测试和评价。不同于微调后的模型 ...

这有一个简单但有效的方法，以迭代LLM-as-Judge，我们记录大模型的回复、评判的解释(即CoT) 和最终结果。然后与其他人一起检查这些记录，以确定改进的领域。经过三次迭代， ...

对于每对查询-回答（query-response pairs），研究者们让人类标注者（annotators）评估回答的安全性，将其分类为安全（safe）、不安全（unsafe）或有争议的（controversial）。

奖励模型接收一系列文本并返回一个标量奖励，数值上对应人的偏好。我们可以用端到端的方式用LM 建模，或者用模块化的系统建模(比如对输出进行排名，再将排名转换为奖励) 。这 ...

在有了评估指标和数据之后，接下来就是设计评估算法。对于检索部分，可以采用传统的信息检索算法，如向量空间模型、BM25等。这些算法可以根据问题和文档之间的相似度来计算 ...

... 构建的计量模型报告，让教授难以分辨出自人类还是机器之手。这种"完美作弊"正在侵蚀学术评估体系的根基。思维能力的空心化：. 当学生习惯用AI代笔论文 ...

这种多样性确保LLM能够有效地概括，处理广泛的输入。同时，我们收集相应的高质量输出，建立衡量LLM表现的基本事实。构建黄金数据集需要对每个输入输出对进行细致的注释和验证 ...

2023年3月31日 ... AI平台采用开放式的框架，通过组件化方法快速纳入各类开源模型和商业模型。持续跟踪开源模型最新进展，逐步构建适应问答、文本向量化等不同场景的模型库。

... 评价厂商总览评价门槛本次评估模型设立“中国市场落地”“全栈能力”“商业基础”、“产品市场”、四项基线，同时满足这五项基线要求的大模型厂商，将入围竞争力评估。中国 ...

从已有的大模型评估工作中，MultiTrust提炼出了五个可信评价维度——事实性（Truthfulness）、安全性（Safety）、鲁棒性（Robustness）、公平性（Fairness）、隐私保护（Privacy），并 ...