Relevance-guided Supervision for OpenQA with ColBERT
ColBERT-QA是一个用于开放域问答(OpenQA)的系统,通过改进检索模型和监督策略,显著提升了问答性能。OpenQA的目标是从大规模无结构文本中找到事实性问题的答案,通常依赖于检索模型找到相关段落和阅读模型从中提取答案。然而,现有的检索模型在处理自然语言问题的复杂性时存在不足,且监督方法存在局限性。ColBERT-QA基于ColBERT检索模型,通过细粒度的交互来匹配问题和段落,并提出了一种高效的弱监督策略——相关性引导监督(Relevance-Guided Supervision, RGS)。RGS利用现有的检索模型收集训练数据,并通过迭代改进检索器的性能。具体来说,RGS从一个弱检索模型(如BM25)开始,逐步使用更有效的检索器生成正负样本,用于训练更强大的检索器。实验结果表明,ColBERT-QA在Natural Questions、SQuAD和TriviaQA三个数据集上取得了最先进的检索和提取式OpenQA性能。与基于BM25和DPR等基线模型相比,ColBERT-QA在Success@20指标上显著提升,表明其能够更有效地找到包含答案的段落。此外,ColBERT-QA在端到端OpenQA任务中也表现出色,使用BERT-base和BERT-large阅读器时,均达到了新的最高水平。ColBERT-QA的主要贡献包括:提出了一种高效的迭代策略RGS,用于在没有手工标注证据段落的情况下微调检索器;通过系统比较验证了ColBERT的细粒度交互优于现有的单向量检索器;应用RGS后,ColBERT和单向量检索器的性能均显著提升,最终的ColBERT-QA系统在多个数据集上取得了最佳性能。原文链接:https://arxiv.org/abs/2007.00814信号源:Stanford University
02
DeepSeek R1: o1-level open weights model and a simple recipe for upgrading 1.5B models to Sonnet/4o level
本文探讨了大型语言模型(LLMs)在推理能力上的关键思想和局限性。作者Denny Zhou指出,尽管机器学习(ML)在许多领域取得了进展,但在仅从少量样本中学习的能力上仍不及人类,因为人类能够通过推理来学习。文章通过一个简单的“末字母拼接”任务展示了LLMs在推理方面的潜力,即使在没有大量标注数据的情况下,LLMs也能通过推理过程(如“中间步骤”)解决复杂问题。文章强调了“中间步骤”的重要性,即通过分解问题为小步骤来推导最终答案。这种方法在解决数学问题时尤为有效,例如通过生成中间步骤来解决代数问题(Ling et al. 2017)或通过提示中间步骤来提高LLMs的推理能力(Wei et al. 2022)。此外,文章还介绍了“最少到最多”提示方法(Least-to-Most Prompting),通过分解问题实现从简单到复杂的泛化(Zhou et al. 2023)。文章进一步探讨了如何在不使用少量样本的情况下触发LLMs的逐步推理,例如通过类比推理(Yasunaga et al. 2024)或无需提示的链式推理(Wang and Zhou 2024)。这些方法表明,LLMs可以在没有明确提示的情况下进行推理,但通常效果不如少量样本提示(few-shot)好。文章还讨论了LLMs在推理过程中的一些局限性,例如容易被无关上下文干扰(Shi et al. 2023)和无法自我修正推理错误(Huang et al. 2024)。此外,LLMs的推理能力还受到前提顺序的影响(Chen et al. 2024),这可能导致显著的性能下降。原文链接:https://dennyzhou.github.io/LLM-Reasoning-Berkeley.pdf信号源:Google DeepMind 04元资助
该数据集可用于微调大型语言模型,从而提升对话连贯性、减少机械化回答,并增强对话系统的情感智能。https://huggingface.co/datasets/HumanLLMs/Human-Like-DPO-Dataset 推荐阅读 — END —1. The theory of LLMs|朱泽园ICML演讲整理