大模型日报(1月22日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(1月22日 学术篇)

信号

01

Relevance-guided Supervision for OpenQA with ColBERT

ColBERT-QA是一个用于开放域问答(OpenQA)的系统,通过改进检索模型和监督策略,显著提升了问答性能。OpenQA的目标是从大规模无结构文本中找到事实性问题的答案,通常依赖于检索模型找到相关段落和阅读模型从中提取答案。然而,现有的检索模型在处理自然语言问题的复杂性时存在不足,且监督方法存在局限性。
ColBERT-QA基于ColBERT检索模型,通过细粒度的交互来匹配问题和段落,并提出了一种高效的弱监督策略——相关性引导监督(Relevance-Guided Supervision, RGS)。RGS利用现有的检索模型收集训练数据,并通过迭代改进检索器的性能。具体来说,RGS从一个弱检索模型(如BM25)开始,逐步使用更有效的检索器生成正负样本,用于训练更强大的检索器。
实验结果表明,ColBERT-QA在Natural Questions、SQuAD和TriviaQA三个数据集上取得了最先进的检索和提取式OpenQA性能。与基于BM25和DPR等基线模型相比,ColBERT-QA在Success@20指标上显著提升,表明其能够更有效地找到包含答案的段落。此外,ColBERT-QA在端到端OpenQA任务中也表现出色,使用BERT-base和BERT-large阅读器时,均达到了新的最高水平。
ColBERT-QA的主要贡献包括:提出了一种高效的迭代策略RGS,用于在没有手工标注证据段落的情况下微调检索器;通过系统比较验证了ColBERT的细粒度交互优于现有的单向量检索器;应用RGS后,ColBERT和单向量检索器的性能均显著提升,最终的ColBERT-QA系统在多个数据集上取得了最佳性能。
大模型日报(1月22日 学术篇)
原文链接:https://arxiv.org/abs/2007.00814
信号源:Stanford University

02

DeepSeek R1: o1-level open weights model and a simple recipe for upgrading 1.5B models to Sonnet/4o level

DeepSeek R1是一个开源的推理模型,性能与OpenAI的o1相当,但成本大幅降低。该模型基于6710亿参数的Mixture of Experts (MoE)架构,提供两种完整模型和六种从其他开源模型(如Qwen 2.5和Llama 3.1)蒸馏而来的版本。DeepSeek R1在数学、代码和推理任务上表现出色,尤其是在AIME 2024基准测试中,其得分(79.8%)略高于OpenAI的o1(79.2%)。此外,DeepSeek R1的定价极具竞争力,每百万输入token(缓存命中)仅需0.14美元,输出token为2.19美元,相比OpenAI的o1(输入token缓存命中7.5美元,缓存未命中15美元,输出token 60美元)便宜27到50倍。DeepSeek R1采用MIT许可证,允许用户免费进行商业使用、微调和蒸馏,这在开源社区中引起了广泛关注。其开源策略旨在推动社区贡献和模型的广泛应用,尤其是在资源有限的环境中。
DeepSeek R1的训练采用了“Group Relative Policy Optimization (GRPO)”技术,这是一种简化版的PPO(近端策略优化)算法,通过蒙特卡洛方法估计优势函数,从而实现高效的强化学习训练。此外,DeepSeek R1还支持在Ollama上运行其蒸馏模型,进一步降低了部署门槛。
大模型日报(1月22日 学术篇)
原文链接:https://buttondown.com/ainews/archive/ainews-deepseek-r1-o1-level-open-weights-model/
信号源:Smol_AI
03
元资助

LLM Reasoning:  Key Ideas and Limitations

本文探讨了大型语言模型(LLMs)在推理能力上的关键思想和局限性。作者Denny Zhou指出,尽管机器学习(ML)在许多领域取得了进展,但在仅从少量样本中学习的能力上仍不及人类,因为人类能够通过推理来学习。文章通过一个简单的“末字母拼接”任务展示了LLMs在推理方面的潜力,即使在没有大量标注数据的情况下,LLMs也能通过推理过程(如“中间步骤”)解决复杂问题。
文章强调了“中间步骤”的重要性,即通过分解问题为小步骤来推导最终答案。这种方法在解决数学问题时尤为有效,例如通过生成中间步骤来解决代数问题(Ling et al. 2017)或通过提示中间步骤来提高LLMs的推理能力(Wei et al. 2022)。此外,文章还介绍了“最少到最多”提示方法(Least-to-Most Prompting),通过分解问题实现从简单到复杂的泛化(Zhou et al. 2023)。
文章进一步探讨了如何在不使用少量样本的情况下触发LLMs的逐步推理,例如通过类比推理(Yasunaga et al. 2024)或无需提示的链式推理(Wang and Zhou 2024)。这些方法表明,LLMs可以在没有明确提示的情况下进行推理,但通常效果不如少量样本提示(few-shot)好。
文章还讨论了LLMs在推理过程中的一些局限性,例如容易被无关上下文干扰(Shi et al. 2023)和无法自我修正推理错误(Huang et al. 2024)。此外,LLMs的推理能力还受到前提顺序的影响(Chen et al. 2024),这可能导致显著的性能下降。
大模型日报(1月22日 学术篇)
原文链接:https://dennyzhou.github.io/LLM-Reasoning-Berkeley.pdf
信号源:Google DeepMind 
04
元资助

豆包大模型1.5正式发布,全面上线火山方舟

2025年1月22日,字节跳动旗下的火山引擎正式发布了豆包大模型1.5版本,并全面上线火山方舟平台。这一版本的豆包大模型在知识、代码、推理和中文等多个权威测评基准上取得了最佳成绩,综合性能优于GPT-4o、Claude 3.5 Sonnet等业界一流模型,达到了全球领先水平。
豆包大模型1.5的核心亮点在于其综合性能的显著提升。其中,Doubao-1.5-pro在知识、代码、推理和中文等领域的评测基准中均获得了优异的成绩,展现了其在多场景下的强大能力。与此同时,轻量版的Doubao-1.5-lite也表现出色,其性能与GPT-4o-mini、Claude 3.5 Haiku相当,甚至在某些场景下可以替代Doubao-pro-32k-0828,为客户提供了高性价比的选择。
在多模态领域,Doubao-1.5-vision-pro进行了全面技术升级,显著增强了视觉推理、文字文档识别、细粒度信息理解和指令遵循能力。此外,豆包大模型还推出了实时语音模型,支持端到端语音对话,具备低时延、对话中可随时打断等特性,并计划在上半年通过方舟平台推出API服务。
豆包大模型1.5在训练过程中采用了大规模稀疏MoE架构,通过较小的激活参数实现等效于7倍激活参数的Dense模型性能,远超业内常规的3倍杠杆效率。同时,字节跳动自研的服务器集群、网卡和网络协议优化了硬件成本和小包通讯效率,通过精细量化和PD分离等方案,实现了高效算力利用。
在数据和训练方面,豆包大模型1.5坚持自主构建数据生产体系,结合标注团队和模型self-play技术,优化数据质量,确保数据来源的独立性和可靠性。这一策略使得模型在训练过程中未走“捷径”,而是通过高质量的数据提升性能。
火山引擎在发布豆包大模型1.5时,强调了AI普惠的理念。全系列产品(包括Doubao-1.5-pro、Doubao-1.5-lite、Doubao-1.5-vision-pro等)将继续保持原价,加量不加价。
大模型日报(1月22日 学术篇)
原文链接:https://mp.weixin.qq.com/s/ARilxStUARgF_bBrlAa7cw
信号源:火山引擎

 HuggingFace&Github

01
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格

Human-Like-DPO-Dataset 增强模型的类人反应数据集

Human-Like-DPO-Dataset 数据集是为提高大型语言模型的对话流畅度和参与度而创建的,它适用于直接偏好优化(DPO)等格式,引导模型生成更贴近人类的自然反应。
该数据集包含 256 个主题(涵盖科技、日常生活、科学、历史、艺术等)的 10,884 个样本。每条样本包含:
  • 对话式问题:贴近日常交流的问题。
  • 类似人类的回答:模仿人类对话风格的自然会话式回答。
  • 正式回复:传统AI风格的结构化的专业回答。
该数据集可用于微调大型语言模型,从而提升对话连贯性、减少机械化回答,并增强对话系统的情感智能。
大模型日报(1月22日 学术篇)
https://huggingface.co/datasets/HumanLLMs/Human-Like-DPO-Dataset



推荐阅读
  — END —
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2025/01/36514.html

Like (0)
Previous 2025-01-22 20:33
Next 2025-01-22 22:09

相关推荐