我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告：ResearchFlow — 奇绩F23校友的开发的深度研究产品，PC端进入RFlow的分析报告，可直接点击节点右侧的小数字展开节点，登录后可在节点上直接“询问AI”，进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

大模型日报（ 2月 5-6日学术篇）

信号

Gemini 2.0: Flash, Flash-Lite and Pro

Google的Gemini 2.0系列更新，并面向大众开放。Gemini 2.0系列采用了新的强化学习技术，利用Gemini自身对其响应进行批评，从而提供更准确和针对性的反馈，提高了模型处理敏感提示的能力。所有这些模型在发布时都支持多模态输入和文本输出，未来几个月将推出更多模态的通用版本，Google将继续为Gemini 2.0系列模型开发更多更新和改进功能。具体的测评效果和价格如右图所示，具体产品如下：

Gemini 2.0 Flash正式向所有用户开放，包括桌面和移动设备的Gemini应用用户，以及通过Google AI Studio和Vertex AI的Gemini API的开发者。其性能在关键基准测试中得到提升，未来还将支持图像生成和文本转语音功能。
Gemini 2.0 Pro Experimental是迄今为止Google发布的编码性能最强、处理复杂提示能力最佳的模型，具有200万tokens的上下文窗口，能够全面分析和理解大量信息，并支持调用Google搜索和代码执行等工具。
Gemini 2.0 Flash-Lite是在1.5 Flash的基础上，进一步优化了质量和成本，同时保持了速度。在大多数基准测试中表现优于1.5 Flash，具有100万tokens的上下文窗口和多模态输入能力，例如可以为约4万张独特照片生成相关的一行字标题，且在Google AI Studio的付费层级中成本不到1美元。
Gemini 2.0 Flash Thinking Experimental将向Gemini应用的桌面和移动用户提供，用户可以在模型下拉菜单中选择使用。

https://blog.google/technology/google-deepmind/gemini-model-updates-february-2025/

https://developers.googleblog.com/en/gemini-2-family-expands/?linkId=12807905

Enabling advanced GPU features in PyTorch – Warp Specialization

过去几个月，Meta 和 NVIDIA 合作，通过 Triton 编译器为 PyTorch 和 Triton 用户启用高级 GPU 功能，重点关注在 NVIDIA Hopper GPU 上引入 Warp Specialization（WS）支持。这一功能将在即将发布的 Triton 3.2 中推出，并随 PyTorch 2.6 一起提供。用户可以通过实现自定义 Triton 内核来利用这一功能。

WS 是一种 GPU 编程技术，将 NVIDIA GPU 中的 warp（32 个线程的组）分配不同的角色或任务，以优化性能。通过异步执行模型，不同部分的内核由不同的硬件单元管理，通过 NVIDIA H100 的共享内存高效通信。与传统的统一 warp 方法相比，WS 允许硬件多任务 warp 调度器更有效地运行，最大化资源利用率和整体性能。

通过将不同操作分配到不同的 warp 中，并通过共享内存中的低开销屏障同步，每个 warp 可以独立执行指令，避免被其他操作中断，从而提高性能：Warp Specialization 通过一系列 Triton 编译器转换将用户代码转换为 warp-specialized 内核，已应用于 Flash Attention 和 FP8 行 GEMM 等关键内核，性能提升 10% 至 15%。

原文链接：https://pytorch.org/blog/

元资助

s1: Simple test-time scaling

语言模型的性能提升在过去几年主要依赖于训练时计算量的增加，研究者们开始探索一种新的范式——测试时扩展（test-time scaling），即在测试阶段增加计算量以获得更好的性能。本文旨在寻找一种简单的方法来实现测试时扩展和强大的推理性能。

本文提出了一种简单且有效的方法来实现测试时扩展和强大的推理性能。通过精心构建的小型数据集 s1K 和预算强制技术，即使在有限的样本和计算资源下，也能显著提升语言模型在复杂推理任务中的表现。

研究结果表明，测试时扩展是一种有潜力的范式，可以在不增加训练成本的情况下，进一步提升语言模型的性能。未来的工作可以探索如何进一步优化测试时扩展方法，以及如何将其应用于更广泛的推理任务和模型架构中。

文章提出了一种新的测试时推理方法——预算强制（budget forcing）。预算强制是一种简单的测试时干预方法，通过在测试时强制终止模型的思考过程或延长其思考时间来控制测试时计算量。该方法简单易实现，且能有效控制测试时计算量，使模型在测试时能够根据需要调整思考深度，从而提高推理性能。

在对 Qwen2.532B-Instruct 语言模型进行监督微调后，应用预算强制的 s1-32B 模型在竞赛数学问题（如 AIME24）上超过了 OpenAI 的 o1-preview 模型，性能提升高达 27%。此外，通过测试时扩展，s1-32B 的性能可以从 50% 提升到 57%。

s1-32B 是最样本高效的推理模型，仅使用 1,000 个样本进行微调，就显著优于其他使用更多样本的模型，如 DeepSeek 的 r1 模型。

预算强制方法在测试时扩展方面表现出色，具有完美的可控性，并且随着测试时计算量的增加，性能呈正向增长趋势。

原文链接：https://arxiv.org/abs/2501.19393

元资助

ParadigmPrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action

本文介绍了一个名为 PrivacyLens 的框架，旨在评估语言模型在实际应用中的隐私规范意识，并量化其在agent场景下无意间泄露隐私的风险。研究团队通过构建隐私敏感的种子数据（privacy-sensitive seeds）、生成详细的场景描述（vignettes）以及模拟代理行为轨迹（agent trajectories），对语言模型在隐私保护方面的表现进行了多层次评估。

PrivacyLens 从两个层面评估语言模型的隐私意识：

问答形式的隐私探测（QA Probing）：通过提问“是否可以将某类数据从发送者传输给接收者”来评估模型对隐私规范的理解。
基于代理行为的评估（Action-Based Evaluation）：直接评估模型在执行用户指令时是否泄露隐私信息。研究团队通过构建一个分类器来判断模型的最终行为是否泄露了敏感信息。

研究结论

隐私风险普遍存在：即使是最先进的语言模型，在执行用户指令时仍会无意间泄露隐私信息，这表明需要进一步研究以提高模型的隐私规范意识。
评估方法的重要性：传统的问答评估方法无法准确反映模型在实际应用中的隐私风险，因此需要构建基于行为的评估框架和数据集。
隐私与可用性的平衡：在隐私保护和模型的可用性之间存在权衡。一些模型在隐私保护方面表现较好，但可能在完成用户指令方面不够有效。

原文链接：https://arxiv.org/abs/2409.00138

元资助

Eliciting Language Model Behaviors with Investigator Agents

文章的核心内容是关于如何通过训练“调查者模型”（investigator models）来诱导语言模型表现出特定的目标行为，特别是在自由形式文本提示下可能产生的复杂和多样的行为。研究的主要目标是开发一种自动化的行为诱导方法，能够高效地搜索出能够诱导特定行为的提示，这些行为可能包括幻觉（hallucinations）、有害响应等。这篇文章为理解和控制语言模型的行为提供了新的视角和方法，特别是在自动化发现和诱导特定行为方面取得了显著进展。

文章提出了一个框架，通过训练语言模型代理（investigator agents）来调查其他AI模型。这种方法将行为发现视为一个强化学习问题，训练调查者模型生成能够从目标模型中诱导出特定行为的输入。研究使用Llama-3.1 8B作为目标模型，通过SFT和DPO训练调查者模型，并在多个任务上进行了评估。与基线方法相比，文章提出的方法在诱导成功率和多样性方面都有显著提升。例如，在AdvBench（有害行为）任务上，使用DPO的调查者模型达到了98%的攻击成功率，而使用Frank-Wolfe方法的调查者模型达到了100%。

研究结论

调查者模型的有效性：通过训练调查者模型，可以有效地发现多种有效且易于人类理解的提示，这些提示能够诱导出目标行为。
多样性和可解释性：通过迭代的DPO和Frank-Wolfe方法，调查者模型能够发现多样化的诱导策略，同时保持高性能。
自动化和可扩展性：该方法能够在自动化和可扩展性之间取得平衡，同时保持对语言模型行为的开放性复杂性的适应性。

原文链接：https://arxiv.org/abs/2502.01236

元资助

ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning

这篇文章的核心内容是研究大型语言模型在逻辑推理任务中的表现及其可扩展性，特别是针对复杂非单调推理问题。文章通过引入一个名为 ZebraLogic 的评估框架，系统地研究了 LLMs 在逻辑网格谜题上的推理能力，并探讨了模型规模、测试时计算量等因素对推理性能的影响。

这项研究为理解 LLMs 的逻辑推理能力提供了重要的见解，并指出了当前模型在处理复杂推理任务时的局限性。通过分析模型规模、测试时计算量和推理令牌数量等因素对推理性能的影响，文章为未来提升 LLMs 推理能力的研究提供了方向。

ZebraLogic 框架通过逻辑网格谜题评估 LLMs 的推理性能。这些谜题是从 CSPs 派生而来，能够隔离纯逻辑推理与领域知识，并允许精确控制问题复杂性。ZebraLogic 数据集包含 1,000 个逻辑网格谜题，覆盖多个复杂度级别，并使用两个复杂性指标：搜索空间大小和 Z3 冲突次数。

实验结果揭示了随着问题复杂性增加，LLMs 的准确率显著下降，作者将这种现象称为“复杂性的诅咒”。即使在模型规模扩大或增加推理时计算量的情况下，这种限制依然存在，表明当前 LLMs 的推理能力存在固有限制。具体发现如下：

模型性能随复杂性增加而下降：随着谜题复杂性的增加，大多数模型的性能急剧下降。例如，当搜索空间超过 107 种可能性时，模型准确率大幅下降。
模型规模的影响有限：尽管在较小搜索空间中，较大的模型（如 Llama-3.1-405B）表现更好，但在复杂问题上，模型规模的扩大并不能显著提升性能。
测试时计算量的扩展：通过增加生成样本数量（Best-of-N 采样）可以提升潜在性能，但实际选择方法（如多数投票或奖励模型）效果有限。即使在 pass@128 的情况下，也无法突破“复杂性的诅咒”。
CoT的扩展更有潜力：OpenAI 的 o1 模型在推理过程中生成了大量隐藏的CoT，这些令牌随着问题复杂性增加而扩展。o1 模型生成的推理令牌数量是其他模型的近 10 倍，这有助于其在复杂问题上表现更好。然而，即使 o1 模型也无法在极高复杂性问题上达到最优推理令牌与 Z3 冲突的比例，因此无法实现完美推理。
自我验证提示的效果有限：自我验证提示可以略微提升 LLMs 的性能，但提升幅度非常有限。

原文链接：https://arxiv.org/abs/2502.01100

元资助

Improving Transformer World Models for Data-Efficient RL

这篇文章的主题是基于Transformer的模型强化学习（MBRL），特别是在数据高效性方面，用于解决复杂的2D生存游戏环境（Craftax-classic）中的任务。文章提出了一系列改进方法，使MBRL算法在该基准测试中达到了新的最高水平，甚至超过了人类专家的表现。这些改进主要集中在如何更有效地利用Transformer世界模型（TWM）以及如何提高样本效率。文章的研究内容与大语言模型的推理和规划能力相关，尤其是如何通过模型架构和训练方法的优化来提升这些能力。

文章提出了一种新的MBRL方法，通过以下三个关键改进来提升性能：

Dyna with warmup：结合真实数据和想象数据训练策略，类似于Dyna方法，但在开始想象训练之前需要“预热”（warmup），以确保世界模型足够准确。
Patch nearest-neighbor tokenizer（NNT）：将图像分割为小块（patches），并对每个小块独立进行编码，使用最近邻方法代替传统的VQ-VAE进行编码，以提高世界模型输入的创建效率。
Block teacher forcing（BTF）：在训练TWM时，允许模型同时预测下一个时间步的所有标记，而不是自回归地逐个预测，从而提高推理速度和准确性。

实验结果：

性能提升：通过这些改进，MBRL算法在Craftax-classic环境中仅用1M环境步就达到了67.42%的奖励，超过了之前最好的MFRL和MBRL结果（分别为53.2%和55.49%），并且首次超过了人类专家的表现（65.0%）。
效率提升：BTF方法使TWM的训练速度翻倍，同时提高了生成的准确性。
模型大小和架构：文章还探讨了模型大小和架构对性能的影响，发现增加模型大小并结合RNN可以显著提升性能。

原文链接：https://arxiv.org/abs/2502.01591

元资助

Flow Q-Learning

这篇文章介绍了一种名为 Flow Q-Learning (FQL) 的离线强化学习（Offline RL）方法，它利用了表达能力强的流匹配（flow-matching）策略来建模数据中任意复杂的行为分布。FQL 的主要贡献是提出了一种简单而有效的方法，通过训练一个单步策略来最大化 Q 值，同时使用从行为克隆（BC）流策略中蒸馏（distillation）得到的正则化项，从而避免了直接训练迭代流策略时常见的不稳定性和高计算成本。

FQL 的核心思想是将复杂的行为建模任务分解为两个部分：

行为克隆（BC）流策略：仅使用 BC 损失训练一个迭代的流策略，以捕捉数据集中的行为分布。
单步策略：训练一个独立的单步策略来最大化 Q 值，同时通过蒸馏从 BC 流策略中学习，以确保策略的表达能力。

这种方法避免了直接训练迭代流策略时的递归反向传播问题，同时保持了流策略的高表达能力，并且在测试时无需迭代生成动作，从而提高了效率。

实验表明，FQL 在多个具有挑战性的离线 RL 和离线到在线 RL 任务中表现出色，尤其是在涉及高度多模态行为分布的复杂任务中。FQL 在 73 个不同的 OGBench 和 D4RL 任务中取得了最佳或接近最佳的性能，包括机器人运动和操作任务，以及基于状态和像素的设置。

关键结论：

性能提升：FQL 在多个任务中优于基于高斯策略和扩散策略的现有方法，尤其是在需要精确行为约束的复杂任务中。
简单高效：FQL 的实现简单，基于标准的行为正则化演员-评论家框架，且训练效率高。
可扩展性：FQL 可以直接用于离线到在线 RL 的微调，无需额外修改，并且在多个任务中优于现有的方法。

原文链接：https://seohong.me/projects/fql/

HuggingFace&Github

00Arxiver开源：包含 138,830 篇 arXiv 论文的多Markdown格

s1K: 简单的测试时间扩展

s1K是一个数据集，包含1,000个多样化、高质量且具有挑战性的问题样本，这些问题包含从Gemini Thinking提炼出的推理过程和解决方案。研究人员在数据集中使用了三个标准来确保数据的质量：难度、分布多样性和质量。
测试时间扩展（Test-time scaling）是一种新兴的语言建模方法，它利用额外的测试时间计算来提升模型性能。
OpenAI 展示了o1 模型的这一能力，但并未公开分享其方法，导致了许多复制尝试。
为此，研究人员提出了一种最简单的实现测试时间扩展和增强推理性能的方案，仅使用 1,000 个示例的s1K数据集即可实现与 o1-preview 匹配的测试时间扩展和强推理性能的最小方法。