我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
信号
Gemini 2.0: Flash, Flash-Lite and Pro
-
Gemini 2.0 Flash正式向所有用户开放,包括桌面和移动设备的Gemini应用用户,以及通过Google AI Studio和Vertex AI的Gemini API的开发者。其性能在关键基准测试中得到提升,未来还将支持图像生成和文本转语音功能。 -
Gemini 2.0 Pro Experimental是迄今为止Google发布的编码性能最强、处理复杂提示能力最佳的模型,具有200万tokens的上下文窗口,能够全面分析和理解大量信息,并支持调用Google搜索和代码执行等工具。 -
Gemini 2.0 Flash-Lite是在1.5 Flash的基础上,进一步优化了质量和成本,同时保持了速度。在大多数基准测试中表现优于1.5 Flash,具有100万tokens的上下文窗口和多模态输入能力,例如可以为约4万张独特照片生成相关的一行字标题,且在Google AI Studio的付费层级中成本不到1美元。 -
Gemini 2.0 Flash Thinking Experimental将向Gemini应用的桌面和移动用户提供,用户可以在模型下拉菜单中选择使用。

Enabling advanced GPU features in PyTorch – Warp Specialization

s1: Simple test-time scaling

ParadigmPrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action
-
问答形式的隐私探测(QA Probing):通过提问“是否可以将某类数据从发送者传输给接收者”来评估模型对隐私规范的理解。 -
基于代理行为的评估(Action-Based Evaluation):直接评估模型在执行用户指令时是否泄露隐私信息。研究团队通过构建一个分类器来判断模型的最终行为是否泄露了敏感信息。
-
隐私风险普遍存在:即使是最先进的语言模型,在执行用户指令时仍会无意间泄露隐私信息,这表明需要进一步研究以提高模型的隐私规范意识。 -
评估方法的重要性:传统的问答评估方法无法准确反映模型在实际应用中的隐私风险,因此需要构建基于行为的评估框架和数据集。 -
隐私与可用性的平衡:在隐私保护和模型的可用性之间存在权衡。一些模型在隐私保护方面表现较好,但可能在完成用户指令方面不够有效。
Eliciting Language Model Behaviors with Investigator Agents
-
调查者模型的有效性:通过训练调查者模型,可以有效地发现多种有效且易于人类理解的提示,这些提示能够诱导出目标行为。 -
多样性和可解释性:通过迭代的DPO和Frank-Wolfe方法,调查者模型能够发现多样化的诱导策略,同时保持高性能。 -
自动化和可扩展性:该方法能够在自动化和可扩展性之间取得平衡,同时保持对语言模型行为的开放性复杂性的适应性。



ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning
-
模型性能随复杂性增加而下降:随着谜题复杂性的增加,大多数模型的性能急剧下降。例如,当搜索空间超过 107 种可能性时,模型准确率大幅下降。 -
模型规模的影响有限:尽管在较小搜索空间中,较大的模型(如 Llama-3.1-405B)表现更好,但在复杂问题上,模型规模的扩大并不能显著提升性能。 -
测试时计算量的扩展:通过增加生成样本数量(Best-of-N 采样)可以提升潜在性能,但实际选择方法(如多数投票或奖励模型)效果有限。即使在 pass@128 的情况下,也无法突破“复杂性的诅咒”。 -
CoT的扩展更有潜力:OpenAI 的 o1 模型在推理过程中生成了大量隐藏的CoT,这些令牌随着问题复杂性增加而扩展。o1 模型生成的推理令牌数量是其他模型的近 10 倍,这有助于其在复杂问题上表现更好。然而,即使 o1 模型也无法在极高复杂性问题上达到最优推理令牌与 Z3 冲突的比例,因此无法实现完美推理。 -
自我验证提示的效果有限:自我验证提示可以略微提升 LLMs 的性能,但提升幅度非常有限。


Improving Transformer World Models for Data-Efficient RL
-
Dyna with warmup:结合真实数据和想象数据训练策略,类似于Dyna方法,但在开始想象训练之前需要“预热”(warmup),以确保世界模型足够准确。 -
Patch nearest-neighbor tokenizer(NNT):将图像分割为小块(patches),并对每个小块独立进行编码,使用最近邻方法代替传统的VQ-VAE进行编码,以提高世界模型输入的创建效率。 -
Block teacher forcing(BTF):在训练TWM时,允许模型同时预测下一个时间步的所有标记,而不是自回归地逐个预测,从而提高推理速度和准确性。
-
性能提升:通过这些改进,MBRL算法在Craftax-classic环境中仅用1M环境步就达到了67.42%的奖励,超过了之前最好的MFRL和MBRL结果(分别为53.2%和55.49%),并且首次超过了人类专家的表现(65.0%)。 -
效率提升:BTF方法使TWM的训练速度翻倍,同时提高了生成的准确性。 -
模型大小和架构:文章还探讨了模型大小和架构对性能的影响,发现增加模型大小并结合RNN可以显著提升性能。


Flow Q-Learning
-
行为克隆(BC)流策略:仅使用 BC 损失训练一个迭代的流策略,以捕捉数据集中的行为分布。 -
单步策略:训练一个独立的单步策略来最大化 Q 值,同时通过蒸馏从 BC 流策略中学习,以确保策略的表达能力。
-
性能提升:FQL 在多个任务中优于基于高斯策略和扩散策略的现有方法,尤其是在需要精确行为约束的复杂任务中。 -
简单高效:FQL 的实现简单,基于标准的行为正则化演员-评论家框架,且训练效率高。 -
可扩展性:FQL 可以直接用于离线到在线 RL 的微调,无需额外修改,并且在多个任务中优于现有的方法。




HuggingFace&Github
s1K: 简单的测试时间扩展
-
s1K是一个数据集,包含1,000个多样化、高质量且具有挑战性的问题样本,这些问题包含从Gemini Thinking提炼出的推理过程和解决方案。研究人员在数据集中使用了三个标准来确保数据的质量:难度、分布多样性和质量。
-
测试时间扩展(Test-time scaling)是一种新兴的语言建模方法,它利用额外的测试时间计算来提升模型性能。 -
OpenAI 展示了o1 模型的这一能力,但并未公开分享其方法,导致了许多复制尝试。 -
为此,研究人员提出了一种最简单的实现测试时间扩展和增强推理性能的方案,仅使用 1,000 个示例的s1K数据集即可实现与 o1-preview 匹配的测试时间扩展和强推理性能的最小方法。

VideoLingo
-
使用 yt-dlp 从 Youtube 链接下载视频 -
使用 WhisperX 进行单词级和低幻觉字幕识别 -
使用 NLP 和 AI 进行字幕分割 -
自定义 + AI 生成术语库,保证翻译连贯性 -
三步直译、反思、意译,实现影视级翻译质量 -
按照 Netflix 标准检查单行长度,绝无双行字幕 -
支持 GPT-SoVITS、Azure、OpenAI 等多种配音方案 -
一键启动,在 streamlit 中一键出片 -
多语言支持就绪的 streamlit UI -
详细记录每步操作日志,支持随时中断和恢复进度

2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切
3. 「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2025/02/38070.html