大模型日报(11月4日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(11月4日 学术篇)

潜空间活动报名

本期活动将在11月9日 10:00开始,我们邀请到的嘉宾是鱼哲,Lepton AI 创始成员,曾在阿里云担任高性能 AI 平台产品负责人,专注于 AI 在多个行业的落地及应用。Lepton AI 致力于建立高效可用的AI 基础设施,让团队更关注于应用构建及落地。在本次分享中鱼哲将带来关于不同AI产品形态对团队的挑战相关的思考,分享主题《Beyond Infra,What matters?—— 不同AI产品形态对团队的挑战》。除嘉宾分享外,每期设置了【匹配合伙人 Cofounder Matching】环节。你可以和 GenAI 时代最有活力的创业者和研究者线下面对面交流,将有机会找到志同道合、有共同创业梦想的小伙伴。报名通道已开启,欢迎扫描下方二维码报名。

大模型日报(11月4日 学术篇)

信号

01

Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

这篇文章提出了一种新颖的双组件微调方法,用于提高大型语言模型(LLMs)在解决科学问题时的准确性和工具使用精度。第一个组件是世界知识蒸馏(WKD),LLMs通过使用工具生成的解决方案直接学习,以内化领域知识。第二个组件是工具使用适应(TUA),根据模型的直接回答准确率将问题分为简单和困难两类,对于简单问题保持与WKD相同的对齐目标,而对于更具挑战性的问题,则训练模型智能地切换到工具使用。该方法在六个科学基准数据集上进行了验证,涵盖了数学、气候科学和流行病学等领域,平均提高了答案准确性28.18%,工具使用精度提高了13.89%,超越了包括GPT-4o和Claude-3.5在内的最新模型。
大模型日报(11月4日 学术篇)
https://arxiv.org/pdf/2411.00412
02

Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning

这篇文章介绍了一个循环中的人类视觉强化学习(RL)系统,该系统在一系列复杂的机器人操控任务上表现出色,包括动态操控、精密组装和双臂协调。这种方法整合了示范、人工校正、高效的RL算法和其他系统级设计选择,以学习策略,这些策略在1到2.5小时的训练内就能达到接近完美的成功率和快速的周期时间。文章表明,这种方法在成功率上平均提高了2倍,执行速度提高了1.8倍,显著优于模仿学习基线和之前的RL方法。通过广泛的实验和分析,文章提供了对这种方法有效性的见解,展示了它如何学习既适用于反应控制也适用于预测控制策略的稳健、适应性策略。结果表明,RL确实可以直接在现实世界中学习一系列复杂的基于视觉的操控策略,且训练时间实际可行。作者希望这项工作能激发新一代的机器人操控技术,造福工业应用和研究进展。
大模型日报(11月4日 学术篇)https://mp.weixin.qq.com/s/5pVajhtp8KSFz4AnV8PVTQ
03

Reward Centering

这篇文章提出了一种改进的折扣方法,用于解决连续强化学习问题。该方法通过减去奖励的实证平均值来中心化奖励,从而显著提高性能,特别是在常用的折扣因子下,并且随着折扣因子接近1,改进效果更加明显。文章还表明,如果问题的奖励发生恒定偏移,标准方法的性能会大幅下降,而采用奖励中心化的方法则不受影响。在on-policy设置中,估计平均奖励是直接的;对于off-policy设置,文章提出了一种稍微复杂的方法。由于奖励中心化是一个通用概念,作者预计几乎所有的强化学习算法都可以通过添加奖励中心化来受益。
大模型日报(11月4日 学术篇)
https://mp.weixin.qq.com/s/lwoq764gVSFjsEhzPS3ChQ
04

TD Learning (时序差分学习)中的值函数收敛性

这篇文章讨论了强化学习(RL)中的TD  Learning(时序差分学习)方法,特别是它与函数近似和off-policy学习结合时可能出现的“致命三角”问题,这可能导致算法不稳定或发散。文章介绍了目标网络的概念,这是一种提高算法收敛性和稳定性的技术,并且分析了它在DQN等深度强化学习算法中的应用。文章还总结了TD学习中值函数收敛性的最新研究成果。
大模型日报(11月4日 学术篇)
https://zhuanlan.zhihu.com/p/2883455468?utm_medium=social&utm_psn=1835369279245148160&utm_source=wechat_timeline&utm_id=0

HuggingFace&Github
01

Docling

Docling 是一个强大的文档处理工具,能够解析多种常见文档格式(如 PDF、DOCX、PPTX 等)并导出为 Markdown 和 JSON 格式。它具备高级的 PDF 理解能力,包括页面布局和表格结构,并支持元数据提取和光学字符识别(OCR)。Docling 提供统一的 DoclingDocument 表示格式,并与 LlamaIndex 和 LangChain 等工具无缝集成,适用于 RAG/QA 应用程序,同时还提供简单易用的命令行界面。
大模型日报(11月4日 学术篇)
https://github.com/DS4SD/docling
02

OpenHands

OpenHands 是一个基于 AI 的软件开发代理平台,能够自动执行各种开发任务,如修改代码、运行命令和调用 API,甚至可以从 StackOverflow 复制代码片段。它支持连接本地文件系统,以无界面模式运行,并提供友好的命令行界面与用户交互,还能与 GitHub 集成,处理标记的 issue。
大模型日报(11月4日 学术篇)
https://github.com/All-Hands-AI/OpenHands

推荐阅读
  — END —
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/11/21666.html

Like (0)
Previous 2024-11-04 17:37
Next 2024-11-05 17:27

相关推荐