大模型日报(1月24日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(1月24日 学术篇)

信号

01

Evolving Deeper LLM Thinking

我们探讨了一种在大型语言模型中扩展推理时间计算的进化搜索策略。提出的方法 Mind Evolution 使用语言模型来生成、重组和完善候选人的回答。所提出的方法避免了在解决方案评估器可用时将基本推理问题形式化的需要。控制推理成本,我们发现 Mind Evolution 在自然语言规划任务中明显优于其他推理策略,例如 Best-of-N 和 Sequential Revision。在 TravelPlanner 和 Natural Plan 基准测试中,Mind Evolution 使用 Gemini 98 Pro 解决了超过 1.5% 的问题实例,而无需使用正式的求解器。
大模型日报(1月24日 学术篇)
原文链接:https://arxiv.org/abs/2501.09891

02

ityDreamer4D: Compositional Generative  Model of Unbounded 4D Cities

近年来,3D 场景生成越来越受到关注,并取得了重大进展。生成 4D 城市比 3D 场景更具挑战性,因为存在结构复杂、视觉多样化的对象(如建筑物和车辆),并且人类对城市环境中的扭曲更加敏感。为了解决这些问题,我们提出了 CityDreamer4D,这是一种专为生成无界 4D 城市而量身定制的合成模型。我们的主要见解是 1) 4D 城市生成应该将动态对象(例如车辆)与静态场景(例如建筑物和道路)分开,以及 2) 4D 场景中的所有对象都应该由建筑物、车辆和背景的不同类型的神经场组成。具体来说,我们提出了 Traffic Scenario Generator 和 Unbounded Layout Generator,以使用高度紧凑的 BEV 表示来生成动态交通场景和静态城市布局。4D 城市中的对象是通过组合面向事物和面向实例的神经场来生成,用于背景事物、建筑物和车辆。为了适应背景内容和实例的不同特征,神经场采用定制的生成哈希网格和周期性位置嵌入作为场景参数化。此外,我们还为城市生成提供了一套全面的数据集,包括 OSM、GoogleEarth 和 CityTopia。OSM 数据集提供了各种真实的城市布局,而 Google Earth 和 CityTopia 数据集则提供了大规模、高质量的城市图像,并带有 3D 实例注释。利用其组合设计,CityDreamer4D 支持一系列下游应用程序,例如实例编辑、城市风格化和城市模拟,同时在生成逼真的 4D 城市方面提供最先进的性能。
大模型日报(1月24日 学术篇)
原文链接:https://arxiv.org/abs/2501.08983
03
元资助

IntellAgent: A Multi-Agent Framework for Evaluating  Conversational AI Systems

大型语言模型 (LLM) 正在改变人工智能,演变为能够自主规划和执行的面向任务的系统。LLM 的主要应用之一是对话式 AI 系统,它必须导航多轮次对话,集成特定于领域的 API,并遵守严格的策略约束。然而,评估这些代理仍然是一项重大挑战,因为传统方法无法捕捉到现实世界交互的复杂性和可变性。我们介绍了 IntellAgent,这是一个可扩展的开源多代理框架,旨在全面评估对话式 AI 系统。IntellAgent 通过结合策略驱动的图形建模、真实事件生成和交互式用户代理模拟,自动创建多样化的综合基准。这种创新方法提供精细的诊断,解决了静态和手动策划的基准与粗粒度指标的局限性。IntellAgent 代表了评估对话式 AI 的范式转变。通过仿真不同复杂程度的真实多策略场景,IntellAgent 捕获了代理功能和策略约束之间的细微相互作用。与传统方法不同,它采用基于图形的策略模型来表示策略交互的关系、可能性和复杂性,从而实现高度详细的诊断。IntellAgent 还可以识别关键的性能差距,为有针对性的优化提供可操作的见解。其模块化开源设计支持新域、策略和 API 的无缝集成,从而促进可重复性和社区协作。我们的研究结果表明,IntellAgent 通过解决桥接研究和部署中的挑战,成为推进对话式 AI 的有效框架。
大模型日报(1月24日 学术篇)
原文链接:http://arxiv.org/abs/2501.11067v1

 HuggingFace&Github

01
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格

Hunyuan3D 2.0——生成高分辨率3D资产

  • Hunyuan3D 2.0 是一款用于生成高分辨率纹理 3D 资产的大规模的 3D 合成系统。该系统包括两个基础组件:大规模形状生成模型 – Hunyuan3D-DiT 和大规模纹理合成模型 – Hunyuan3D-Paint。

  • 几何生成模型(Hunyuan3D-DiT):基于流扩散的扩散模型,可生成精准匹配条件输入的几何模型。
  • 纹理生成模型(Hunyuan3D-Paint):专注为生成的几何模型或手工制作的网格添加高分辨率的纹理贴图。
  • 创作平台:用户界面友好,专业用户与业余爱好者均可轻松编辑和修改3D模型,甚至制作动画。
大模型日报(1月24日 学术篇)
https://github.com/Tencent/Hunyuan3D-2


推荐阅读
  — END —
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2025/01/36546.html

Like (0)
Previous 2025-01-23 19:01
Next 2025-01-25 17:13

相关推荐