大模型日报(12月26日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(12月26日 学术篇)

信号

01

PartGen: Part-level 3D Generation and Reconstruction with Multi-View Diffusion Models

文本或图像到 3D 生成器和 3D 扫描仪现在可以生成具有高质量形状和纹理的 3D 资产。这些资产通常由单一的融合表示组成,如隐式神经场、高斯混合或网格,没有任何有用的结构。然而,大多数应用程序和创意工作流程都要求资产由几个可以独立操作的有意义的部分组成。为了解决这一差距,我们引入了 PartGen,这是一种新颖的方法,它从文本、图像或非结构化 3D 对象开始生成由有意义的部分组成的 3D 对象。首先,给定 3D 对象的多个视图(生成或渲染),多视图扩散模型提取一组合理且视图一致的部分分割,将对象分成多个部分。然后,第二个多视图扩散模型分别获取每个部分,填充遮挡,并通过将这些完成的视图馈送到 3D 重建网络来使用这些完成的视图进行 3D 重建。这个完成过程考虑了整个对象的上下文,以确保各部分紧密结合。生成式补全模型可以弥补由于遮挡而缺失的信息;在极端情况下,它可以根据输入的 3D 资产产生完全不可见的幻觉。我们在生成的和真实的 3D 资产上评估了我们的方法,并表明它的表现远远优于分割和零件提取基线。我们还展示了 3D 零件编辑等下游应用。
大模型日报(12月26日 学术篇)
原文链接:https://arxiv.org/abs/2412.18608
ResearchFlow链接:https://rflow.ai/flow/7b575d63-cf6e-4d13-9b91-8a92f14d0b76
02

LearnLM: Improving Gemini for Learning

当今的生成式 AI 系统默认呈现信息,而不是像人类导师那样让用户参与学习。为了解决这些系统广泛的潜在教育用例,其中训练和评估示例包括系统级指令,描述后续模型转变中存在或期望的特定教学属性。这种框架避免将我们的模型承诺于任何特定的教学定义,而是允许教师或开发人员指定所需的模型行为。它还为改进 Gemini 学习模型扫清了道路——通过将我们的教学数据添加到训练后混合中——以及它们迅速扩展的功能集。两者都代表了我们最初的技术报告的重要变化。我们展示了如何通过遵循教学指导进行训练来产生一个 LearnLM 模型(可在 Google AI Studio 上使用),该模型在多种学习场景中受到专家评分者的广泛青睐,其平均偏好强度比 GPT-4o 高 31%、比 Claude 3.5 高 11%、比 LearnLM 所基于的 Gemini 1.5 Pro 模型高 13%。
大模型日报(12月26日 学术篇)
原文链接:https://arxiv.org/abs/2412.16429
ResearchFlow链接:https://rflow.ai/flow/c3c6ab8c-55e0-40ef-8fef-e89978275887
03

OpenAI o1 System Card

o1 模型系列经过大规模强化学习训练,使用思路链进行推理。这些先进的推理能力为提高我们模型的安全性和稳健性提供了新的途径。特别是,通过深思熟虑的协调,我们的模型可以在响应潜在不安全提示时根据上下文推理我们的安全政策。这导致在某些风险基准上表现出最佳性能,例如产生非法建议、选择刻板反应和屈服于已知越狱。训练模型在回答之前融入思路链有可能释放出巨大的好处,同时也会增加因智力提高而产生的潜在风险。我们的结果强调了建立强大的协调方法、广泛地对其有效性进行压力测试以及维护细致的风险管理协议的必要性。本报告概述了针对 OpenAI o1 和 OpenAI o1-mini 模型开展的安全工作,包括安全评估、外部红队和准备框架评估。
大模型日报(12月26日 学术篇)
原文链接:https://arxiv.org/abs/2412.16720
ResearchFlow链接:https://rflow.ai/flow/203af034-47f8-47cb-bbe0-41475c7125d5

HuggingFace&Github

01
 

ModernBERT-base

ModernBERT 是一种现代化的双向编码器专用 Transformer 模型(BERT 风格),已在 2 万亿个英语和代码数据上进行预训练,原生上下文长度最多为 8,192 个标记。ModernBERT 利用了最近的架构改进,例如:
旋转位置嵌入 (RoPE)用于长上下文支持。
局部-全局交替注意力机制,提高长输入的效率。
取消填充和 Flash Attention可实现高效推理。
ModernBERT 的原生长上下文长度使其成为需要处理长文档的任务的理想选择,例如检索、分类和大型语料库中的语义搜索。该模型是在大量文本和代码语料库上训练的,因此适用于各种下游任务,包括代码检索和混合(文本 + 代码)语义搜索。
https://huggingface.co/answerdotai/ModernBERT-base



推荐阅读
  — END —
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/12/29131.html

Like (0)
Previous 2024-12-26 18:04
Next 2024-12-27 16:11

相关推荐