大模型日报(1月24日 资讯篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

欢迎大家一起交流!

大模型日报(1月24日 资讯篇)

资讯

01

北京大学与智元机器人联合实验室发布OmniManip:显著提升机器人3D操作能力

OmniManip 是由北京大学与智元机器人联合实验室提出的一种新型机器人操作架构,旨在解决视觉语言模型(VLM)在机器人操作中的应用难题。该架构通过以对象为中心的交互基元,将 VLM 的高层次推理能力转化为机器人所需的低层次高精度动作,实现了从开放词汇指令到精确 3D 操作的无缝转换。
OmniManip 的核心技术包括:基于 VLM 的任务解析、以物体为中心的交互基元作为空间约束、闭环 VLM 规划和闭环机器人执行。通过将任务分解为多个阶段,并利用 3D 模型和规范化空间,OmniManip 能够让 VLM 在物体的标准空间中直接采样交互基元,从而生成精确的动作约束。此外,OmniManip 引入了双闭环系统设计,通过渲染和重采样机制实现 VLM 规划的闭环调整,同时利用 6D 姿态跟踪器实现机器人执行的闭环控制,显著提高了操作的准确性和鲁棒性。
大模型日报(1月24日 资讯篇)
https://mp.weix‍in.qq.com/s/pNieUf8yPUKpoeVvR1x4JA
02

字节跳动启动 Seed Edge 研究计划

为支持以更长周期攻坚 AI 课题,豆包大模型团队正式启动 Seed Edge 研究计划!
Seed Edge 以寻找通用智能的新方法为目标,专注于对智能边界的探索和长期研究挑战。
Seed Edge 鼓励探索更长周期、具有不确定性和大胆的 AI 研究课题,也鼓励跨模态、跨方向的交叉合作,为项目成员提供宽松的研究环境,并实行更长周期的考核方式,让大家可以放手去挑战真正颠覆性的 AI 课题!目前,Seed Edge 初步确定了五大研究方向,将为所有入选课题提供单独的算力资源保障。Seed Edge 初步研究方向包括:
探索推理能力的边界以 o1 为代表的技术路线证明了推理能力可以推动智能边界提升,我们也在实践中发现对推理能力的研究才刚刚开始,有大量未探索的问题值得去深耕。无论是预训练算力级别的大规模强化学习,还是预训练和强化学习的迭代,或是可泛化的 Test-Time Scaling ,每一项技术突破都会推动智能边界前进一步。
探索感知能力的边界我们相信智能和交互是相辅相成的,通用模型除了有极高的智能水平,还需要具备极强的和人类沟通交流的能力。我们会统一生成和理解表示,探索世界模型建模;从真实世界原始数据直接进行压缩,探索比语言更好的对世界进行表示的建模,突破智能的边界受限于语言的约束。
探索软硬一体的下一代模型设计Transformer 的高效很大程度上取决于它与 GPU 的适配性,能充分发挥 GPU 的性能。我们希望面向下一代训练和推理硬件的结构特点设计下一代模型,从软硬件一体的角度思考未来的模型结构特性,达到训练效率、推理效率、模型性能的多目标同时优化,并进一步压榨下一代硬件的能力,突破模型能力的边界。
探索下一代学习范式探索对未来的学习范式有变化的方向,挑战现有范式的“共识”,给更高效地实现通用智能提供基础和可能性。通过可解释性研究理解模型学习能力的来源,并进一步提出新的学习视角,探索模型在学习过程中的表现,和生物启发的学习过程对比,发现现有模型学习范式可以改进的空间:探索比 Next-Token Prediction 更高效的学习目标;探索比 Backpropagation 更高效的学习方法;探索比大数据 Pretraining + Alignment 更高效的学习范式。
探索下一个 Scaling 方向继 Pretraining Scaling 和 Test-Time Scaling 之后,下一个 Scaling 方向对未来智能边界的演化会起到重要的作用。探索下一个 Scaling 方向,并推动智能边界的进步。
大模型日报(1月24日 资讯篇)
https‍://mp.weixin.qq.com/s/GXi7RjvdiQqjkUWGJrOVsA
03
元资助

AI大模型时代,算力隐秘的角落 | 年终复盘

自2022年ChatGPT爆发以来,中国算力市场迎来了爆发式增长,科技巨头们纷纷开启算力“军备竞赛”,大规模囤积显卡资源并建设从千卡到十万卡级别的算力集群。例如,字节跳动在2024年订购了约23万片英伟达芯片,成为其第二大客户。然而,尽管算力需求激增,市场也出现了供需错配的现象:一方面,大量算力资源闲置;另一方面,高质量的算力需求难以满足。
随着AI大模型从预训练走向推理应用,算力市场的需求结构也在发生变化。推理应用对算力的要求从大规模训练转向低功耗、实时处理,且更注重性价比。然而,目前AI推理应用市场尚未迎来预期中的爆发,主要原因是大模型技术仍存在缺陷,如幻觉和随机性等问题。尽管如此,从业者对推理算力的长期需求仍持乐观态度,预计2027年推理算力在智能算力中的占比将超过70%。
中国算力市场面临的挑战包括高端GPU芯片短缺以及生态碎片化问题。目前,国内GPU市场过于碎片化,各厂商的GPU生态独立,导致适配成本高昂。此外,算力利用率低也是一个突出问题,国内算力利用率仅为30%,远低于国际水平。
为应对这些挑战,各类玩家纷纷切入算力市场。大型国资央企如中国电信,通过构建算力资源池并整合社会闲置资源,提供算力租赁服务。云厂商则通过优化底层架构,从CPU云向GPU云转型,提升算力效率。一些创业公司则通过算法优化提升算力效率,降低推理成本。未来,随着AI应用的逐渐渗透,算力市场将向专业化、精细化运营服务方向发展。
大模型日报(1月24日 资讯篇)
https://mp.we‍ix‍in.‍qq.com/s/rQ_SiqzxlOvu22X8AAYjiw

推特

01
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格

OpenAI发布Operator的研究预览:这是一个能够使用自己的浏览器为你执行任务的代理

一个关于Operator的研究预览:这是一个能够使用自己的浏览器为你执行任务的代理。
Operator 是我们首批代理之一,这些代理是能够独立为你完成工作的人工智能——你只需给它分配一个任务,它就会去执行。Operator 基于我们称为“计算机使用代理”(CUA)的一种新模型。
CUA 将 GPT-4o 的视觉能力与通过强化学习实现的高级推理相结合。它被训练为以人类的方式控制计算机——通过观察屏幕,并使用鼠标和键盘来操作。
该模型目前仍有局限性,并将根据反馈不断改进。我们计划很快将 CUA 引入 API 供开发者使用。
https://openai.com/index/computer-using-agent/

大模型日报(1月24日 资讯篇)

https://x.com/OpenAI/status/1882509286439637448


02 

Elevenlabs分享:持续优化自有对话式 AI 技术堆栈,以及为合作伙伴部署过程中所积累的经验


延迟是区分良好与卓越的对话式 AI 语音体验的关键因素之一。

今天,我们分享通过持续优化自有对话式 AI 技术堆栈,以及为合作伙伴部署过程中所积累的经验:
https://elevenlabs.io/blog/how-do-you-optimize-latency-for-conversational-ai
大模型日报(1月24日 资讯篇)
https://x.com/elevenlabsio/status/1882450242924421468

产品

01

Open grep 静态应用程序安全测试

Open grep 将为每个开发者提供开放且透明的静态应用程序安全测试(SAST),使安全软件开发成为一个共享标准

Open grep 的特别之处:

  • 一个完全开源的静态代码分析引擎,没有隐藏功能或许可证限制。

  • 向后兼容常见的 JSON 和 SARIF 输出格式,使其易于采用。

  • 以社区为中心的开发模式,根据贡献的价值对其进行审核和接受,而不与任何单一公司的商业目标挂钩。

  • 你的规则不会被锁定在特定的供应商中,所以无论你使用哪家代码安全提供商,都可以在不同工作之间轻松迁移这些规则。

  • 具有长期稳定性和前瞻性,计划将 Open grep 交由基金会管理。

我们的使命:发现安全问题必须对所有人开放。

大模型日报(1月24日 资讯篇)

https://www.opengrep.dev/


 投融资

01
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式

Neko Health 获 2.6 亿美元融资,估值达 18 亿美元,加速全球扩张


瑞典健康科技初创公司 Neko Health 近日完成了 2.6 亿美元的 B 轮融资,估值达到 18 亿美元。本轮融资由 Lightspeed Venture Partners 领投,General Catalyst、O.G. Venture Partners、Rosello、Lakestar 和 Atomico 等机构参与。此轮融资将助力 Neko Health 进一步拓展国际市场,尤其是美国市场,并继续开发其先进的诊断技术。

Neko Health 由 Spotify 联合创始人 Daniel Ek 和 Hjalmar Nilsonne 于 2018 年共同创立,旨在通过人工智能驱动的身体扫描技术,提供预防性医疗服务。该公司目前在斯德哥尔摩和伦敦设有诊所,已为超过 1 万名患者进行了全身扫描,其等待名单人数已从几个月前的 4 万人增长到 10 万人。Neko 的服务包括使用专有硬件和软件进行的一小时全面检查,生成数百万个健康数据点,涵盖从皮肤癌到心血管疾病的多种健康指标。
公司计划利用新资金在美国建立诊所,满足其等待名单上的大量需求。此外,Neko 还将投资于研发,进一步提升其医疗硬件和软件能力。CEO Nilsonne 表示,Neko 的目标是每年更新服务内容,增加更多检测参数,并推出不同价格层次的服务。
Neko 的成功不仅体现在其快速增长的用户需求上,还在于其独特的商业模式和技术创新。公司通过垂直整合的方式,自行开发医疗设备和软件,提供一站式医疗服务。这种模式使其在预防性医疗领域脱颖而出,与法国的 Zoi 和德国的 Aware 等竞争对手形成差异化。
Lightspeed Venture Partners 的合伙人 Bejul Somaia 将作为此次投资的一部分加入 Neko 的董事会。这一融资轮不仅为 Neko 提供了资金支持,也为其未来的发展奠定了坚实的基础。
公司官网:https://www.nekohealth.com/gb/en
大模型日报(1月24日 资讯篇)
https://techcrunch.com/2025/01/22/neko-the-body-scanning-startup-co-founded-by-spotifys-daniel-ek-snaps-up-260m-at-a-1-8b-valuation/




推荐阅读

— END —

1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

快速获得3Blue1Brown教学动画?Archie分享:使用 Manim 引擎和 GPT-4o 将自然语言转换为数学动画


原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2025/01/36537.html

Like (0)
Previous 2025-01-23 19:01
Next 2025-01-25 17:13

相关推荐