大模型日报(1月10日 资讯篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(1月10日 资讯篇)

资讯

01

MSRA推出小模型数学推理自我进化新方法

MSRA推出的创新算法rStar-Math使得小模型在数学推理方面表现超越了OpenAI的o1-preview,尤其是在7B参数的Qwen2.5模型上。rStar-Math通过一系列创新方法提升了数学推理能力,其中关键技术包括代码增强CoT(Chain of Thought)数据合成、过程奖励模型(PPM)训练、以及四轮自我思维深度进化。
rStar-Math的核心优势在于其无需依赖大模型的蒸馏过程,而是通过蒙特卡洛树搜索(MCTS)对推理步骤进行深度思考和自我验证。每个数学问题的求解过程在MCTS中被分解为多个小步骤,并通过Python代码验证推理的正确性。通过这样的方式,rStar-Math显著提高了推理质量,减少了错误的中间步骤。此外,rStar-Math使用了过程奖励模型来为每个推理步骤提供可靠的反馈,这帮助模型在推理过程中做出更优的选择。
rStar-Math的四轮自我进化过程是另一个突破。每一轮都会使用MCTS生成新的推理轨迹,并将这些数据用于训练新的策略模型和奖励模型。通过多轮训练,模型逐渐优化,最终在复杂的数学问题上表现出色。例如,在AIME 2024测试中,rStar-Math增强后的Qwen2.5-Math-7B解决了53.3%的问题,超过了OpenAI的o1-preview和其他开源模型。
这种自我进化的方式使得rStar-Math在数学推理任务中表现出了强大的适应性和灵活性,特别是在面对没有大量高质量训练数据的情况下。实验结果表明,rStar-Math能够有效提升小模型的推理准确性,甚至超过一些大规模模型,如Qwen2.5-Math-72B,在多个基准测试中都显示出优异的性能。
大模型日报(1月10日 资讯篇)
htt‍ps://mp.weixin.qq.com/s/uQxHkPeLQkiZ0y8NEF5bmg
02

英伟达「皮衣刀客」新出的Project DIGITS与M4 Mac Mini到底哪个好?

近期,英伟达发布了其AI超级计算机Project DIGITS,并在业内引起了广泛关注。与此相比,尽管有网友在评论区提出将Mac Mini作为个人大模型平台的疑问,这一做法并不罕见,Fast Company甚至称M4 Mac Mini为“测试AI的完美计算机”。一些用户分享了在Mac Mini上运行大语言模型的经验,其中包括EXO Labs公司在多个Mac Mini上进行低延迟训练的尝试,项目开源后也获得了广泛关注。
在性能和价格上,Mac Mini与Project DIGITS存在显著差异。Mac Mini的M4和M4 Pro版本价格从4499元到35749元人民币不等,而Project DIGITS的起售价为3000美元,配置包括128GB内存和4TB存储。虽然Mac Mini在价格上可能具有优势,Project DIGITS的计算性能则更加强大。Project DIGITS配备的Grace CPU和Blackwell GPU能够支持1 PetaFLOP的AI计算能力,能够运行2000亿参数的大型语言模型。而M4 Pro版Mac Mini的FP16性能为17 TFLOPS,远低于Project DIGITS。
在性价比上,Project DIGITS的计算能力远超Mac Mini,同样的投资可以获得超过10倍的算力。然而,Project DIGITS也有一些潜在问题。其内存采用统一内存架构,虽然具有128GB内存,但内存带宽仅为512GB/s,这可能成为运行大模型时的瓶颈,尤其是对于超大规模的语言模型,生成速度会受到限制。
大模型日报(1月10日 资讯篇)
    https://‍mp.weixin.qq.com/s/RDYkxn5i1IuuiQabrUM5Lw
    03
    元资助

    AI眼镜在CES井喷!中国厂商霸场,2个方向4大技术最火

    在2025年CES展会上,AI眼镜成为最受关注的产品之一,吸引了大量参展者体验。值得注意的是,这次展出的热门AI眼镜几乎都是中国品牌,包括雷鸟创新、Rokid、李未可科技等。这些品牌展示了AI眼镜的多种创新形式,涵盖了AI拍摄眼镜和AI+AR眼镜两大类,表现出市场对AI眼镜的强烈需求与技术突破。
    AI眼镜的发展仍处于早期阶段,概念和技术尚在不断演进。展会上,最常见的AI眼镜有两种类型:一类是AI拍摄眼镜,主打拍照、音频和AI功能,注重轻便舒适;另一类是AI+AR眼镜,结合AR显示技术,提供更好的虚拟屏幕体验和手势交互。无论是拍摄还是AR功能,轻量化、小型化成为AI眼镜的主要发展趋势,几乎所有展出的眼镜都控制在35g到50g之间。
    中国厂商的AI眼镜不仅在硬件设计上超越Meta的RayBan,还在功能上进行了深度优化。尤其是在拍摄能力方面,AI眼镜已成为空间智能的核心需求,能通过第一人称视角拍摄,解放双手,拓展了AI应用场景。与此同时,音频体验也被不断优化,以确保更好的信息传递和隐私保护。
    然而,尽管AI眼镜在硬件和拍摄功能上已有进展,当前的AI体验仍被认为是最大的短板。大多数产品的AI响应时间仍较长,存在“能用但不够好用”的问题。为了弥补这一不足,厂商正在加大研发投入,特别是在AI算法和硬件协同优化方面。

    大模型日报(1月10日 资讯篇)

    https:‍//mp‍.weixin.qq.com/s/BiLIEr-vnmegGxvWvEUDnA

    04
    元资助

    谷歌内部AI人才大迁移,统一纳入DeepMind旗下

    谷歌最近进行了大规模的人才整合,将AI Studio团队以及Gemini系列模型开发团队并入DeepMind,所有AI相关工作现在都由诺贝尔奖得主哈萨比斯领导。这一举措旨在加速从研究到开发的过程,提升谷歌在AI领域的整体实力。此前,谷歌已经将Gemini聊天机器人团队迁移至DeepMind,而此次的合并进一步强化了各部门的协作。
    谷歌此举的目标是加速AI技术的发展,提升AI产品和平台的效率与创新。Logan Kilpatrick等相关负责人表示,通过将AI Studio和Gemini团队整合到DeepMind,谷歌将能够更快推出新产品,并在未来几年推动AI技术的普及和应用。工程师Jaana Dogan也表示,这次改组将使DeepMind的工作“以前所未有的方式”向公众开放,带来更多的开源工具和更好的API。
    自2023年DeepMind与谷歌大脑团队合并以来,谷歌的AI研发部门已经取得显著进展。皮猜(Sundar Pichai)近期向员工鼓励称,2025年将是关键年份,公司需要加速步伐,集中精力在产品创新和技术应用上,尤其是Gemini系列的进一步发展。谷歌在AI硬件方面的进展同样引人注目,推出了包括第六代TPU和量子芯片Willow等创新产品。
    哈萨比斯表示,未来一两年内,Gemini将发生巨大变化,目标是打造一个通用助手,能在不同领域、模式和设备上无缝运行。与此同时,谷歌将在今年推出包括Gemini 2.0、Gemini Advanced等新功能,以及更多基于AI的产品。
    大模型日报(1月10日 资讯篇)

    https://mp.weixin.qq.co‍m/s‍/B‍iLIEr-vnmegGxvWvEUDnA

    推特

    01
    00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式

    吴恩达分享偏好的软件栈:对软件栈的选择要有明确的偏好

    使用 AI 辅助编程来构建软件原型是一种快速探索多个想法和发明新事物的重要方式。在这篇文章以及未来的分享中,我希望与大家交流一些用于快速原型开发简单 Web 应用的最佳实践。本篇文章将重点探讨一个核心理念:对软件栈的选择要有明确的偏好。
    我个人使用的软件栈每隔几周都会有所变化。这些选择有许多不错的替代方案,如果你能够选定一个偏好的软件栈并熟悉其组件,就能加快开发速度。作为示例,这里是我当前的默认选择:
    •  使用 Python 和 FastAPI 构建 Web 托管 API:我主要使用 Python,因此这是一个自然的选择。如果你是 JavaScript/TypeScript 开发者,可能会选择不同的工具。我发现 FastAPI 使用起来非常简单,并且适合部署基于 Python 的 Web 服务(API)。
    •  使用 Uvicorn 运行后端应用服务器:用于在本地测试时执行代码并提供网页服务。
    •  云端部署时:对于小型应用,使用 Heroku;对于大型应用,使用 AWS Elastic Beanstalk(免责声明:我在亚马逊董事会任职)。市场上有许多其他部署服务,包括 HuggingFace Spaces、Railway、Google 的 Firebase、Vercel 等。这些工具大多数都表现良好,只需熟悉其中一两个即可简化开发流程。
    •  使用 MongoDB 作为 NoSQL 数据库:尽管传统的 SQL 数据库在高效和可靠的数据存储方面表现优异,但需要定义数据库结构(或模式)的过程会拖慢原型开发。如果你需要快速实现和便捷操作,将大部分数据存储在 NoSQL(非结构化或半结构化)数据库中,例如 MongoDB,可以让你快速写代码,并在稍后决定如何处理数据。这有时被称为“写时定义模式”(schema-on-write),而不是“读时定义模式”(schema-on-read)。当然,如果一个应用进入规模化生产阶段,在许多用例中更结构化的 SQL 数据库会显得更加可靠和可扩展。
    •  使用 OpenAI 的 o1 和 Anthropic 的 Claude 3.5 Sonnet 进行编程辅助:通常在概念/设计层面直接通过提示进行操作,有时也在代码层面使用 Cursor。我希望再也不用没有 AI 辅助的情况下写代码!Claude 3.5 Sonnet 被广泛认为是最佳编程模型之一,而 o1 在规划和构建更复杂的软件模块方面表现出色,但需要学习不同的提示技巧。
    此外,我还使用许多 AI 工具来管理代理工作流、数据获取、基于检索的生成等。http://DeepLearning.AI 和我们的优秀合作伙伴提供了许多相关工具的课程。
    我的个人软件栈仍在定期演变。每隔几周,就会有一些组件进入或退出我的默认栈,因为我不断学习新的方法。因此,请不要觉得一定要使用我选择的组件,但如果你还在决定使用什么,或许这些可以作为一个有用的起点。有趣的是,我发现大多数大型语言模型(LLM)在推荐软件栈时表现不佳。我怀疑它们的训练数据中包含了对特定选择的过多“炒作”,所以我并不完全信任它们来告诉我该使用什么。如果你对软件栈有明确的偏好,并告诉 LLM 你想要基于什么软件栈构建,我认为你会得到更好的结果。
    很多软件栈仍在不断成熟,我相信这些组件会持续改进。使用我的栈,我可以定期在几个小时内构建原型,而没有 AI 辅助的情况下,这些可能需要数天甚至更长时间。我希望你也能享受构建多个原型的乐趣!
    大模型日报(1月10日 资讯篇)
    https://x.com/AndrewYNg/status/1877405010893619238
    02 

    字节跳动SA2VA:全新的视觉语言模型家族

    字节跳动刚刚发布了 SA2VA:一个全新的视觉语言模型家族,结合了 Qwen2VL/InternVL 和 SAM2,并采用了 MIT 开源许可 💗
    这些模型能够处理图像和视频中的视觉-语言理解任务以及视觉引用(指代分割)任务 ⏯️
    快来看看吧 🧶
    大模型日报(1月10日 资讯篇)
    https://x.com/mervenoyann/status/1877323979196649909
    03 

    xAI 全新的独立 Grok iOS 应用上线

    它来了:xAI 全新的独立 Grok iOS 应用!
    利用强大的 AI 技术,生成令人惊叹的图像,并通过 X 登录,个性化体验实时新闻、体育和本地数据。
    现在即可在美国下载:
    https://apps.apple.com/us/app/grok/id6670324846

    大模型日报(1月10日 资讯篇)

    https://x.com/xai/status/1877536836924424445

    04

    Qwen Chat上线:全新的 Web 界面,轻松与 Qwen 模型互动

    🚀 重磅消息!我们很高兴宣布 Qwen Chat 正式上线!( https://chat.qwenlm.ai ) 🌟 您全新的 Web 界面,轻松与 Qwen 模型互动!
    💬 使用我们旗舰模型 Qwen2.5-Plus 畅聊,探索 Qwen2-VL-Max 的视觉-语言能力,尝试推理模型 QwQ 和 QVQ,或通过 Qwen2.5-Coder-32B-Instruct 体验代码专家的强大功能!
    ✨ 主要功能:
    • 在一个界面中选择并比较多个模型
    • 上传文档并基于文档获取答案
    • 支持 HTML 的预览模式
    • 上传图片进行视觉理解
    🌟 即将推出:网络搜索、图像生成、语音模式等更多功能!
    🔗 准备好体验未来了吗?立即开始与 Qwen 畅聊 💬 欢迎向我们反馈您的意见和建议

    大模型日报(1月10日 资讯篇)

    https://x.com/Alibaba_Qwen/status/1877426465349972113

    产品

    01

    “AI Follow-ups by folk”   基于人工智能的客户关系管理(CRM)工具

    • 跟进线索建议:能够为用户提供最佳的跟进线索建议,帮助用户确定哪些潜在客户或联系人需要跟进,提高销售和业务拓展的效率。

    • 自动扫描与提醒:可以扫描用户的收件箱和日历,根据其中的信息和交互历史,识别出那些已经一段时间没有互动的联系人或潜在客户,并及时提醒用户进行跟进。

    特点:

    • 节省时间与精力:folk 的 CRM 系统会为用户处理繁琐的工作,让用户能够专注于发展服务业务,就像拥有了一个团队从未有过的销售助理,减轻了用户的工作负担。

    • 免费选项:提供了免费的使用选项,用户可以在不承担高额费用的情况下体验和使用部分功能。

    • 多平台适配:从展示的界面来看,它可以集成多种常见的沟通渠道和平台,如邮件、电话。

    大模型日报(1月10日 资讯篇)

    大模型日报(1月10日 资讯篇)

    https://www.folk.app
    02

    Sheepscript.AI:视频博客能直接转换成讲稿

    Sheepscript.ai 是一款人工智能驱动的工具,可将您的视频或播客转化为令人惊艳的社交媒体帖子或文章,如果您是内容创作者或播客主持人,这款工具将为您节省大量时间,并成为您营销的变革者!
    ta既可以是你的小助理,也可以成为你的经纪人!减少个人操作的复杂度和时间成本,是社媒人必备的好伙伴!
    大模型日报(1月10日 资讯篇)
    大模型日报(1月10日 资讯篇)
    大模型日报(1月10日 资讯篇)
    https://www.sheepscript.ai

     投融资

    01
    00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式

    Rounded:一款AI语音代理构建平台,助力公司打造定制语音助手

    法国初创公司Rounded相信,AI语音代理将成为客户与公司互动的主要方式。因此,该公司没有像其他公司那样直接构建现成的AI语音代理,而是开发了一款AI协作平台,让企业可以根据自身需求自行构建语音代理。
    最初,Rounded尝试开发Web3产品,但在2023年6月转向AI语音代理领域。公司的创始人Aymeric Vaudelin表示,团队曾打算简单地将ChatGPT与语音转录和合成技术结合,但很快发现市场尚未准备好接受这一方案。经过一段时间的摸索,他们最终推出了名为“Donna”的AI语音代理,为麻醉科医师提供服务。该代理能够处理麻醉秘书的高频简单电话咨询,如预约、日期变更等,帮助减轻人员工作负担。
    经过反复改进,Rounded的产品在响应速度和准确性上取得了显著提升,成功吸引了15家法国私立医院使用其AI代理。除了语音代理的优化,Rounded还推出了一个可以选择不同AI模型并组合使用的协作平台,帮助其他公司根据自己的需求定制语音助手。平台支持使用如Azure的语音转文本模型、GPT-4 mini的语言模型和ElevenLabs的语音合成引擎等技术。
    Rounded目前已筹集了60万欧元(约62万美元)的资金,主要来自UC Berkeley的深度科技加速器SkyDeck及几位天使投资人。随着AI行业持续火爆,Rounded预计将在未来几个月内获得更多资金支持。
    公司官网:https://callrounded.com/
    大模型日报(1月10日 资讯篇)
    https://techcrunch.com/2025/01/09/rounded-is-an-ai-orchestration-platform-that-lets-anyone-build-an-ai-voice-agent/


    推荐阅读

    — END —

    1.   The theory of LLMs|朱泽园ICML演讲整理

    2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

    快速获得3Blue1Brown教学动画?Archie分享:使用 Manim 引擎和 GPT-4o 将自然语言转换为数学动画

    原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2025/01/32672.html

    Like (0)
    Previous 2025-01-09 19:30
    Next 2025-01-11 08:51

    相关推荐