大模型日报(1月15日 资讯篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

Reka AI 刘琦:多模态大模型与 Agent 的训练与实践 | 奇绩潜空间活动报名

【奇绩潜空间】是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区,定期邀请大模型前沿创业者分享产品实践探索,邀请前沿科研学者分享最新技术进展。

第五季第四期潜空间邀请到的嘉宾是 Reka AI 联合创始人,香港大学计算机科学系助理教授 ——刘琦,他分享的主题是《多模态大模型与智能 Agent 的训练与实践:打造自动化驱动的智能化未来》。

大模型日报(1月15日 资讯篇)

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(1月15日 资讯篇)

资讯

01

MiniMax-01开源

MiniMax发布了全新的MiniMax-01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列的核心创新在于首次大规模应用线性注意力机制,打破了传统Transformer架构的限制。MiniMax-01模型拥有4560亿参数,单次激活459亿,性能与GPT-4o相媲美,并能高效处理全球最长达400万token的上下文,这是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。
该模型的关键优势在于处理超长上下文的能力,适应单Agent和多Agent系统对大规模上下文的需求,预示着2025年Agent技术的快速发展。此外,MiniMax凭借其架构创新和高效优化,以业内最低的价格提供文本和多模态理解的API,标准定价为输入token 1元/百万token,输出token 8元/百万token。
MiniMax-01系列在长文任务中表现尤为突出,尤其在Google的Gemini和其他顶尖模型的对比中,性能衰减最慢,展示出卓越的长输入处理能力。使用线性注意力机制,模型在长序列处理上接近线性复杂度,优化了MoE通讯、训练和推理系统,提升了模型效率和准确性。
MiniMax还将这两个模型的完整权重开源,推动更多长上下文研究,并希望进一步加速Agent时代的到来。开源不仅能启发更多创新,也促使MiniMax持续进行更高质量的模型研发。用户可以通过MiniMax开放平台和其他相关网站进行体验和使用,API提供极高性价比的服务,适合各种开发需求。
大模型日报(1月15日 资讯篇)
htt‍ps://mp.weixin.qq.com/s/uQxHkPeLQkiZ0y8NEF5bmg
02

国产推理大模型决战2025考研数学

随着2025年研究生考试结束,考研数学真题成为了大语言模型,尤其是推理模型的“试炼场”,检验它们的深度思考能力。传统观点认为大模型在语言理解上表现优异,但在数学推理方面却常常失败。尤其是去年的「9.9与9.11」比大小问题,GPT-4o等模型都未能答对。直到深度推理模型的出现,才显著改善了这一情况。OpenAI的o1模型在复杂数理问题上的表现令人印象深刻,并且在经过一定时间推理后,答案的准确性大幅提升,推理侧的Scaling Law成为了推动模型能力提升的关键。
国内大模型厂商也开始推出深度推理模型,如智谱的GLM-Zero、阿里的QwQ等,在某些任务上也表现突出。为了全面评估这些模型在数学推理上的表现,清华SuperBench大模型测评团队结合2025年考研数学试题,对这些深度推理模型进行严格评测。13个参与测试的模型包括各家基础模型和深度推理模型。结果显示,OpenAI的GPT-o1模型以领先优势获得第一,成为唯一得分超过140分的模型。紧随其后的是智谱的GLM-Zero-Preview(138.7分)和阿里的QwQ(137.0分)。
在评测过程中,测评团队发现并非所有模型都提供API支持,部分模型的输出会因长度限制出现截断。为了确保公正性,测试统一使用网页端操作,并通过多次测试确保结果的准确性。评测表明,深度推理模型普遍得分较高,尤其是在数学一、二、三的试题中,表现优异的模型有GPT-o1、GLM-zero-preview、QwQ等。
在单张试卷的表现上,GPT-o1在三张试卷中的错题数量最少,只有3.5道错题,其余模型在同样的题目上也普遍存在错误,证明了GPT-o1在深度推理模型中的领先地位。与基础模型相比,深度推理模型在数学推理方面的表现显著提升。例如,GPT-o1相较于基础模型GPT-4o的提升幅度最大,达到57.3分。
整体来看,尽管OpenAI的GPT-o1在深度推理上仍然占据领先地位,但国产模型逐渐缩小与其差距。智谱的GLM-Zero-Preview和阿里的QwQ在推理能力上的优秀表现,显示出国产大模型在数学推理方面的快速进步。
大模型日报(1月15日 资讯篇)
https://mp.‍weixin.qq.com/s/JxRmIlPyMlM-ym0q1dLYxQ
03
元资助

2024年AI编程工具的崛起:Cursor的突破与挑战

2024年,生成式AI领域的飞速发展催生了许多新兴应用,尤其在AI编程工具领域,多个创新产品涌现。作为其中的黑马,Cursor在短短几个月内凭借其独特的编程体验和出色的市场表现,迅速赢得了开发者的青睐。

Cursor的核心优势在于其将编程从传统的逐行编写代码方式转变为通过自然语言交流来生成代码,极大简化了编程过程。背后依托先进的AI模型如GPT-4和Claude 3.5,Cursor不仅能自动生成代码、修复错误,还能提供智能代码建议,深度集成到开发者的工作流中。其AI辅助的功能,尤其是在代码补全、跨文件编辑和自然语言指令生成方面表现出色。相比传统的编程工具,Cursor能够通过“Composer”功能和智能任务执行,大幅提升工作效率,特别是在大型项目或复杂代码的处理上表现突出。
大模型日报(1月15日 资讯篇)
https://mp.weixin.qq.com/s/j2YGcocQCT5o1edAbsBZ_Q

推特

01
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式

吴恩达分享:全新的 AI 气候模拟器,通过可视化模拟了解地球工程如何减缓全球变暖

刚刚发布:全新的 AI 气候模拟器,您可以亲自体验。通过可视化模拟了解地球工程如何减缓全球变暖。
若不采取地球工程措施,全球变暖将无法限制在 1.5 摄氏度(《巴黎协定》)以内。将 1% 的阳光反射回太空可额外带来约 1 摄氏度的降温。
我们的模拟器让您探索通过平流层气溶胶注入(Stratospheric Aerosol Injection, SAI)进行地球工程的可能性,发现如何开辟新的路径,将全球变暖控制在 1.5 摄氏度以内。我认为 SAI 是值得认真研究的有前景技术。点击这里体验模拟器:http://planetparasol.ai

大模型日报(1月15日 资讯篇)

https://x.com/AndrewYNg/status/1879253685232144487
02 

OpenAI全新函数调用指南上线

宣布我们的全新函数调用指南上线@openai!
我们听取了大家的反馈并做出了一些重要改进:
•        内容缩短了 50%,更加简洁明了
•        添加了全新的最佳实践(详见下文👇)
•        文档内直接生成函数功能(!)
•        提供了完整的示例,结合天气 API
快来看看吧,告诉我们您的想法!我们热爱听取反馈 💪

大模型日报(1月15日 资讯篇)

https://x.com/ilanbigio/status/1878940258349510764

产品

01

Pom  Health & Fitness

扫描产品以避免有害或不需要的成分。
只需扫描任何产品的成分列表,pom 就会标记有害物质。还可以为想要避免的成分设置自定义标记,并查看带有智能分解的最新研究。
  1. 推出了 pom 成分检查应用,可帮助用户在选择产品时做出明智决策。
  2. 日常产品中很多成分有害健康,开发 pom 是为推动成分透明度。
  3. pom 完全独立且有科学支撑,能让用户全面了解成分的科学情况。
  4. pom 支持自定义,用户可自行决定重要内容。
  5. 你的健康好搭子
大模型日报(1月15日 资讯篇)
https://thepom.app/?ref=producthunt
02

Reachy.ai

在快速发展的 B2B 世界中,找到并与合适的潜在客户建立联系,与投放广告或优化搜索引擎优化(SEO)一样重要。
Reachy—— 用人工智能驱动的智能和自动化来革新潜在客户开发。💥
  • 触达超过 10 亿人:解锁领英的全部潜力,与世界上最大的专业网络建立联系。
  • 卓越的参与率:实现 30% 或更高的回复率 —— 远远超过行业标准。
  • 更智能的潜在客户评分:根据行为和活动而非仅仅静态资料来定位潜在客户。
  • 实时信号:在领英、Slack 以及整个网络上检测洞察,以便在最佳时机进行互动。
  • 无缝的领英账户管理:每个活动可连接多个领英账户,并具有自动轮换功能以提高效率和可扩展性。
  • 人工智能驱动的个性化:使用增强的、基于提示的人工智能生成高度个性化的消息,以提高参与度。
  • 行为驱动的互动:根据潜在客户的社交活动而非仅仅他们的资料来吸引他们。
  • 节省时间的工作流程:一个时尚、直观的平台,旨在每周为你节省数小时。
  • 高级集成:与客户关系管理系统(Hubspot、Salesforce、Pipedrive 等)、Slack 以及 Zapier 或 Make 等工具无缝协作,实现完全的灵活性。
大模型日报(1月15日 资讯篇)
大模型日报(1月15日 资讯篇)
大模型日报(1月15日 资讯篇)
https://www.reachy.ai/?ref=producthunt

 投融资

01
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式

Nvidia投资台湾初创公司MetAI,推动AI驱动的数字孪生技术

台湾初创公司MetAI宣布完成了由Nvidia支持的400万美元种子轮融资,这是该芯片巨头首次投资台湾初创企业。其他投资者包括Kenmec Mechanical Engineering、Solomon Technology、SparkLabs Taiwan、Addin Ventures和Upstream Ventures等。MetAI开发了一种通过AI和3D技术,能够迅速将CAD文件转化为功能性3D环境的模型,这种“SimReady”数字孪生技术可在几分钟内生成,为先进的半导体制造、智能仓库和自动化领域提供解决方案。
MetAI专注于为物理AI训练和实际应用构建数字孪生,通过生成合成数据,促进AI训练与验证。与传统的数字孪生技术公司不同,MetAI采用生成模型和AI驱动的布局,致力于加速数字孪生的创建,并确保其在先进自动化系统中具有直接可用性。公司表示,这种创新方法将数字孪生与现实世界操作之间的差距弥合,为机器人等工业AI应用提供支持。
MetAI的创始人之一、首席技术官Renton Hsu表示,公司的突破性技术已帮助其赢得了Nvidia的一项比赛,并使他成为该公司的“Jetson AI大使”。MetAI目前与多个制造和自动化领域的企业合作,已经开始产生收入,并计划从一个项目中获得300万美元收入。该公司通过项目收入、产品订阅和许可费用等途径获得收入。
MetAI计划利用这轮融资扩展其研发团队,提升产品开发和市场推广的速度,并计划在2025年下半年将总部迁至美国。公司也将继续在台湾进行测试,与当地行业领袖合作,将垂直领域知识融入其模型中,确保其解决方案既强大又可扩展。MetAI的技术与Nvidia Omniverse的整合,预示着工业数字孪生和物理AI模拟的重大进展,可能为制造业和机器人等行业设立新的标准。
公司官网:https://www.met-ai.net/en
大模型日报(1月15日 资讯篇)
https://techcrunch.com/2025/01/14/nvidia-backs-metai-a-taiwanese-startup-that-creates-ai-powered-digital-twins/

推荐阅读

— END —

1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

快速获得3Blue1Brown教学动画?Archie分享:使用 Manim 引擎和 GPT-4o 将自然语言转换为数学动画

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2025/01/32758.html

Like (0)
Previous 2025-01-15 18:13
Next 2025-01-15 23:54

相关推荐