大模型日报(5月6-7日 资讯篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(5月6-7日 资讯篇)

资讯

01

特斯拉Optimus人形机器人进厂打工,娴熟分装电池、自我矫正,还能走更远了

特斯拉人形机器人又解锁了新技能!昨日,Tesla Optimus官方发布了新的 demo 视频,展示了二代 Optimus 人形机器人的最新进展。这次,Optimus 开始进厂打工了,在特斯拉电池工厂学会了分装电池,并且比以前走得更快更远更稳了。Optimus 在机器人的 FSD 计算机上实时运行,而仅仅依靠 2D 摄像头、手部触觉和力传感器。Optimus 利用它的腿保持平衡,同时网络驱动着整个上半身。
大模型日报(5月6-7日 资讯篇)https://mp.weixin.qq.com/s/P5pJFKGxxvi-jBuPCmk-RQ
02

速读60万字《马斯克传》、手机一键生成PPT,零一万物上线AI生产力工具「万知」

5 月 7 日,零一万物官宣了第一款为中国人量身一站式 AI 工作平台 —— 万知。它可以做会议纪要、周报、写作助手,还可以解读财报、论文等各类文件,帮你做 PPT。这一切,都可以登录一键解决,中英双语,完全免费。大众可以通过网页(www.wanzhi.com)和微信小程序万知 AI 找到这位人人都能用上的 AI 个人特助。
大模型日报(5月6-7日 资讯篇)https://mp.weixin.qq.com/s/HmWUJpSQ1TseaoxfBtOAuA
03

爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP

多层感知器(MLP),也被称为全连接前馈神经网络,是当今深度学习模型的基础构建块。MLP 的重要性无论怎样强调都不为过,因为它们是机器学习中用于逼近非线性函数的默认方法。但是最近,来自 MIT 等机构的研究者提出了一种非常有潜力的替代方法 ——KAN。该方法在准确性和可解释性方面表现优于 MLP。而且,它能以非常少的参数量胜过以更大参数量运行的 MLP。比如,作者表示,他们用 KAN 重新发现了结理论中的数学规律,以更小的网络和更高的自动化程度重现了 DeepMind 的结果。具体来说,DeepMind 的 MLP 有大约 300000 个参数,而 KAN 只有大约 200 个参数。这些惊人的结果让 KAN 迅速走红,吸引了很多人对其展开研究。很快,有人提出了一些质疑。其中,一篇标题为《KAN is just MLP》的 Colab文档成为了议论的焦点。
KAN 作者:我想传达的信息不是「KAN 很棒」,而是「尝试批判性地思考当前的架构,并寻求从根本上不同的替代方案,这些方案可以完成有趣、有用的事情。」
大模型日报(5月6-7日 资讯篇)
04
4

一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo

开源大模型领域,又迎来一位强有力的竞争者。近日,探索通用人工智能(AGI)本质的 DeepSeek AI 公司开源了一款强大的混合专家 (MoE) 语言模型 DeepSeek-V2,主打训练成本更低、推理更加高效。DeepSeek-V2 参数量达 236B,其中每个 token 激活 21B 参数,支持 128K token 的上下文长度。
大模型日报(5月6-7日 资讯篇)https://mp.weixin.qq.com/s/tAA8XUbU__9FgvEvXxsykw
05

仅用250美元,Hugging Face技术主管手把手教你微调Llama 3

大语言模型的微调一直是说起来容易做起来难的事儿。近日 Hugging Face 技术主管 Philipp Schmid 发表了一篇博客,详细讲解了如何利用 Hugging Face 上的库和 fsdp 以及 Q-Lora 对大模型进行微调。
微调主要步骤如下:
  • 设置开发环境
  • 创建并加载数据集
  • 使用 PyTorch FSDP、Q-Lora 和 SDPA微调大语言模型
  • 测试模型并进行推理
本文进行的实验是在英伟达(NVIDIA)H100 和英伟达(NVIDIA)A10G GPU 上创建和验证的。配置文件和代码针对 4xA10G GPU 进行了优化,每个 GPU 均配备 24GB 内存。如果使用者有更多的算力,第 3 步提到的配置文件(yaml 文件)需要做相应的修改。
大模型日报(5月6-7日 资讯篇)https://mp.weixin.qq.com/s/PR4fCky5a6geBdCbxsOURg
06

LeCun上月球?南开、字节开源StoryDiffusion让多图漫画和长视频更连贯

两天前,图灵奖得主 Yann LeCun 转载了「自己登上月球去探索」的长篇漫画,引起了网友的热议。其实,产出这些漫画的研究出自南开大学、字节跳动等机构。在《StoryDiffusion:Consistent Self-Attention for long-range image and video generation》这篇论文中,该研究团队提出了一种名为 StoryDiffusion 的新方法,用于生成一致的图像和视频以讲述复杂故事。

大模型日报(5月6-7日 资讯篇)https://mp.weixin.qq.com/s/9GkSQkEax3D5boQQ9LNIRQ

07

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

开源社区最新发现,只需58行代码,任何Llama 3 70b的微调版本都能自动扩展到1048k(一百万)上下文。背后是一个LoRA,从扩展好上下文的Llama 3 70B Instruct微调版本中提取出来,文件只有800mb。接下来使用Mergekit,就可以与其他同架构模型一起运行或直接合并到模型中。首先1048k上下文版Llama 3微调模型来自Gradient AI,一个企业AI解决方案初创公司。而对应的LoRA来自开发者Eric Hartford,通过比较微调模型与原版的差异,提取出参数的变化。他先制作了524k上下文版,随后又更新了1048k版本。首先,Gradient团队先在原版Llama 3 70B Instruct的基础上继续训练,得到Llama-3-70B-Instruct-Gradient-1048k。
具体方法如下:
  • 调整位置编码:用NTK-aware插值初始化RoPE theta的最佳调度,进行优化,防止扩展长度后丢失高频信息
  • 渐进式训练:使用UC伯克利Pieter Abbeel()团队提出的Blockwise RingAttention方法扩展模型的上下文长度
值得注意的是,团队通过自定义网络拓扑在Ring Attention之上分层并行化,更好地利用大型GPU集群()来应对设备之间传递许多KV blocks带来的网络瓶颈。
最终使模型的训练速度提高了33倍。
大模型日报(5月6-7日 资讯篇)https://mp.weixin.qq.com/s/gG6qTLIpOcURt5s8GFy96w
08

Sam Altman 《麻省理工科技评论》最新采访:AI 杀手级功能,不需要新的硬件和训练数据,并且了解你的一生……

近日, Sam Altman 接受了《麻省理工科技评论》记者的采访,Altman 将 AI 杀手级应用描述为:“超级能干的同事,它绝对了解我一生的一切,包括我的每封电子邮件、每一次对话。此外,它可以立即解决一些任务,而对于更复杂的任务,它可以进行尝试,但如果需要的话,它会向你提出问题”。在 Altman 看来,在新范式中,AI 将能够在聊天界面之外帮助我们,并帮助我们摆脱现实世界的任务。
大模型日报(5月6-7日 资讯篇)https://mp.weixin.qq.com/s/YO09n7BhvAQqGrgMnMeDww
09

新SOTA,仅几个标记基因即可自动标记,复旦大学开发空间转录组学语义注释贝叶斯框架

空间转录组学的出现,彻底改变了组织内基因表达的研究。然而,注释空间点的生物特性仍然是一个挑战。为了解决这个问题,复旦大学的研究人员引入了 Pianno,一个基于标记基因自动进行结构语义注释的贝叶斯框架。Pianno 在精确注释各种空间语义(从不同的解剖结构到复杂的肿瘤微环境)以及估计细胞类型分布(跨各种空间转录组学平台生成的数据)方面的卓越能力。研究人员使用 Pianno 结合聚类方法,揭示了人类新皮质深层 3 中区域和物种特异性的兴奋性神经元亚型,展示了人类新皮质的细胞进化过程。Pianno 作为一种准确高效的工具,能够替代劳动密集型的手动注释程序,并在与无监督聚类方法结合时揭示新的生物学洞见。
大模型日报(5月6-7日 资讯篇)https://mp.weixin.qq.com/s/LvdfS1cbpYsSl7KbR12rAA
10

耐600℃高温存储器问世,有助开发极端环境下人工智能计算系统

美国宾夕法尼亚大学科学家研制出一款可在600℃高温下持续工作60小时的存储器。这一耐受温度是目前商用存储设备的两倍多,表明该存储器具有极强的可靠性和稳定性,有望在可导致电子或存储设备故障的极端环境下大显身手,也为在恶劣条件下进行密集计算的人工智能系统奠定了基础。相关论文发表于新一期《自然·电子学》杂志。
大模型日报(5月6-7日 资讯篇)https://www.cls.cn/detail/1667722

推特

01

脉冲星:首创的家族化软件定义电磁战系统,快速识别并应对新威胁

脉冲星 —— 一种首创的家族化软件定义电磁战(EW)系统,利用AI在战术边缘快速识别并应对新威胁,从几小时到几天,而不是几个月或几年。
威胁发展速度比以往任何时候都快 —— 在频谱中是一场感知与躲避、干扰与适应的猫鼠游戏,更新现在在几周、几天甚至几小时内完成。
对传统电磁战系统的渐进式改进已经跟不上了。
脉冲星应运而生、开发并完善,以应对当今的威胁和未来可能出现的任何事物。
了解更多:https://anduril.com/article/anduril-announces-pulsar/

大模型日报(5月6-7日 资讯篇)https://x.com/anduriltech/status/1787452286542708857

02

LeRobot:Hugging Face 的第一个机器人技术库推出,旨在促进更大的开源机器人社区

欢迎 LeRobot!这是 Hugging Face 的第一个机器人技术库 🔥
在过去的几个月中,我们见证了机器人技术领域令人印象深刻的研究突破(ALOHA、扩散政策、UMI 等),使得机器人行为得以训练,这在以前被认为是无法仅凭有限数据量和小团队完成的。
我们还看到了大量私人投资流入优秀的机器人团队,展示了即将商用的机器人令人震惊的行为。
我们认为现在是时候帮助更大的开源机器人社区出现,并与最近在大型语言模型和多模态模型中的进展连接/融合,带来社区的所有多样性和激动人心的发展。
一如既往,我们在这里扮演的角色是社区的公民服务员,帮助并促进领域内的工作,提供更容易访问的模型、数据集和工作实现,教育材料。尽可能地收集不同的格式和解决方案,并提供长期维护的开源解决方案。
我个人对 LeRobot 非常兴奋,因为这是我梦想了好几年的事情(统一机器人/RL数据集和模型,模拟与现实世界),尝试了几次但没有成功(模拟库),看到 @RemiCadene、@alibert_s 和 @asoare159 推出如此强大和深思熟虑的库,对我来说非常激动。
https://github.com/huggingface/lerobot
关于 Remi 的所有详细信息都在这个帖子中:https://x.com/RemiCadene/status/1787378768979640598
大模型日报(5月6-7日 资讯篇)https://x.com/Thom_Wolf/status/1787384242277654786
03

用大型语言模型处理文件:发票或收据!

您不需要 RAG 来提取发票数据
完整视频:https://youtu.be/watch?v=_GoGdF1TfN8
代码:https://github.com/katanaml/sparrow
文件如发票或收据可以直接由大型语言模型处理,无需 RAG。我将解释如何通过 Ollama 和 Jason liu 的 Instructor 在本地进行这一操作。多亏了 Instructor,可以使用您自己的 Pydantic 类来验证大型语言模型的结构化输出。

大模型日报(5月6-7日 资讯篇)https://x.com/andrejusb/status/1787385531770265800

04
4

DeepSeek-V2,开源MoE模型,AlignBench 中名列前三

🚀 推出 DeepSeek-V2:尖端的开源 MoE 模型!
🌟 亮点:
在 AlignBench 中名列前三,超过 GPT-4 并接近 GPT-4-Turbo。
在 MT-Bench 中排名顶级,与 LLaMA3-70B 竞争并超过 Mixtral 8x22B。
擅长数学、编程和推理。
支持 128K 上下文窗口。
✨ 特点:
创新架构,活跃参数 21B,总参数 236B。
无与伦比的 API 价格,同时保持真正的开源和无商业化。
大模型日报(5月6-7日 资讯篇)https://x.com/deepseek_ai/status/1787478986731429933
05

Wayve AI C轮获投10.5亿美元,将用于开发汽车用具身AI产品

我们有一些激动人心的新闻要分享🚨我们很高兴地宣布,在SoftBank领投,Nvidia和Microsoft参投的最新一轮融资中,我们筹集了10.5亿美元。这一里程碑将推动我们开发并推出我们的首个汽车用具身AI产品🚗🚗我们非常感激我们出色的团队、支持我们的投资者和相信我们愿景的合作伙伴🙏汽车行业的AI驱动转型现在就开始!了解更多信息👉
https://wayve.ai/press/series-c/

大模型日报(5月6-7日 资讯篇)https://x.com/wayve_ai/status/1787618605468704998

06

OpenAI API现在可以查看统计数据,流式传输的末尾额外显示

现在在使用 Chat Completions API 的流式传输时可以查看使用统计数据。设置 stream_options: {"include_usage": true} 后,您将在流的末尾看到一个额外的块,其中填充了使用情况数据。
https://cookbook.openai.com/examples/how_to_stream_completions#4-how-to-get-token-usage-data-for-streamed-chat-completion-response
大模型日报(5月6-7日 资讯篇)https://x.com/OpenAIDevs/status/1787573348496773423

产品

01

Actionize AI

Actionize AI 是一个针对 GPT 的工具,它让非技术用户也能轻松地为 GPT 创建自定义的操作功能。通过与无代码工具如 Zapier 或 Make.com 的集成,用户无需编程即可构建自己的 GPT 工作流程,只需将生成的代码片段粘贴到 GPT 创建器中即可。Actionize AI 旨在民主化 GPT 功能开发,为不会编码的用户提供一种简单有效的方式来扩展 GPT 的能力。
大模型日报(5月6-7日 资讯篇)https://actionize.ai/
02

ContentPie

ContentPie 是一款专为解决 SEO 内容创作难题而开发的 AI 辅助工具。它通过深入了解品牌信息,自动生成优质、针对性的内容,帮助用户提高内容的搜索引擎排名表现。这个工具能够大大提高内容创作的效率,为数字营销人员和 SEO 从业者带来便利。
大模型日报(5月6-7日 资讯篇)https://www.contentpie.ai/

投融资
01

米兰教育科技公司Futura获得1400万欧元A轮融资

位于米兰的教育科技公司Futura成功获得1400万欧元的A轮融资,此轮融资由Eurazeo领投,现有投资者United Ventures和新投资者Axon Partners Group参与。Futura利用其开发的创新算法,提供个性化的学习路径优化,旨在使全球学习更快更好。自2022年获得180万欧元种子资金以来,公司收入持续翻倍,已实现盈利。此次资金将用于扩展在欧洲的业务范围和开发新产品。
公司官网:https://www.futura.study/

大模型日报(5月6-7日 资讯篇)https://www.eu-startups.com/2024/05/milan-based-edtech-futura-raises-e14-million-series-a-to-make-the-world-learn-faster-and-better/

02

Tekst.com获得70万欧元融资

位于比利时根特的初创公司Tekst.com专注于为大型企业自动化文本处理流程,已成功筹集70万欧元资金。这轮种子融资由初创工作室及早期风险投资公司Entourage领投,该公司主要投资于B2B和SaaS领域的早期项目。Tekst.com计划利用这笔资金在欧洲进一步推广和商业化其技术。
公司官网:https://www.tekst.com/
大模型日报(5月6-7日 资讯篇)https://www.thesaasnews.com/news/tekst-com-raises-700k-in-funding
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/05/15566.html

Like (0)
Previous 2024-05-07 17:00
Next 2024-05-08 19:24

相关推荐

  • 大模型日报(6月15~16日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 资讯 0…

    2024-06-16
    158
  • 大模型日报(5月10日 资讯篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-10
    198
  • 大模型日报(8月13日 资讯篇)

    特别活动! 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.f…

    2024-08-13
    265
  • 大模型日报(4月15日 资讯篇)

    欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 推特 01 私密马赛妈妈酱,瓦塔西哇要去远航:OpenA…

    2024-04-15
    167
  • 大模型日报(4月20~21日 资讯篇)

    欢迎观看大模型日报,进入大模型日报群和空间站(活动录屏复盘聚集地)请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 推特 01 Zuck在Dwarkesh…

    2024-04-21
    178
  • 大模型日报(4月26日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 资讯 0…

    2024-04-26
    169
  • 大模型日报(3月29日)

    特别活动! 欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 推特 01 吴恩达分析AI主体工作流设计模式…

    2024-03-29
    126
  • 大模型周报:Sam对GPT5的剧透

    大模型周报是由奇绩创坛大模型日报内容精选而成,如需进入大模型日报群和空间站请文末扫码。 1 资讯 从 Altman 对 GPT-5 的剧透中,我们应该如何迎接 AGI 的下一阶段?…

    2024-01-27
    152
  • 大模型日报(8月22日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-22
    216
  • 大模型日报(7月15日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-15
    193