大模型日报(6月3日 资讯篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(6月3日 资讯篇)

资讯

01

马斯克称将为 xAI 购买约 30 万块英伟达 AI 芯片,预估至少花费 90 亿美元

马斯克北京时间今天凌晨在回复一则投票时透露,xAI 的下一项重大举措可能是在明年夏天购买约 30 万块配备 CX8 网络的 B200 芯片。
大模型日报(6月3日 资讯篇)https://www.ithome.com/0/772/818.htm
02

AMD 公布新一代AI芯片MI350系列,推理性能大幅增涨

今天上午,AMD公司CEO苏姿丰(Lisa Su)在台北宣布,更新instinct GPU系列路线图,将在每一代产品中带来年度领先的 AI性能和内存功能,从而加速AMD在数据中心 A! 创新和领导地位。其中,全新 AMD Instinct MI325X AI加速器(芯片),将配备288GB HBM3E内存和 6TB/秒的内存带宽,采用与MI1300系列相同设计。相比英伟达最强AI芯片H200、MI325X内存容量提高2倍、带宽提升1.3倍、计算性能提升1.3倍、最快2024年四季度上市。此外,MI350X加速器相比MI300系列,新的MI350系列的 A推理性能将提高惊人的35倍(3500%),预计将于2025年上市。
大模型日报(6月3日 资讯篇)https://www.tmtpost.com/7113626.html
03

Stability Al 将在6 月 12 日 开放 Stable Diffusion 3 权重下载

Stable Diffusion3 权重即将发布!Stability Al 的联合 CEO Christian Laforte 今天早些时候在台北国际电脑展上宣布了这一消息,其最先进的文本生成图像模型 Stable Diffusion3 Medium 即将上线,用户可以在6月 12 日星期三在 Hugging Face 上下载这些权重。SD3 Medium 是一个拥有 20 亿参数的 SD3 模型,专为解决之前模型的不足而设计,SD3 中等权重和代码仅供非商业用途。
大模型日报(6月3日 资讯篇)https://mp.weixin.qq.com/s/mG9L6mr21eS9g8vNBRfZLw
04
4

清北爸爸李永乐都搞不定的事情,这个隐身的大模型在发起挑战

猿辅导旗下飞象星球发布的大模型场景测试视频。从发布时间来看,该场景测试距离猿辅导看云大模型正式通过备案,仅用了 15 天时间。要知道,大模型最难的是找到对用户有价值且大模型可以实现的场景,而猿辅导这一场景测试是找到场景再做技术研发,被其内部称为「拿着钉子找锤子」。也正因如此,猿辅导看云大模型并不会像那些广为人知的通用大模型一样成为独立的应用产品,而是一个技术底座,隐藏在其产品交互的背后,为学生和家长提供服务和支持。「大模型对我们来讲是『技术』,不是『产品』,它应该在产品中发挥价值。」猿力科技 CTO 杨元祖如是说。其实,在教育领域,大模型能否让大家看见并不重要,关键在于它能否有效解决学生和家长面临的问题。作为一家自 2014 年就设立了 AI 实验室的教育科技公司,猿辅导在应对这些问题上拥有自己的独到见解和优势。
大模型日报(6月3日 资讯篇)https://mp.weixin.qq.com/s/ojHT_p4invctJkbuusGq_g
05

斯坦福爆火Llama3-V竟抄袭国内开源项目,作者火速删库

在 GPT-4o 出世后,Llama3 的风头被狠狠盖过。GPT-4o 在图像识别、语音理解上卓越的性能展现了它强大多模态能力。开源领域的领头羊 Llama3 曾在几乎所有基准测试中都超越了 GPT-3.5,甚至在某些方面超越了 GPT-4。这次就要闷声「吃瘪」了吗?5 月 29 日,一个来自斯坦福的研究团队发布了一个能够「改变现状」的产品:Llama3-V,号称只要 500 美元(约为人民币 3650 元),就能基于 Llama3 训练出一个超强的多模态模型,效果与 GPT4-V、Gemini Ultra 、 Claude Opus 多模态性能相当,但模型小 100 倍。用这么少的成本,创造出了如此惊艳的成果,Llama3-V 在推特上迅速爆火,浏览量突破 30 万,转发超过 300 次,还冲上了「 HuggingFace Trending 」Top 5。但是没发布两天,Llama3-V 就遭遇了重重质疑。有人指出,Llama3-V 项目中有一大部分似乎窃取了清华大学自然语言处理实验室与面壁智能合作开发的多模态模型 MiniCPM-Llama3-V 2.5。
大模型日报(6月3日 资讯篇)https://mp.weixin.qq.com/s/nsp9tdS5SnX-7htsndKVcw
06

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

一般而言,训练神经网络耗费的计算量越大,其性能就越好。在扩大计算规模时,必须要做个决定:是增多模型参数量还是提升数据集大小 —— 必须在固定的计算预算下权衡此两项因素。Scaling law 告诉我们:只要能适当地分配参数和数据,就能在固定计算预算下实现性能最大化。之前已有不少研究探索过神经语言模型的 Scaling law,而这些研究通常得出的结论是参数和训练 token 数应当一比一地扩展。但是,之前的语言模型 Scaling law 研究都是基于在散乱的网络文本上训练的 Transformer 得到的。这是一种非常特定的数据分布,因此我们自然会问:基于这样的网络文本数据集得到的 Scaling law 是否可以泛化到其它分布?此外,人们普遍认为,训练数据混合的秘诀在于能让前沿探索的产业界实验室能持续产出当前最佳的 LLM。考虑到提升数据质量能显著提升语言模型的性能,而强化学习的 Scaling law 也会随博弈难度而缩放,也许我们可以假设:当前的语言模型 Scaling law(即 Chinchilla)只是针对网络文本数据的具体案例,其背后还有一个基于训练数据属性的更广义的 Scaling law。那么,神经 Scaling law 对训练用的 token 序列数据集的哪些性质敏感呢?换句话说,如果我们想要准确预测如何以最佳方式为训练过程分配计算量,我们该观测数据的哪些属性?另外,Scaling law 的数据依赖性质仅仅是个理论问题,还是说对真实世界数据集也很重要?为了探究这些问题,AI 数据公司 Reworkd 的研究者 Rohan Pandey 做了一番调查,得到了这些问题的答案;另外他还提出了一种压缩算法 gzip,可预测数据复杂性对扩展性质的影响。
大模型日报(6月3日 资讯篇)https://mp.weixin.qq.com/s/sNQIe_jE30lciwP0uRhLEg

推特

01

Karpathy推荐FineWeb-Edu:高质量的LLM数据集,从原始的15万亿FineWeb标记过滤到1.3万亿最高(教育)质量的标记

令人惊叹且极其有用:FineWeb-Edu 📚👏
高质量的LLM数据集,从原始的15万亿FineWeb标记过滤到1.3万亿最高(教育)质量的标记,由Llama 3 70B评判。外加一篇非常详细的论文。
事实证明,LLM从教育内容中学习得更好更快。这部分是因为普通的Common Crawl文章(互联网页面)并不具备很高的价值,反而会分散训练,包含太多无关的信息。互联网上的普通网页如此随机和糟糕,甚至不清楚之前的LLM是如何从中学习的。你可能认为这些是随机的文章,但实际上不是,它们是奇怪的数据转储、广告垃圾和SEO、海量的股票行情更新等。而其中混杂着一些“钻石”,挑战在于将它们挑出来。
预训练数据集在微调中可能也非常有用,因为当你将模型微调到特定领域时(这非常常见),你会逐渐失去一般的能力。模型开始逐渐忘记目标领域之外的内容。但这不仅限于知识;你还会失去原始数据所要求的一般“思考”技能,而你的新领域可能不会锻炼这些技能。也就是说,除了广泛的知识逐渐消退,那些计算回路也会慢慢退化。因此,可能存在创造性的方法来融合预训练和微调阶段。
大模型日报(6月3日 资讯篇)https://x.com/karpathy/status/1797313173449764933
02

Karpathy大神推特达100万粉丝,Jim Fan带头庆祝

Jim Fan:
祝贺@karpathy 达到100万粉丝!!我仍然记得阅读并学习你2015年博客《循环神经网络的非凡有效性》的每一个字(也是首次将“幻觉”用于语言模型的文章)。你的文章和GitHub仓库一直是我们所有人的灵感源泉。👏
大模型日报(6月3日 资讯篇)https://x.com/DrJimFan/status/1797344372754883063
03

真正利用AI来自动化枯燥的工作:Ben Tossell讨论AI自动化,Ben’s Bites,Makerpad,以及低/无代码AI

很少有人真正利用AI来自动化枯燥的工作。
我和@bentossell坐下来聊了一下如何使用像Zapier这样的低/无代码工具来缩小AI自动化领域的差距。祝大家自动化愉快 :)
Ben Tossell:AI自动化,Ben’s Bites,Makerpad,以及低/无代码AI | Around the Prompt #5
在这次对话中,Ben讨论了低/无代码工具与AI的交集。他分享了他在低/无代码领域的经验以及这些工具如何与当前的大型语言模型(LLM)和AI趋势相关。Ben强调了软件开发的民主化以及非技术创始人使用低/无代码工具构建功能性产品的能力。他还探讨了不同行业对低/无代码工具的适用性以及AI集成的潜力。对话以讨论使用低/无代码工具创建MakerPad及其为没有编码经验的个人提供的好处结束。Ben Tossell分享了他构建Makerpad(一个无代码工具教程平台)的历程,以及其被Zapier收购的过程。他还分享了他向生活方式企业的转变和推出AI聚焦的新闻简报Ben’s Bites。Ben还谈到了他在AI初创企业中的投资以及这些初创企业在与大公司竞争时面临的挑战。他还重点介绍了AI领域的一些令人兴奋的公司。
大模型日报(6月3日 资讯篇)https://x.com/OfficialLoganK/status/1797318660446400782
04
4

谷歌分享围绕任何学术论文创建类似NPR的讨论:科学传播的一些很酷的可能性

谷歌进行了一项有趣的实验,能够围绕任何学术论文创建类似NPR的讨论。
这确实暗示了科学传播的一些很酷的可能性。而且那些声音、停顿和呼吸声真的让人感觉像公共广播。至少听前30秒。

大模型日报(6月3日 资讯篇)https://x.com/emollick/status/1797000655833350185

05

Ashpreet Bedi分享:AWS上使用LLM OS

让我们在AWS上运行由@karpathy开发的LLM OS🔥🫡
  • 使用gpt-4o作为协调不同资源的LLM
  • 使用@streamlit或@FastAPI进行服务
  • 容器化以在Docker或ECS上运行
文档: https://phidata.link/llmos-aws

大模型日报(6月3日 资讯篇)https://x.com/ashpreetbedi/status/1797320918274068700

产品

01

rusher.ai

Rusher.AI 是一个专为现代营销团队量身定制的 AI 助手,简化内容创作流程,大幅减少制作引人入胜的材料所需的时间。它可以根据品牌特点生成多语种内容,支持团队实时协作和视觉内容创作,并提供发布指导,帮助营销团队提高内容效率和质量,在数字营销中取得良好表现。
大模型日报(6月3日 资讯篇)https://rusher.ai/
02

Rencoach

Ren 是一个功能强大的 AI 教练系统,为个人用户、经理和高管提供实时的反馈、培训资源和领导力洞见。它可以为组织内部的每一位员工提供 24/7 的教练,并提供独特的洞察力,同时保护个人隐私。Ren针对不同需求进行了定制,既可以供个人使用,也可以部署到企业中的数千名员工,为组织带来前所未有的洞见和文化变革。
大模型日报(6月3日 资讯篇)https://rencoach.com/
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/06/14903.html

Like (0)
Previous 2024-06-03 18:28
Next 2024-06-04 18:55

相关推荐

  • 大模型日报(4月9日 资讯篇)

    欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 推特 01 微软人工智能将在伦敦市中心开设一个新的人工智…

    2024-04-09
    131
  • 大模型日报(7月1日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-01
    177
  • 大模型日报(9月7~8日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-08
    283
  • 大模型日报(3月25日)

    特别活动! 欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 资讯 01 讨论下一个token预测时,我们…

    2024-03-25
    142
  • Beidi Chen陈贝迪 独家 | 高效长序列生成之路:CPU & GPU —— 算法、系统与硬件的 co-design

    本期我们邀请到了 纽约大学计算机科学院博士 童晟邦 带来【多模态大模型:视觉为中心的探索】的主题分享。 上期我们有幸邀请到了陈贝迪教授带来【长序列文本生成】的主题分享,以下为分享的…

    2024-08-20
    285
  • 这个国庆,智谱悄咪咪打起了第二轮价格战

    内容丨特工小鹏 特工大叔 编辑丨特工少女 近一个月来,全面对标 OpenAI 的智谱大小动作不断,GLM-4-Flash 免费,推出极致性价比的 FlashX,旗舰模型升级到 Pl…

    2024-09-30
    336
  • 揭秘DriveLM:首个含图结构“语言+自动驾驶”全栈数据集

               1.首个含图结构的“语言+自动驾驶”全栈数据集               与传统自动驾驶领域数据集相比,DriveLM的突出特征在于,它是一个主要针对图像,…

    2024-05-28
    361
  • 大模型周报:苹果 iOS 史上最大更新!

    奇绩创坛大模型日报由奇绩创坛行研组的同学们精选编辑而成,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享奇绩活动,欢迎大家一起交流!👇🏻 01 资讯 小红书开…

    2024-02-02
    175
  • 大模型日报(9月11日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-11
    298
  • 大模型日报(4月3日)

    欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 推特 01 HuggingFace发布两个用于OCR(从…

    2024-04-03
    103