大模型日报(9月6日 资讯篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(9月6日 资讯篇)

资讯

01

vLLM v0.6.0

vLLM v0.6.0版本在推理性能上实现了显著改进:在Llama 8B模型上实现了2.7倍的吞吐量提升和5倍的输出令牌时间(TPOT)缩短,在Llama 70B模型上也分别实现了1.8倍的吞吐量提升和2倍的TPOT缩短。这些改进源于以下技术优化:
  1. 性能瓶颈分析
推理过程中,CPU与GPU的协作紧密,尽管大部分计算发生在GPU上,但CPU的请求调度效率也至关重要。在之前的版本中,vLLM的性能主要受制于以下两个问题:
  • CPU开销过高:使用Python原生数据结构导致调度和数据准备时间过长,占用大量CPU资源。
  • 缺乏异步处理:许多组件(如调度器和输出处理器)以同步方式执行,导致GPU等待CPU,降低了GPU利用率。
  1. 性能优化措施
为解决上述瓶颈,vLLM v0.6.0进行了多项技术优化:
  • API服务器与推理引擎分离:通过ZMQ套接字连接,将API服务器和推理引擎分离,避免了Python全局解释器锁(GIL)的竞争,提高了并行处理效率。
  • 多步调度:批量调度多个步骤,减少CPU与GPU之间的等待时间,增加了GPU的使用时间,从而提升了吞吐量。
  • 异步输出处理:通过将输出处理与GPU计算并行化,减少了GPU空闲时间,提高了整体性能。
  1. 其他优化
vLLM还通过缓存对象、非阻塞数据传输等多项微调优化进一步减少了CPU开销。例如,使用对象缓存减少了Python对象频繁分配和释放的开销,非阻塞的CPU到GPU数据传输提高了处理效率。
  1. 性能基准测试
在ShareGPT等数据集上,vLLM v0.6.0的性能表现优异,尤其在H100 GPU上,vLLM在Llama 8B和70B模型上的吞吐量均达到业界领先水平。这些优化使得vLLM在推理速度和并发处理能力上具备了更强的竞争力。
大模型日报(9月6日 资讯篇)https://blog.vllm.ai/2024/09/05/perf-update.html
02

全球首个多语言 ColBERT:Jina ColBERT V2 和它的‘俄罗斯套娃’技术

Jina-ColBERT-v2 是一款针对多语言检索和存储效率优化的多向量检索模型,基于对 ColBERT 的改进,在 RAG 领域中表现优异。传统 ColBERT 通过为文档的每个 token 生成独立的向量提高了检索精度,但存储需求大且仅支持英文,限制了应用场景。Jina-ColBERT-v2 通过以下技术改进,解决了这些问题:
  1. 多语言支持:Jina-ColBERT-v2 支持多达 89 种语言,包括阿拉伯语、中文、俄语、编程语言等,提升了全球范围内的检索性能。其训练数据集覆盖了 4.5 亿对语义相关句子和问答对,使得模型能够在多语言和跨语言任务中表现优异。
  2. 输出维度可定制:引入了“俄罗斯套娃表征学习 (MRL)”技术,允许用户选择 128、96 和 64 维度的输出向量。尽管向量缩短了 50%,性能损失仅在 1.5% 以内,显著减少了存储需求并加速了检索计算,尤其在向量比对和距离计算中效果显著。
  3. 性能提升:与原始 ColBERT-v2 和 Jina-ColBERT-v1-en 相比,Jina-ColBERT-v2 的英语检索性能分别提升了 6.5% 和 5.4%。其在 MIRACL 基准测试中的表现显著优于传统 BM25 方法,展现了其多语言检索的优越性。
此外,Jina-ColBERT-v2 通过动态资源分配和嵌入向量的压缩,降低了云端存储和计算成本,使得在大规模文档检索和嵌入生成中具有很高的实用性。这款模型已经在 AWS、Azure 和 Hugging Face 上发布,并支持多种 API 调用方式,方便用户在多种平台下应用。
大模型日报(9月6日 资讯篇)https://mp.weixin.qq.com/s/2U2dK3fppHNnE6dvET3Qhg
03

忙碌海狸难题突破:业余爱好者攻克40年计算机科学难题

一个困扰计算机科学家40多年的难题——忙碌海狸问题(Busy Beaver Problem)终于被业余数学爱好者们攻克。数学家陶哲轩对此表示,证明助手在数学研究中的协作作用至关重要,计算机科学家Scott Aaronson则称这是自1983年以来该领域的最大突破。
忙碌海狸问题是计算理论中的经典问题,研究的是在特定状态下,图灵机在停止前能写下最多“1”的数量。40多年来,BB(5)一直未解,即寻找一个5状态的图灵机,在它停止之前能写下的最大“1”数。通过一群爱好者的努力,使用Coq证明助手最终得出BB(5) = 47,176,870。
这一突破由20多名来自世界各地的爱好者达成,他们大多没有传统的学术背景。在使用了几十年的停机问题解决方法基础上,他们改进了技术,最终证明了第5个忙碌海狸数。尤其令人惊叹的是,团队中的大部分成员利用了Coq证明助手软件来确保证明的正确性,标志着计算辅助证明在复杂问题中的巨大潜力。
这一结果迅速在学术界引发热议,Aaronson称其为几十年来忙碌海狸函数研究的重大突破,陶哲轩则赞赏了证明助手的关键作用。这一成就不仅展示了图灵机研究的里程碑式进展,也启发了更广泛领域内关于计算理论的进一步探索。
这场为期40多年的挑战终于落幕,但新一轮挑战——BB(6)的研究或许已经开始。
大模型日报(9月6日 资讯篇)https://mp.weixin.qq.com/s/nftONaTaGTbZVEjIgQy3OQ
04

开源大模型Reflection 70B

一家小型创业团队Hyperbolic Labs推出的新模型Reflection 70B,以其突破性的“Reflection-Tuning”训练技术震撼业界。该模型能在推理过程中自我反思、纠正错误,表现出卓越的准确率,尤其在数学基准GSM8K上得分高达99.2%,全面超越Llama 3.1、GPT-4o等主流模型。
自我纠错能力引领突破
Reflection 70B最大的创新在于其可以使用“thinking”和“reflection”标签,在推理阶段主动发现并纠正错误。这使得模型不仅在测试集上表现优异,还能处理数据集中本身错误的内容,展现出非记忆化的推理能力。
小团队大作为
该模型由小团队Agent创业公司开发,CEO Mutt Shumer是连续创业者,带领团队构建了这款超越现有闭源大模型的开源之作。尽管只有70B参数,Reflection 70B已展示出优越性能,更大的405B版本也将在不久后发布。
大模型日报(9月6日 资讯篇)https://mp.weixin.qq.com/s/NpOUZXjEtZnDPmESA38lwg
05

AI行业迷恋Chatbot Arena,但它可能不是最佳基准测试工具

Chatbot Arena是LMSYS开发的AI模型排名平台,在AI行业内备受追捧。然而,尽管该平台广受欢迎,它可能并非评估AI模型表现的最佳工具。LMSYS由卡内基梅隆大学、加州大学伯克利分校和加州大学圣地亚哥分校的师生共同创建,最初的目标是让生成式AI模型更具可访问性。但由于对现有AI基准测试工具的不满,LMSYS开发了Chatbot Arena,一个基于人类偏好的众包评估平台,旨在评估模型在实际任务中的表现。
技术上,Chatbot Arena通过让用户同时测试两个随机选择的匿名模型,并根据用户偏好投票来决定哪一个表现更好。平台提供了100多个开放模型供测试,并收集了超过100万个问题和答案对。然而,尽管该平台提供了大量数据,其评估方法仍存在局限性和潜在偏见。例如,用户的偏好可能受到模型响应风格的影响,而不是实际的准确性或合理性。
此外,Chatbot Arena的用户群体可能并不具有代表性,大多数问题集中在技术领域,而非普通用户的需求。同时,LMSYS的透明度问题也备受质疑,尤其是在模型测试方法和数据更新方面。此外,LMSYS与多家科技公司的合作关系(如OpenAI、Google和Anthropic)也引发了人们对公平性的担忧,部分公司可能通过访问更多数据而获得不公平的优势。
虽然Chatbot Arena为AI模型提供了实时表现评估的机会,但它并不能成为衡量模型智能的最终标准,而更适合作为用户满意度的参考工具。
大模型日报(9月6日 资讯篇)https://techcrunch.com/2024/09/05/the-ai-industry-is-obsessed-with-chatbot-arena-but-it-might-not-be-the-best-benchmark/

推特

01

Replit Agent的早期访问开放,Karpathy:完全可以归类到“感受AGI”类别中

AI在编写代码方面非常出色。
但这还不足以创建完整的软件。你需要设置开发环境、安装包、配置数据库,如果幸运的话,还要部署。
是时候将这些全部自动化了。
现宣布Replit Agent的早期访问——今天起对订阅用户开放。

Karpathy评论:非常酷,完全可以归类到“感受AGI”类别中。正如帖子中提到的,制作实际的应用程序远不止编写代码,还需要设置整个环境、部署等。将所有这些基础设施自动化将使任何人都能快速构建并部署完整的Web应用程序。

大模型日报(9月6日 资讯篇)https://x.com/karpathy/status/1831776835388285347

02

吴恩达发布AI Python for Beginners最后两门课程,限时免费开放

我们刚刚发布了《AI Python for Beginners》的最后两门课程!现在完整的四门课程已经上线,并在有限时间内免费提供。
这些课程教授如何编写代码,(a) 使用AI辅助,这是行业发展的方向;(b) 利用生成式AI,让你能够快速通过代码实现有价值的功能。
如果你正在考虑学习编程,AI让现在成为一个非常适合入门的时机。或者如果你认识有意学习编程的人,欢迎推荐这些课程!
https://deeplearning.ai/short-courses/ai-python-for-beginners/
大模型日报(9月6日 资讯篇)https://x.com/AndrewYNg/status/1831346457854771255
03

Anthropic AI三位顶尖工程师小圆桌:什么样的人是优秀的提示工程师等

我和Anthropic的三位顶尖提示工程师——@AmandaAskell、@zswitten和@DavidSHershey——聊得非常愉快。
我们讨论了几个话题,包括:
  • 什么样的人是优秀的提示工程师
  • 编写更好提示的实用技巧
  • 大型语言模型(LLM)内部的工作原理
  • 破解限制(jailbreaks)
  • 提示工程的未来
  • 以及更多内容
如果你想了解我们如何看待提示工程,这可能是最好的资源之一。
以下是我们整个一小时十六分钟的对话。享受吧!
大模型日报(9月6日 资讯篇)https://x.com/AnthropicAI/status/1831779476369486094
04

Khalusova分享:如何通过合成生成的评估数据集和指标,快速在非结构化数据上比较嵌入模型

我最近写了一篇关于RAG嵌入模型的博客文章。作为后续,下面是一个笔记本,展示如何通过合成生成的评估数据集和诸如召回率(recall)和MRR等指标,快速在**你的**非结构化数据上比较嵌入模型:
大模型日报(9月6日 资讯篇)https://x.com/mariaKhalusova/status/1831309176988922253

产品

01

Toypal

ToyPal 是一款 AI 驱动的设备和应用,能够为毛绒玩具赋予生命,用户可以将故事附加到玩具上,通过应用生成个性化故事和日常活动,提供语音讲故事体验。主要特点包括为孩子创造独特的故事、并加入教育元素以帮助学习,以及提供多样化的角色选择。
大模型日报(9月6日 资讯篇)https://www.toypal.ai/
02

Sobrief

SoBrief 是一个提供超过 73,530 本书摘要的平台,支持 40 种语言的音频叙述,帮助用户快速获取书籍精华。平台利用人工智能进行书籍策划,用户可以免费阅读摘要,付费收听音频,从而解决书籍数量过多和阅读语言障碍的问题。
大模型日报(9月6日 资讯篇)https://sobrief.com/

投融资

01

穹彻智能已完成天使轮和Pre-A轮融资

2024年9月6日,具身智能初创公司穹彻智能宣布完成累计数亿元人民币的天使轮和Pre-A轮融资。此次融资由Prosperity7 Ventures和广发信德联合领投,参投方包括泽羽资本、创新工场、奇绩创坛、璞跃中国等知名投资机构。天使轮融资则由小苗朗程领投,MFund魔量资本等参投。
穹彻智能成立于2023年,专注于研发具身智能系统及其相关工具,致力于解决现实世界中的复杂问题。此次筹集的资金将用于产品研发、商业拓展及人才引进,进一步推动其技术落地和商业化应用。
公司官网:https://www.noematrix.ai/
大模型日报(9月6日 资讯篇)https://mp.weixin.qq.com/s/RJPNAlLwKpIspIzHYnZxig
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

  3. 「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/09/13087.html

Like (0)
Previous 2024-09-06 10:23
Next 2024-09-06 22:26

相关推荐

  • 大模型日报(7月23日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-23
    241
  • 大模型日报(5月27日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 资讯 0…

    2024-05-27
    182
  • 大模型日报(7月3日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-03
    170
  • 大模型日报(6月19日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 资讯 0…

    2024-06-19
    212
  • 大模型日报(8月3~4日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-04
    198
  • 揭秘DriveLM:首个含图结构“语言+自动驾驶”全栈数据集

               1.首个含图结构的“语言+自动驾驶”全栈数据集               与传统自动驾驶领域数据集相比,DriveLM的突出特征在于,它是一个主要针对图像,…

    2024-05-28
    347
  • 大模型日报(5月25~26日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 资讯 0…

    2024-05-26
    116
  • 大模型周报:Sam对GPT5的剧透

    大模型周报是由奇绩创坛大模型日报内容精选而成,如需进入大模型日报群和空间站请文末扫码。 1 资讯 从 Altman 对 GPT-5 的剧透中,我们应该如何迎接 AGI 的下一阶段?…

    2024-01-27
    152
  • 大模型日报(6月5日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 资讯 0…

    2024-06-05
    94
  • 大模型日报(7月10日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-10
    172