大模型日报(5月20日 资讯篇)

特别活动

大模型日报(5月20日 资讯篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(5月20日 资讯篇)

资讯

01

Karpathy称赞,从零实现LLaMa3项目爆火,半天1.5k star

一个月前,Meta 发布了开源大模型 llama3 系列,在多个关键基准测试中优于业界 SOTA模型,并在代码生成任务上全面领先。此后,开发者们便开始了本地部署和实现,比如 llama3 的中文实现、llama3 的纯 NumPy 实现等。十几个小时前,有位名为「Nishant Aklecha」的开发者发布了一个从零开始实现 llama3 的存储库,包括跨多个头的注意力矩阵乘法、位置编码和每个层在内都有非常详细的解释。该项目得到了大神 Karpathy 的称赞,他表示项目看起来不错,完全展开后,通过模块嵌套和相互调用,可以更容易看到实际的情况。
大模型日报(5月20日 资讯篇)https://mp.weixin.qq.com/s/1poG0tEjmym1456mmR66nQ
02

首个GPU高级语言,大规模并行就像写Python,已获8500 Star

经过近 10 年的不懈努力,对计算机科学核心的深入研究,人们终于实现了一个梦想:在 GPU 上运行高级语言。上周末,一种名为 Bend 的编程语言在开源社区引发了热烈的讨论,GitHub 的 Star 量已经超过了 8500。作为一种大规模并行的高级编程语言,它仍处于研究阶段,但提出的思路已经让人们感到非常惊讶。使用 Bend,你可以为多核 CPU/GPU 编写并行代码,而无需成为具有 10 年经验的 C/CUDA 专家,感觉就像 Python 一样!
大模型日报(5月20日 资讯篇)https://mp.weixin.qq.com/s/dC7Z5Rk05sM7ND7bYUsrZA
03

数据更多更好还是质量更高更好?这项研究能帮你做出选择

对基础模型进行 scaling 是指使用更多数据、计算和参数进行预训练,简单来说就是「规模扩展」。虽然直接扩展模型规模看起来简单粗暴,但也确实为机器学习社区带来了不少表现卓越的模型。之前不少研究都认可扩大神经模型规模的做法,所谓量变引起质变,这种观点也被称为神经扩展律(neural scaling laws)。近段时间,又有不少人认为「数据」才是那些当前最佳的闭源模型的关键,不管是 LLM、VLM 还是扩散模型。随着数据质量的重要性得到认可,已经涌现出了不少旨在提升数据质量的研究:要么是从大型语料库中过滤出高质量数据,要么是生成高质量的新数据。但是,过去的扩展律一般是将「数据」视为一个同质实体,并未将近期人们关注的「数据质量」作为一个考量维度。尽管网络上的数据规模庞大,但高质量数据(基于多个评估指标)通常很有限。现在,开创性的研究来了 —— 数据过滤维度上的扩展律!它来自卡内基梅隆大学和 Bosch Center for AI,其中尤其关注了「大规模」与「高质量」之间的数量 – 质量权衡(QQT)。
大模型日报(5月20日 资讯篇)https://mp.weixin.qq.com/s/EvPCCw7OAB-1wdSTmykJLQ
04
4

消息称苹果首席运营官威廉姆斯访问台积电,探讨 AI 芯片开发

台媒《经济日报》消息,苹果公司首席运营官杰夫・威廉姆斯(Jeff Williams)低调拜访台积电,台积电总裁魏哲家亲自接待。双方主要讨论了苹果自研 AI 芯片的开发,以及台积电使用先进制程技术生产芯片等事宜。
大模型日报(5月20日 资讯篇)
https://www.ithome.com/0/769/190.htm
05

科学家提出新型智能体,距离实现全过程自主化更近一步

去年,以 ChatGPT 为代表的大语言模型,成为整个 AI 领域的“游戏规则改变者”。其中,尤其令人惊艳的是它们在文本场景理解、文本生成和代码生成等方面的通用能力。与此同时,该领域的科学家们发现能够利用这些基础模型与外部世界交互,让它们自主地完成一些与人类真实生活接近的特定任务。比如,帮助人们网购;在一个由文本描述的室内环境中找到并移动某些物品等。而这种能够自主完成任务的主体,就叫做智能体(Agent)。目前,为训练智能体以提高其性能,研究人员致力于将多步推理和动作轨迹作为训练数据。但是,无论是通过人工注释,还是实现不同的提示框架,收集上述轨迹都需要耗费大量人力。为此,近期,来自清华大学的研究团队,提出一种名为 ActRe 的智能体,来帮助智能体实现数据收集和自我进化的全过程自主。作为一种新型智能体,ActRe 与 ReAct 这种广为人知的智能体不同,后者遵循“推理后行动”(reason-then-act)的规则,前者则属于“行动后推理”(act-then-reason)的范畴。也就是说,ActRe 将 ReAct 里面文字推理和动作执行的因果性进行了反转,以实现对给定任意的动作进行文字原因的描述。
大模型日报(5月20日 资讯篇)https://mp.weixin.qq.com/s/MqoHxFPsT_cVDB7go7CODg
06

让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机

移动应用已经成为我们日常生活的一大重要组成部分。使用移动应用时,我们通常是用眼睛看,用手执行对应操作。如果能将这个感知和交互过程自动化,用户也许能获得更加轻松的使用体验。此外,这还能助益手机辅助功能、多步 UI 导航、应用测试、可用性研究等。为了在用户界面内实现感知和交互的无缝自动化,就需要一个复杂的系统,其需要具备一系列关键能力。这样一个系统不仅要能完全理解屏幕内容,还要能关注屏幕内的特定 UI 元素。以视觉理解为基础,它应当有能力进一步将自然语言指令映射到给定 UI 内对应的动作、执行高级推理并提供其交互的屏幕的详细信息。为了满足这些要求,必须开发出能在 UI 屏幕中确定相关元素位置并加以引述的视觉 – 语言模型。其中,确定相关元素位置这一任务通常被称为 grounding,这里我们将其译为「定基」,取确定参考基准之意;而引述(referring)是指有能力利用屏幕中特定区域的图像信息。多模态大型语言模型(MLLM)为这一方向的发展带来了新的可能性。近日,苹果公司一个团队提出了 Ferret-UI。
大模型日报(5月20日 资讯篇)https://mp.weixin.qq.com/s/GPsnp51OaCO0MCRlXTDObQ

推特

01

从零实现llama3的代码库:所有层次的仔细解析

今天,我很高兴发布一个从零实现llama3的代码库——从多头注意力的每一次矩阵乘法、位置编码到每一层之间的所有层次都进行了仔细的解析和解释。祝你玩得开心 :)
https://github.com/naklecha/llama3-from-scratch
从零实现llama3
在这个文件中,我从头开始实现了llama3,一次一个张量和矩阵乘法。
大模型日报(5月20日 资讯篇)https://x.com/naklecha/status/1792244347225641338
02

Ethan Mollick:为了在工作中有效地使用人工智能,领导者和员工需要反思他们的工作对他人和对自己的意义

“为了在工作中有效地使用人工智能,领导者和员工需要反思他们的工作对他人和对自己的意义。”
我在《金融时报》上发表的关于管理者和领导者在决定人工智能对公司意义方面的文章。无须付费:
大多数公司没有人工智能战略,但它们已经充斥着这项技术。LinkedIn本月发布的一项调查显示,四分之三的白领工人已经使用了人工智能进行工作,其中四分之五的人是通过自己的账户和设备进行的。他们没有寻求雇主的许可;事实上,他们在隐藏这一事实,因为他们害怕后果。
这意味着管理者需要停止询问人工智能是否会对他们的组织产生影响,而是要开始塑造它将如何产生影响。这将带来一系列新的挑战,改变管理的意义。我们的组织结构是围绕人类工人是唯一在工作中的智能形式这一理念建立的。这已不再是事实。
对于许多组织中的许多人来说,他们可衡量的输出是文字——在电子邮件、报告和演示文稿中。我们用文字作为努力、智慧和关怀的代理。当一名中层经理撰写每周状态报告时,报告本身可能不是重点。相反,它是一个信号,表明经理已经完成了监控项目和进行必要调整的工作。
历史上,这种做法效果尚可。一名高级经理可以一眼看出报告是否有实质内容(表明努力)和写得是否好(表明质量)。但是,现在每个拥有人工智能工具的员工都可以生成符合所有形式要求的工作,而不一定代表背后的努力或思考。

大模型日报(5月20日 资讯篇)https://x.com/emollick/status/1792302281737596930

03

Json Wei谈Scaling Laws论文:在单一模型家族中,通常模型的大小不多,这会影响预测能力

很喜欢这项关于预测语言模型性能的极其全面的研究 Observational Scaling Laws and the Predictability of Language Model Performance。发现了许多有见地的要点:
  • 在单一模型家族中,通常模型的大小不多,这会影响预测能力。然而,有许多模型家族。如果你能以某种方式标准化模型家族之间的差异,所有数据都可以在同一个图上,从而得到更好的分辨率。
  • 不同基准测试的性能高度相关,也许某些关键能力(自然语言理解、推理、编码)可以预测许多下游任务的表现。
  • 将横轴从计算量改为“f等效FLOPs”,即参考模型家族匹配某个模型能力所需的计算量。
  • 事实证明,这比单纯使用计算量具有更好的预测能力。这个截图中的图表令人印象深刻;你可以用蓝点来预测红点。
  • 很酷的是,他们正在预注册他们的预测,并将在几个月内更新草稿。很有趣,看看他们是否能预测最大的Llama 3的性能。
  • 我非常好奇:我们能把蓝点推到多远的左边,还能预测红点?蓝点经常逐渐靠近拐点。如果你能用小一个数量级的模型预测拐点,那将是非常酷的。
  • 有一点我没有完全理解,那就是观察缩放律的x轴点的计算是否需要“大模型”在“核心能力”上的表现。从图3来看,他们似乎确实使用了大模型的评估性能?

大模型日报(5月20日 资讯篇)https://x.com/_jasonwei/status/1792401639552565496

04
4

Mervin Praison根据Karpathy分享完成视频:GPT-4o从零开始构建LLM操作系统

GPT-4o:从零开始构建LLM操作系统  Karpathy
使用 –  phidata
🔧 创建AI操作系统
🚀 操作系统的未来
👥 多智能体创建
📚 知识库  pgvector
🌐 网页浏览  ExaAILabs, DuckDuckGo
🛠️ 工具
订阅:https://youtube.com/@MervinPraison
YouTube: https://youtube.com/watch?v=GEQTooW02-E
大模型日报(5月20日 资讯篇)https://x.com/MervinPraison/status/1792258982645563874
05

Devon:GPT-4o和Claude的配对编程,在本周完全本地化

新版本的Devon已上线!
这是GPT-4o和Claude的配对编程。
GPT-4o正在创建一个新工具,Claude正在编写测试。
本周完全本地化。
告诉我你的感受!

大模型日报(5月20日 资讯篇)https://x.com/akiradev0x/status/1792246200172953701

06

Rowan Cheung分享ChatGPT Mac应用使用视频:终极截图转代码工具

ChatGPT Mac应用是终极截图转代码工具。
截图任何内容,粘贴到ChatGPT快捷方式中,然后告诉GPT-4o为你编写代码。
这是我拍摄贪吃蛇游戏的截图,并在90秒内得到完全可运行的代码。视频速度是3倍。

大模型日报(5月20日 资讯篇)https://x.com/rowancheung/status/1792234214890336581

产品

01

ChatPlayground AI

ChatPlayground AI 是一个综合了 10 个大型 AI 聊天机器人的平台,让用户可以与这些聊天机器人互动并选择最佳的输出。创始人通过在 UC Berkeley 进行的研究发现,每个聊天机器人都有自己的优势,同时使用多个聊天机器人可以提高 73% 获得更好结果的可能性。ChatPlayground AI 将这些聊天机器人整合到一个平台上,并提供了 6 个额外的功能,价格与使用单一高级版大语言模型的费用相当。
大模型日报(5月20日 资讯篇)https://www.chatplayground.ai/
02

User Evaluation AI—— 用户访谈 Agent

User Evaluation 的 AI Sidekick 是一款突破性的 AI 代理,可以代替人工进行深入的用户访谈,并自动生成访谈音频、文字记录和详细摘要,从而帮助创业公司、产品经理和 UX 设计师等人快速获得可靠的用户体验反馈。该平台还能整合分析多个访谈记录,提供新鲜有价值的研究见解,大幅提高定性研究的效率和洞察力,为客户的决策提供更好的支撑。
大模型日报(5月20日 资讯篇)https://www.userevaluation.com/ai-curated-interviews

推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/05/15263.html

Like (0)
Previous 2024-05-20 07:04
Next 2024-05-21 01:15

相关推荐

  • 大模型日报(6月17日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 资讯 0…

    2024-06-17
    212
  • 大模型日报(3月14日)

    特别活动! 欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 资讯 01 智能体的ChatGPT时刻! D…

    2024-03-14
    109
  • 构建高质量数据集与智能数据工程平台 | 播客AI Odyssey深度对话实录

                   人工智能技术的日益深远发展,对人工智能的性能提升与技术迭代提出了新的要求。在大模型训练中,已有的研究和实践表明,增大数据量或者增大模型都能带来性能上的…

    2024-08-01
    393
  • 大模型日报(7月6~7日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-07
    230
  • 大模型日报(4月3日)

    欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 推特 01 HuggingFace发布两个用于OCR(从…

    2024-04-03
    99
  • 大模型日报(7月13~14日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-14
    208
  • 大模型日报(8月13日 资讯篇)

    特别活动! 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.f…

    2024-08-13
    265
  • 大模型日报(4月24日 资讯篇)

    欢迎观看大模型日报,进入大模型日报群和空间站(活动录屏复盘聚集地)请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 推特 01 Chip Huyen新书A…

    2024-04-24
    123
  • 大模型日报(4月29日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 资讯 0…

    2024-04-29
    168
  • 大模型日报(6月19日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 资讯 0…

    2024-06-19
    211