大模型日报(10月24日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(10月24日 学术篇)

信号

01

Beyond Browsing: API-Based Web Agents

提出了两种代理:(1) API 调用代理,它尝试仅通过 API 执行在线任务,类似于传统的编码代理;(2) 混合代理,它可以通过 Web 浏览和 API 与在线数据交互。在 WebArena(一种广泛使用且现实的 Web 导航任务基准)上的实验中,我们发现基于 API 的代理优于 Web 浏览代理。混合代理在各个任务上的表现几乎一致地优于其他两种代理,与单独的 Web 浏览相比,其绝对性能提高了 20.0% 以上,成功率达到 35.8%,在与任务无关的代理中实现了 SOTA 性能。这些结果强烈表明,当 API 可用时,它们提供了一种比单纯依赖网页浏览更有吸引力的替代方案。

大模型日报(10月24日 学术篇)
https://x.com/yueqi_song/status/1849140469621747967
02

The Llama 3 Herd of Models

本文介绍了一组新的基础模型,称为 Llama 3。它是一组语言模型,原生支持多语言、编码、推理和工具使用。我们最大的模型是一个密集的 Transformer,具有 405B 参数和最多 128K 个标记的上下文窗口。本文对 Llama 3 进行了广泛的实证评估。我们发现 Llama 3 在大量任务上提供与 GPT-4 等领先语言模型相当的质量。我们公开发布了 Llama 3,包括 405B 参数语言模型的预训练和后训练版本以及我们的 Llama Guard 3 模型,以确保输入和输出安全。本文还介绍了我们通过组合方法将图像、视频和语音功能集成到 Llama 3 中的实验结果。我们观察到这种方法在图像、视频和语音识别任务上的表现与最先进的方法不相上下。由于仍在开发中,因此最终模型尚未广泛发布。
大模型日报(10月24日 学术篇)
https://x.com/_akhaliq/status/1849118894704800199
03

Eliciting Language Model Behaviors with Investigator Agents

大型语言模型 (LM) 具有开放性,因此表现出各种各样的行为。因此,很难提前确定特定模型可以表现出哪些类型的行为。例如,即使模型在一系列测试提示中未能表现出某种有害行为,新的越狱仍有可能引发该行为。相反,即使模型在提示时未能表现出某种能力,更好的提示(例如“深呼吸”)也可能会成功。
为了解决语言模型的开放式输入空间问题,我们希望有工具能够搜索这个空间,自动显示感兴趣的特定行为(例如,指定故障模式的实例)。我们将此任务称为行为引出。例如,引出“有害反应”(通常称为越狱)使我们能够识别安全漏洞,而引出“幻觉”则有助于我们确定语言模型的知识差距 。
大模型日报(10月24日 学术篇)
https://x.com/_akhaliq/status/1849118894704800199
HuggingFace&Github
012

Aimgen.ai-AI-Image-Generator-Website

Aimgen.ai 是一个基于 AI 的图像生成网站模板,希望可以吸引并与观众产生共鸣。它拥有简洁的用户界面和引人入胜的品牌设计,将愿景转化为视觉效果。主要功能包括支持 Figma、Sketch、Adobe XD 和 Adobe Photoshop 四种文件格式的登录页面设计,易于自定义,按名称分层。
大模型日报(10月24日 学术篇)
https://github.com/nnaemek2/Aimgen.ai-AI-Image-Generator-Website

推荐阅读
  — END —
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/10/21638.html

Like (0)
Previous 2024-10-24 11:48
Next 2024-10-25 14:17

相关推荐