信号

Beyond Browsing: API-Based Web Agents

提出了两种代理：(1) API 调用代理，它尝试仅通过 API 执行在线任务，类似于传统的编码代理；(2) 混合代理，它可以通过 Web 浏览和 API 与在线数据交互。在 WebArena（一种广泛使用且现实的 Web 导航任务基准）上的实验中，我们发现基于 API 的代理优于 Web 浏览代理。混合代理在各个任务上的表现几乎一致地优于其他两种代理，与单独的 Web 浏览相比，其绝对性能提高了 20.0% 以上，成功率达到 35.8%，在与任务无关的代理中实现了 SOTA 性能。这些结果强烈表明，当 API 可用时，它们提供了一种比单纯依赖网页浏览更有吸引力的替代方案。

https://x.com/yueqi_song/status/1849140469621747967

The Llama 3 Herd of Models

本文介绍了一组新的基础模型，称为 Llama 3。它是一组语言模型，原生支持多语言、编码、推理和工具使用。我们最大的模型是一个密集的 Transformer，具有 405B 参数和最多 128K 个标记的上下文窗口。本文对 Llama 3 进行了广泛的实证评估。我们发现 Llama 3 在大量任务上提供与 GPT-4 等领先语言模型相当的质量。我们公开发布了 Llama 3，包括 405B 参数语言模型的预训练和后训练版本以及我们的 Llama Guard 3 模型，以确保输入和输出安全。本文还介绍了我们通过组合方法将图像、视频和语音功能集成到 Llama 3 中的实验结果。我们观察到这种方法在图像、视频和语音识别任务上的表现与最先进的方法不相上下。由于仍在开发中，因此最终模型尚未广泛发布。

https://x.com/_akhaliq/status/1849118894704800199

Eliciting Language Model Behaviors with Investigator Agents

大型语言模型 (LM) 具有开放性，因此表现出各种各样的行为。因此，很难提前确定特定模型可以表现出哪些类型的行为。例如，即使模型在一系列测试提示中未能表现出某种有害行为，新的越狱仍有可能引发该行为。相反，即使模型在提示时未能表现出某种能力，更好的提示（例如“深呼吸”）也可能会成功。

为了解决语言模型的开放式输入空间问题，我们希望有工具能够搜索这个空间，自动显示感兴趣的特定行为（例如，指定故障模式的实例）。我们将此任务称为行为引出。例如，引出“有害反应”（通常称为越狱）使我们能够识别安全漏洞，而引出“幻觉”则有助于我们确定语言模型的知识差距。

https://x.com/_akhaliq/status/1849118894704800199

HuggingFace&Github

012

Aimgen.ai-AI-Image-Generator-Website

Aimgen.ai 是一个基于 AI 的图像生成网站模板，希望可以吸引并与观众产生共鸣。它拥有简洁的用户界面和引人入胜的品牌设计，将愿景转化为视觉效果。主要功能包括支持 Figma、Sketch、Adobe XD 和 Adobe Photoshop 四种文件格式的登录页面设计，易于自定义，按名称分层。