大模型日报(12月19日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(12月19日 学术篇)

行云季宇:谁困住了 AI 产业——大型机化的计算机形态与变革的可能性 | 奇绩潜空间活动报名

【奇绩潜空间】是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区,潜空间定期邀请大模型前沿创业者分享产品实践探索,邀请前沿科研学者分享最新技术进展。

第五季第二期潜空间邀请到的嘉宾是行云创始人兼 CEO ——季宇,在本次活动中季宇将在北京现场与大家面对面交流,他分享的主题是《谁困住了 AI 产业——大型机化的计算机形态与变革的可能性。

大模型日报(12月19日 学术篇)

信号

01

Alignment faking in large language models

Anthropic在与Redwood Research进行的一系列实验中发现,Claude在训练过程中经常假装有不同的观点,而实际上却保持着其原来的偏好。当使用强化学习训练模型时,模型会因符合某些预定原则的输出而获得奖励。但是,如果模型在之前的训练中,其原则或偏好与后来在强化学习中获得的奖励相冲突,该怎么办?例如,想象一下,一个模型在训练初期学会了采取党派倾向,但后来被训练成政治中立。在这种情况下,一个足够复杂的模型可能会“配合”,假装与新原则保持一致——后来才透露出它原来的偏好仍然存在。
大模型日报(12月19日 学术篇)
https://assets.anthropic.com/m/983c85a201a962f/original/Alignment-Faking-in-Large-Language-Models-full-paper.pdf
ResearchFlow链接:https://rflow.ai/flow/4a4f27e4-a4c7-4a08-a2c1-aeb80bd9e4e3
02

Emergence of Abstractions: Concept Encoding and Decoding Mechanism for In-Context Learning in Transformers

论文揭示了 Transformer 如何形成内部抽象以及情境学习背后的机制。研究引入概念编码-解码机制,该理论描述了 Transformer 如何学习将潜在概念映射到不同的表示空间并开发特定于概念的解码算法。这种概念编码和解码的出现是耦合的。总的来说,研究提供了一个统一的视角,即如何在 LLM 中实现来自更多上下文示例、微调和提示的学习信号。论文认为,通过表示分离和随之而来的推断正确潜在概念的能力,Transformer 可以内化学习信号并提高其 ICL 能力。
大模型日报(12月19日 学术篇)
https://arxiv.org/abs/2412.12276
ResearchFlow链接:https://rflow.ai/flow/3eefac66-cbb9-41d7-b6b9-84a183e99e5c
03

TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

AI 代理在帮助加速甚至自主执行与工作相关的任务方面表现如何?为了衡量 LLM 代理在执行现实世界专业任务方面的表现进展,本文中引入 TheAgentCompany——一个可扩展的基准,用于评估以与数字工作者类似的方式与世界互动的 AI 代理:通过浏览网页、编写代码、运行程序和与其他同事交流。本文构建一个自给自足的环境,其中包含内部网站和数据,以模拟小型软件公司环境,并创建了此类公司员工可能执行的各种任务。通过测试由封闭式 API 和开放权重语言模型提供支持的基线代理,发现使用最具竞争力的代理,24% 的任务可以自主完成。这为使用 LM 代理进行任务自动化描绘了一幅细致入微的图景——在模拟真实工作场所的环境中,很大一部分较简单的任务可以自主解决,但更困难的长期任务仍然超出了当前系统的能力范围。
大模型日报(12月19日 学术篇)
https://arxiv.org/abs/2412.14161
ResearchFlow链接:https://rflow.ai/flow/5577b9e8-a35a-48fa-a584-814fa1d17c17

HuggingFace&Github

01
 

Midscene.js

Midscene.js 是一个人工智能自动化 SDK,可以使用自然语言控制页面、执行断言并以 JSON 格式提取数据。
  • 自然语言交互👆:描述步骤,让 Midscene 为您规划和控制用户界面
  • 了解 UI,以 JSON 形式回答 🔍:提供有关所需数据格式的提示,然后以 JSON 格式接收预期响应。
  • 直观断言🤔:用自然语言做出断言;这一切都基于人工智能理解。
  • 开箱即用的 LLM 🪓:使用 GPT-4o 等公共多模态 LLM 是可以的。无需任何定制训练。
  • 可视化报告🎞️:通过我们的可视化报告文件,您可以轻松了解和调试整个过程。
  • 全新体验!🔥:体验自动化开发的全新世界。尽情享受吧!



推荐阅读
  — END —
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/12/29005.html

Like (0)
Previous 2024-12-18 21:56
Next 2024-12-20 21:19

相关推荐