我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢 迎 大 家 一 起 交 流 !
资讯
微软开源OmniParser
近期,AI 操控计算机领域迎来一波热潮。微软推出的 OmniParser,展示了其卓越的屏幕解析能力,结合视觉和语言模型(VLM),可以将UI截图解析为结构化信息,识别交互元素,并生成精准操作。OmniParser的创新之处在于其无需依赖 HTML 结构或 Android 视图图层,便可在PC和移动平台上完成多样化的界面解析任务。
交互区域检测:利用数据集标注点击区域和可操作元素,OmniParser准确识别屏幕上可交互的按钮和图标。
功能语义描述:微调的描述模型能够为检测到的 UI 元素生成上下文相关的功能描述,使模型理解界面含义。
OmniParser还可以作为 VLM 的插件,显著增强模型的任务完成能力。在 GPT-4V 和 OmniParser结合的实验中,模型在 WindowsAgentArena 基准上达到最佳水平。此外,OmniParser还提升了在 ScreenSpot 和 Mind2Web 基准上的解析和操作表现。
在操作示例中,OmniParser帮助用户在旅游网站上筛选素食餐厅,并自动添加至行程,这种模拟任务展示了该工具从解析到操作的完整能力流程。当前,OmniParser已经支持与其他 VLM 模型(如 Phi-3.5 和 Llama-3.2)的结合,有望进一步推动AI操控界面的普及应用。
OmniParser的发布标志着屏幕解析与 AI 操作的新发展,为创建多平台、多任务的计算机控制智能体奠定了基础。
斯坦福开源学术研究神器STORM新功能
斯坦福大学今年推出的开源工具 STORM 利用大语言模型(LLM)自动生成类维基百科的文章,支持长篇内容创作。用户仅需输入主题,STORM 即可在三分钟内生成长篇文章或研究报告并支持 PDF 下载。STORM 借助 LLM 进行信息检索、构建大纲,并通过专家模拟对话生成深入、准确的内容,尤其适合需要广泛引用的内容创作。其代码开源后,GitHub Star 已超12k。
近期,团队推出了升级版 Co-STORM,引入协作对话机制,实现更高效的学术研究支持。Co-STORM 包含以下角色:
LLM专家:基于外部知识来源生成答案,并提出后续问题。
主持人:生成引导性问题,利用未使用的信息引导深层对话。
Co-STORM 在生成过程中通过动态思维导图(3.2)跟踪和参与讨论(3.3),提示专家基于对话历史生成上下文响应(3.4),主持人则提出新问题以引导对话(3.5)。最终,思维导图支持生成完整引用报告。
评估显示,Co-STORM 优于传统 RAG Chatbot 和 STORM + QA 基线,在深度和新颖性上尤其出色。多智能体角色设计有效提升了对话一致性和参与度。主持人通过引入“已知未知”信息引导用户探索“未知未知”领域,使其获取更广泛、更深入的信息,提升了报告质量和问答轮次质量
AIDE:递归自我改进的机器学习代码生成 Agent
OpenAI 近期发布了新的基准测试 MLE-bench,专注于机器学习自动化(MLE)中的自主执行任务。测试集涵盖 75 个 Kaggle 问题,提供一个平台来评估 LLM 在端到端机器学习中的表现。基准测试显示,GPT-4o 和 AIDE 框架的结合在奖牌数量上超越了其他开源框架。而在引入 o1-preview 模型后,性能提升翻倍,使其在 16.9% 的任务中达到 Kaggle 铜牌水平,多轮尝试后这一比例提升至 34.1%。
AIDE 是一种专注于代码优化的机器学习代码生成 Agent,使用递归自我改进(recursive self-improvement)策略,通过「解空间树搜索」进行优化,包括解决方案生成、评估与筛选三个关键组件。其 AI Function 范式将任务分解为具体指令,逐步优化,使得大模型在受限问题中表现出色。此外,AIDE 在 MLE-bench 中 16.9% 的任务上获得奖牌,甚至在 Kaggle 数据科学比赛中击败了 50% 的人类参赛者。
在 MLE-bench 中,AIDE 展现了出色的适配能力。UCL 名誉教授 Edward Grefenstette 和谷歌 DeepMind 团队认为,AIDE 的框架对 OpenAI 的智能体开发产生了深远影响。AIDE 的设计理念是构建更具自我改进潜力的 AI 工具,以递归优化方法解决复杂问题。然而,当前的技术仍然面临多步任务的局限性。为进一步推动 AIDE 的发展,团队计划发布新的产品 AI Function Builder,使得用户通过 API 接口即可使用 AI 功能,大幅简化应用流程。
WecoAI 团队由伦敦大学学院(UCL)成员组成,正通过 AIDE 推进递归自我改进的 AI 工程,致力于在科学研究领域实现更具自我学习能力的 AI 科学家。这一方向标志着 AI 正逐步向更复杂的科研协作迈进,未来在 AI 驱动科学发现方面的潜力无疑值得期待。
大模型生成RPG游戏,情节角色全自定义
谷歌与北卡罗来纳大学教堂山分校的研究团队开发了一款生成角色扮演游戏“Unbounded”,灵感来源于《模拟人生》。用户通过自定义角色人生,操控角色的行动、互动、状态更新(如饥饿度和能量)。角色可以实时自由探索环境,每秒更新一次,呈现高度互动性。这项研究引入了“生成无限游戏”概念,即通过生成式模型实现游戏的无限扩展,而非传统有限情境。Unbounded具备角色个性化、环境生成、开放式互动和实时更新等关键属性。
他们开发了基于大型语言模型(LLM)的游戏引擎,保障游戏机制一致性、叙事连贯性,并能根据角色上下文实时生成响应。核心技术包括使用协作性强的LLM自动生成数据,并基于Gemma-2B模型微调,强化状态更新、环境一致性、故事连贯性和指令遵循。
在视觉生成上,研究团队引入了动态区域图像提示适配器(Regional IP-Adapter),通过动态掩码调制生成一致的角色和环境图像,采用区块丢弃技术减少角色和环境间干扰,提升图像的角色一致性和环境连贯性。主要研究成员包括北卡罗来纳大学教堂山分校的Jialu Li(本科毕业于上海交大)。团队导师Nataniel Ruiz对生成游戏的未来充满期待,认为生成游戏技术可能会完全革新角色扮演类游戏。
OpenAI今年不计划发布名为“Orion”的AI模型
OpenAI 近日声明,今年不会发布代号为“Orion”的AI模型,以澄清近期关于其产品路线图的报道。此前,《The Verge》曾报道称,Orion将于12月推出,微软等合作伙伴将率先获得该模型的预览权限,甚至可能于11月进行测试。然而,OpenAI 表示该报道并不准确,但并未提供进一步细节。
Orion据称是OpenAI现有旗舰模型GPT-4o的升级版本,部分训练数据来源于OpenAI的“推理”模型o1。该公司计划继续开发新GPT模型,同时拓展类似o1的推理模型,以满足不同的应用场景。不过,OpenAI的声明也留有一定的灵活空间,暗示可能会在年内推出其他新技术,但未必是Orion。
https://techcrunch.com/2024/10/25/openai-says-it-wont-release-a-model-called-orion-this-year/
推特
00 Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式
大语言模型玩你画我猜
https://x.com/paul_cal/status/1850262678712856764
Anthropic AI分享研究更新合集:Crosscoders、字典学习特征等
过去几个月,我们的可解释性团队发布了一些研究更新:
Crosscoders(发布链接:https://transformer-circuits.pub/2024/crosscoders/index.html)是一种新方法,可在模型的不同层或不同模型之间找到共享特征。识别跨层持久的特征有助于简化我们对模型的理解。
此外,Crosscoders 还可以用于“差异化”模型:对比预训练模型和微调模型,观察它们的基本差异。
字典学习特征可以用于检测危险行为,并在某些情况下优于线性探测器,但可能会发现虚假关联,使分类器在对抗性攻击下更脆弱。
https://transformer-circuits.pub/2024/features-as-classifiers/index.html
增加与特定主题相关的稀疏自编码器数据量,也能提高该主题特征的分辨率。
https://transformer-circuits.pub/2024/september-update/index.html#oversampling
我们复现了 Gould 等人的“继任头”研究,发现独立成分分析可以将这些头分解为继任、归纳和类别成分。
https://x.com/AnthropicAI/status/1849906129637085582
开源版Notebook LM?Bhutani分享NotebookLlama
NotebookLlama 是一个开源的 NotebookLM 版本 🙏
以下是使用 Llama 构建“PDF 到播客”流程的完整教程:
• 使用 Parler 和 Suno 模型进行语音合成
项目链接: https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama
https://x.com/bhutanisanyam1/status/1850178626291122503
Based Agent:在 Base 上创建具有完整链上功能的 AI 代理,耗时不到 3 分钟
Introducing Based Agent:在 Base 上创建具有完整链上功能的 AI 代理,耗时不到 3 分钟。
基于 Coinbase 开发者 SDK、OpenAI 和 Replit 构建。
https://x.com/MurrLincoln/status/1850226148594082120
谷歌正在准备“Project Jarvis”——一款可以接管电脑、帮助完成日常网络任务的 AI 程序
独家消息:谷歌正在准备“Project Jarvis”——一款可以接管电脑、帮助完成日常网络任务的 AI 程序。
Google 正在开发一种人工智能,可以接管用户的网页浏览器来完成任务,比如收集资料、购买商品或预订航班。 据三位直接了解该产品的消息人士透露,这款产品代号为 Project Jarvis,与 Anthropic 本周宣布的一款产品类似。
https://x.com/theinformation/status/1850254366239776980
产品
Retail Connect Pietra
Retail Connect 是一个由 Pietra 开发的平台,可以帮助品牌生成批发潜在客户并与全球零售商建立联系。它提供全球零售商的联系方式、个性化销售提案以及多渠道沟通方式,简化品牌与零售商之间的连接,推动销售增长。
https://www.pietrastudio.com/
TableSprint
TableSprint 是一个快速应用开发平台,利用表格数据提供多种功能,如强大的表单构建、应用发布、数据连接和权限控制等,可以简化 HR、销售和项目管理等领域的应用构建。它支持 Excel 导入、条形码扫描和多种集成,适合小型企业和制造商使用。
https://www.tablesprint.com/
投融资
Waymo获56亿美元C轮融资,加速无人驾驶出租车扩张
Alphabet旗下的自动驾驶子公司Waymo宣布完成56亿美元的C轮超额认购融资,这是其迄今为止规模最大的一轮融资。本轮融资由Alphabet领投,参与的投资机构包括Andreessen Horowitz、Fidelity、Perry Creek、Silver Lake、Tiger Global和T. Rowe Price,但具体出资比例未披露。这是Waymo自2020年完成22.5亿美元B轮融资(后增至32亿美元)以来的首次融资。
本轮融资旨在推动Waymo的无人驾驶出租车业务扩展至更多城市,并进一步提升其自动驾驶技术能力。目前,Waymo已经将主要业务聚焦于自动驾驶出租车服务Waymo One,正在旧金山、洛杉矶、菲尼克斯等城市提供服务,并计划扩展至奥斯汀和亚特兰大。此外,Waymo在菲尼克斯天港国际机场等区域提供接驳服务,逐步将Waymo Driver系统推向更复杂的道路环境,如布法罗和华盛顿特区等城市。
投资机构对Waymo的技术和市场潜力充满信心。Tiger Global创始人Chase Coleman指出,Waymo的产品被认为是自动驾驶领域最安全、最成熟的选择。Silver Lake联合首席执行官Egon Durban进一步表示,Waymo Driver通过尖端研究和大量实践验证了AI在交通领域的潜力,建立了广泛的市场信任。
伴随着融资的注入,Waymo发布了第六代Waymo Driver,以提升成本效率并优化功能。同时,Waymo与Uber合作,进一步巩固市场扩展战略,以提升其在城市交通中的影响力。本轮融资标志着Waymo迈向关键发展阶段,其目标不仅是扩大市场覆盖,更是利用无人驾驶技术重塑城市交通格局。
https://mp.weixin.qq.com/s/9kyXRMh5qLEvf6YxLBFRPw
YC 创业公司 Pharos 获得 Felicis 领投的 500 万美元种子轮融资
Pharos,这家参加了 2024 年 Y Combinator 夏季孵化器的创业公司,成功获得了由 Felicis 领投的 500 万美元种子轮融资,投资方还包括 General Catalyst、Moxxie(前期投资者)和 Y Combinator。Pharos 专注于利用 AI 来简化医院质量报告的过程,帮助医院高效地将患者的电子病历数据报告给临床注册表,如美国医疗保险与医疗补助服务中心(CMS)和美国外科学院等机构。虽然这种报告并非强制性,但有助于医院识别质量问题,改进患者护理。
Pharos 的创始团队,包括 Felix Brann、Matthew Jones 和医学博士 Alex Clarke,他们具有丰富的行业经验。Pharos 的 AI 技术能够自动从电子病历中提取非结构化数据,生成所需的报告,显著节省医院的时间和人力成本。
公司官网:https://pharos.health/
https://techcrunch.com/2024/10/25/yc-startup-pharos-lands-a-5m-seed-led-by-felicis-to-bring-ai-to-quality-reporting/
— END —
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/10/21641.html