我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢 迎 大 家 一 起 交 流 !
潜空间活动报名
本期活动将在11月9日 10:00开始,我们邀请到的嘉宾是鱼哲,Lepton AI 创始成员,曾在阿里云担任高性能 AI 平台产品负责人,专注于 AI 在多个行业的落地及应用。Lepton AI 致力于建立高效可用的AI 基础设施,让团队更关注于应用构建及落地。在本次分享中鱼哲将带来关于不同AI产品形态对团队的挑战相关的思考,分享主题《Beyond Infra,What matters?—— 不同AI产品形态对团队的挑战》。除嘉宾分享外,每期设置了【匹配合伙人 Cofounder Matching】环节。你可以和 GenAI 时代最有活力的创业者和研究者线下面对面交流,将有机会找到志同道合、有共同创业梦想的小伙伴。报名通道已开启,欢迎扫描下方二维码报名。
信号
AAAR-1.0: ASSESSING AI’S POTENTIAL TO ASSIST RESEARCH
这篇论文研究了如何评估大型语言模型(LLMs)在支持科研任务中的表现,尤其是在具备专业知识需求的研究任务中。具体而言,作者们开发了一个名为 AAAR-1.0 的基准数据集,用来测试 LLMs 在四种科研核心任务中的表现:
equation inference:评估 LLMs 是否能够根据论文中的上下文信息判断方程的正确性;
experiment design:设计验证研究思路和解决方案的实验;
paper weakness:识别论文中的薄弱之处;
review critique:判断人类评审意见的各个部分是否存在不足之处。
AAAR-1.0 数据集与之前的基准不同,特别之处在于它是专门面向科研领域设计的,任务需要深入的领域专业知识。此外,该数据集模拟了研究人员日常参与的主要活动。因此,该基准不仅对模型提出了更高的专业要求,也贴近科研人员的实际需求。论文还评估了不同开源和闭源 LLMs 在这些任务中的表现,指出了其在复杂科研任务中的潜力与局限性。
https://x.com/Reza0843/status/1852012322211959173
π0: A Vision-Language-Action Flow Model for General Robot Control
这篇论文探讨了机器人学习如何应对现实世界应用中的数据需求、泛化能力和鲁棒性等关键挑战。作者提出了开发通用机器人策略(即机器人基础模型)作为应对这些挑战的有效方法。
论文提出了一种新的流匹配架构,称为Physical Intelligence,该架构基于预训练的视觉-语言模型(VLM),利用大规模互联网语义知识来增强机器人的理解力和任务适应性。研究中展示了如何使用来自多个灵巧机器人平台的多样化数据集来训练这一模型,包括单臂机器人、双臂机器人和移动操控机器人。
最后,作者通过多项任务评估了该模型的表现,包括其预训练后的零样本任务完成能力、在不同指令来源下的任务执行能力(如人类语言指令和高级 VLM 策略),以及通过微调获得新技能的能力。测试任务涉及洗衣折叠、桌面清洁和盒子组装等。
https://x.com/Reza0843/status/1852012322211959173
AUTOKAGGLE: A MULTI-AGENT FRAMEWORK FOR AUTONOMOUS DATA SCIENCE COMPETITIONS
这篇论文介绍了 **AutoKaggle**,一个为数据科学家设计的自动化框架,用于帮助完成复杂的表格数据处理任务。AutoKaggle 通过一个多智能体系统协作来完成数据管道工作,帮助用户更高效地解决日常数据科学问题。该框架采用了迭代式开发流程,包括代码执行、调试以及全面的单元测试,以确保代码的正确性和逻辑一致性。此外,AutoKaggle 支持高度可定制的工作流程,允许用户在各个阶段进行干预,从而将自动化智能和人类专业知识相结合。
AutoKaggle 的核心工具包包含经过验证的函数库,涵盖数据清洗、特征工程和建模等常见任务,极大地提高了工作效率。研究中使用了 8 个 Kaggle 竞赛的数据来模拟真实场景中的数据处理流程。评估结果表明,AutoKaggle 在典型的数据科学管道中实现了 0.85 的验证提交率和 0.82 的综合评分,验证了该框架在应对复杂数据科学任务方面的有效性和实用性。
https://x.com/GeZhang86038849/status/1851472327860687300
Jarvis
Jarvis 是一个基于命令行的个人助理,能够与 Gmail、Google 日历和 Google 任务集成,帮助用户管理数字生活。主要功能包括查看未读邮件、即将到来的事件和任务,同时支持 OpenRouter 或本地 LLM API。它基于 Python 3.12+ 开发,利用 Google API 实现集成。
https://github.com/synth-mania/jarvis
Aquila-VL-2B-llava-qwen
Aquila-VL-2B-llava-qwen 是一种多模态人工智能模型,主要用于处理视觉和语言任务。它结合了视觉理解和自然语言处理能力,可以用于图像描述、视觉问答等应用。该模型通常基于先进的深度学习架构,能够在多 个领域提供高效的性能,适用于需要同时理解图像和文本的场景。
https://huggingface.co/BAAI/Aquila-VL-2B-llava-qwen
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/11/21659.html