大模型日报(10月29日 学术篇)

潜空间活动报名

本期活动将在11月9日 10:00开始,我们邀请到的嘉宾是鱼哲,Lepton AI 创始成员,曾在阿里云担任高性能 AI 平台产品负责人,专注于 AI 在多个行业的落地及应用。Lepton AI 致力于建立高效可用的AI 基础设施,让团队更关注于应用构建及落地。在本次分享中鱼哲将带来关于不同AI产品形态对团队的挑战相关的思考,分享主题《Beyond Infra, what matters?》。
除嘉宾分享外,每期设置了【匹配合伙人 Cofounder Matching】环节。你可以和 GenAI 时代最有活力的创业者和研究者线下面对面交流,将有机会找到志同道合、有共同创业梦想的小伙伴。
报名通道已开启,欢迎扫描下方二维码报名。

大模型日报(10月29日 学术篇)

信号

01

Tutor CoPilot: A Human-AI Approach for Scaling Real-Time Expertise

本篇论文主要研究了 Tutor CoPilot,一种基于生成式人工智能的工具,旨在为辅导老师提供专家级的指导,从而提升教育质量。特别是,该工具可以帮助来自资源不足社区的学生,减少他们因缺乏高质量教学资源而受到的负面影响。研究进行了随机对照试验,涉及900名辅导老师和1,800名K-12学生。结果表明,使用Tutor CoPilot的学生在掌握学习主题方面的概率高出4个百分点,尤其是低评分导师的学生表现提升更为显著。Tutor CoPilot费用低廉,每位导师年均成本仅20美元。此外,分析发现使用该工具的导师更倾向于采用高质量的教学策略,增加了对学生理解的引导效果。导师反馈也显示Tutor CoPilot帮助他们更好地满足学生需求,但也指出其在生成内容时存在少数问题。
大模型日报(10月29日 学术篇)
https://x.com/rose_e_wang/status/1850957996622561787
02

DynamicCity: Large-Scale LiDAR Generation from Dynamic Scenes

这篇论文介绍了 DynamicCity,一个新颖的4D LiDAR生成框架,旨在捕捉动态环境的时间演变,克服现有方法对静态和单帧场景的偏重。DynamicCity包含两个关键模型:
  1. HexPlane学习模型:利用变分自编码器(VAE)进行4D表示的压缩,采用新颖的投影模块,将4D LiDAR特征有效地压缩为六个2D特征图,从而显著提高拟合质量(增益高达12.56 mIoU)。同时,采用扩展和压缩策略并行重建3D特征体,提高了网络训练效率和重建精度(分别增益7.05 mIoU、2.06倍训练加速、70.84%内存减少)。
  2. 基于DiT的HexPlane生成扩散模型:提出Padded Rollout操作,将HexPlane特征重新组织为平方2D特征图,支持多种4D生成应用,如轨迹和命令驱动的生成、修复和布局条件生成。
在CarlaSC和Waymo数据集上的实验表明,DynamicCity在多个指标上明显优于现有的4D LiDAR生成方法。研究还计划发布相关代码以促进未来研究。
大模型日报(10月29日 学术篇)
https://x.com/WilliamLamkin/status/1850176812749365757
03

Bio2Token: All-atom tokenization of any biomolecular structure with Mamba

这篇论文提出了一种高效编码和表示大型三维分子结构的方法,旨在为生物分子设计提供高保真度支持。传统的表示学习方法通常限于小规模系统,或使用粗略的近似方法(例如将蛋白质简化到氨基酸分辨率),而非精确到原子级别。为解决这一问题,作者开发了量化自编码器,通过学习原子级的分子结构分块表示,实现了对完整蛋白质、RNA及小分子结构的高精度重建,误差约在1埃以内。所用的Mamba状态空间模型架构表现出高效性,仅需少量训练数据、参数和计算量即可达到较高的精度,并能扩展至近10万个原子的系统。这种方法生成的结构分块(bio2token)未来或可用于全原子语言模型的输入。
大模型日报(10月29日 学术篇)
https://x.com/_albertgu/status/1851006112356880856
04

VibeCheck: Discover and Quantify Qualitative Differences in Large Language Models

这篇论文提出了一种名为隐私意识委托的新任务,以在确保用户隐私的前提下实现高质量的大语言模型(LLM)交互。该方法结合了基于API的专有模型和本地托管的开源模型的优势,以减少敏感信息泄露的风险。为此,研究者构建了一个包含个人身份信息(PII)的自然基准数据集PUPA,用于测试模型在隐私保护方面的表现。研究还提出了PAPILLON,一个多阶段的LLM管道,通过提示优化来处理较简单的用户查询版本。实验显示,PAPILLON在85.5%的用户查询中保持高响应质量,同时将隐私泄露率控制在7.5%。此方法为将来进一步提升专有模型的生成质量提供了改进空间。
大模型日报(10月29日 学术篇)
https://x.com/Sylvia_Sparkle/status/1850918427210232038

HuggingFace&Github
01

Amphion

Amphion是一个开源工具包,专注于音频、音乐和语音生成,支持可重复的研究,帮助初学者进入该领域。其独特之处在于提供经典模型或架构的可视化,便于用户理解。主要功能包括支持多种音频生成任务(如文本转语音、歌声合成等),包含多个声码器和评估指标,以确保生成任务的一致性。此外,Amphion致力于推进音频生成在实际应用中的发展,如构建大规模语音合成数据集。该工具包使用Python开发,依赖于多个开源库和框架,支持研究和商业使用。
https://github.com/open-mmlab/Amphion

推荐阅读
  — END —
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/10/21646.html

Like (0)
Previous 2024-10-29 19:53
Next 2024-10-30 09:49

相关推荐