大模型日报(7月5日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(7月5日 学术篇)

学习

01

CleanDiffuser(二)一起来写一个Cross-solver的Diffusion Model!

文章详细介绍了如何构建一个 Cross-solver 的 Diffusion Model,即在一个统一的框架下,通过训练一个模型,可以在推理阶段灵活切换不同的 solver(求解器)。作者首先阐述了 Diffusion Model 的理论基础,包括如何利用 noise schedule 定义前向过程,并将其等价地表达为随机微分方程(SDE)。在逆向过程中,通过神经网络估计 score function,即负梯度字段,来生成目标分布的样本。文章强调,不同的 Solver,如 DDPM、DDIM 和 DPM-Solvers,都是为了估计逆向 SDE/ODE 中的未知项,并提供了不同 Solver 的一阶和高阶递推式。此外,文章还讨论了 DPM-Solver++,它通过预测干净数据而非单步添加的噪声,提高了模型在条件生成时的稳定性。最终,作者提供了 PyTorch 伪代码,展示了如何实现模型的训练和采样过程,以及如何在不同 Solver 间进行切换,实现了模型的高度灵活性和便捷性。这篇文章为研究人员和开发者提供了一个清晰的 Diffusion Model 实现指南,以及如何根据具体需求选择合适的 Solver。
大模型日报(7月5日 学术篇)https://zhuanlan.zhihu.com/p/704536437?utm_psn=1792255133201072128
02

Cosmopedia: 如何为预训练构建大规模合成数据集

文章探讨了构建大规模合成数据集的重要性和方法,强调其对预训练模型性能的提升作用。合成数据集能够补充实际数据的不足,提高模型的泛化能力。数据生成方法包括利用现有数据集、生成模型或规则系统。数据增强技术如变换和混合,以及数据标注的自动化与人工结合,提升了数据的多样性和准确性。数据质量评估确保了数据集的有效性。文章指出合成数据集面临的挑战,如数据偏差和多样性问题,并提出了未来发展的方向,如改进生成模型,以进一步提升数据集的质量和实用性。
大模型日报(7月5日 学术篇)https://zhuanlan.zhihu.com/p/706832032?utm_psn=1791943241463103488
03

AttentionStore

本文介绍了一种名为AttentionStore的新机制,旨在解决大型语言模型(LLMs)在多轮对话中的效率问题。通过重用历史标记的键-值(KV)缓存,显著降低了重复计算的开销。AttentionStore采用分层KV缓存系统,利用成本效益的内存/存储介质保存KV缓存,并采用分层预加载和异步保存方案减少访问开销。此外,调度器感知的KV缓存放置策略确保快速访问,而解耦的位置编码处理上下文窗口溢出问题。实验结果显示,AttentionStore大幅缩短了首个标记的时间(TTFT),提高了提示预填充吞吐量,并显著降低了端到端推理成本。对于长序列推理,AttentionStore进一步优化了性能,减少了TTFT并提升了吞吐量。
大模型日报(7月5日 学术篇)https://zhuanlan.zhihu.com/p/706249272?utm_psn=1791943950556332032
04

混合序列并行思考:有卧龙的地方必有凤雏

文章探讨了一种名为 “混合序列并行思考” 的创新性思维方法。这种思考模式结合了序列思考的逻辑性和并行思考的全面性,旨在提高解决复杂问题的能力。文章中通过 “有卧龙的地方必有凤雏” 的比喻,强调了在充分的条件孕育下,创新成果的产生是自然而然的。技术细节上,作者可能阐述了混合思考模式如何通过算法和数据结构的优化来实现高效的信息处理,以及如何在实际应用中平衡序列和并行处理的比例,以达到最佳的性能和创新效果。此外,文章可能还分析了该思考模式在人工智能、大数据分析等领域的具体应用实例,展示了其在提升技术创新和问题解决方面的潜力。
大模型日报(7月5日 学术篇)https://zhuanlan.zhihu.com/p/705835605?utm_psn=1791943838279008256
05

随笔:2024的我们应该如何看待具身智能

文章首先提到了机器人或具身智能研究在人工智能发展中的长期贡献,以及 2024 年仍然未解的通用机器人问题,作者对此日思夜想。随后指出,2023 年是具身智能在中文圈的元年,这一领域的爆红带来了机遇和挑战,作者希望通过这篇随笔让世界各地的从业者更理性地了解具身智能的机遇与挑战。文章接着讨论了以 ChatGPT 为代表的大模型给未来的预期,以及机器人大模型面临的数据采集问题,特别是动作模态数据的难以获取。作者提出了灵巧性和泛化性两个维度来解决机器人数据缺乏的问题,并讨论了行为克隆在灵巧性方面的应用和局限性。文章还探讨了视频世界模型、大规模强化学习和传统的机器人动作规划在解决通用机器人问题中的作用。最后,作者表达了对具身智能未来发展的乐观态度,并强调了社会各界在推动通用机器人发展中的责任和作用。
大模型日报(7月5日 学术篇)https://zhuanlan.zhihu.com/p/706749901?utm_psn=1792256670803570688
06

国产GPU万卡集群终于来了!摩尔线程CEO张建中:做难而正确的事

国产 GPU 企业摩尔线程宣布其 AI 旗舰产品夸娥智算集群实现了从千卡扩展至万卡规模的升级,这标志着国产 GPU 技术的重大进展。该集群的核心技术包括自研全功能 GPU、高效的卡间互联技术 MTLink 2.0、以及系统软件和框架的优化,以实现高效的训练和推理。集群具备超过 10EFLOPS 的算力,显存总容量和卡间互联总带宽均达到 PB 级,支持万亿参数级大模型的训练。稳定性方面,集群能够实现月级长稳训练,平均无故障运行时间超过 15 天,目标周均训练有效率逾 99%。此外,夸娥智算集群还具备极佳的生态兼容性,支持 CUDA 的自动化迁移工具 Musify,使得用户可以迅速将模型迁移到 MUSA 平台,实现 0 代码改动。这一系列技术的升级和优化,不仅提升了集群的算力和稳定性,还降低了用户的迁移成本,为 AI 行业的发展提供了强大的算力支撑。
大模型日报(7月5日 学术篇)https://mp.weixin.qq.com/s/DNnZglJMJYe2LIWIqEmYMQ
07

2024 年过半,AI 大模型在各行业的落地实践走到哪了?

文章主要探讨了 AI 大模型在不同行业中的落地实践和应用进展。宁德核电通过自主训练的核工业大模型,在知识管理、人才培养和设备管理等方面取得了显著进展。蚂蚁集团的纪韩介绍了大模型在金融领域的应用,如知识图谱技术的演进和投资研究中的问题解决,以及如何通过大模型提升理财师的服务能力和分析报告的生成效率。顺丰科技的王一帆则分享了物流供应链优化中大模型的应用,包括供应链分析和决策领域的创新。三位嘉宾还讨论了传统 AI 技术的瓶颈、大模型在企业实践中的挑战与应对策略,以及大模型与传统 AI 技术的有机协同。最后,他们对 AI 大模型在未来业务场景中的畅想和规划进行了展望,强调了技术与业务的紧密结合,以及如何通过机制建设、人才培养和算力储备等方面做好准备。
https://mp.weixin.qq.com/s/uO2QweFSebrVeBJoRly_fg
HuggingFace&Github

01

Graphrag

GraphRAG 是一个数据管道和转换套件,希望使用 LLM 的力量从非结构化文本中提取有意义的结构化数据。它提供了一种使用知识图谱内存结构来增强 LLM 输出的方法。
https://github.com/microsoft/graphrag
02

ChatPilot

这是一个基于 VITS 的全新 TTS 解决方案。现阶段支持的语言:汉语,英语,日语
ChatPilot 是一个功能强大的对话助手项目,基于 LangChain 实现了多种先进功能,包括 AgentChat 对话支持、Google 搜索、文件网址对话(RAG)、代码解释器、Kimi Chat 的文件拖进来和网址发出来功能,并支持 OpenAI 和 Azure 等 API。它集成了联网搜索工具、URL 自动解析工具、Python 代码解释器,实现了支持查询改写的检索增强 RAG 文件问答功能。该项目采用前后端分离架构,前端使用 Svelte,后端使用 FastAPI,并支持语音输入输出、图像生成、用户管理、权限控制、聊天记录导入导出等多项功能,为用户提供了丰富的交互体验。
大模型日报(7月5日 学术篇)https://github.com/shibing624/ChatPilot
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/07/14278.html

Like (0)
Previous 2024-07-05 16:56
Next 2024-07-07 22:10

相关推荐