大模型日报（7月18日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

学习

LLM模型之高质量数据选择和微调方法

文章首先介绍了 Entropy Law，一种在多数据集组合时选择高质量数据的方法，通过考虑数据压缩比和训练损失来提高 LLM 性能。其次，探讨了如何通过高质量微调数据集来增强 LLM 的复杂指令跟踪能力。文章还分析了数据筛选的重要性，指出在有限的训练数据预算下，高质量数据的选择对模型性能至关重要。此外，文章讨论了大模型如何学习知识，包括记忆、语义概括和成分概括等不同深度的知识获取。数学推理能力优化方法 DeepSeek-Prover 通过大规模合成数据提高 LLM 在数学推理方面的能力。PiSSA 微调方法通过对权重矩阵进行 SVD 分解和低秩近似来提高模型性能。Double Dipper 和 Found in the Middle 方法则致力于解决超长上下文处理问题，提升模型在长文本理解和生成方面的能力。最后，T-FREE 提出了一种无需分词器的 LLM 嵌入方法，通过稀疏表示实现内存效率的提升。

https://zhuanlan.zhihu.com/p/703612817

rl-mpc-locomotion PPT解读（梳理了四足机器人运动学和动力学，MPC，WBC，RL(PPO)）

文章首先介绍了四足机器人的基本概念，包括它们的运动学和动力学模型。运动学涉及机器人各部分的位置和速度计算，而动力学则关注力和力矩的作用以及它们对机器人运动的影响。接着，作者详细解读了模型预测控制（MPC）的原理和在四足机器人中的应用，MPC 能够在预测的基础上优化机器人的运动轨迹。全身动态平衡控制（WBC）作为一种高级控制策略，被用来实现机器人在不同地形上的稳定行走。文章最后探讨了强化学习（RL），特别是 PPO 算法，在四足机器人行走控制中的应用。RL 能够通过与环境的交互来学习最优的控制策略，而 PPO 算法则是一种更稳定、更高效的 RL 训练方法。

https://zhuanlan.zhihu.com/p/708904701?utm_psn=1797280978370187266

合成数据，和你想的不一样

合成数据技术是一种创新的数据采集方法，它能够提供高质量、高度可控的数据集，用于训练图像 AI 模型。这种技术不仅能够生成大量的数据，还能够精确模拟难以获取的 Corner Case 场景，从而有效解决了传统数据获取方式中的隐私数据和稀缺数据问题。合成数据的应用范围广泛，涵盖了计算机视觉、自动驾驶等领域，并且在商业上已经有了成功案例。技术上，合成数据的生成主要依赖于传统的数据增强技术、仿真技术以及生成式 AI 技术，尤其是以端到端模型为核心的技术，它能够生成广泛性、逼真度、可控性和拓展性都优异的数据。尽管合成数据技术面临着争议和挑战，但它无疑为 AI 的发展提供了新的可能性，特别是在实现人工智能（AGI）的道路上，合成数据被视为一种梦幻的捷径。JoinAI｜卓印智能正在努力开发最佳的合成数据技术，以最大化数据的质量和效率，为 AI 的进步贡献力量。

https://mp.weixin.qq.com/s/zUcilzUvgOoRU8plYIJYVw

不存在什么原生多模态模型

文章开篇提到，自从双子座和全能型模型发布后，AI 行业内部似乎有所变化，但整体上并未出现大幅度的动态。作者认为，所谓的 “原生多模态模型” 实际上是对双子座和全能型技术报告中的描述进行的一种脑补。Google 和 OpenAI 在其报告中提到的 “原生”，实际上指的是在训练过程中并未区分输入输出的形式，而不是真正的原生多模态。文章指出，语言本身并非原生模态，而是经过其他感官输入后的次级输出。作者还批判了 Grounding 的概念，认为语言中的概念实例化是在交流者的思维中完成的，而不是通过与其他模态的对应来实现的。文章进一步探讨了 Unnatrueness 与 Unlearnability 的问题，指出语言为主体的模型在处理非自然概念时具有可学习性，但对于原生认知的概念可能不具备可学习性。此外，文章还讨论了 Positional Embedding 与 Temporal Embedding 的区别，认为语言模型不需要严格按照时间顺序进行编解码，而其他原生模态如语音和视频则需要。最后，文章总结认为，尽管语言是智能行为体交流的高效手段，但未来可能会出现新的交流方式，语言模型并非终极解决方案。

https://zhuanlan.zhihu.com/p/701839667?utm_psn=1797280127664648192

生成式AI推理企业的市场机遇、竞争与未来

本文深度探讨了生成式 AI 推理企业在当前市场的机遇、竞争环境以及未来发展的可能性。撰稿人 Kevin Zhang 指出，AI 推理公司为初创和企业提供了模型微调、可观测性分析等服务，简化了 AI 集成过程。这些公司通常提供两种层次的开发者体验：一键式 API 服务或具有一定定制选项的平台。随着推理平台的性能和价格趋同，AI 推理技术即将实现商品化。

尽管存在替代品的威胁和对有限收入的争夺，但文章认为 AI 推理市场有利于扩张。对于潜在投资者而言，重要的信念包括对市场总地址值（TAM）扩展的相信，以及对公司产品线扩展和并购机会的考量。同时，文章还提到了软件开发将逐渐朝着更高抽象层次发展的趋势。这一切意味着，AI 推理公司需要摒弃单一服务的局限，变得更加全栈，整合计算和分布式服务。总的来说，AI 推理领域的投资和技术发展将围绕着服务的商品化、市场竞争和资本的布局三 grandes axes evolve (3 个主要轴线展开)。

https://mp.weixin.qq.com/s/HIFQT5pRukAjJ-m8ToQzxA

中金 | Robotaxi：L4自动驾驶技术的重要探索

Robotaxi 作为 L4 自动驾驶技术的重要应用，在技术上采用端到端的算法，这种算法能够减少信息传递损失，提高对复杂路况和异常情况的处理能力。具体而言，它摒弃了传统的模块化方法，而是将感知、预测、规划、控制等整合到一个神经网络中，通过数据驱动而非规则驱动，从而提升了自动驾驶的智能化水平。此外，Robotaxi 在传感器配置上也较为慷慨，如百度 RT6 搭载了 12 颗摄像头、8 颗激光雷达和 6 颗毫米波雷达，以及超过 2000TOPS 的算力支持，以确保高精度地图和精确感知。

https://mp.weixin.qq.com/s/j9R4pn2lssAOyZzSgImeNw

场景融合与 ROI 考量：金融大模型落地的两大困境有解吗？

文章首先指出，金融行业是大模型应用的理想领域，因为金融业务的专业知识密集、数据驱动和复杂流程与大模型的理解能力、记忆能力和逻辑推理能力高度吻合。然而，大模型在金融领域的落地过程中遇到了技术融合、成本效益和合规安全等问题。在最近的一次直播中，杨青和鲍捷博士围绕大模型在金融行业的应用进行了深入讨论。鲍捷博士提到，过去一年大模型从探索阶段转向了实际落地，并且在航空和金融等行业有数十个落地案例，这些案例都是基于强业务驱动的。杨青认为，大模型的能力在提升内部员工效率方面展现出了巨大的潜力，尤其是在帮助员工更有效地获取和理解知识库中的信息。两位专家都强调了大模型技术应用主要集中在金融业务场景，如知识库构建、核查系统、写作协作场景等。此外，文章还讨论了大模型在金融行业的挑战，包括技术底层能力的提升、业务流程中的嵌入、成本控制和 ROI 的计算等问题。最后，文章预测了人机协作的未来趋势，包括机器与机器、人与人、人与机器的新型协作模式。

https://mp.weixin.qq.com/s/f-_XPxZcvRuDa8EDSDKIQQ