大模型日报（6月1~2日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

学习

【LLM拆了再装】 Tokenizer篇

文章深入探讨了 Tokenizer 在自然语言处理中的作用，强调其对于文本理解和模型性能的重要性。分词策略的选择应基于任务需求和语言特性，以确保模型准确理解输入文本。在大型语言模型如 GPT-3 中，分词过程需特别设计，以平衡计算效率和语义保留。文章还指出了多语言分词的挑战，以及在实际应用中保持分词一致性的重要性。总之，Tokenizer 不仅是文本预处理的关键步骤，也是提升 NLP 模型性能的关键因素之一。

https://zhuanlan.zhihu.com/p/700283095?utm_psn=1779895090687229952

在SFT以外，我们还能拿SFT数据做什么？

文章提出了 Alignment from Demonstrations (AfD) 作为 RLHF 的一种替代方案，旨在解决大型语言模型（LLM）对齐问题。AfD 通过 Inverse RL trajectory matching 视角，优化了 SFT 数据的使用，并探讨了在何种情况下应用 SFT 或 Reward Modeling。文章指出，尽管 RLHF 有效，但标注成本高，而 BC 在部署时可能会因为累计误差而表现不佳。作者进一步分析了正反向 KL 散度在分布匹配中的作用，并提出了使用对抗性训练来提升奖励模型的效果。特别是在处理开放式任务时，反向 KL 散度的方法能够更好地捕捉到多种可能的答案模式。文章强调了技术细节，如 LLM 作为 MDPR 的特性，以及在 RL 中缺少奖励函数时的解决策略，为 LLM 的对齐工作提供了新的思路和方法。

https://zhuanlan.zhihu.com/p/699978994?utm_psn=1778392780374986752

数据收集魔法：获取顶级训练数据的方法

本文揭示了大型语言模型（LLM）数据工程的关键技术，强调了数据收集在模型训练中的重要性。首先，介绍了爬虫技术的应用，包括传统爬虫与 AI 爬虫的对比，以及如何构建通用 AI 爬虫，涵盖了从网页获取数据的具体步骤和代码示例。其次，阐述了公开数据集的选择和评估标准，以及如何利用这些数据集进行模型预训练和微调。文章还探讨了与合作伙伴共享数据的优势，以及众包平台在数据收集中的作用。在数据存储格式方面，对比了 JSON、CSV 等常见格式的优缺点。最后，强调了数据隐私保护、数据清洗、去重、标准化和版本控制等数据管理的最佳实践。文章通过技术细节的展开，为 LLM 数据工程提供了全面的指导和实用的建议。

https://zhuanlan.zhihu.com/p/700613165?utm_psn=1779410624936075264

大语言模型(LLM)在数学推理上的Scaling Laws

本文深入探讨了大型语言模型（LLM）在数学推理方面的性能提升，特别是 Scaling Laws 的作用。Scaling Laws 指出，模型性能随着模型参数规模、数据集大小和训练计算资源的增加而提升，并且这三个因素需要同时增长以达到最佳效果。研究发现，预训练损失与 SFT 和 ICL 的精度有负线性相关，是评估模型能力的重要指标。监督数据量的增加以对数线性方式改进 SFT 性能，但随着预训练模型的提升，数据量增加带来的好处会减少。RFT 技术通过增加推理路径的多样性来提高模型性能，尽管其提升速度比 SFT 慢。通过结合多个模型的拒绝采样样本，RFT 性能得到进一步提升，例如 LLaMA-7B 在 GSM8K 数据集上的准确率从 35.9 提升至 49.3。这些发现对于大模型在数学推理领域的应用和优化具有重要意义，为大模型研究者提供了关于如何通过数据增强和模型融合来提升模型性能的宝贵见解。

https://zhuanlan.zhihu.com/p/648000801?utm_psn=1779411312210575360

高级 RAG 检索策略之内嵌表格

文章探讨了三种高级 RAG 检索策略，用于解析和检索嵌入在 PDF 文档中的表格数据。首先是 Nougat 方案，利用 Meta 公司的 Nougat OCR 工具包，能够将学术论文中的表格转换为结构化文本，但需要 GPU 支持。其次，UnstructuredIO 方案通过将 PDF 转换为 HTML 格式，利用 LlamaIndex 集成的 UnstructuredIO 进行表格内容的解析，无需 OCR 技术，也不依赖 GPU。最后，GPT4o 方案通过 OpenAI 的最新模型直接处理 PDF 文件，转换为 Markdown 格式，但准确率有待提高。三种方案各有优缺点，目前尚无完美解决方案，但随着技术的发展，预计会有更多创新的解决方案出现。

https://mp.weixin.qq.com/s/ckHjnWRlkMMBNUO5cWfMBg

HuggingFace&Github

AutoCoder

AutoCoder 是一个针对代码生成任务设计的新型语言模型，它在 HumanEval 基准测试上的准确率超过了当前最强模型 GPT-4 Turbo ，达到了 90.9% 。与以前的开源代码生成模型相比， AutoCoder 增加了一个新功能：能够自动安装所需依赖包，并尝试运行代码直到没有问题，大大扩展了代码解释器的应用范围。