大模型日报(6月1~2日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(6月1~2日 学术篇)

学习

01

【LLM拆了再装】 Tokenizer篇

文章深入探讨了 Tokenizer 在自然语言处理中的作用,强调其对于文本理解和模型性能的重要性。分词策略的选择应基于任务需求和语言特性,以确保模型准确理解输入文本。在大型语言模型如 GPT-3 中,分词过程需特别设计,以平衡计算效率和语义保留。文章还指出了多语言分词的挑战,以及在实际应用中保持分词一致性的重要性。总之,Tokenizer 不仅是文本预处理的关键步骤,也是提升 NLP 模型性能的关键因素之一。
大模型日报(6月1~2日 学术篇)https://zhuanlan.zhihu.com/p/700283095?utm_psn=1779895090687229952
02

在SFT以外,我们还能拿SFT数据做什么?

文章提出了 Alignment from Demonstrations (AfD) 作为 RLHF 的一种替代方案,旨在解决大型语言模型(LLM)对齐问题。AfD 通过 Inverse RL trajectory matching 视角,优化了 SFT 数据的使用,并探讨了在何种情况下应用 SFT 或 Reward Modeling。文章指出,尽管 RLHF 有效,但标注成本高,而 BC 在部署时可能会因为累计误差而表现不佳。作者进一步分析了正反向 KL 散度在分布匹配中的作用,并提出了使用对抗性训练来提升奖励模型的效果。特别是在处理开放式任务时,反向 KL 散度的方法能够更好地捕捉到多种可能的答案模式。文章强调了技术细节,如 LLM 作为 MDPR 的特性,以及在 RL 中缺少奖励函数时的解决策略,为 LLM 的对齐工作提供了新的思路和方法。
大模型日报(6月1~2日 学术篇)https://zhuanlan.zhihu.com/p/699978994?utm_psn=1778392780374986752
03

数据收集魔法:获取顶级训练数据的方法

本文揭示了大型语言模型(LLM)数据工程的关键技术,强调了数据收集在模型训练中的重要性。首先,介绍了爬虫技术的应用,包括传统爬虫与 AI 爬虫的对比,以及如何构建通用 AI 爬虫,涵盖了从网页获取数据的具体步骤和代码示例。其次,阐述了公开数据集的选择和评估标准,以及如何利用这些数据集进行模型预训练和微调。文章还探讨了与合作伙伴共享数据的优势,以及众包平台在数据收集中的作用。在数据存储格式方面,对比了 JSON、CSV 等常见格式的优缺点。最后,强调了数据隐私保护、数据清洗、去重、标准化和版本控制等数据管理的最佳实践。文章通过技术细节的展开,为 LLM 数据工程提供了全面的指导和实用的建议。
大模型日报(6月1~2日 学术篇)https://zhuanlan.zhihu.com/p/700613165?utm_psn=1779410624936075264
04

大语言模型(LLM)在数学推理上的Scaling Laws

本文深入探讨了大型语言模型(LLM)在数学推理方面的性能提升,特别是 Scaling Laws 的作用。Scaling Laws 指出,模型性能随着模型参数规模、数据集大小和训练计算资源的增加而提升,并且这三个因素需要同时增长以达到最佳效果。研究发现,预训练损失与 SFT 和 ICL 的精度有负线性相关,是评估模型能力的重要指标。监督数据量的增加以对数线性方式改进 SFT 性能,但随着预训练模型的提升,数据量增加带来的好处会减少。RFT 技术通过增加推理路径的多样性来提高模型性能,尽管其提升速度比 SFT 慢。通过结合多个模型的拒绝采样样本,RFT 性能得到进一步提升,例如 LLaMA-7B 在 GSM8K 数据集上的准确率从 35.9 提升至 49.3。这些发现对于大模型在数学推理领域的应用和优化具有重要意义,为大模型研究者提供了关于如何通过数据增强和模型融合来提升模型性能的宝贵见解。
大模型日报(6月1~2日 学术篇)https://zhuanlan.zhihu.com/p/648000801?utm_psn=1779411312210575360
05

高级 RAG 检索策略之内嵌表格

文章探讨了三种高级 RAG 检索策略,用于解析和检索嵌入在 PDF 文档中的表格数据。首先是 Nougat 方案,利用 Meta 公司的 Nougat OCR 工具包,能够将学术论文中的表格转换为结构化文本,但需要 GPU 支持。其次,UnstructuredIO 方案通过将 PDF 转换为 HTML 格式,利用 LlamaIndex 集成的 UnstructuredIO 进行表格内容的解析,无需 OCR 技术,也不依赖 GPU。最后,GPT4o 方案通过 OpenAI 的最新模型直接处理 PDF 文件,转换为 Markdown 格式,但准确率有待提高。三种方案各有优缺点,目前尚无完美解决方案,但随着技术的发展,预计会有更多创新的解决方案出现。
大模型日报(6月1~2日 学术篇)https://mp.weixin.qq.com/s/ckHjnWRlkMMBNUO5cWfMBg
HuggingFace&Github

01

AutoCoder

AutoCoder 是一个针对代码生成任务设计的新型语言模型,它在 HumanEval 基准测试上的准确率超过了当前最强模型 GPT-4 Turbo ,达到了 90.9% 。与以前的开源代码生成模型相比, AutoCoder 增加了一个新功能:能够自动安装所需依赖包,并尝试运行代码直到没有问题,大大扩展了代码解释器的应用范围。
大模型日报(6月1~2日 学术篇)https://github.com/bin123apple/AutoCoder
02

HolmesGPT

HolmesGPT 是一个开源的 DevOps 助理工具,可以像人类一样分析问题并结合现有监控数据来快速解决各种 Kubernetes、事件响应、工单管理等场景下的问题,同时支持用自然语言定义自动化运维手册,并可以在内部部署以满足合规要求,助力 DevOps 团队提高问题解决效率。
大模型日报(6月1~2日 学术篇)https://github.com/robusta-dev/holmesgpt
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/06/14944.html

Like (0)
Previous 2024-06-01 22:03
Next 2024-06-03 18:28

相关推荐

  • 大模型日报(5月6-7日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-07
    179
  • 大模型日报(5月31日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 学习 0…

    2024-05-31
    105
  • 导师交流心得 关于Introduction

    坐在咖啡馆,做个小笔记 第一篇打算投稿的文章写得七七八八,发给导师之后,以为能够得到详实具体的反馈建议,结果老板说有点“为难他”,于是我晚上主动拉了个会议,想一探究竟我干了什么“为…

    2022-07-20
    219
  • 5分钟用ChatGPT完成一篇PhD Proposal!

    如何用ChatGPT在5分钟内完成一篇PhD Proposal?  接下来看我的~ 申请博士需要套瓷找导师,而能否得到导师的青睐,一篇有趣的Proposal至关重要。 接下来我们就…

    2023-03-23
    203
  • 大模型日报(8月13日 学术篇)

    特别活动! 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.f…

    2024-08-13
    243
  • 大模型日报(4月29日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-04-29
    155
  • 大模型日报(7月6~7日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-07
    248
  • 大模型日报(9月11日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-11
    347
  • 哈佛大学打开AI教学之门,用生成式AI开计算机课程,编号CS50!

    哈佛大学的生成式人工智能,已经正式开始用于大学计算机课程中了! 并且,他们用的模型并非基于OpenAI的ChatGPT~ 与上学年相比,情况迅速转变。 哈佛大学在 2022 年秋季…

    2023-06-25
    147
  • 大模型日报(4月25日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-04-25
    131