大模型日报(4月22日 学术篇)

欢迎观看大模型日报站(活动录屏复盘聚集地)

大模型日报(4月22日 学术篇)

论文

01

样本设计工程:LLM 微调样本的好坏实证研究

摘要:在大语言模型(LLM)的兴起领域中,像ChatGPT和LLaMA这样的模型,通过Prompt Engineering(PE)著名于通过prompt修改来提高零-shot或上下文学习(ICL)。然而,针对用于下游微调的样本设计领域,对于特定任务的LLM适应性至关重要,却是遍地荒芜。本文介绍了一种名为Sample Design Engineering(SDE)的方法论,通过精细调整输入、输出和推理设计,以增强LLMs的后调整性能。我们进行了一系列领域内(ID)和领域外(OOD)的实验,评估各种设计选项对LLMs下游性能的影响,揭示出一些跨不同LLMs一致存在的有趣模式。基于这些见解,我们提出了一个综合的SDE策略,结合了最有效的选项,并验证其在复杂的下游任务中,如多方面情感分析、事件提取和嵌套实体识别中,始终优于启发式样本设计。此外,LLMs固有的提示/输出困惑、零-shot和ICL能力的分析表明,良好的PE策略并不总是能转化为良好的SDE策略。代码可在https://github.com/beyondguo/LLM-Tuning获取。
大模型日报(4月22日 学术篇)http://arxiv.org/abs/2404.13033v1
02

朝向大语言模型辅助 Lean 定理证明

定理证明对于大型语言模型(LLMs)来说是一个重要挑战,因为正式证明可以通过Lean等证明助手严格检查,没有幻觉的空间。现有基于LLM的证明器试图在完全自主模式下证明定理,没有人为干预。在这种模式下,它们难以应对新颖且具有挑战性的定理,对于这些定理,人类的见解可能至关重要。在本文中,我们探讨LLMs作为协作伙伴协助人类证明定理。我们介绍Lean Copilot,一个在Lean中运行LLM推理的框架。它使程序员能够构建各种基于LLM的证明自动化工具,无缝整合到Lean用户的工作流程中。使用Lean Copilot,我们构建了用于建议证明步骤(策略建议)、完成中间证明目标(证明搜索)以及选择相关前提(前提选择)的工具,使用LLMs。用户可以使用我们预训练的模型,或者自己带入本地(带或不带GPU)或云端运行的模型。实验结果表明,与现有基于规则的证明自动化相比,我们的方法在协助人类和自动化定理证明过程方面是有效的。我们根据宽松的MIT许可证开源所有代码,以促进进一步的研究。
大模型日报(4月22日 学术篇)http://arxiv.org/abs/2404.12534v1
03

TextSquare: 扩展文本中心视觉指令微调

摘要:文本中心的视觉问答(VQA)在多模态大语言模型(MLLMs)的发展中取得了巨大进展,然而开源模型仍然无法与GPT4V和Gemini等领先模型媲美,部分原因是缺乏广泛且高质量的指导微调数据。为此,我们引入了一种新方法来创建一个庞大、高质量的指导微调数据集Square-10M,该数据集是使用封闭源MLLMs生成的。数据构建过程,称为Square,包括四个步骤:自问自答、推理和评估。我们对Square-10M进行的实验得出了三个关键发现:1)我们的模型TextSquare在OCR测试数据集上取得了62.2%的成绩,明显胜过开源先前的文本中心MLLMs,并在10个文本中心基准测试中的6个中超越了顶尖模型如GPT4V和Gemini。2)此外,我们展示了VQA推理数据在为特定问题提供全面上下文洞见方面的关键作用,不仅提高了准确性,还显著减轻了幻觉。具体而言,TextSquare在四个常规VQA和幻觉评估数据集中平均得分75.1%,优于先前的最先进模型。3)值得注意的是,在缩放文本中心的VQA数据集中观察到的现象揭示了一个鲜明的规律:指导微调数据量的指数级增长与模型性能的改善成正比,从而验证了数据集规模和Square-10M高质量的必要性。
大模型日报(4月22日 学术篇)http://arxiv.org/abs/2404.12803v1
04
4

更强的基于随机的上下文学习基线

评估语言模型在上下文学习分类性能时面临挑战,因为数据集规模小,使用验证集进行广泛提示选择,并且有意难度的任务导致接近随机性能。我们考虑验证集重复使用和现有小数据集的常见做法,使用更强的随机基线:跨多个随机分类器的最大准确率。在选择最佳提示演示时,超过20%的少样本结果超过标准基线,但没有超过更强的随机基线。当有保留测试集时,这个更强的基线也比标准基线更好地预测保留性能,避免不必要的测试集评估。这个最大随机基线为标准基线提供了一个易于计算的替代方案。
大模型日报(4月22日 学术篇)http://arxiv.org/abs/2404.13020v1
05

AutoCrawler:用于网络爬虫生成的渐进式理解网络智能体

摘要:网络自动化是一种重要技术,通过自动化常见的网络操作,完成复杂的网络任务,提高运行效率,减少手动干预。传统方法,如包装器,在面对新的网站时,适应能力和可扩展性有限。另外,由大语言模型(LLMs)赋能的生成式智能体在开放世界场景中表现出性能和可重用性较差。本文引入了垂直信息网页的爬虫生成任务和将LLMs与爬虫结合的范例,有助于爬虫更有效地处理多样化和变化的网络环境。我们提出了AutoCrawler,一个利用HTML的层次结构进行逐步理解的两阶段框架。通过自顶向下和退回操作,AutoCrawler可以从错误操作中学习,并持续修剪HTML以生成更好的动作。我们进行了多个LLM的综合实验,并展示了我们框架的有效性。本文资源可在https://github.com/EZ-hwh/AutoCrawler找到。
大模型日报(4月22日 学术篇)http://arxiv.org/abs/2404.12753v1
06

ScaleFold:将AlphaFold初始训练时间减少至10小时

摘要:AlphaFold2被誉为蛋白质折叠领域的突破,能够快速预测具有实验室级精度的蛋白质结构。然而,其实现并未包含必要的训练代码。OpenFold是AlphaFold的第一个可训练的公开重新实现版本。AlphaFold的训练过程耗时过长,并且在使用更多计算资源时收益递减。本研究在OpenFold基础上对AlphaFold的训练过程进行了综合分析,发现低效的通信和过度开销的计算是阻碍AlphaFold有效扩展的关键因素。我们引入了ScaleFold,一种系统训练方法,专门针对这些因素进行优化。ScaleFold成功地将AlphaFold的训练扩展到2080个NVIDIA H100 GPU,并实现了高资源利用率。在MLPerf HPC v3.0基准测试中,ScaleFold在7.51分钟内完成了OpenFold基准测试,比基线快了6倍。对于从头训练AlphaFold模型,ScaleFold在10小时内完成了预训练,远远优于原始AlphaFold预训练基线需要的七天。
大模型日报(4月22日 学术篇)http://arxiv.org/abs/2404.11068v1

HuggingFace&Github

01

ASReview

ASReview 是一个用于帮助筛选大量文本数据的项目,它可以帮助研究人员更快速地找到他们需要的信息,节省时间并提高工作的质量。这个软件有三种不同的使用模式,可以根据具体的需求选择合适的模式进行操作。
大模型日报(4月22日 学术篇)https://github.com/asreview/asreview
02

Helix

Helix 是一个生成式人工智能平台,可在云上运行或部署在自己的数据中心或云账户上。它提供易于使用的界面。Helix 使用开源模型,包括GPU调度程序,以优化用户面对的延迟和 GPU 内存利用率。其 Runner 架构允许部署单一控制平台,并连接各种 GPU,集成 Keycloak 进行身份验证,可以适配到企业的 ActiveDirectory/LDAP/OAuth 环境中
https://github.com/helixml/helix

大模型日报(4月22日 学术篇)

大模型日报16

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/04/15892.html

Like (0)
Previous 2024-04-22 16:26
Next 2024-04-22 21:17

相关推荐

  • Litmaps让你仅通过一篇文献,了解该领域的来龙去脉!

    在追求知识和了解新领域时,我们常常被大量的文献和资料所淹没,花费大量时间和精力才能掌握一门学科的来龙去脉。 然而,现在有了Litmaps,你只需要一篇文献,就能轻松揭开该领域的奥秘…

    2023-06-14
    455
  • 让AI助手探索你的研究领域,只需七步!

    让AI助手探索你的研究领域,只需七步! 刚好在咖啡店拿着手机和AI助手侃侃而谈了一把,顺便对某个研究领域从外围往内核理一理思路,起初觉得AI的回答很体系化,有种滴水不漏的感觉,仔细…

    2023-06-27
    188
  • OpenAI王炸暴击,ChatGPT 插件再改AI游戏规则!

    OpenAI的野心在从GPT-4到ChatGPT插件的发布中愈发显露。 在北京时间3月24日凌晨,OpenAI宣布了ChatGPT插件的推出,并开放了两个插件:一个网络浏览器和一个…

    2023-03-25
    183
  • 大模型日报(7月8日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-08
    268
  • AI学术 | 写Research Proposal, Claude和ChatGPT哪家强?

    Claude和ChatGPT这两个AI工具,在学术领域的工作当中到底哪家强呢? 这不是一个容易回答的问题,需要对学术领域的具体问题,进行全面的考察,我们不妨一步步来~ 下面我们来简…

    2023-10-17
    162
  • 大模型日报(4月19日 学术篇)

    欢迎观看大模型日报,进入大模型日报群和空间站(活动录屏复盘聚集地)请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 论文 01 Reka Core Fla…

    2024-04-19
    88
  • 大模型日报(5月21日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-21
    101
  • 大模型日报(五一特刊 5月1-5日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-05
    48
  • SheetGPT = GoogleSheet+ChatGPT,三步开启AI,轻松玩转非结构化数据!

    最近又发现了一个名为SheetGPT的AI表格工具,它的思路和之前介绍的Google Colab + ChatGPT类似,都是利用ChatGPT为应用程序提供支持。 只要在Shee…

    2023-03-03
    150
  • 大模型日报(7月31日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-31
    199