大模型日报(6月19日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(6月19日 学术篇)

论文

01

DeepSeek-Coder-V2: 打破代码智能中封闭模型的壁垒

我们提出了DeepSeek-Coder-V2,一个开源的专家混合(MoE)代码语言模型,其在代码特定任务上表现与GPT4-Turbo相当。具体来说,DeepSeek-Coder-V2是在DeepSeek-V2的中间检查点的基础上再次预训练,额外增加了6万亿个tokens。通过这种持续的预训练,DeepSeek-Coder-V2显著增强了DeepSeek-V2的编码和数学推理能力,同时在一般语言任务中保持相当的性能。与DeepSeek-Coder-33B相比,DeepSeek-Coder-V2在代码相关任务、推理和一般能力的各个方面都取得了显著进展。此外,DeepSeek-Coder-V2将其对编程语言的支持从86个扩展到338个,同时将上下文长度从16K扩展到128K。在标准基准评估中,DeepSeek-Coder-V2在编码和数学基准中表现优于闭源模型,如GPT4-Turbo、Claude 3 Opus和Gemini 1.5 Pro。
大模型日报(6月19日 学术篇)http://arxiv.org/abs/2406.11931v1
02

ChatGLM: 从GLM-130B到GLM-4 All Tools的大语言模型家族

我们引入了ChatGLM,这是我们长期开发的大型语言模型系列。本报告主要关注GLM-4语言系列,包括GLM-4、GLM-4-Air和GLM-4-9B。它们代表了我们最先进的模型,在前三代ChatGLM的基础上进行了训练。到目前为止,GLM-4模型主要在中文和英文语境下进行了预训练,涵盖了来自24种语言的小语料库,通过多阶段的后期训练过程实现高质量的对齐。GLM-4在多项指标上与GPT-4相匹敌或胜过,表现出色。在实际应用中,它甚至在访问在线信息和解决数学问题等任务上超越了GPT-4。我们已经开源了一系列模型,吸引了Hugging face平台上超过1000万次的下载。可以通过链接访问这些开源模型。
大模型日报(6月19日 学术篇)http://arxiv.org/abs/2406.12793v1
03

奥林匹克竞技场:超智能人工智能测试多学科认知推理

人工智能的进化被大语言模型(LLMs)和大多模型(LMMs)的进步大大加速,逐渐展示了在问题解决和科学发现(即AI4Science)方面潜在的认知推理能力,这些能力曾经只属于人类智慧。为了全面评估当前模型在认知推理能力方面的表现,我们引入了OlympicArena,包括11,163个双语问题,涵盖文本和交织的文本-图像两种模式。这些挑战涵盖了七个领域和62个国际奥林匹克比赛的广泛学科,严格审查以防止数据泄漏。我们认为奥林匹克比赛问题中的挑战在评估AI认知推理能力方面是理想的,因为其复杂性和跨学科性对于应对复杂科学挑战和促进发现至关重要。通过OlympicArena,我们旨在推动AI迈向超级智能,在处理科学及其他更复杂挑战的能力上进行装备。我们还提供了一套全面的资源来支持AI研究,包括基准数据集、开源标注平台、详细评估工具以及具有自动提交功能的排行榜。
大模型日报(6月19日 学术篇)http://arxiv.org/abs/2406.12753v1
04

Chumor 1.0:一份真正有趣且具挑战性的中文幽默理解数据集(来自弱智吧)

现有的幽默数据集和评估主要集中在英语上,缺乏针对非英语语言如中文的文化细微差别幽默的资源。为了填补这一空白,我们构建了Chumor数据集,这是一个从弱智吧(RZB)获取的数据集,这是一个致力于分享智力挑战和具有文化特色的笑话的类似中文Reddit的平台。我们为每个笑话注释解释,并通过A/B测试由中国母语者对Chumor笑话的人类解释与两个最先进的LLM,GPT-4o和ERNIE Bot进行评估。我们的评估显示,Chumor甚至对于目前最先进的LLMs来说都是具有挑战性的,而Chumor笑话的人类解释明显优于LLMs生成的解释。
大模型日报(6月19日 学术篇)http://arxiv.org/abs/2406.12754v1
05

思维抽象化使语言模型成为更好的推理者

抽象推理是人类推理中泛化的关键,但是如何引导语言模型进行具有抽象性的推理仍未被探索。本文通过引入一种名为思维抽象(AoT)的新型结构化推理格式来弥补这一空白。AoT的独特之处在于其明确要求在推理过程中使用不同层次的抽象。这种方法能够促使语言模型在融入具体细节之前首先思考抽象层次,这是目前普遍的“一步一步思考”(CoT)方法所忽视的。为了使模型符合AoT格式,我们提出了AoT Collection,一个包含348k个高质量样本的通用微调数据集,其中包括AoT推理过程,通过自动化且可扩展的流程收集。我们利用AoT Collection对各种语言模型进行微调,并在具有挑战性的基准测试Big-Bench Hard的23个未见任务上进行广泛评估。实验结果表明,与符合CoT的模型相比,符合AoT推理格式的模型在许多推理任务中表现出色。
大模型日报(6月19日 学术篇)http://arxiv.org/abs/2406.12442v1
06

WebCanvas: 在线环境中对Web智能体进行基准测试

为了使Web智能体在实践中有用,它们必须适应不断更新的网络环境,其中用户界面和内容频繁更新。然而,大多数现有基准仅捕捉网络的静态方面。为了弥合这一差距,我们引入了WebCanvas,这是一个创新的在线评估框架,用于有效地处理网络交互的动态性质。WebCanvas包含三个主要组件,以促进现实评估:①一种可靠地捕捉完成任务所必需的关键中间动作或状态的新型评估指标,同时忽略由无关事件或更改的网络元素引起的噪音;②一个名为Mind2Web-Live的基准数据集,这是原始Mind2Web静态数据集的精炼版本,包含542个任务和2439个中间评估状态;③轻量级和通用的注释工具和测试管道,使社区能够收集和维护高质量、最新的数据集。基于WebCanvas,我们开源了一个具有可扩展模块用于推理的智能体框架,为社区进行在线推断和评估提供了基础。我们最好的智能体在Mind2Web-Live测试集上实现了23.1%的任务成功率和48.8%的任务完成率。此外,我们分析了不同网站、领域和实验环境中的性能差异。我们鼓励社区为在线智能体评估贡献更多见解,从而推动这一研究领域的发展。
大模型日报(6月19日 学术篇)http://arxiv.org/abs/2406.12373v1
07

基于Hopfield的视角解释智能体的思维链推理

链式思维(CoT)在增强大型语言模型(LLMs)的推理性能方面占据重要位置。尽管一些研究集中在通过改进检索增强等方法提高CoT的准确性,但为什么CoT能取得如此成功的严格解释仍不清楚。在本文中,我们通过两种不同设置下的CoT方法分析以下问题:(1)对于零-shot CoT,提示模型“让我们一步步思考”为什么会显著影响其输出?(2)对于少量-shot CoT,为什么在向模型提问之前提供示例可以显著提高其推理能力?为了回答这些问题,我们从Hopfieldian视角进行自顶向下的可解释性分析,并提出了一个读取和控制方法来控制CoT的准确性。通过对三种不同任务的七个数据集进行广泛实验证明,我们的框架可以解密CoT的内部运作,提供推理错误的定位和控制,从而得出正确的推理路径。
大模型日报(6月19日 学术篇)http://arxiv.org/abs/2406.12255v1
08

从众包数据到高质量基准:Arena-Hard和BenchBuilder流水线

语言模型的快速发展促使我们开发出更具挑战性的基准测试。当前的静态基准经常难以一致区分不同模型的能力,并且与真实用户偏好不符。与之相反,在Chatbot Arena等实时众包平台上收集了广泛的自然提示和用户反馈。然而,这些提示在复杂性上存在差异,反馈不能离线应用于新模型。为了确保基准测试跟上LLM发展的步伐,我们讨论了如何评估基准测试对于自信地区分模型以及与人类偏好的一致性。基于这些原则,我们开发了BenchBuilder,这是一个动态基准测试,从实时数据源中筛选出高质量的提示,以在新的挑战性提示上进行离线评估。BenchBuilder确定了高质量提示的七个指标,如领域知识要求,并利用LLM注释器从各种主题集群中选择高质量的提示子集。LLM评估过程采用LLM评委确保一个完全自动化、高质量且不断更新的基准测试。我们在Chatbot Arena的提示上应用BenchBuilder,创建了Arena-Hard-Auto v0.1:来自各种任务的500个具有挑战性的用户提示。Arena-Hard-Auto v0.1提供比MT-Bench更紧密的3倍置信区间,并且在与人类偏好排序的一致性方面达到了89.1%的最新成果,而仅需25美元的成本且无需人工标签。BenchBuilder管道增强了评估基准测试并为开发人员提供了一种宝贵的工具,使他们能够轻松从广泛数据中提取高质量的基准测试。
大模型日报(6月19日 学术篇)http://arxiv.org/abs/2406.11939v1
09

PlanRAG: 一个计划-检索增强生成器的方法,使大型语言模型成为决策者

在这篇论文中,我们进行了一项研究,利用LLM作为需要复杂数据分析的决策制定的解决方案。我们将决策QA定义为回答决策制定问题$Q$的最佳决策$d_{best}$的任务,业务规则$R$和数据库$D$。由于没有可以检查决策QA的基准,我们提出了决策QA基准DQA。它有两个情景,定位和构建,由两个几乎与决策QA具有相同目标的视频游戏(Europa Universalis IV和Victoria 3)构建而成。为了有效解决决策QA,我们还提出了一种名为迭代计划-然后检索增强生成(PlanRAG)的新RAG技术。我们基于PlanRAG的LM首先生成决策制定的计划,然后检索生成数据分析的查询。所提出的方法在定位情景中优于最先进的迭代RAG方法15.8%,在构建情景中优于7.4%。我们在https://github.com/myeon9h/PlanRAG发布了我们的代码和基准。
大模型日报(6月19日 学术篇)http://arxiv.org/abs/2406.12430v1
HuggingFace&Github

01

Meta Chameleon

Meta Chameleon 是 Facebook AI Research 开发的一个多模态早期融合基础模型。这个开源仓库提供了推理代码、输入输出可视化工具以及评估提示等资源。使用这些工具需要 CUDA 兼容 GPU,不过也支持其他平台无关的推理实现。
大模型日报(6月19日 学术篇)https://github.com/facebookresearch/chameleon
02

IMAGDressing-v1

这篇论文提出了 IMAGDressing 系统,利用从 CLIP 和 VAE 提取的服装特征以及混合注意力机制,在一个可训练的去噪 UNet 中实现了用户可控的虚拟服装生成。团队还发布了大规模的 IGv1 数据集,并展示了 IMAGDressing-v1 可与其他插件组合使用,增强生成角色的多样性和可控性。
大模型日报(6月19日 学术篇)https://imagdressing.github.io/
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/06/14643.html

Like (0)
Previous 2024-06-19 14:15
Next 2024-06-20 08:57

相关推荐