大模型日报（10月31日学术篇）

LLM Space • 2024-10-31 18:58 • 产品 • 107 views

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

潜空间活动报名

本期活动将在11月9日 10:00开始，我们邀请到的嘉宾是鱼哲，Lepton AI 创始成员，曾在阿里云担任高性能 AI 平台产品负责人，专注于 AI 在多个行业的落地及应用。Lepton AI 致力于建立高效可用的AI 基础设施，让团队更关注于应用构建及落地。在本次分享中鱼哲将带来关于不同AI产品形态对团队的挑战相关的思考，分享主题《Beyond Infra，What matters？—— 不同AI产品形态对团队的挑战》。除嘉宾分享外，每期设置了【匹配合伙人 Cofounder Matching】环节。你可以和 GenAI 时代最有活力的创业者和研究者线下面对面交流，将有机会找到志同道合、有共同创业梦想的小伙伴。报名通道已开启，欢迎扫描下方二维码报名。

信号

Measuring short-form factuality in large language models

人工智能的一个未解决的问题是如何训练能够产生事实正确响应的模型。当前的语言模型有时会产生错误的输出或没有证据支持的答案，这种问题被称为“幻觉”。产生更准确响应且幻觉更少的语言模型更值得信赖，可用于更广泛的应用。为了衡量语言模型的真实性，我们正在开源⁠一个名为 SimpleQA 的新基准。事实性是一个复杂的话题，因为它很难衡量——评估任何给定的任意主张的事实性都很有挑战性，而语言模型可以生成包含数十个事实主张的长篇补全。在 SimpleQA 中，我们将专注于简短的事实搜索查询，这缩小了基准的范围，但使衡量事实性变得更加容易。

https://x.com/OpenAI/status/1851680760539025639

Distinguishing Ignorance from Error in LLM Hallucinations

大型语言模型 (LLM) 容易产生幻觉，即输出没有根据、事实不正确或与前几代不一致。我们专注于封闭式问答 (CBQA)，之前的研究尚未完全解决两种可能的幻觉之间的区别，即模型 (1) 是否在其参数中没有保存正确答案，或 (2) 尽管具有所需的知识，但仍回答错误。我们认为区分这些情况对于检测和缓解幻觉至关重要。具体而言，情况 (2) 可以通过干预模型的内部计算来缓解，因为知识存在于模型的参数中。相反，在情况 (1) 中，没有参数知识可用于缓解，因此应该通过求助于外部知识源或弃权来解决。

https://x.com/AdiSimhi/status/1851650371615125563

HuggingFace&Github

AppFlowy

AppFlowy 是一个开源的 AI 协作工作空间，提供类似 Notion 的功能，同时确保用户对数据的完全控制。它支持项目管理、知识管理和团队协作，允许用户创建和管理文档、任务和数据库。AppFlowy 采用 Flutter 和 Rust 开发，兼容多个平台，包括桌面和移动设备。用户可以自定义功能，并通过社区驱动的方式扩展应用，满足不同需求。该平台强调数据隐私和可靠的本地体验，是一个理想的替代方案。