大模型日报（6月1~2日资讯篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

在 Transformer 大一统的时代，计算机视觉的 CNN 方向还有研究的必要吗？今年年初，OpenAI 视频大模型 Sora 带火了 Vision Transformer（ViT）架构。此后，关于 ViT 与传统卷积神经网络（CNN）谁更厉害的争论就没有断过。近日，一直在社交媒体上活跃的图灵奖得主、Meta 首席科学家 Yann LeCun 也加入了 ViT 与 CNN 之争的讨论。

https://mp.weixin.qq.com/s/VO_AgwBJYrZHOgVXVqG3Ew

开源模型进展盘点：最新Mixtral、Llama 3、Phi-3、OpenELM到底有多好？

深度学习领域知名研究者、Lightning AI 的首席人工智能教育者 Sebastian Raschka 对 AI 大模型有着深刻的洞察，也会经常把一些观察的结果写成博客。在一篇 5 月中发布的博客中，他盘点分析了 4 月份发布的四个主要新模型：Mixtral、Meta AI 的 Llama 3、微软的 Phi-3 和苹果的 OpenELM。他还通过一篇论文探讨了 DPO 和 PPO 的优劣之处。之后，他分享了 4 月份值得关注的一些研究成果。

https://mp.weixin.qq.com/s/bgdDYkGHbPZMMSJPIutFSQ

Hugging Face称检测到对其人工智能模型托管平台的”未经授权访问”

人工智能初创公司Hugging Face表示，其安全团队在本周早些时候检测到对Spaces的”未经授权访问”，Spaces是Hugging Face用于创建、共享和托管人工智能模型和资源的平台。Hugging Face 在一篇博文中说，这次入侵与 Spaces 秘密有关，即作为解锁账户、工具和开发环境等受保护资源的密钥的私人信息。

https://www.toutiao.com/article/7375352019617399347/?log_from=153d4f3b5ed08_1717212760566

多模态大模型不够灵活，谷歌DeepMind创新架构Zipper：分开训练再「压缩」

Google DeepMind 近期提出了模块化设计的新型架构 Zipper，它由多个单模态预训练解码器模型组成。利用丰富的无监督单模态数据，Zipper 可以在单一模态中预训练强大的纯解码器模型，然后利用交叉注意力将多个这样的预训练解码器「压缩」在一起，并利用有限的跨模态数据进行微调，实现多模态生成能力。预训练的纯解码器模型可以在新的多模态组合中灵活地重复使用和再利用。

https://mp.weixin.qq.com/s/F8wstkJyYiNJCbSqYq3Pbw

“最强ATM”中东，投了中国独角兽智谱AI

中国大模型初创公司拿下的第一笔国外投资，来自中东。2024年5月31日，据Financial Times报道，两位知情人士称，中东石油巨头沙特阿美（Aramco）旗下风险投资部门管理的基金Prosperity7，投资了中国大模型独角兽智谱AI，金额达到4亿美元（约29亿元）。据报道，这笔投资将使智谱AI的估值达到约30亿美元（约217亿元）。

https://mp.weixin.qq.com/s/DpLur3pBbVhp6uXcWCjCbw

翠贝卡电影节将首映使用 OpenAl Sora 制作的五部短片

据报道，翠贝卡电影节(Tribeca Festival)将放映五部采用 OpenA! 技术制作的短片，这些电影使用 OpenAl 的Sora 文生视频模型，是使用该技术的电影首次在电影节上展示。影片将于6月 15 日放映，之后将与电影制作人进行对谈。

https://www.hollywoodreporter.com/business/business-news/tribeca-festival-short-films-made-openai-1235912280/

单GPU训练一天，Transformer在100位数字加法上就达能到99%准确率

自 2017 年被提出以来，Transformer 已成为 AI 大模型的主流架构，一直稳站 C 位。但所有研究者都不得不承认的是，Transformer 在算数任务中表现非常糟糕，尤其是加法，这一缺陷在很大程度上源于 Transformer 无法跟踪大范围数字中每个数字的确切位置。为了解决这个问题，来自马里兰大学、CMU 等机构的研究者向这一问题发起了挑战，他们通过在每个数字中添加一个嵌入来解决这个问题，该嵌入编码数字相对于开头的位置。该研究发现，只用一天时间在单个 GPU 上训练 20 位数字，就可以达到最新的性能水平，100 位数字加法问题高达 99% 的准确率。

https://mp.weixin.qq.com/s/zHx_pMk6sHmIm-AJCS_sRA

超长小说可以用AI翻译了，新型多智能体协作系统媲美人工翻译

机器翻译 (MT) 的最新进展显著提高了各个领域的翻译质量。然而，由于其复杂的语言、比喻表达和文化差异，文学文本的翻译仍然是一个艰巨的挑战。最近，一篇题为《(Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts》的论文，提出了一种用于文学翻译的基于大型语言模型（LLM）的新型多智能体框架，并构建了一家名为 TRANSAGENTS 的虚拟出版公司（文学翻译多智能体系统）。

https://mp.weixin.qq.com/s/q6qm0Pd0XAKZ2oUNna53vw

推特

ElevenLabs发布最新模型，用声效来创造丰富和沉浸式的内容

ElevenLabs发布最新模型，从内容创作者、视频游戏开发者到电影和电视制作公司，都使用声效来创造丰富和沉浸式的内容。现在，除了AI配音，你只需一个提示，就可以生成所需的所有声音。

https://x.com/elevenlabsio/status/1796567542565118151?s=46&t=GRStLXDcUNuun8J5Noyw4Q

FineWeb技术报告：详细解释了每一个处理决策，并介绍最新数据集FineWeb-Edu

我们（终于）发布了🍷 FineWeb技术报告！

在报告中，我们详细解释了每一个处理决策，并介绍了我们最新的数据集：📚 FineWeb-Edu，这是一个仅包含高教育内容的FW子集（仅限网页）。

链接：https://hf.co/spaces/HuggingFaceFW/blogpost-fineweb-v1

https://x.com/gui_penedo/status/1797173053123916036

Yao Fu分享建议：不要阅读任何与长文本相关的论文，而是与模型对话

有几位一年级博士生问我如何开始在X（例如长文本建模）上进行LLM研究。我的首要建议——虽然看起来有点不寻常——是*不要*阅读任何与长文本相关的论文，而是与模型对话。

与模型讨论教科书、课程幻灯片、财务报告、小说、非小说类书籍，以及你能找到的任何长文档。
整整两周每天都与模型对话，从早上打开笔记本的第一件事，到晚上睡前的最后一件事。
问你能想到的每一个问题，什么是PCA？它与SVD有何比较？书中的哪一部分描述了这两者？书上具体怎么说的？
与你能接触到的所有模型对话，GPT、Gemini、Claude、Llama……
持续两周与模型对话，不做研究，不看论文，不看arxiv，只是与模型对话。
在上述过程中，不断观察模型的行为，发现它们的问题，并思考为什么模型会这样表现。

我发现经过上述过程的人与那些只读论文的人相比，理解水平有着根本的不同😉。

https://x.com/francis_yao_/status/1796519894814453827?s=46&t=GRStLXDcUNuun8J5Noyw4Q

LeCunn再声明：如果你是博士生，不要研究LLMs，试着发现能够突破LLMs限制的方法

LLMs很有用，但它们只是通往人类水平AI道路上的一个出口。

如果你是博士生，不要研究LLMs。

试着发现能够突破LLMs限制的方法。

引用

Tsarathustra：

Yann LeCun告诉博士生，研究LLMs没有意义，因为它们只是通向最终智能的高速公路上的一个出口。

https://x.com/ylecun/status/1796982509567180927?s=46&t=GRStLXDcUNuun8J5Noyw4Q

Sebastian Raschka分享：《从头开始构建大型语言模型》第六章，LLMs的微调分类

如果你在寻找这个周末的阅读材料，《从头开始构建大型语言模型》一书的第6章（LLMs的微调分类）现在终于可以在Manning网站上阅读了：https://livebook.manning.com/book/build-a-large-language-model-from-scratch/chapter-6/。

祝你阅读愉快！如果你有任何反馈或问题，请随时分享——我很乐意采纳你的反馈并回答你的问题！

附：还有一章就完成了！

https://x.com/rasbt/status/1796517550303371459

一致性角色：创建给定角色在不同姿势下的图像

这是我在Replicate上发布的一致性角色模型的首次发布。

它使用了InstantID、IPAdapter、Controlnet和FaceDetailer，结合SDXL Lightning。

提示服装和发型以达到最佳一致性。

该模型是开源的，但非商业用途，所有链接如下👇

一致性角色

创建给定角色在不同姿势下的图像

在Replicate上运行：

https://replicate.com/fofr/consistent-character

你可以在ComfyUI中直接使用的工作流程，但它一次只能生成一个姿势：

https://github.com/fofr/cog-consistent-character/blob/main/workflow_ui.json

https://x.com/fofrAI/status/1796547108478038355

产品

Artizyou

Artizyou 是一个致力于为创作者提供知识产权保护和管理的解决方案，它利用人工智能和区块链技术为各类创意作品提供全面的目录化、认证和安全保管服务，内置的 AI 系统可以自动监测并及时发现抄袭行为，该平台已获得业界认可并受到 2000 多名创作者的信赖，旨在为创作者创造一个安全可靠的IP保护环境，让他们能够专注于创作而无需担心作品被盗用或抄袭的风险。