欢迎观看大模型日报 , 如 需 进 入 大 模 型 日 报 群 和 空 间 站 请 直 接 扫 码 。 社 群 内 除 日 报 外 还 会 第 一 时 间 分 享 大 模 型 活 动 。
资 讯
CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术
视频理解的核心目标在于对时空表示的把握,这存在两个巨大挑战:短视频片段存在大量时空冗余和复杂的时空依赖关系。尽管曾经占主导地位的三维卷积神经网络 (CNN) 和视频 Transformer 通过利用局部卷积或长距离注意力有效地应对其中之一的挑战,但它们在同时解决这两个挑战方面存在不足。UniFormer 试图整合这两种方法的优势,但它在建模长视频方面存在困难。S4、RWKV 和 RetNet等低成本方案在自然语言处理领域的出现,为视觉模型开辟了新的途径。Mamba 凭借其选择性状态空间模型(SSM) 脱颖而出,实现了在保持线性复杂性的同时促进长期动态建模的平衡。这种创新推动了它在视觉任务中的应用,正如 Vision Mamba 和 VMamba 所证实的那样,它们利用多方向 SSM 来增强二维图像处理。这些模型在性能上与基于注意力的架构相媲美,同时显著减少了内存使用量。鉴于视频产生的序列本身更长,一个自然的问题是:Mamba 能否很好地用于视频理解?受 Mamba 启发,本文引入了 VideoMamba 专为视频理解量身定制的纯 SSM (选择性状态空间模型)。VideoMamba 以 Vanilla ViT 的风格,将卷积和注意力的优势融合在一起。它提供一种线性复杂度的方法,用于动态时空背景建模,非常适合高分辨率的长视频。
CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步
物体姿态估计在许多现实世界应用中起到至关重要的作用,例如具身智能、机器人灵巧操作和增强现实等。在这一领域中,最先受到关注的任务是实例级别 6D 姿态估计,其需要关于目标物体的带标注数据进行模型训练,使深度模型具有物体特定性,无法迁移应用到新物体上。后来研究热点逐步转向类别级别 6D 姿态估计,用于处理未见过的物体,但要求该物体属于已知的感兴趣类别。而零样本 6D 姿态估计是一种更具泛化性的任务设置,给定任意物体的 CAD 模型,旨在场景中检测出该目标物体,并估计其 6D 姿态。尽管其具有重要意义,这种零样本的任务设置在物体检测和姿态估计方面都面临着巨大的挑战。
通用图大模型HiGPT:一己之力建模任何图结构关系!来自港大数据智能实验室&百度
一个模型建模所有图结构关系——香港大学数据智能实验室最新图结构大模型来了。它叫HiGPT,由GraphGPT原班人马打造。后者是将图数据与大模型结合的代表方法之一:通过用图指令微调将图数据与大模型对齐,在下游任务上一度彰显了惊人的泛化性(Zero-Shot)。HiGPT诞生,专攻复杂的异质图学习任务,并真正做到了“一个模型,建模任意关系类型”。
突发!Stability AI的CEO,跑路了
2024 年才第一季度,生成式 AI 明星公司就倒了俩:Inflection 和 Stability AI。生成式 AI 的明星创业公司 Stability AI,现在是风雨飘摇的状态。周六上午,Stability AI 突然发布一项公告,宣布公司 CEO Emad Mostaque 辞职。
OpenAI进军好莱坞:电影制作用Sora指日可待
自从 OpenAI 推出自动生成视频的 Sora 以后,很多人预测好莱坞可能要被 AI 代替了。现在,这家公司可能真的要走上这条路了。彭博社本周五报道,有知情人士透露,OpenAI 计划下周在洛杉矶与好莱坞电影公司、媒体高管和人才机构举行会议,以在娱乐行业建立合作伙伴关系,并鼓励电影制作人将其新的人工智能视频生成器整合到他们的工作中。一些不愿透露姓名的人士表示,即将举行的会议是 OpenAI 最近几周新一轮外展活动的组成部分。2 月底,OpenAI 安排在好莱坞举行由首席运营官 Brad Lightcap 主持的介绍性对话。Lightcap 与他的几位同事一起展示了 Sora 的功能。
https://mp.weixin.qq.com/s/tgWgPNhTpJmVuN8o3NGDJQ
32K上下文,Mistral 7B v0.2 基模型突然开源了
刚刚,Mistral AI 的模型又更新了。这次开源一如既往地「突然」,是在一个叫做 Cerebral Valley 的黑客松活动上公布的。这次开源的 Mistral 7B v0.2 Base Model ,是 Mistral-7B-Instruct-v0.2 背后的原始预训练模型,后者属于该公司的「Mistral Tiny」系列。此次更新主要包括三个方面:将 8K 上下文提到了 32K;Rope Theta = 1e6;取消滑动窗口。
刚刚,华人创办的 AI 视频生成公司 HeyGen 最新估值 4.4 亿美元!BenchMark 领投
外媒 Information 最新报道,HeyGen 目前正在筹集 6000 万美元,按照投资前估值 4.4 亿美元进行融资,该估值是四个月前该公司估值的六倍,最新一轮融资由 Benchmark 领投,曾早期投资过 Snap 和 Uber。去年 11 月,海外知名 VC Sarah Guo 创立的 Conviction 领投了上一轮。HeyGen 原名 Surreal,在 2020 年疫情期间,由前 Snap 软件工程师 Joshua Xu以及前字节产品设计师 Wayne Liang,于 2020 年底创立,根据 LinkedIn,它大约有 40 名员工。
OpenAl 申请 Voice Engine 新商标,或将开发一款 AI个人助理
OpenAI申请商标Voice Engine,暗示着OpenAI可能即将推出围绕语音引擎开发的产品或者服务,很有可能是类似Siri那样的个人助理产品。OpenAI正在申请一个新商标Voice Engine,商标的覆盖范围主要是围绕语音识别、语音合成和语音生成几个方面。这暗示着OpenAI可能即将推出围绕语音引擎开发的产品或者服务,很有可能是类似Siri那样的个人助理产品。
https://u sstock.jrj.com.cn/2024/03/23111839967122.shtml
推特
HuggingFace Clement:我们应该收购 Stability 并开源 SD3 吗?
HuggingFace Clement:我们应该收购 Stability 并开源 SD3 吗?
https://x.com/ClementDelangue/status/1771395468959813922?s=20
NousResearch世界模拟器:无定形应用的开端,大语言模型思维延伸
世界模拟器。谨慎进入 http://worldsim.nousresearch.com
我认为这是我们做过的最酷的项目之一。无定形应用的开端,展示了大语言模型能够将他们的思维延伸到何种创造力和想象力的高度。试试看——你就知道了。
https://x.com/Teknium1/status/1771745384462753826?s=20
200美元开源机械臂
开源机械臂,价格约200美元。它使用五个Dynamixel舵机,重量略高于100克(不含底座)。还包括一个leader arm的设计,以便您可以有效地远程操作它。(视频以1倍速播放)
https://github.com/AlexanderKoch-Koch/low_cost_robot
https://x.com/alexkoch_ai/status/1771649723423711283?s=20
Mistral新版本:Mistral 7B v0.2基础版,用于训练 Mistral-7B-Instruct-v0.2 的原始预训练模型
新版本发布:Mistral 7B v0.2基础版(用于训练 Mistral-7B-Instruct-v0.2 的原始预训练模型)
🔸 https://models.mistralcdn.com/mistral-7b-v0-2/mistral-7B-v0.2.tar
h ttps://x.com/MistralAILabs/status/1771670765521281370?s=20
Felix-8B:信任和精确度助手
🎉 介绍 Felix-8B:由 @ontocord 开发的值得信赖的语言模型
使用我们创新的自动紫色团队(auto-purpleteaming)技术和合成数据训练而成,Felix-8B 是在信任和精确度至关重要的行业中的完美助手。
https://huggingface.co/ontocord/Felix-8B
https://x.com/rasbt/status/1770805633698181383?s=20
Yohei:人工智能代理的四层记忆
https://x.com/yoheinakajima/status/1771325118385697004?s=20
Shumer分享Prompt技巧:文字代替量表获得更加细致的评分
如果你使用现成的大语言模型作为奖励模型/样本评分器,这里有一个技巧可以获得更好的性能:
不要让语言模型在数字量表上(如1-5)对样本进行评分。模型几乎总是选择1或5。相反,使用文字作为评分选项(“非常差”、”有点差”、”还行”、”好”、”非常好”)。模型会给出更加细致入微的评分。
https://x.com/mattshumer_/status/1771567959170839027?s=20
开源金融智能体:获取股票价格、财务数据、市场新闻
GitHub 仓库已经上线。你现在可以通过 LangServe 在浏览器中运行该智能体。
我将在未来几周内为仓库添加更多功能。下一步是使用 Hosted LangServe 将智能体发布到生产环境。然后,我们就可以从任何浏览器和设备访问该智能体。非常期待。
https://x.com/virattt/status/1771614341831201193?s=20
Cluade3 Haiku和Claude2比较:成本降低多达 32 倍
在对 Claude 3 Haiku 进行后期训练时,我最惊讶的是该模型相对于成本和效率提升速度的表现力。几点想法:
Haiku 在大多数基准测试中与 Claude 2 相当或更好,但成本降低了多达 32 倍。更准确地说,对于 Claude 3 Haiku,100 万个输入标记的价格降至 0.25 美元,比 Claude 2(8 美元)降低了 32 倍,而 100 万个输出标记的价格从 24 美元降至 1.24 美元(20 倍)。在原始智能方面,如此指数级的性价比提升将对经济产生重大影响。
成本的降低直接转化为研究速度的提高。随着成本的降低,研究人员和开发人员可以负担得起更多的实验,更快地迭代,并探索更广泛的想法。企业将能够自动化和优化内部流程,从而带来一些疯狂的效率和生产力提升。这在 Haiku 的后期训练中得到了验证——因为模型非常快,它帮助我们相当快地找到了最佳设置。
较低的成本也意味着新玩家进入市场的门槛降低。这也意味着某些人工智能能力将成为商品化。例如,基于人工智能的 PDF 上传服务公司可能很难实现差异化。我认为,我们将越来越多地看到人工智能产品采用基于价值的定价,专注于解决不同领域特定问题的独特工作流程,或者干脆创建一个新的基于人工智能的软件类别。
关于环境可持续性,显然,训练和推理所需的资源减少也意味着碳足迹的减少。
https://x.com/karinanguyen_/status/1771617619352645872?s=20
产品
Butternut AI 1.0
Butternut AI 可以帮助用户从一个简单的提示中快速创建完整的、多页面的网站。它可以根据用户的业务领域和目标受众智能地理解,并确定相关页面,设计网站(包括选择主题颜色、字体、组件、布局等),生成相关内容和图片。最终输出的是一个定制的网站,完全符合您的业务需求。
https://v2.butternut.ai/
SEO AI Writer
SEO AI Writer 可以帮助用户撰写优化博客文章以提高在搜索引擎中的排名。通过 SEO AI Writer,用户可以轻松生成富含搜索引擎优化关键词的博客文章,吸引搜索引擎算法的同时也吸引读者的注意。该工具不仅可以分析热门搜索结果、制定结构化大纲、整合战略性关键词,甚至生成引人注目的视觉内容,帮助用户在内容创作过程中更加高效。
https://seo-ai-writer-trial.robomotion.app/
H uggingFace&Github
AutoDev
AutoDev 是一个人工智能驱动的编码向导,具有多语言支持、自动代码生成和有用的错误调试助手。它包括可自定义的提示和神奇的自动开发、测试、文档和代理功能。
https://github.com/unit-mesh/auto-dev
FeatUp
FeatUp 可在不更改其语义的情况下将任何模型特征的空间分辨率提高 16-32 倍。
https://github.com/mhamilton723/FeatUp
MoneyPrinterTurbo
用户只需提供一个视频主题或关键词,就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐,然后合成一个高清的短视频。
https://github.com/harry0703/MoneyPrinterTurbo
投融资
Cohere寻求50亿美元估值进行融资
人工智能初创公司Cohere正进行最新一轮融资,以50亿美元的估值筹集5亿美元。该公司开发与OpenAI的ChatGPT竞争的基础模型,自12月以来年化收入从1300万美元增至2200万美元。Cohere由前谷歌研究员创立,专注于构建面向企业的AI模型,已与甲骨文合作,并计划拓展至其他主要云服务。去年六月,Cohere的估值为22亿美元,此次融资目标估值尚未被报道。
https://www.reuters.com/technology/ai-startup-cohere-seeks-5-bln-valuation-latest-fundraising-source-says-2024-03-21/
AI推理初创公司NeuReality完成2000万美元融资
AI推理及数据中心基础设施公司NeuReality近期完成了由欧洲创新理事会(EIC)基金、Varana Capital、Cleveland Avenue、XT Hi-Tech及OurCrowd支持的2000万美元融资轮。这一轮融资还包括Cardumen Capital、Glory Ventures和Alumni Venture Group的参与,使得这家以色列初创公司的总融资额达到7000万美元。NeuReality生产NR1-M AI推理模块和NR1-S AI推理设备,两者均采用公司的NR1网络可寻址处理单元(NAPU)系统芯片。此次融资将用于加速公司的NR1-M系统向更多客户和用户的部署。NeuReality成立于2019年,由Tzvika Shmueli、Yossi Kasus和Moshe Tanach共同创立。
公司官网:https://www.neureality.ai/
https://www.datacenterdynamics.com/en/news/ai-inferencing-startup-neureality-raises-20m-in-latest-funding-round/
Benchmark领投 AI视频初创公司HeyGen 4.4亿美元估值
HeyGen是一家利用人工智能生成视频中的虚拟形象和声音的初创公司,目前正在筹集6000万美元,预投资估值达到4.4亿美元,这是四个月前估值的六倍。早期投资于Snap和Uber的风险投资公司Benchmark正领导这一轮融资,尽管这轮融资尚未完成。HeyGen最初在中国创立,名为Surreal,目前总部位于洛杉矶,其早期资金来自包括红杉(原名为红杉资本中国)和真格基金在内的中国投资者。
公司官网:https://www.heygen.com/
https://www.theinformation.com/articles/benchmark-to-lead-investment-in-ai-video-startup-heygen-at-440-million-valuation?rc=z9mejq
学习
RLHF中SOTA奖励函数的先进训练方法
文章介绍了人类反馈的强化学习(RLHF)技术背后的最新进展,特别强调了奖励函数构造的重要性。RLHF通过改变模型输出分布,以适应人类偏好和价值观,涵盖监督学习、奖励函数构造和基于奖励函数的PPO策略优化三个阶段。指出了PPO训练的不稳定性导致该框架难以在开源领域复现,与此同时,RL-free方法如rejection-sampling finetuning和DPO(直接偏好优化)在过去一年中取得显著成就。文章还探讨了通过迭代DPO训练改善算法性能的可能性,提出了一个迭代DPO训练算法并在实践中通过使用高质量奖励函数进行反馈优化模型,展示了其在AlpacaEval榜单上的优异表现。最后,文章分享了训练奖励函数的脚本、数据处理技巧和超参数选择,强调了奖励函数在RLHF中的核心作用,并提出了未来工作计划。
https://zhuanlan.zhihu.com/p/688636894?utm_psn=1755166390074617856
LLaMA2 RLHF技术细节解析
文章详细解析了LLaMA2在人类反馈的强化学习(RLHF)技术细节上的创新,强调了Meta在RLHF实施过程中的技术路线和工程技巧。Meta采用了与RAFT算法一致的思路,并通过大量的工程实践和资金投入,成功超越了ChatGPT。LLaMA2 RLHF的关键在于奖励模型的构建和PPO训练的稳定性。Meta通过分阶段收集比较数据、优化损失函数、以及迭代DPO训练等方法,提升了算法的表现。特别地,Meta通过分别建模帮助性和安全性两个目标,并根据情景选择重要性,进一步细化了奖励函数的训练过程。此外,Meta的实验还包括了对温度超参数的研究和样本复用技巧,以提升模型训练的效果。整体上,LLaMA2 RLHF技术细节的分享,为AI领域的研究者提供了丰富的技术参考和启示。
h ttps://zhuanlan.zhihu.com/p/644680366?utm_psn=1755166669918580736
分布式环境中的文件锁模块filelock详解
本文深入介绍了在分布式训练或推理环境中常见的资源竞争问题,以及Python的filelock模块如何通过文件锁来解决这些问题。filelock模块允许在多进程/线程环境中同步对文件的访问,避免了数据损坏或读写冲突。通过创建一个.lock文件来实现锁机制,确保同时只有一个进程能够创建或写入特定文件。本文还讨论了FileLock和SoftFileLock两种锁的实现细节、使用方式、以及它们各自可能导致的死锁情况。FileLock通过操作系统的文件描述符和flock功能来实现加锁,而SoftFileLock则利用文件的存在性来实现简单的锁机制。文章指出,尽管SoftFileLock在解锁时会自动删除.lock文件,但在异常终止时可能会遗留.lock文件,从而引发死锁风险。
https://zhuanlan.zhihu.com/p/688712097?utm_psn=1755204300014477312
2024Q1再谈商用LLM的输出随机性分析
文章探讨了OpenAI作为代表的商用LLM API输出随机性问题,发现即便引入seed参数,输出随机性近半年来并未减少,反而增加。作者通过英中翻译任务的实验,测试了输出token长度超100时的随机性表现,发现大部分OpenAI模型在尽力控制后仍显著随机。特别是gpt-4-0613及后续版本在贪心解码下的平均相同长度仅在60-90范围,与期望的稳定输出差距大。推测原因可能是除gpt-3.5-turbo-0613外,其他模型采用特殊解码方案,消除随机性成本高,可能影响推理性能或成本。文章呼吁LLM应用开发者对API输出随机性保持警惕,定期评估依赖此类API的应用。
https://zhuanlan.zhihu.com/p/688676344?utm_psn=1755167741865390080
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/03/16747.html