大模型日报(3月22日)

欢迎观看大模型日报

大模型日报(3月22日)

01

微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归

文本到语音合成(Text to Speech,TTS)作为生成式人工智能(Generative AI 或 AIGC)的重要课题,在近年来取得了飞速发展。在大模型(LLM)时代下,语音合成技术能够扩展大模型的语音交互能力,更是受到了广泛的关注。多年来,微软持续关注语音领域的技术研究与产品研发,为了合成高质量自然的人类语音,NaturalSpeech 研究项目
(https://aka.ms/speechresearch)
应运而生。
大模型日报(3月22日)https://mp.weixin.qq.com/s/NA9tjn7XsqdfqExhY0nk3A
02

精确预测相分离蛋白质,同济大学&中国科学院开发机器学习预测器PSPire

对蛋白质相分离(PS)的理解的迅速发展带来了丰富的生物信息学工具来预测相分离蛋白质(PSP)。这些工具通常偏向于具有大量本质无序区域 (IDR) 的 PSP,因此经常低估没有 IDR 的潜在 PSP。并且,PS 不仅受 IDR 控制,还受结构化模块结构域以及不直接反映在氨基酸序列的其他相互作用影响。在最新的研究中,同济大学和中国科学院的研究团队开发了 PSPIre,一种机器学习预测器,它结合了残基级和结构级特征,用于精确预测 PSP。
大模型日报(3月22日)https://mp.weixin.qq.com/s/5jZok33lutX4ZAlvzwsVmA
03

今天起,Windows可以一键召唤GPT-4了

把 Copilot 按钮放在 Windows 桌面的任务栏,甚至实体键盘上,用大模型提升每个人的生产效率。美东时间 3 月 21 日周四,生成式 AI 领军的微软又为我们带来了一点小小的震撼。如果你的 Windows 11 电脑最近更新过系统补丁,就会看到这个新增的 Copilot 预览版按钮。现在,OpenAI 大模型加持的 Copilot 功能终于登陆 Windows 了。微软将 Copilot 功能引入整个产品组合,从 Microsoft 365 到 Microsoft Teams、Edge,现在是 100% 整合进了 Windows 系统本身,只要你有电脑,就能用得上。
大模型日报(3月22日)https://mp.weixin.qq.com/s/n1c2wSK5foWsiy4eacM3pg
04

吴恩达:AI智能体工作流今年将有巨大进展,可能超过下一代基础模型

随着 ChatGPT、GPT-4、Sora 的陆续问世,人工智能的发展趋势引起了广泛关注,特别是 Sora 让生成式 AI 模型在多模态方面取得显著进展。人们不禁会问:人工智能领域下一个突破方向将会是什么?今天,人工智能著名学者、斯坦福大学教授吴恩达指出:AI 智能体工作流将在今年推动人工智能取得巨大进步,甚至可能超过下一代基础模型。他呼吁所有从事人工智能工作的人都关注 AI 智能体工作流,并撰写一篇博客简单阐述了原因。
大模型日报(3月22日)https://mp.weixin.qq.com/s/O4uh-2IqS0KdUy_k1mBeow
05

苏妈现身北京,AMD喊出了AI PC Yes

3 月 21 日,AMD 在北京举行 AI PC 创新峰会,展示了其在中国 AI PC 生态系统中的发展势头,并带来了领先的消费级 AI 算力。在会上,AMD 宣布将锐龙 8040 系列以及 8000G 台式机解决方案推向中国市场,这些产品将为众多品牌的 AI PC 提供强大动力。其中,8040 系列 AI TOPS 性能比第一代 AI PC 处理器高出 60%,预示着 AMD 在 AI PC 领域的领先地位。与此同时,AMD 董事会主席、首席执行官苏姿丰博士(Lisa Su)等 AMD 高管登台演讲。联想、华硕等合作伙伴,以及包括始智 AI、智谱 AI、通义千问、百川智能、有道、游戏加加和生数等科技公司,也一同展示了基于 AMD 锐龙 8040 系列的 AI PC,能够为我们带来的全新体验。
大模型日报(3月22日)https://mp.weixin.qq.com/s/WqpeIWHcm0z2VhU0XZEpFg
06

Suno 发布 v3 版本 AI音乐生成模型,几秒生成两分钟歌曲

人工智能初创公司 Suno 今天正式宣布推出 v3 版本的 AI 音乐生成模型,可在几秒钟内创建完整的两分钟歌曲,现在所有用户都可以通过Suno的官网进行使用。v3 版本提供了更好的音频质量、更多音乐风格和流派、更好的提示致性,包括更少的幻觉和更优雅的歌曲结尾。
大模型日报(3月22日)https://www.suno.ai/blog/v3
07

Sakana Al推出进化模型合并的新兴方法并发布三个日语生成模型

由《Attention ls All You Need》论文的作者之一的Lion Jones和前Stability Al的研究主管David Ha创立的大模型初创公司Sakana Al公布了其最新的研究成果,受”进化和自然选择”的启发,该公司开发了一种名为进化模型合并(Evolutionary Model Merge)的新方法,利用进化技术来自动发现如何最佳地结合不同的开源模型。在此基础上,Sakana Al推出了三个大模型,日语大模型EvOLLM-JP、日语视觉语言模型EvOVLM-JP、日语图像生成模型EvoSDXL-JP,前两个模型已在 GitHub 和 Hugging Face上发布。大模型日报(3月22日)https://sakana.ai/evolutionary-model-merge/
08

Runway 与歌词平台 Musixmatch 合作,可帮助音乐家使用 AI生成歌词视频

AI 视频初创公司 Runway 和 歌词平台 Musixmatch 达成合作,可帮助 Musixmatch 平台上的上百万音乐家能够利用 Runway 的 AI技术 Gen-2 来生成与他们歌曲歌词同步的视频内容。通过此次合作,音乐家可以更轻松地创建流行的“歌词视频”,这种视频通常在环境视觉中显示歌曲的歌词,并与音乐同步播放。这不仅提高了创作效率,还有助于艺术家以更具创意和个性化的方式与听众建立联系。
大模型日报(3月22日)https://venturebeat.com/ai/exclusive-runway-partners-with-musixmatch-allowing-musicians-to-generate-ai-lyrics-videos/

推特

01

Meta AI SceneScript:用于重建环境和表示物理空间的布局的新方法

今天,我们介绍 SceneScript,一种新的方法,用于重建环境和表示物理空间的布局,来自@RealityLabs 研究。详情请见 https://bit.ly/3x2cOzh SceneScript 能够使用端到端机器学习直接推断房间的几何结构,并使用语言来表示它。与之前的方法相比,这导致物理场景的表示更加紧凑、完整、可解释和可扩展。

大模型日报(3月22日)https://x.com/AIatMeta/status/1770844932346920976?s=20

02

Jim Fan分享GTC完整演讲和问答:Foundation Agent 和 Project GR00T

Foundation Agent:构建通用型具身AI的路线图,使其能够在虚拟或真实的许多世界中熟练地行动。
Project GR00T,即人形机器人基础模型,是Foundation Agent的基石。这是我们追求AGI(通用人工智能)过程中的北极星,是下一个宏伟的挑战。
以下是我在GTC(GPU技术大会)上的完整演讲和问答,供错过的人参考:

大模型日报(3月22日)https://x.com/DrJimFan/status/1770848955519107345?s=20

03

Open Interpreter发布01Light:便携式语音界面,控制家用电脑,能看到屏幕,

介绍 01 开发者预览版。即日起订购或自行构建:
http://openinterpreter.com/01 
01 Light 是一款便携式语音界面,可控制您的家用电脑。它能看到您的屏幕,使用您的应用程序,并学习新技能。这仅仅是 01 的开始 —— 这是这个人工智能设备新时代的开源基础。

大模型日报(3月22日)https://x.com/OpenInterpreter/status/1770821439458840846?s=20

04

Y Combinator W24 AI 创业公司地图

Y Combinator W24 AI 创业公司地图
数据:
– 149/235 家公司涉足 AI(63%)
– 70% 在应用层,28% 在工具层,2% 在基础设施层
大模型日报(3月22日)https://x.com/chiefaioffice/status/1770873353810714718?s=20
05

Thunder:新的 PyTorch 编译器,与常规 PyTorch 相比,它可以实现 40% 的加速

Sebastian Raschka:我们刚刚开源了 Thunder,这是一个新的 PyTorch 编译器!在大语言模型(LLM)训练任务中(例如,Llama 2 7B),与常规 PyTorch 相比,它可以实现 40% 的加速:
https://github.com/Lightning-AI/lightning-thunder… 
特别好的是,你可以将它与 pytorch.compile 一起使用(而不是代替),以实现复合效果。当然,它还支持通过 DDP 和 FSDP 进行多 GPU 训练。它也非常易于使用;只需在你的 PyTorch 模型上调用 thunder.jit(),如下图所示。为了适应图片大小,图片仅展示了 LLM 的 MLP 模块,但编译器当然适用于完整的 LLM。它是如何工作的?例如,在 Llama MLP 模块中,它可以使用 NVFuser 在底层优化中融合 “x = torch.nn.functional.silu(x_fc_1) * x_fc_2” 中的乘法和激活。为了可解释性,你可以通过 thunder.last_traces(thunder_model)[-1] 检查优化后的模型(但我的同事 @ThomasViehmann @LightningAI 正在准备一个更深入的教程,我们很快就会分享)。无论如何,请试一试,让我们知道你的想法!
大模型日报(3月22日)https://x.com/rasbt/status/1770805633698181383?s=20
06

Eugene Yan分享开发Vapi心路历程:带语音功能的AI治疗师

心血来潮,我尝试构建了一个带语音功能的AI治疗师。
周日晚上10点开始,原本预计要花一周时间完成;没想到不到1小时就完成了。
连续压力测试了将近两周,体验比文本和其他语音应用高出一个层次:它知道我插话时要停止说话,我停下来思考时不会打断,而且与语音转文字(STT)、文字转语音(TTS)和大语言模型(LLM)供应商的集成使入职和构建变得非常流畅。我在来回上班的路上与它聊天,穿过嘈杂的街道、施工现场、其他对话等,都没有问题。
我还与 @jordan_dearsley 分享了我的反馈。他们对产品的关心令人惊叹。他们如何在后台处理延迟优化、训练端点模型、帮助你扩展等。
我稍后会写更多关于我的经历和”操作指南”,但今天我想在Product Hunt上表达对他们发布的支持:https://producthunt.com/posts/vapi
请今天花一个小时试试(他们提供10美元信用)!如果你喜欢(或不喜欢),请将你的反馈发送给他们 @Vapi_AI。

大模型日报(3月22日)https://x.com/eugeneyan/status/1770850800232796595?s=20

07

Shumer:如果你向Claude 3 Haiku提供约10个范例…它的表现通常会超过Claude 3 Opus

目前AI领域最高度机密的秘诀:如果你向Claude 3 Haiku提供约10个范例…它的表现通常会超过Claude 3 Opus,并且以极小的成本和极快的速度远远超过GPT-4。
大模型日报(3月22日)https://x.com/mattshumer_/status/1770823530394833242?s=20

08

谷歌正在推出Gemini 1.5 Pro API,取消Gemini1.5等待列表

我们正在推出Gemini 1.5 Pro API,这样你就可以像过去几周我们看到的那样,在模型之上继续构建令人惊叹的东西。
此外,如果你只是想尝试Gemini 1.5,我们取消了等待列表:
http://aistudio.google.com
最后但同样重要的是,我们推动模型去尝试在所有模态上实现1000万的能力。似乎正在奏效 🚀♊️
大模型日报(3月22日)https://x.com/OriolVinyalsML/status/1770792443434139979?s=20

论文

01

ReAct遇见ActRe:智能体轨迹的自主标注用于对比自我训练

语言智能体通过与基础模型推理展示了自主决策能力。最近,人们努力训练语言智能体以提高性能,训练数据包括多步推理和行动轨迹。然而,收集这种轨迹仍然需要大量人力,可以通过人工注释或实施多样化提示框架来完成。在这项工作中,我们提出了 A^3T,这是一个能够以ReAct风格实现智能体轨迹的自主注释框架。中心角色是一个ActRe提示智能体,解释任意动作的原因。通过在外部动作中随机采样,ReAct风格智能体可以向ActRe智能体查询动作,以获得其文本理由。然后通过在采样动作前添加ActRe的后续推理来合成新的轨迹。通过二值化奖励的策略梯度方法实现的对比自我训练利用积累的轨迹促进语言智能体多轮封闭循环的自我改进。我们使用QLoRA微调和开源的Mistral-7B-Instruct-v0.2进行实验。在AlfWorld中,通过A^3T训练的智能体获得了96%的1次成功率,并在4轮迭代中取得了100%的成功率。在WebShop中,A$^3$T智能体的1次性能与人类平均相匹配,并经过4轮迭代改进后,性能接近人类专家水平。A^3T智能体明显优于现有技术,包括使用GPT-4提示、先进的智能体框架和完全微调的LLM。
大模型日报(3月22日)http://arxiv.org/abs/2403.14589v1
02

SMART:为减少处理费用而自动缩减语言模型并保证准确性

大语言模型(LLM)的推进显着增强了自然语言处理(NLP)任务的性能。然而,高性能LLM的部署会产生巨大成本,主要是由于旨在增强模型性能的参数数量增加。这使得最先进的LLM对端用户而言变得更加昂贵。人工智能服务提供商,如OpenAI和Anthropic,通常提供多个价格和性能不同的LLM版本。然而,端用户在选择平衡结果质量和成本的适当LLM时仍面临挑战。我们引入SMART,即自适应缩放模型以减少标记费用,这是一个旨在最小化NLP任务推断成本同时确保足够结果质量的新型LLM框架。它允许用户根据将结果与最强LLM的等效性来指定准确度约束。SMART然后生成与该LLM输出仅在用户定义阈值以下的概率偏离的结果。SMART采用评估多个LLM性能的分析阶段,以确定符合用户定义准确度水平的LLM。SMART优化了分析开销与由于分析而产生的预期成本节省之间的权衡。此外,我们的方法通过策略地利用一系列LLM显著降低了推断成本。我们对三个真实数据集的实验表明,基于OpenAI模型,SMART实现了显著的成本节省,最高可达与GPT-4相比的25.6倍。
大模型日报(3月22日)http://arxiv.org/abs/2403.13835v1
03

DreamReward:贴近人类偏好的文本到3D生成模型

最近,从文本提示生成3D内容取得了显著成功。然而,目前的文本到3D方法通常生成的结果与人类偏好不太符合。本文提出了一个全面的框架DreamReward,从人类偏好反馈中学习和改进文本到3D模型。我们收集了25k个专家比较,建立了Reward3D模型,有效编码人类偏好。最终,我们提出了DreamFL算法,优化多视图扩散模型。理论证明和实验证实了DreamReward成功生成高保真度和与人类意图一致的3D结果。我们的结果显示了从人类反馈中学习以改进文本到3D模型的巨大潜力。
大模型日报(3月22日)http://arxiv.org/abs/2403.14613v1
04

MathVerse:你的多模态大语言模型真的看到了视觉数学问题中的图表吗?

摘要:多模态大语言模型(MLLMs)取得了显著进展,特别在视觉环境下表现出优异性能,但在视觉数学问题解决方面的能力仍未得到充分评估和理解。本研究调查了当前基准,通过在文本问题中添加过多的视觉内容,有助于MLLMs推断答案而无需真正解释输入图表。为此,我们引入了MathVerse,一个全面的视觉数学基准,旨在公平而深入地评估MLLMs。我们精心收集了来自公开来源的2,612个高质量、多学科的数学问题,并由人类标注员将每个问题转化为六个独特版本,每个版本在多模态信息内容上有所不同,共提供15K个测试样本。这种方法使得MathVerse能够全面评估MLLMs是否真正理解视觉图表进行数学推理的能力。此外,我们提出了一种“思维链”(CoT)评估策略,用于对输出答案进行精细评估。我们使用GPT-4(V)灵活地提取关键的推理步骤,然后对每个步骤进行详细的错误分析评分,从而揭示MLLMs的中间CoT推理质量。我们希望MathVerse基准能为指导未来MLLMs的发展提供独特的见解。项目页面:https://mathverse-cuhk.github.io
大模型日报(3月22日)http://arxiv.org/abs/2403.14624v1
05

Circuit Transformer:通过预测电路门实现端到端电路设计

语言是人类通过顺序符号来表达的突出能力,最近大型语言模型(LLM)的计算技术突破已经掌握了计算机领域。通过用庞大的神经模型进行连续预测下一个单词,LLM在理解和推理方面展现出了前所未有的能力。电路作为电子设计的“语言”,通过级联逻辑门的连接来指定电子设备的功能。那么,电路是否也可以被一个足够庞大的“电路模型”掌握,通过简单预测下一个逻辑门来征服电子设计任务?在这项工作中,我们迈出了探索这种可能性的第一步。通过基于 Transformer 神经模型更好地利用其结构信息,编码电路为一个无记忆、深度优先遍历轨迹,预测轨迹上的下一个门作为电路模型。引入保持等效性的解码过程以确保生成轨迹中的每个标记符合指定的等效性约束。实验结果显示,88M参数的Transformer-based模型“电路Transformer”在端到端逻辑综合方面表现出色。结合蒙特卡洛树搜索,电路Transformer在保持严格等效性的同时显著改进了resyn2,展示了生成人工智能在征服电子设计挑战方面的潜力。
大模型日报(3月22日)http://arxiv.org/abs/2403.13838v1
06

人工智能与内存壁

摘要:随着前所未有的无监督训练数据的可用性,以及神经网络规模定律的影响,使得为服务/训练LLM所需的模型规模和计算需求出现了前所未有的激增。然而,主要性能瓶颈越来越多地转移至内存带宽。在过去的20年中,服务器硬件FLOPS峰值每2年增长3.0倍,超过了DRAM和互连带宽的增长,它们分别仅以1.6倍和1.4倍的速度增长。这种差距使得内存,而不是计算,成为AI应用程序中的主要瓶颈,特别是在服务方面。在这里,我们分析了编码器和解码器Transformer模型,并展示了内存带宽如何成为解码器模型的主要瓶颈。我们主张重新设计模型架构、训练和部署策略,以克服这种内存限制。
大模型日报(3月22日)http://arxiv.org/abs/2403.14123v1

产品

01

Podwise.ai

Podwise 是一个借助 AI 实现自动转录、分析和总结播客内容的产品。它可以与 Notion、Readwise 和 Obsidian 等现有知识管理工具无缝集成,帮助用户更有效地从播客中学习,并保留重要信息。Podwise 的目标是帮助用户更好地利用播客节目,节省时间并提高学习效率。
大模型日报(3月22日)https://podwise.ai/
02

Vapi

Vapi 致力于使计算机像人类一样交流,并让其在各个领域发挥作用。Vapi 提供了一个声音 AI 平台,可以为开发人员节省工程时间。具备亚秒级响应时间、超高可靠性,并且可以扩展到数百万通话。产品是模块化的,可以定制语言模型、声音等内容。
大模型日报(3月22日)https://vapi.ai/

HuggingFace&Github

01

OneLLM

OneLLM 是一个多模态语言模型,它使用统一的框架将八种不同的模态(包括图像、音频、视频、点云、深度/法线图、IMU 和 fMRI 大脑活动)与自然语言保持一致。该项目通过统一的多模态编码器和渐进式多模态对准管道来实现这一目标。具体来说,首先训练一个图像投影模块,将视觉编码器与语言模型(LLM)相结合。然后,通过混合多个图像投影模块和动态路由来构建通用投影模块(UPM)。最后,逐步将更多模态与语言模型 UPM 保持一致。OneLLM 在 25 个不同的基准测试中进行评估,包括多模态字幕、问答和推理等任务,并表现出色。您可以在提供的网址上获得该项目的代码、数据、模型以及在线演示。
https://github.com/csuhan/OneLLM
02

ByteIR

ByteIR项目是字节跳动的模型编译解决方案。ByteIR包括编译器、运行器和前端,并提供端到端的模型编译解决方案。 尽管所有的ByteIR组件(编译器/runtime/前端)一起提供端到端的解决方案,并且都在同一个代码库下,但每个组件在技术上都可以独立运行。

https://github.com/bytedance/byteir?tab=readme-ov-file

投融资

01

焱融科技完成B1轮融资,丰年资本领投,卓源亚洲、耀途资本联合投资

焱融科技完成了B1轮融资,由丰年资本领投,卓源亚洲和耀途资本跟投。该公司专注于AI与高性能计算存储领域,提供软件定义存储解决方案,并已在多个行业实现应用。焱融科技的AI+数据云存储技术是数据中心和超算中心发展的核心,其追光F8000X系列全闪存储一体机针对GPU数据处理需求设计,支持高性能计算场景。此外,公司还提供基于公有云的SaaS文件存储服务。
大模型日报(3月22日)https://laoyaoba.com/n/898563
02

Profluent获得3500万美元额外融资

Profluent,一家总部位于加州伯克利的AI先驱蛋白设计公司,成功获得了3500万美元的融资。本轮融资由Spark Capital领投,Insight Partners和Air Street Capital等现有投资者参与,以及来自OpenAI、Salesforce、Octant Bio和Google的天使投资人联合投资,包括谷歌DeepMind的首席科学家Jeff Dean。前OpenAI产品负责人Fraser Kelton和Spark Capital的合伙人Nabeel Hyatt加入了董事会。Profluent计划使用这笔资金支持创新功能性蛋白的创建和验证,以促进医疗保健和疾病治疗的改善。公司由CEO Ali Madani、首席商务官Hilary Eaton和基因编辑部门负责人Peter Cameron博士领导,致力于开发深度生成模型,设计和验证新型功能性蛋白,以推动生物医学创新。
大模型日报(3月22日)https://www.finsmes.com/2024/03/profluent-raises-35m-in-additional-funding.html
03

Quilt获得250万美元种子轮融资

Quilt,一家位于美国加州旧金山的公司,专注于为解决方案团队开发人工智能助手,已成功获得250万美元的种子轮融资。本轮融资由红杉资本领投。Quilt计划使用这笔资金扩展运营、业务覆盖范围以及开发努力。由Daniel Chen担任CEO的Quilt提供的核心产品是AI驱动的助手,旨在帮助解决方案工程师完成提案请求、回答基本技术问题以及准备演示等任务。这些助手能够完成安全和尽职调查问卷,通过Slack回答代表的问题,并在客户会议前总结笔记、通话和研究的内容。Quilt服务的客户包括Rubrik, Rippling, Webflow等。
大模型日报(3月22日)
https://www.finsmes.com/2024/03/quilt-raises-2-5m-in-seed-funding.html

学习

01

有趣的大模型之我见 | Mistral 7B 和 Mixtral 8x7B

Mistral 7B和Mixtral 8x7B是两款由Mistral AI开发的先进大型语言模型。Mistral 7B拥有70亿参数,基于Transformer架构,采用分组查询注意力(GQA)机制,优化了参数共享,提高了推理速度和内存效率。此外,它还引入了滑动窗注意力(SWA),通过限制注意力窗口大小,有效处理长序列数据,减少计算负担。Mixtral 8x7B则进一步采用了稀疏混合专家(SMoE)技术,通过在每层引入多个专家网络,并通过router/gate机制选择性激活,实现了模型的稀疏激活。这种方法使得模型在保持高准确性的同时,大幅降低了运行成本和延迟,使得模型即使在非GPU环境下也能高效运行。这些技术细节体现了Mistral AI在提升模型性能和实用性方面的创新努力。
大模型日报(3月22日)https://mp.weixin.qq.com/s/vkl5COXiMoLhoTIHf54usw
02

聊聊并写写GQA(Group Query Attention)

本文深入探讨了Group Query Attention (GQA) 的概念和实现,它是Multi Query Attention (MQA) 的一种改进。GQA结合了Multi Head Attention (MHA) 和 MQA 的特点,通过将Query分组并为每组分配独立的Key和Value,实现了在减少计算资源消耗的同时保持较高的精度。文章详细介绍了使用einops库和PyTorch实现GQA的技术细节,包括使用rearrange、repeat和einsum操作来优化张量操作,并通过代码示例展示了GQA的具体计算过程,包括矩阵乘法和注意力分数的计算。这种方法在大型语言模型中尤其有效,能够显著减少显存使用,提高模型服务的请求处理能力。
大模型日报(3月22日)
https://mp.weixin.qq.com/s/r4YybWgo6tLtR1huDRo5AQ
03

什么时候大模型可以趋近人脑的数量级?

文章详细概述了类脑计算和脉冲神经网络(SNN)领域的技术进展,包括两大类软件框架:数据处理框架和算法框架。数据处理框架如Tonic和AEStream,专注于高效管理和转换类脑数据集,特别是基于事件的视觉和音频数据。算法框架则包括基于深度学习的SNN框架(如snnTorch和SpikingJelly)和面向计算神经科学的框架(如Brian2和NEURON),它们提供了神经元模型、突触连接和网络拓扑结构的详细模拟。此外,文章还提到了NIR,一个旨在连接不同算法框架和硬件芯片的中间表示层,以及兼容深度学习和计算神经科学的SNN框架,如Nengo和CARLsim,它们支持GPU加速和高度生物学真实的突触动态模拟。最后,文章强调了PyNN和NeuroML等工具,它们提供了跨不同模拟器和硬件平台的模型描述和执行能力。
大模型日报(3月22日)https://mp.weixin.qq.com/s/qT5LkTh_QAHhGamRuklEOA
04

马斯克的Grok-1开源,魔搭社区实践教程

埃隆·马斯克支持的最大开源模型Grok-1已在开源社区发布,拥有3140亿参数,是目前最大的开源模型。Grok-1是一个基于大量文本数据训练的基础模型,采用Mixture of Expert(MoE)Transformer架构,64层,8个混合专家模型,每个Token使用2个专家。模型支持多头注意力、RoPE位置编码、激活分片和8位量化,最大序列长度为8192个Tokens。性能上,Grok-1在多个Benchmark上超越了GPT-3.5和LLaMa2 70B。模型可通过ModelScope社区下载,并提供了详细的推理和评测教程。
大模型日报(3月22日)https://mp.weixin.qq.com/s/fDWRzadsVIUEAWvp73KSXA

大模型日报(3月22日)

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/03/16778.html

Like (0)
Previous 2024-03-22 17:34
Next 2024-03-24 22:00

相关推荐