我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢迎大家一起交流!

资讯
Google与Kairos Power签署合作协议,利用微型核反应堆为数据中心供电
谷歌近日宣布与核能初创公司Kairos Power达成合作协议,计划建设7座小型反应堆,为其数据中心提供约500兆瓦的无碳电力。这些核电站预计将在2030年之前上线,以应对数据中心和人工智能对电力需求的急剧增长。虽然具体是直接为谷歌的数据中心供电,还是通过电网供应尚不明确,但这一合作标志着谷歌加入了微软和亚马逊等科技巨头,开始转向核能以满足其日益增长的电力需求。
尽管Kairos的目标是2030年投入运营,但核电项目建设通常面临巨大的挑战。Kairos计划使用小型模块化反应堆(SMR)技术,该技术通过模块化制造和快速施工降低成本和时间。Kairos的反应堆采用熔盐冷却技术,而非传统的水冷方式,已获得美国核监管委员会的批准进行35兆瓦示范反应堆建设。
然而,尽管Kairos取得了监管进展,但面临的挑战依然巨大。SMR的经济性尚未得到商业验证,此外,公众对核能的支持也不稳定,尤其是在选址问题上仍存在较大争议。相比核能,公众对风能和太阳能的支持率更高,这也为核能项目的推进增添了不确定性。
https://techcrunch.com/2024/10/14/google-signed-a-deal-to-power-data-centers-with-nuclear-micro-reactors-from-kairos-but-the-2030-timeline-is-very-optimistic/
OpenAI挖走微软生成式AI研究主管
OpenAI从微软挖来了生成式AI研究的副总裁塞巴斯蒂安·布贝克(Sebastian Bubeck),这一变动首先由《The Information》报道,并得到路透社的确认。布贝克是微软Phi模型系列的主要作者之一,这些小型语言和视觉模型旨在推动AI应用进入边缘设备。这种技术正变得越来越重要,尤其是在某些市场中,离线、快速处理的设备端模型逐渐取代了大型集中式模型,如OpenAI的GPT-4。
布贝克的新角色尚未公开,但很可能他将在OpenAI致力于提高AI模型的效率及开发小型模型——这是目前OpenAI尚不占据主导地位的AI领域。
https://techcrunch.com/2024/10/14/openai-snatches-up-microsoft-generative-ai-research-lead/
迟分是什么,不是什么【下篇】
文章主要深入探讨了迟分策略(Late Chunking)与其相关的概念和技术细节。作者建议先阅读上一篇文章《长文本 Embedding 模型中的“迟分”策略》以及研究论文,以便更好地理解迟分在处理长文档时的重要性。
-
边界断点如何确定:可以使用固定长度的 Token、固定数量的句子,或者使用语义分割模型,如 Jina 的 Segmenter。
-
上下文信息的丢失:在分块向量化的过程中,容易丢失全局上下文信息。
传统解决方案多集中在边界检测上,如语义分块,通过确保相似度高的句子在一起,最大程度上保留语义完整性。然而,文章认为第二个问题——上下文信息丢失更为关键。
迟分策略的主要目的是解决上下文信息丢失问题。与其他分块方法不同,迟分采取了“先向量化后分块”的方式。具体而言,它先对整个文档进行编码,然后再基于边界线索进行均值池化操作。这样可以确保全局上下文信息不会在向量化过程中丢失,且对分块边界的精确性要求也不高。
实验表明,迟分策略对不同大小的向量模型(如 jina-embeddings-v2-small、nomic-v1、jina-embeddings-v3)在不同数据集上都有稳定的性能提升。尽管迟分有效,但向量模型的质量依然是决定最终性能的关键因素。通过相对基线模型的比较,迟分策略在边界线索的使用上表现出对模型性能的显著改进。
另一个常见的误解是认为迟分仅考虑了前向的上下文,实际上,迟分是双向依赖的,因为它利用了向量模型的全局注意力机制,能够同时考虑上下文窗口内的所有信息,增强了全局语义的捕捉能力。
迟分策略不需要额外训练向量模型,任何使用均值池化的长文本向量模型都可以应用。文章还比较了其他上下文增强方法,如 Anthropic 的上下文检索,但强调迟分在效率和资源消耗上有更大优势。
结论是,迟分策略是基于对 Transformer 机制深刻理解的高效方法,能够在长文本处理中提供更加自然和精准的结果。

https://mp.weixin.qq.com/s/3eDgCZrjHTOiNzoHJclhpg
特斯拉FSD深度:架构详解、优势及不足、入华进度及相关公司深度梳理
特斯拉在全球智能驾驶领域处于领先地位,其完全自动驾驶(FSD)系统是一套集感知、规划、执行等全链路的自动驾驶软硬件架构,具有高度集成的算法、算力和数据支持。FSD系统功能包括自动变道、自动泊车、智能召唤、交通灯识别等,其技术优势主要体现在数据积累、强大算力以及自研硬件的适配性。特斯拉通过海量的行驶数据不断迭代优化其FSD技术,最新版本V12实现了端到端神经网络架构,进一步提升了系统的智能化水平。
近年来,由于电动汽车业务的增速放缓,特斯拉将FSD视为新的利润增长点,推出订阅制以增加经常性收入。同时,特斯拉积极推动FSD在全球,尤其是在中国这一全球最大新能源汽车市场的应用。中国市场对FSD的潜在需求巨大,但FSD进入中国市场面临两大挑战:其一是数据安全问题,特斯拉已经通过本地数据存储等举措提升合规性;其二是自动驾驶技术的分级,中国要求L3及以上等级的自动驾驶才能被定义为自动驾驶,特斯拉的L2级技术需进一步提升。
特斯拉的FSD有望推动中国智能驾驶技术的发展,激发国内市场需求,带来“鲶鱼效应”。特斯拉的FSD和Robotaxi将通过技术突破和市场扩展对国内智能驾驶产业链产生积极影响。相关公司如经纬恒润、德赛西威、旭升集团等也将从中受益,共同推动智能驾驶的快速发展。
https://mp.weixin.qq.com/s/kZjukuLMJLqfHsmrG0P0fA
推特
最甜甜甜的小草莓:🍓 Ichigo-llama3.1,本地实时语音AI
🍓 Ichigo-llama3.1: 本地实时语音AI
现在,您可以在自己的设备上运行这个小草莓了!单张 @nvidia 3090 GPU 的演示。

https://x.com/omarsar0/status/1832143997512642635
AgentStack开源:开始下一个 Agent 项目最简单的方式
正式开源了 AgentStack!这是开始您的下一个 Agent 项目最简单的方式。
AgentStack 适用于 Python 3.10+,许可证:MIT
创建 Agent 项目 – 如何创建一个新的 Agent 项目。
用户指南 – 如何使用 AgentStack 开发启动的 Agent 项目。
AgentStack 兼容 macOS、Windows 和 Linux。
https://x.com/braelyn_ai/status/1845938983727255673
Model2Vec:通过将词汇表传递给 Sentence Transformer 来
提取一个快速模型
Model2Vec 通过将词汇表传递给 Sentence Transformer 来提取一个快速模型,通过 PCA 降低嵌入维度并应用 Zipf 加权。生成的静态嵌入推理速度极快,例如每秒可处理 10k 条文本:
https://huggingface.co/blog/Pringled/model2vec
https://x.com/tomaarsen/status/1845875524297806143
Adobe推出Project Concept:在 AI 时代的情绪板和概念设计,专为每个创意旅程的早期阶段设计的 AI 优先产品
很高兴分享一个新产品(也是 Adobe 的新类别):Project Concept,在 AI 时代的情绪板和概念设计。
Project Concept 是一款专为每个创意旅程的早期阶段设计的 AI 优先产品,旨在减少我们在生产中枯燥重复的部分上花费的时间,更多地探索可能性的全方位并找到更好的想法。它结合了 Adobe 最新的 Firefly 生成式 AI 模型功能,帮助你快速探索潜在的艺术方向,混合图像,转换资源的区域,并重新混合风格、背景和其他组成部分。
你可以使用自己的资源或其他灵感来源来启动项目。然后,Project Concept 使用 AI 和协作工具来帮助进行发散思维,揭示任何创意项目的广泛可能性,同时进行聚合思维,将想法结合在一起,应用控制,最终选择要采用的最终方向。
对此非常期待。Project Concept 今天进入私人测试版,现在回去继续工作了……#AdobeMAX

https://x.com/scottbelsky/status/1845849779856662583
xAI黑客马拉松第一名: Chrome 扩展程序,将自己的算法应用到任何网站上,使用 grok 来过滤信息流
我们昨天在 @xAI 黑客马拉松中获得了第一名!感谢 @xAI 团队的举办——非常有趣。
我们构建了一个 Chrome 扩展程序,允许你将自己的算法应用到任何网站上,使用 @grok 来过滤你的信息流,从 X 开始。

https://x.com/SohilAthare/status/1845662874275926412
产品
LLMWare
LLMWare 是一个专注于小型语言模型的开发工具,希望为企业提供安全、私密的人工智能应用。它支持在本地或私有云中运行,确保敏感数据的安全,特别适合金融服务和合规行业。通过丰富的开源示例和视频教程,帮助开发者快速上手,自动化日常工作任务。
PicLooks
PicLooks 是一个提供免费 AI 生成头像的平台,希望为设计师提供真实感强、种类多样的个人资料图片,帮助他们节省寻找库存照片的时间。所有头像均可用于商业用途,且看起来更像真实的人,而非模特。
https://www.piclooks.com/landing/avatars
投融资
Beyond Presence创始人融资310万美元,打造超逼真虚拟化身
德国慕尼黑的初创公司Beyond Presence正在利用人工智能和计算机视觉技术开发超逼真的虚拟化身。该公司最近完成了首轮融资,获得了310万美元的预种子轮投资。领投方是德国的HV Capital,参投者包括10x Founders、Alba VC以及来自Meta、DeepMind和Zalando的个人投资者。
这笔资金将用于继续开发公司核心技术模型,并计划在本月末推出公测版。该产品预计将在客户服务、招聘、销售和电子学习等领域应用,帮助企业扩大用户互动规模。
Beyond Presence的联合创始人兼CEO Awais Shafique曾创办Presize,一家可以通过智能手机摄像头录制视频测量用户尺寸的计算机视觉公司。Presize在2022年被Meta收购,为其创始团队带来了可观的退出收益。这次成功的退出也为Shafique的最新创业项目奠定了良好的资本基础,吸引了多家投资者在产品尚未正式发布时提供融资支持。
公司官网:https://www.beyondpresence.ai/
https://techcrunch.com/2024/10/14/after-selling-his-last-ai-startup-to-meta-beyond-presences-founder-nabs-3-1m-to-build-realistic-avatars/
-
-
-
— END —
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/10/21585.html