我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢 迎 大 家 一 起 交 流 !
潜空间活动报名
本期活动将在11月9日 10:00开始,我们邀请到的嘉宾是鱼哲,Lepton AI 创始成员,曾在阿里云担任高性能 AI 平台产品负责人,专注于 AI 在多个行业的落地及应用。Lepton AI 致力于建立高效可用的AI 基础设施,让团队更关注于应用构建及落地。在本次分享中鱼哲将带来关于不同AI产品形态对团队的挑战相关的思考,分享主题《Beyond Infra,What matters?—— 不同AI产品形态对团队的挑战》。除嘉宾分享外,每期设置了【匹配合伙人 Cofounder Matching】环节。你可以和 GenAI 时代最有活力的创业者和研究者线下面对面交流,将有机会找到志同道合、有共同创业梦想的小伙伴。报名通道已开启,欢迎扫描下方二维码报名。
资讯
OpenAI推出ChatGPT搜索,挑战谷歌市场地位
OpenAI正式发布了ChatGPT Search,这是一个旨在提供“及时答案”的搜索工具,是其此前SearchGPT原型的升级版。该功能集成于ChatGPT平台中,使用优化后的GPT-4o模型支持,从网上获取信息与图片,以提供如体育比分、新闻、股票行情等信息,并附带链接,便于用户进一步查询。
即时搜索:ChatGPT Search可以根据用户的提问自动选择是否进行网络搜索,用户也可以通过点击图标手动激活搜索功能。
信息来源标注:在回答中,ChatGPT Search提供了新闻来源及其他数据的边栏和内联标注,例如,当用户查询某地活动时,ChatGPT会从当地新闻来源中提取信息。
分阶段发布:ChatGPT Search首先面向ChatGPT Plus和Team用户开放,未来几周内将推广至企业和教育用户,最终向免费用户开放。
OpenAI还推出了一个浏览器扩展,可将ChatGPT Search设为Chrome中的默认搜索引擎。同时,公司计划不断优化搜索功能,尤其在购物和旅游领域,并打算将其应用于高级语音模式(Advanced Voice Mode)功能。
AI生成的概览式信息功能引发了一些出版商的不满,担心流量被截留。OpenAI表示,ChatGPT Search在选择相关文章和生成摘要时已考虑到合作出版商的反馈,以便减轻对来源网站流量的影响。
https://techcrunch.com/2024/10/31/openai-launches-its-google-challenger-chatgpt-search/
Meta开发具备触觉感知的机器人手
Meta宣布与传感器公司GelSight和韩国机器人公司Wonik Robotics合作,推进AI触觉传感器的商业化。这些新设备主要面向科学研究领域,而非普通消费者,旨在帮助AI“更精细地感知和理解物理世界”。
Digit 360传感器:Meta与GelSight合作推出了这一具有人类多模态感知能力的指尖传感器。Digit 360使用了内置AI芯片和18个传感特征,可感知振动、温度甚至气味。这款设备预计将于明年上市。
Allegro机器人手:Meta与Wonik合作开发了新一代的Allegro机器人手,集成了Digit 360等触觉传感器,并配备控制板,能将触觉数据编码并传输至主机电脑。新款Allegro手计划于明年推出。
https://techcrunch.com/2024/10/31/meta-is-making-a-robot-hand-that-can-feel-touch/
Claude 新增桌面应用与语音输入功能
Anthropic公司推出了Claude聊天机器人的Mac和Windows桌面应用,现已在公测阶段开放下载。该应用为免费用户和Anthropic的高级用户均可使用,但尚未包含最新推出的“电脑操作功能”(Computer Use),即Claude 3.5 Sonnet版本的高级功能,无法直接在PC上执行任务。
此外,Claude还推出了移动端的语音输入工具。在iOS、Android和iPadOS设备上,用户可以录制最长10分钟的语音信息,Claude将转录并回复内容。然而,这一语音输入功能并非实时交互模式,更类似于发送语音消息的体验。该功能暂未引入桌面应用。
这一更新发布之际,Anthropic公司正寻求以超过400亿美元的估值融资数十亿美元,意在增强Claude的竞争力,使其在市场中与OpenAI的ChatGPT等竞争对手抗衡。
https://techcrunch.com/2024/10/31/claude-gets-desktop-apps-and-dictation-support/
人工智能应用由认知到产业渗透阶段,各行业对AI技术赋能的拥抱态度更加明确。随AI原生或AI Agent行业产品落地,对AI能力变现路径,各公司存在差异。归结为四种商业化路径:MaaS按量计费、SaaS订阅制计费、解决方案及实施部署、流量变现。
大模型性能提升+降本,MaaS预计2027年前成主流商业模式。MaaS降低中小企业应用门槛,2023年MaaS市场规模约5%,预计至2027年,市场规模占比达47%。对MaaS厂商,上半场为智算基础设施的比拼,下半场关键在规模效应释放及用户使用粘性。因此,随头部模型厂商将模型能力普惠化,落地推广也随之加速,主流MaaS厂商部分模型降价以培养用户习惯及生态。行业软件积极探索AI+垂类落地,助力用户拓展及留存。
AI SaaS以订阅制为主,B端较C端变现更快。当前71.05%的AI SaaS采用订阅制,约7成应用仍处免费或试用以积累用户的阶段,约3成应用定价非公开。B端变现模式清晰且更快盈利,C端空间大、供给激发需求、增长潜力强但模式仍在探索。AI功能推动订阅收入占比提升,福昕软件2023年订阅制收入占比由22年21.2%提升至35.4%。金山办公WPS AI推动订阅制、云化转型,提升用户粘性。WPS AI会员和大会员累计年度付费用户数合计已超百万,至2026年C端AI边际收入有望达18亿元。
行业软件AI+垂类落地利于用户拓展及留存,企业级应用当前较大比例仍为非标准化,一定程度的联合开发,根据投入协商定价。
解决方案及实施部署,头部厂商发挥客户及渠道优势,由标杆案例逐步标准化。企业数智化项目招标市场明显扩容,2023年大模型采购190起,其中49%为B端需求,10%为G端需求,2023Q4平均项目预算升至618万元。国内DCS龙头中控技术AI赋能降本显著,发布流程工业首款AI时序大模型TPT,打造智能工厂。中软国际携手华为,打通AI落地应用最用一公里。
微软万引理论大佬跳槽OpenAI
前微软副总裁及杰出科学家Sebastien Bubeck加入OpenAI,曾在微软工作10年,在计算机理论、机器学习理论(如凸优化、在线学习、对抗稳健性)上贡献卓越。2021年,他的理论研究论证了扩大AI模型的重要性,促使微软投入数十亿美元用于AI基础设施,为OpenAI大模型的训练与部署提供支持。
Bubeck在参与未对齐版GPT-4的早期测试后转向AGI研究,创立“AGI的物理学”理论,提出用物理学分析Transformer模型的复杂性,将系统分解以识别关键行为因素。带领团队发布的《AGI的火花》报告引发轰动,尽管实验方法并非严谨,他依然坚持“GPT-4具备推理能力”。其研究强调Transformer与RNN的差异:Transformer按集合处理输入,强化模型对元素关系的理解。
在微软,他主导Phi系列小模型研究,通过控制训练数据质量提升模型性能,已迭代至phi-3.5,并广泛应用于本地大模型工具。如今,OpenAI和微软合作关系显现裂痕,双方在服务器供应和模型选用上各自扩展新选项。
Bubeck还提到大模型智力的评估标准,展示GPT-4生成独角兽图像的能力。
推特
00 Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式
HOVER模型:不用庞大数据集,仍然可以捕捉人类协调平衡时的“潜意识”,学习如何协调电机
并非每个基础模型都需要庞大。我们训练了一个拥有150万参数的神经网络来控制人形机器人的身体。对人类而言,行走、保持平衡,以及协调四肢动作需要大量的潜意识处理。我们在 HOVER 模型中捕捉到了这种“潜意识”,使其能学习如何协调人形机器人的电机,以实现运动和操控。
我们在 NVIDIA 的 Isaac 仿真套件中训练 HOVER,这是一个 GPU 支持的仿真环境,加速物理仿真速度达到了实时的 10,000 倍。为了帮助理解这个速度,机器人在虚拟的“道场”中经历一年的高强度训练,仅需要约 50 分钟的 GPU 实时运行。这个神经网络模型能够零样本迁移至现实世界,而无需进行微调。
HOVER 可以被“提示”执行各种高层次的动作指令,我们称之为“控制模式”。例如:
• 头部和手部姿势:可通过 XR 设备(如 Apple Vision Pro)捕捉。
• 全身姿势:通过动作捕捉(MoCap)或 RGB 摄像头获取。
• 提供统一接口,使我们能使用便捷的输入设备来控制机器人。
• 上游的视觉-语言-动作模型可以提供运动指令,而 HOVER 将其快速翻译为底层电机信号。
HOVER 支持在 Isaac 中仿真任何人形机器人。只需带上您的机器人,便可让它“活”起来!
https://x.com/DrJimFan/status/1851643431803830551
小模型又上分!SmolLM2:全新、最佳的开源10亿参数语言模型
介绍 SmolLM2:全新、最佳的开源10亿参数语言模型。
我们在高达11万亿精心整理的数据集上训练了这些小模型。完全开源,遵循 Apache 2.0 协议,我们将发布所有数据集和训练脚本!
https://x.com/LoubnaBenAllal1/status/1852055582494294414
Recraft V3:一款在设计语言中思考的革命性 AI 模型
很高兴认识你!我们是 red_panda,但朋友们叫我们 Recraft。
介绍 Recraft V3 —— 一款在设计语言中思考的革命性 AI 模型。它在文本生成的质量上达到了前所未有的高度,超越了 Midjourney、OpenAI 等模型。
它不仅是一个图像生成器,更是一个强大的工具,具有更高效的文本布局、风格控制和行业内最高的质量标准。以下是让它成为游戏规则改变者的关键因素 🧵
https://x.com/recraftai/status/1851706399631224939
谷歌“Learn About”全新 AI 工具:输入任何想要学习的主题,轻松深入了解
Google 悄然推出了一款名为 “Learn about” 的全新 AI 工具,堪称天才之作:
它会建议相关方面、简化内容、配以图解等。详细信息如下:
访问链接:https://learning.google.com/experiments/learn-about?src=signup
目前仅在美国可用 这是我迄今为止尝试过的学习新科目的最佳工具。
https://x.com/OpenAIDevs/status/1851668229938159853
Pi分享进展:一个3B参数的通用预训练模型; 一个后期训练方案,让机器人能够完成灵活的、长时间的任务
• 一个3B参数的通用预训练模型,基于8+机器人平台训练
• 一个后期训练方案,让机器人能够完成灵活的、长时间的任务
https://physicalintelligence.company/blog/pi0
https://x.com/chelseabfinn/status/1852043351366996449
产品
Zefi
Zefi 是一款专注于客户声音(Voice of Customer, VoC)分析的平台,通过自动化分析客户反馈(如电话、调查、客户支持票据、评论和社交媒体)来帮助企业减少客户流失、增加收入并保持竞争优势。Zefi 提供实时的可操作洞察,帮助公司更好地理解客户体验和产品趋势。
Fable
Fable 是一款工具,帮助用户创建精美的互动演示,结合了人工智能的支持。它允许用户轻松生成引人入胜的演示内容,适用于产品展示、教育培训和市场营销等场景。Fable 的 AI 驱动功能能够提高创作效率,使用户能够在短时间内制作出专业水平的演示文稿。
https://www.sharefable.com/
投融资
Decart获2100万美元融资,推出可实时生成Minecraft体验的AI模型
以色列AI公司Decart近日推出了一款名为“Oasis”的AI模型,能实时生成类似Minecraft的开放世界游戏体验。该公司宣布获得了来自红杉资本和投资人Oren Zeev的2100万美元融资,用于支持这项技术的发展。Oasis通过实时处理键盘和鼠标输入来生成游戏画面,模拟物理规则和图形渲染,属于一种新兴的“世界模型”生成式AI。
Oasis模型能够以较高的帧率生成游戏场景,目前的演示版本运行在Nvidia H100 GPU上,而未来版本将优化为兼容Etched的AI加速芯片,甚至有望实现4K游戏画面生成。Decart认为,这类模型未来或能通过用户偏好实时生成内容,为互动娱乐平台带来全新的可能性。
公司官网:https://www.decart.ai/articles/oasis-interactive-ai-video-game-model
https://techcrunch.com/2024/10/31/decarts-ai-simulates-a-real-time-playable-version-of-minecraft/
Noma的AI安全新工具获2500万美元融资
Noma Security作为一家新兴的安全公司,正致力于开发用于检测AI应用中安全问题的工具,旨在解决由于AI应用复杂性导致的网络安全薄弱问题。据统计,许多企业在快速采用AI的过程中,面临着安全团队技能短缺、数据管道和代码脆弱点以及特有的攻击手段(如提示注入攻击)等问题。
Noma由Niv Braun和Alon Tron创立,致力于填补现有传统软件生命周期工具在AI数据和研发过程中的“安全盲区”。Noma的工具可以扫描模型训练数据集中的敏感数据(如包含个人信息的文本),并通过集成控制台帮助企业有效管理AI应用的安全状态,确保应用部署的安全性与合规性。
Noma成立于2023年,目前已成功完成A轮融资,获得2500万美元的资金支持。该轮融资由Ballistic Ventures领投,加上此前未披露的由Glilot Capital Partners和Cyber Club London参与的700万美元种子轮融资,Noma的总融资金额已达3200万美元。Noma计划利用这笔资金加速技术开发及市场扩展,并计划在明年将团队规模从现有的20人翻倍。
公司官网:https://noma.security/
https://techcrunch.com/2024/10/31/noma-is-building-tools-to-spot-security-issues-with-ai-apps/
— END —
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/11/21658.html