点击关注,获取AI 算力行业洞察
D Talk 是丹摩智算分享AI信息与认知的全新栏目。
我们在这里谈论最新的AI行业观察,接地气的实践认知,也在这里与丹摩产品用户、关键意见领袖相聚。我们相信学习、记录、分享是最有效的成长路径之一,希望我们在行业的实践,能给每一个对AI怀有热情的人带来一些启迪。
以下内容来自丹摩智算内容运营Yuki,公众号「产品二姐」主理人和AI相关行业从业者习习。
9月13日凌晨,OpenAI 的推理模型,也就是期待已久的 Strawberry 发布!
小编紧急召集产品二姐和习习,进行了D Talk 关于OpenAI-o1系列模型的「彩蛋访谈」。

00
彩蛋访谈
Q:今天凌晨OpenAI 宣布,正式发布一款 OpenAI o1-preview 的推理模型,同时发布的还有一个更小、成本更低的版本o1 mini,两位有关注吗?有什么想法?
产品二姐: 心心念念的草莓终于发布,看了不同的报道,我有两点感想:首先是「媒体和openAI在狂欢、开发者在旁观」。
为什么这么说呢?
借用我们接下来的谈话中会提到的类比:大小模型就像「宰牛和杀鸡」。我理解openAI这次的计划就是在做一把「超级宰牛刀」,从自家评测来看确实各方面提升很大,比如完美解决了「农夫要把狼、羊、白菜都带过河的问题」,当然这种提升也包括价格。至于真正是否具有宰牛能力,还要放在真实的「牛场」里测一测,我们等待时间的考验吧。
而媒体大众却习惯于用这把牛刀去杀小鸡, 关于9.11和9.8哪个更大、或者是strawberry到底有几个r的这类问题,经过各种调戏,「草莓」也被玩不懂了。
媒体大众和研究者们走向了上天入地两个极端:
-
大众希望学霸能下地,接地气;
-
学霸在拼命挑战上天,触摸科学高度。
但作为应用开发者,我更关注天地之间的应用,至于strawberry 有几个r,农夫要如何把狼、羊、白菜都带过河,都有点偏激了。其实这也恰恰是应用开发者的机会:如何根据用户的指令上下文来决定什么时候用宰牛的大气势,什么时候用杀鸡的小把式。似乎OpenAI自己是不太会做这件事了。
另外一个感想是:openAI指出了一条确定性很强的技术精进道路:Self-RL(自我强化学习)。
我还没来及细细研究Self-RL,但最近一段时间确实看到了一些AI自我进化的观点和项目,比如前几天,西云组织的一场峰会上,波形智能分享的 《Symbolic Learning Enables Self-Evolving Agents》也是一种自我进化,还有斯坦福的开源项目DSPy是在对提示词的自我进化。这些似乎都代表着在预训练、SFT的初始化训练之后,各路模型进入常态化的强化学习状态。就像自动驾驶,不管在实验道路上经过多少次评测,都要拉出来跑跑,边跑边训才能走向大众。
从自动驾驶诞生到现在,至少经过了几十年的沉淀。今天,我们终于看到它正在攻破技术、伦理、法律、道德的一道道防线,开始走向千家万户。大模型的时间可能会快一些,毕竟ta对安全、生命的威胁不像自动驾驶那么直接,但它仍然需要时间。作为开发者,我们不必等它完美才开始应用它,我相信只有跟着ta一起成长才是更快的成长方法。
习习:草莓发布最直观的感受是大模型也不继续全靠scaling law往上堆模型尺寸,而是通过强化学习这种多样的技术路线去提升能力了;
另一点还是比较期待对下游的带动,大模型文科生开始进军理科了,数理能力的加强会对整个模型能力提升还是比较重要嘛,也期待能给像AI for science还有应用落地等场景带来更多应用的想象空间嘛,但具体提升了多少帮助多大,可能还需要一段时间才能判断。
01

资源充足,一键微调

开发者所期待的智算平台:

1. 降低开发门槛:
提供简单、低成本训练场景:帮助企业快速入门,进行初步尝试。
自动化数据集准备:利用大模型自动生成数据,减少人工标注负担,提高数据质量。
2. 提升开发效率:
丰富的开源模型库:方便开发者选择合适的模型,并进行微调。
多种微调框架支持:例如Llama Factory,提供即插即用功能和可视化监控,简化开发流程。
一键微调功能:自动化数据准备、模型选择、参数设置等步骤,降低开发门槛。
3. 优化开发体验:
可视化监控工具:实时观察模型表现,例如loss函数变化,及时调整参数。
解决技术挑战:例如内存问题,提供更多监控工具,保证微调过程透明可控。
4. 针对企业需求:
频繁微调:企业需要频繁微调模型以保证产品准确性,平台应提供便捷的微调工具和资源。
数据飞轮效应: 企业可通过数据积累和模型优化构建业务壁垒,平台应提供数据存储和分析工具。


原创文章,作者:产品二姐,如若转载,请注明出处:https://www.agent-universe.cn/2024/09/12808.html