Z Talk是真格分享认知的栏目。
我们在这里谈论最新的行业观察,先锋的创业动态,也在这里与真格老友相聚。我们相信持续的学习和进化,相信最深刻的认知来自土壤。
从特斯拉 2023 股东大会上发布人形机器人 Optimus 最新研发进展,到近日英伟达创始人黄仁勋表示,「 AI 的下一个浪潮将是具身智能」,随着大语言模型的突破,AI 机器人再次成为人工智能领域的焦点话题。
近期,真格基金投资经理袁梦邀请 AI 机器人学者与创业者,进行了一场深度对谈。他们分别从各自的视角,共同探讨了 AI 机器人的前沿进展,以及 VC、创业者和科学家在这场冒险中扮演的不同角色。
以下是访谈内容,希望对你有所启发,也欢迎在评论区和我们交流。

主持人和嘉宾介绍
主持人:
袁梦 Emma,真格基金投资经理
嘉宾:
Danfei,斯坦福大学博士,佐治亚理工学院(Georgia Institute of Technology)助理教授,研究领域为机器学习与机器人(Machine Learning Robotics )
Yichen,计算机视觉、机器人领域前创业者,目前任职于微软 Bing 团队,负责大数据基础架构业务
Xiaoyin,美国 SaaS 领域创业者,业余时间运营某生成式 AI 线上社群

内容纲要
1. 什么是 AI 机器人?大语言模型对机器人领域的发展有什么影响?
2. AI 机器人在学术领域目前有哪些前沿问题?
3. 学术界和工业界对 AI 机器人研发的目标有什么不同?
4. 关于创新,VC 是否对失败承担的责任太少?VC 应该鼓励科技创业者的理想主义吗?
5. 未来 AI 机器人会取代人类吗?
01
机器人是个系统工程,
AI 不是解决问题的万能钥匙
袁梦:Danfei 可以和我们简单介绍一下,什么是 AI 机器人吗?
Danfei:AI 机器人(Robotic AI)是机器人学(Robotics)的一个子领域。AI 本身只是一个智能体,没有物理的身体,现在赋予它一个身体,就是 Robotic AI。其实 AI 机器人是一个非常宽泛的概念,具体到学术问题就是机器学习和机器人学的结合。
作为一个独立的学术领域,Robotic AI 关注 AI 得到一个身体之后可以做什么、会有什么问题出现。不过,具体到真正值得深入或亟待解决的问题,其实绝大部分都在机器人领域出现过了,没有必要再重新以 Robotic AI 的角度发现一遍。
Xiaoyin:那么,Robotic AI 这个角度最开始被提出是想解决什么问题呢?
Danfei:这个概念不是从解决问题的角度提出的。所以,其实 Robotic AI 这个名词在学术界用的不是特别多,我们一般还是讲 robotics 和 machine learning。
袁梦:最近 ChatGPT 和大模型已经成为全社会热议的话题,在机器人领域大家对此有什么讨论?
Danfei:对大语言模型(LLM)的应用还一些争议。有人觉得大语言模型对机器人非常有帮助,但是其他一些人,可能包括我,是谨慎乐观的态度。在我看来,大语言模型以现在的形态,可能对机器人没有特别大的直接帮助。它毕竟是一个语言处理的模型,而机器人涉及到和物理世界的交互,在知识层面上二者相差还蛮多的。
Yichen:我记得谷歌机器人团队之前就在用 LLM 做机器人,他们是用 LLM 把自然语言翻译成机器人能理解的一连串动作指令。但是,他们好像没有考虑到其它传感器的输入,比如相机?
Danfei:对。其实谷歌想解决的是一个非常具体的问题,叫任务的规划(task planning)。一个机器人的系统包含多个层次,首先是感知(sensor),再到理解(perception),到任务的规划(planning),控制(control),最后还有统筹全局的 passport,也就是在一个动作的子集里选择一个特定的动作。
但是,解决 task planning 的问题没有那么关键,因为它对其他几个层次的影响比较弱。也就是说,理解要做什么和具体要怎么做的距离还是很大的。真正重要的还是底层的从理解到控制的整个系统的运转。
Yichen:我非常赞同。我个人认为机器人是个非常系统化的工程,原先我们做初创的时候,尽管是一个很小的初创,但是团队人员的构成也很复杂,需要各种专业背景的成员,比如做电气的、做算法的、做机械的、做软件的。一个朋友说,一个软件的初创公司像一个摇滚乐队,但一个机器人的初创公司,就要像一个交响乐团。
Yichen:我很好奇,从研究者的视角,你认为接下来在 AI、机器学习和机器人结合的领域,有哪些前沿的问题会有突破或进步的可能?
Danfei:其中最重要的一个问题就是表征(representation)我们如何表达这个复杂的物理世界。比如,如果让机器人执行“做菜”这样的复杂任务,没切的菜和切好的菜都需要不同的表征,再用这些不同的表征执行不同的动作,比如把切好的菜放到锅里。
深度学习可以自动识别图像中的物体,并生成物体表征,但仍然只能解决特定任务和场景下的表征问题。而最大的挑战在于,我们很难找到一个通用的大模型来处理所有任务下的表征问题。
对此,目前主要有两个解决路径。一是,如果真的有一个通用的大模型,那我们就需要设计一个算法来发现它。第二种是,可以通过堆砌数据,比如,把世界上所有能找到的机器人的数据都放在一起,训练出一个模型,它也可以用来做任何事情。
Xiaoyin:在你的研究领域,现在哪个问题是还没解决,但是你觉得是特别好的问题,能不能举个例子?
Danfei:我们目前关注的是 machine learning for bias,也就是如何解决计算机模拟的环境和真实世界的 gap,以及更大的问题是训练机器人的数据来源。首先要了解一个大前提:做一个智能机器人需要大量数据,但是数据从哪里来?并不是在一个任务、一个机器或者一个房间里的数据,这不叫大数据,这是非常单一的、无聊的数据。大数据需要数据的多样性,也就是需要无数的任务、机器和环境。
但是不可能真的把一个机器人放在很多的不同人家里,做一些很多不同的事情,这个方案并不 scalable。什么是 scalable 的?我可以写一个程序,让它生成不同环境的数据,然后用数据来训练模型。所以,我只要把虚拟世界和真实世界的 gap 解决了,问题就解决了。
然而,不可能让模拟环境和真实世界的所有情况完全一致。模拟器里能包含的信息是有限的,但物理世界里的信息是无限的。所以,我们只能尽可能在模拟器里面创造更多的变化。比如,可以把物体和桌子的摩擦力设定一个区间,每次生成一个环境都修改这个区间,训练的时候让所有的参数都不停变化,真实环境可以被看做是其中一个值,我们希望这个值可以包含在不断改变的区间里。
02
关于AI机器人,
学术界和工业界的想法大不同
袁梦:刚刚提到两种可能的解决方案,一种是采用一个更为通用的算法,另外一种是在不同的场景用大量数据堆出解决方案,类似于大模型和小模型。机器人工业界会以什么角度去选择路线?
Danfei:据我了解,工业界想要的并不是一个通用的人形机器人,想要的是自动化,也就是一个低成本、高效率又能保证准确性的解决方案。而学界把机器学习和机器人结合,想解决的最重要的问题是通用性,能不能把这个领域尽可能多的问题都解决好。
Yichen:我对许老师的回答特别有感触,这也是为什么我们会把机器人细化,有扫地机器人、做菜机器人等等。刚才听你的分享,其实本质上讲了两件事,一个是表征(representing),一个是建模(modeling)。实际上我们可以把它粗暴理解为 input 和 output 。当我们给机器人加了定词,是扫地机器人、做饭机器人还是别的机器人,实际上是在缩小 input 和 output 的范围。
工业界的语境把 representing 和 modeling 大规模简化,把一个更复杂更宽泛的问题变成了一个更具体的问题去解决。
Xiaoyin:现在工业界跟学术界的方向不一致,学术界目前研究的东西,工业界没有需求。那么为什么会出现这样的情况?这个情况可以持久吗?
Yichen:我觉得区别在于,两边想需要解决的问题或者重点不太一样,导致他们往不同的方向发力。工业界身处商业世界,会更看重成本,以及产品的用户体验,还要考虑相关的法律法规等等。但是,在学术界可能会更关心一些纯粹的问题,比如机器人在某个特定指标上的表现,在上面越花时间,大家走得就越远。
另外工业界的容错率更高。以我在创业公司时做过的人手追踪项目为例。目前的学术研究主要关注如何一点点提高追踪的准确度,但是在工业场景也可以容许一定程度的偏差。相比来说,可能刷新率对他们更重要,从 15 fps 到 90 fps ,流畅度的体验会有很大不同。
Yichen:你们觉得 AI+Robotics 现在有哪些东西更有可能在工业界落地?
Danfei:这方面算是在我的研究领域之外。可能唯一看到特别成功的例子就是抓取。
袁梦:所以这其实是留给创业者的一个问题,研究的进展已经到这里了,你们要怎么用。好的创业者能最大化利用已有的资源,并通过沟通获得更多资源。
Danfei:这是一个非常难的问题,做研究的周期非常长,而且需要有硬件,需要一整个 knowhow,门槛高,需要很多资源和多样化的人才。
Yichen:在工业界还有一个很让人头疼的点。比如一家深圳的公司做机器人,把机械臂寄到美国之后,如果机器人坏了或者那条产线出了问题,就只能飞到美国解决,或者在美国当地有解决的团队,很难像软件一样远程解决。
还有回款周期的问题。投资工厂的回款周期是很漫长,所以你只能拿到非常少一笔钱,你要先把它建起来,后来才会慢慢拿钱,导致整个财务状况很难看。作为一个创业公司,能不能把所有的挑战都扛下来?这可能也是为什么很少见到增长快或者很出圈的机器人公司,当然扫地机器人除外,因为这是一个困难的系统工程。
Danfei:其实到头来大家讲的都是 automation 和 productivity,都是需要一定的自动化,来增加效率。通用人工智能想解决的问题是智能从哪里来、我们怎么样创造智能。
03
OpenAI 的理想主义可以被所有创业公司模仿吗?
袁梦:我们观察到学术和科研的边界越来越模糊,最近在硅谷更是深有体会,创业者和研究者的心态相较于过去都发生了变化,创业公司对于技术在做更长远、更有野心的研发规划,学术届也涌现了大量贴近工业界的研究。作为创业者, Yichen 和 Xiaoyin 在这方面有什么体感吗?
Yichen:我第一反应是,过去十年二十年创业者和学界的心态不一样,一直也会不一样。因为我们没有科研经费资助。没钱了之后没有人保证公司会活下去。对创业者而言,我一直强烈认为能让公司活下来,或者找到所谓的 PMF(product-market fit)永远是第一要务。比起 researcher,创业者可能更接近一个 engineer。
当然对于大公司,或者当你有相当多资源的时候,确实会花很多精力考虑长远的问题,比如 Google、Microsoft、Meta 现在都有非常强大的 AI 实验室。但是对于绝大多数创业者而言,这是到很晚期才需要考虑的问题。
Xiaoyin:我觉得这个取决于 VC,如果 VC 能一下子给我们几个亿,我们也可以哈哈哈。
但是对于更多公司,如果没有融那么多钱,要面对大厂的竞争,最重要的还是找到自己的 niche 和壁垒。
比如在 SaaS 赛道,专门做销售的 Salesforce 有自己的数据,并且数据就在他们的软件上,但是作为 startup 你还没有数据。只是 Salesforce 可能动作比你慢。此时此刻你做得早挣了一些钱,但是这个钱明年能不能挣?如果 Salesforce 也做了这项业务,你还能挣钱吗?
作为 startup,我会担心一方面能不能找到自己的 niche,一开始就能先出来。第二方面,出来之后也不一定就行,有可能第一年能挣到钱,第二、第三年就傻了。
Danfei:我很好奇,如果你真的融了很多钱,那你的优先级是什么?你真的要做一件远大的事情,还是 VC 期待你先有盈利再说?
Yichen:好问题,听听 VC 是怎么想的!
袁梦:这个问题在不同周期、不同行业,问不同的创始人,答案都不一样。无论是靠融资还是盈利,重要的是公司能存活下来,一步步实现更大的价值创造。
赚钱很重要,但如果长期并不服务于公司更大的愿景,也很危险。对于投资人来说,支付价格如果不能明显低于其未来能创造的价值,这笔投资就不应该进行。所以梦想也很重要啊。
公司的发展也是和市场建立信任的过程。创业毕竟是“无中生有”,创始人得说服投资人,我有梦想,且我有能力把它实现。在这个过程中,达到一些阶段性的目标,盈利能力作为指标之一,能增强投资人的信心,帮助融到更多的钱吧。
另外 OpenAI 和大部分创业公司不同的是,它有几位创始人是用自己的钱和名誉“带资入组”,他们心态和普通创业者是不一样的。
Yichen:这道理没错,但是 OpenAI 可能不是个很好的例子。我觉得它不能叫创业公司,更像是一个 NGO,他们的初衷就没太考虑赚钱活下来。
不同类型的创业者也有不同的心态,比如与之前的创业经历和工作经历相关。我最早加入的是创业公司,就被训练成对于供应链、现金流、回款周期这种事情极端敏感。已经有正的现金流,在这个基础之上再扩张业务,这就是我认为的靠谱。
我知道很多人不同意我的观点,尤其是在前几年,我们处在一个低利率环境中,所有人都是增长思维,可能会觉得我太保守了,不像是一个创业者,像一个做生意的人。
04
创业者和 VC 的关系像婚姻
Xiaoyin:创业者和 VC 的关系和谈恋爱也蛮像的。如果这个 VC 和你理念不一致,你也可以不选它,当然它也可以不选你。如果这个周期下 VC 变得太急功近利了,想马上拿到钱,那创业者就会不喜欢它,这种 VC 就会越来越没人选。另外也要看目前是谁方市场,可能这几年是 VC 方市场,过几年后又变成了创业者方的市场。
袁梦:不同的 VC,不同投资人间的风格差别确实蛮大的。像婚姻吧,理解、陪伴、激发、扶持。也像所有的合伙关系,好的时候大家一起开心,不好的时候就见人心了,共患难的才是真爱。我们在最早的阶段加入创业者,会陪伴他们最长的时间。对我来说最好的投资关系,不仅是商业合作,互相得有深层的、做为“人”的认可,有义气。
我记得 Sam 之前在 Twitter 上发过一条,他说投资人往往过于热衷于将创业公司的成功归功于自己,而对失败却不够负责(Investors take way too much credit for succeses and not enough responsibility for failures)。我经常想起来这句话。
Xiaoyin:那我换个角度问问你,Sam 发完这种 Twitter 之后,你觉得 VC 的态度有改变吗?以前你们很在乎成功,现在更可以容忍失败吗?
袁梦:不同的 VC 有不同的态度吧,毕竟 VC 也是一个生意,我们需要对 LP 负责,即使我们心里想很理想主义地支持创业者,但是身上也有责任——怎么能在 10 年甚至 5 年内给 LP 赚几倍的钱。
Yichen:我个人认为 VC 不应该做太理想主义的事,理想主义的事应该就是学术研究。我不知道你们怎么想?
Danfei:我有不同的看法。作为研究者也要先讲一个故事,然后这个故事需要讲得圆,也需要之前已经做了很多能把故事讲圆的事情,来证明你能把这个故事做出来,基金才可以来资助你。另外我们也要招人,产出 paper,再拉更多的钱,其实是一样的。
第二点,我的感觉是,对 OpenAI 不要想太多。OpenAI 最初创建是因为他们觉得 DeepMind 做太大了,需要在硅谷建立一个能够与之抗衡的机构,就是这么简单。
Yichen:我尝试总结一下,对于研究者而言,有一个好问题是很重要的,你要说服他们这是一个好问题。但可能对于真正的创业者,或者传统意义上的 VC 而言,不仅要提出一个好的问题,你还要能把问题给解决了,至少提出一个解决方案,这是他们关心的。
Danfei:对,但其实对学术界来说,提出好问题也得证明你能解决,要在这个问题上已经做了些尝试才能说服他们。但是对于创业者,可能就真的要解决这个问题。
袁梦:创业和学术都需要定义好的问题,但是不是维度也不太一样?从创业角度,要定义一个足够值得去解决的问题,可能有关未来的市场空间有多大,你能从中创造的商业价值有多大。学术界定义好问题是不一样的维度?
Danfei:对,在学术界,你需要证明自己做的事情能给整个共同体带来什么益处,我们还是抱着一个开放的态度,希望自己的成果可以带着大家共同向前走。
袁梦:我还蛮想了解,创业者怎么看待自己和 VC 的关系?VC 在失败上承担了太少的责任,把这部分都推给创业者,你们如何看待这种压力?
Xiaoyin:我理解压力也有督促的作用,让你去思考怎么找到好的商业模式,而不是陷在自己的空想中。
Yichen:其实,只要你不是出钱方,拿别人的钱干事都有压力。出钱压力可能更大,这就是自己的钱了。我觉得不要想太多。任何事情只要你想做点东西出来,都会有压力。
05
未来 AI 机器人会取代人类吗?
袁梦:你们觉得 AGI(通用人工智能)还有多远会到来?每个人的感受肯定不太一样。
Yichen:我觉得大家会有不同感觉,很大部分原因是各自的定义不一样。
袁梦:对我来说 AGI 是一个人形机器人,能替代我去解决大部分重复问题,比如生活琐事和一些不需要创造力的事。
Xiaoyin:我的定义是,在给定的某一个范围内它能够解决所有事情。但是,这个范围可以和人能解决的范围一样大吗?这个我持怀疑态度。
Yichen:我的第一想法是,人们对很多 AGI 的最初印象都是来自于电影里,所以拿电影里一些 AI 的状态来做判断,其实是一个挺好的方式。
比如最快能实现的所谓 AGI ,可能有点类似于钢铁侠里的 Jarvis,他拥有一些在网络世界里的执行功能,可以帮钢铁侠调出卫星图片,查一下车是哪个型号,还能根据钢铁侠服装上的传感装置来检测有没有 gamma 射线,等等。这个是可能比较快达到的。
除此之外,现在大家最关心的一点就是,当你已经有了一定程度的所谓智能,你能给它什么样的权力,去做什么样的事情?我在这一点上比较悲观。我觉得人类作为一个共同体,推动 AI 的再进一步发展会面临极大的阻力,除非出现一些巨大的节点事件让我们觉得必须要这么做,不然人类不会允许人形机器人的存在来取代我们。
现在通过电影以及各种的言论,我们在不停地被训练说人工智能是有一定危险性的。所以从整个社会层面来讲,也许这件事压根就不会发生。
Danfei:我可能是做得越多想得越少。我初高中会想很多这类问题,大学开始学 CS 之后,偶尔会想了想,现在是真的完全不想了。这个问题太复杂了,我现在更倾向于去从一些具体的问题开始思考。我觉得绝大部分的工作在未来二三十年肯定是可以被取代的,你工作的内容如果在 AI 的能力之下,我觉得应该是可以的。
Xiaoyin:我们现在人口出生率本来也挺低的,是吧?
Danfei:对,其实这是一个非常有趣的问题。如果人口老龄化让生产力消失后,也要倒逼 AGI 的解决方案。过去到现在的自动化也是在解决这个问题。

推荐阅读


原创文章,作者:ZhenFund,如若转载,请注明出处:https://www.agent-universe.cn/2023/07/18398.html