大模型遇上机器人:AI机器人的大爆发时刻来了吗?|Z Talk

Z Talk是真格分享认知的栏目。


我们在这里谈论最新的行业观察,先锋的创业动态,也在这里与真格老友相聚。我们相信持续的学习和进化,相信最深刻的认知来自土壤。


从特斯拉 2023 股东大会上发布人形机器人 Optimus 最新研发进展,到近日英伟达创始人黄仁勋表示,「 AI 的下一个浪潮将是具身智能」,随着大语言模型的突破,AI 机器人再次成为人工智能领域的焦点话题。


近期,真格基金投资经理袁梦邀请 AI 机器人学者与创业者,进行了一场深度对谈。他们分别从各自的视角,共同探讨了 AI 机器人的前沿进展,以及 VC、创业者和科学家在这场冒险中扮演的不同角色。


以下是访谈内容,希望对你有所启发,也欢迎在评论区和我们交流。




大模型遇上机器人:AI机器人的大爆发时刻来了吗?|Z Talk

主持人和嘉宾介绍


主持人:
袁梦 Emma,真格基金投资经理


嘉宾:

Danfei,斯坦福大学博士,佐治亚理工学院(Georgia Institute of Technology)助理教授,研究领域为机器学习与机器人(Machine Learning Robotics )


Yichen,计算机视觉、机器人领域前创业者,目前任职于微软 Bing 团队,负责大数据基础架构业务


Xiaoyin,美国 SaaS 领域创业者,业余时间运营某生成式 AI 线上社群



大模型遇上机器人:AI机器人的大爆发时刻来了吗?|Z Talk

内容纲要


1. 什么是 AI 机器人?大语言模型对机器人领域的发展有什么影响?

2. AI 机器人在学术领域目前有哪些前沿问题?

3. 学术界和工业界对 AI 机器人研发的目标有什么不同?

4. 关于创新,VC 是否对失败承担的责任太少?VC 应该鼓励科技创业者的理想主义吗?

5. 未来 AI 机器人会取代人类吗?



01

机器人是个系统工程,
AI 不是解决问题的万能钥匙


袁梦:Danfei 可以和我们简单介绍一下,什么是 AI 机器人吗?


Danfei:AI 机器人(Robotic AI)是机器人学(Robotics)的一个子领域。AI 本身只是一个智能体,没有物理的身体,现在赋予它一个身体,就是 Robotic AI。其实 AI 机器人是一个非常宽泛的概念,具体到学术问题就是机器学习和机器人学的结合。


作为一个独立的学术领域,Robotic AI 关注 AI 得到一个身体之后可以做什么、会有什么问题出现。不过,具体到真正值得深入或亟待解决的问题,其实绝大部分都在机器人领域出现过了,没有必要再重新以 Robotic AI 的角度发现一遍。


Xiaoyin:那么,Robotic AI 这个角度最开始被提出是想解决什么问题呢?


Danfei:这个概念不是从解决问题的角度提出的。所以,其实 Robotic AI 这个名词在学术界用的不是特别多,我们一般还是讲 robotics 和 machine learning。


袁梦:最近 ChatGPT 和大模型已经成为全社会热议的话题,在机器人领域大家对此有什么讨论?


Danfei:对大语言模型(LLM)的应用还一些争议。有人觉得大语言模型对机器人非常有帮助,但是其他一些人,可能包括我,是谨慎乐观的态度。在我看来,大语言模型以现在的形态,可能对机器人没有特别大的直接帮助。它毕竟是一个语言处理的模型,而机器人涉及到和物理世界的交互,在知识层面上二者相差还蛮多的。


Yichen:我记得谷歌机器人团队之前就在用 LLM 做机器人,他们是用 LLM 把自然语言翻译成机器人能理解的一连串动作指令。但是,他们好像没有考虑到其它传感器的输入,比如相机?


Danfei:对。其实谷歌想解决的是一个非常具体的问题,叫任务的规划(task planning)。一个机器人的系统包含多个层次,首先是感知(sensor),再到理解(perception),到任务的规划(planning),控制(control),最后还有统筹全局的 passport,也就是在一个动作的子集里选择一个特定的动作。


但是,解决 task planning 的问题没有那么关键,因为它对其他几个层次的影响比较弱。也就是说,理解要做什么和具体要怎么做的距离还是很大的。真正重要的还是底层的从理解到控制的整个系统的运转。


Yichen:我非常赞同。我个人认为机器人是个非常系统化的工程,原先我们做初创的时候,尽管是一个很小的初创,但是团队人员的构成也很复杂,需要各种专业背景的成员,比如做电气的、做算法的、做机械的、做软件的。一个朋友说,一个软件的初创公司像一个摇滚乐队,但一个机器人的初创公司,就要像一个交响乐团。


Yichen:我很好奇,从研究者的视角,你认为接下来在 AI、机器学习和机器人结合的领域,有哪些前沿的问题会有突破或进步的可能?


Danfei:其中最重要的一个问题就是表征(representation)我们如何表达这个复杂的物理世界。比如,如果让机器人执行“做菜”这样的复杂任务,没切的菜和切好的菜都需要不同的,再用这些不同的表征执行不同的动作,比如把切好的菜放到锅里。


深度学习可以自动识别图像中的物体,并生成物体表征,但仍然只能解决特定任务和场景下的表征问题。而最大的挑战在于,我们很难找到一个通用的大模型来处理所有任务下的表征问题。


对此,目前主要有两个解决路径。一是,如果真的有一个通用的大模型,那我们就需要设计一个算法来发现它。第二种是,可以通过堆砌数据,比如,把世界上所有能找到的机器人的数据都放在一起,训练出一个模型,它也可以用来做任何事情。


Xiaoyin:在你的研究领域,现在哪个问题是还没解决,但是你觉得是特别好的问题,能不能举个例子?


Danfei:我们目前关注的是 machine learning for bias,也就是如何解决计算机模拟的环境和真实世界的 gap,以及更大的问题是训练机器人的数据来源。首先要了解一个大前提:做一个智能机器人需要大量数据,但是数据从哪里来?并不是在一个任务、一个机器或者一个房间里的数据,这不叫大数据,这是非常单一的、无聊的数据。大数据需要数据的多样性,也就是需要无数的任务、机器和环境。


但是不可能真的把一个机器人放在很多的不同人家里,做一些很多不同的事情,这个方案并不 scalable。什么是 scalable 的?我可以写一个程序,让它生成不同环境的数据,然后用数据来训练模型。所以,我只要把虚拟世界和真实世界的 gap 解决了,问题就解决了。


然而,不可能让模拟环境和真实世界的所有情况完全一致。模拟器里能包含的信息是有限的,但物理世界里的信息是无限的。所以,我们只能尽可能在模拟器里面创造更多的变化。比如,可以把物体和桌子的摩擦力设定一个区间,每次生成一个环境都修改这个区间,训练的时候让所有的参数都不停变化,真实环境可以被看做是其中一个值,我们希望这个值可以包含在不断改变的区间里。



02

关于AI机器人,
学术界和工业界的想法大不同


袁梦:刚刚提到两种可能的解决方案,一种是采用一个更为通用的算法,另外一种是在不同的场景用大量数据堆出解决方案,类似于大模型和小模型。机器人工业界会以什么角度去选择路线?


Danfei:据我了解,工业界想要的并不是一个通用的人形机器人,想要的是自动化,也就是一个低成本、高效率又能保证准确性的解决方案。而学界把机器学习和机器人结合,想解决的最重要的问题是通用性,能不能把这个领域尽可能多的问题都解决好。


Yichen:我对许老师的回答特别有感触,这也是为什么我们会把机器人细化,有扫地机器人、做菜机器人等等。刚才听你的分享,其实本质上讲了两件事,一个是表征(representing),一个是建模(modeling)。实际上我们可以把它粗暴理解为 input 和 output 。当我们给机器人加了定词,是扫地机器人、做饭机器人还是别的机器人,实际上是在缩小 input 和 output 的范围。


工业界的语境把 representing 和 modeling 大规模简化,把一个更复杂更宽泛的问题变成了一个更具体的问题去解决。


Xiaoyin:现在工业界跟学术界的方向不一致,学术界目前研究的东西,工业界没有需求。那么为什么会出现这样的情况?这个情况可以持久吗?


Yichen:我觉得区别在于,两边想需要解决的问题或者重点不太一样,导致他们往不同的方向发力。工业界身处商业世界,会更看重成本,以及产品的用户体验,还要考虑相关的法律法规等等。但是,在学术界可能会更关心一些纯粹的问题,比如机器人在某个特定指标上的表现,在上面越花时间,大家走得就越远。


另外工业界的容错率更高。以我在创业公司时做过的人手追踪项目为例。目前的学术研究主要关注如何一点点提高追踪的准确度,但是在工业场景也可以容许一定程度的偏差。相比来说,可能刷新率对他们更重要,从 15 fps 到 90 fps ,流畅度的体验会有很大不同。


Yichen:你们觉得 AI+Robotics 现在有哪些东西更有可能在工业界落地?


Danfei:这方面算是在我的研究领域之外。可能唯一看到特别成功的例子就是抓取。


袁梦:所以这其实是留给创业者的一个问题,研究的进展已经到这里了,你们要怎么用。好的创业者能最大化利用已有的资源,并通过沟通获得更多资源。


Danfei:这是一个非常难的问题,做研究的周期非常长,而且需要有硬件,需要一整个 knowhow,门槛高,需要很多资源和多样化的人才。


Yichen:在工业界还有一个很让人头疼的点。比如一家深圳的公司做机器人,把机械臂寄到美国之后,如果机器人坏了或者那条产线出了问题,就只能飞到美国解决,或者在美国当地有解决的团队,很难像软件一样远程解决。


还有回款周期的问题。投资工厂的回款周期是很漫长,所以你只能拿到非常少一笔钱,你要先把它建起来,后来才会慢慢拿钱,导致整个财务状况很难看。作为一个创业公司,能不能把所有的挑战都扛下来?这可能也是为什么很少见到增长快或者很出圈的机器人公司,当然扫地机器人除外,因为这是一个困难的系统工程。


Danfei:其实到头来大家讲的都是 automation 和 productivity,都是需要一定的自动化,来增加效率。通用人工智能想解决的问题是智能从哪里来、我们怎么样创造智能。



03

OpenAI 的理想主义可以被所有创业公司模仿吗?


袁梦:我们观察到学术和科研的边界越来越模糊,最近在硅谷更是深有体会,创业者和研究者的心态相较于过去都发生了变化,创业公司对于技术在做更长远、更有野心的研发规划,学术届也涌现了大量贴近工业界的研究。作为创业者, Yichen 和 Xiaoyin 在这方面有什么体感吗?


Yichen:我第一反应是,过去十年二十年创业者和学界的心态不一样,一直也会不一样。因为我们没有科研经费资助。没钱了之后没有人保证公司会活下去。对创业者而言,我一直强烈认为能让公司活下来,或者找到所谓的 PMF(product-market fit)永远是第一要务。比起 researcher,创业者可能更接近一个 engineer。


当然对于大公司,或者当你有相当多资源的时候,确实会花很多精力考虑长远的问题,比如 Google、Microsoft、Meta 现在都有非常强大的 AI 实验室。但是对于绝大多数创业者而言,这是到很晚期才需要考虑的问题。


Xiaoyin:我觉得这个取决于 VC,如果 VC 能一下子给我们几个亿,我们也可以哈哈哈。


但是对于更多公司,如果没有融那么多钱,要面对大厂的竞争,最重要的还是找到自己的 niche 和壁垒。


比如在 SaaS 赛道,专门做销售的 Salesforce 有自己的数据,并且数据就在他们的软件上,但是作为 startup 你还没有数据。只是 Salesforce 可能动作比你慢。此时此刻你做得早挣了一些钱,但是这个钱明年能不能挣?如果 Salesforce 也做了这项业务,你还能挣钱吗?


作为 startup,我会担心一方面能不能找到自己的 niche,一开始就能先出来。第二方面,出来之后也不一定就行,有可能第一年能挣到钱,第二、第三年就傻了。


Danfei:我很好奇,如果你真的融了很多钱,那你的优先级是什么?你真的要做一件远大的事情,还是 VC 期待你先有盈利再说?


Yichen:好问题,听听 VC 是怎么想的!


袁梦:这个问题在不同周期、不同行业,问不同的创始人,答案都不一样。无论是靠融资还是盈利,重要的是公司能存活下来,一步步实现更大的价值创造。


赚钱很重要,但如果长期并不服务于公司更大的愿景,也很危险。对于投资人来说,支付价格如果不能明显低于其未来能创造的价值,这笔投资就不应该进行。所以梦想也很重要啊。


公司的发展也是和市场建立信任的过程。创业毕竟是“无中生有”,创始人得说服投资人,我有梦想,且我有能力把它实现。在这个过程中,达到一些阶段性的目标,盈利能力作为指标之一,能增强投资人的信心,帮助融到更多的钱吧。


另外 OpenAI 和大部分创业公司不同的是,它有几位创始人是用自己的钱和名誉“带资入组”,他们心态和普通创业者是不一样的。


Yichen:这道理没错,但是 OpenAI 可能不是个很好的例子。我觉得它不能叫创业公司,更像是一个 NGO,他们的初衷就没太考虑赚钱活下来。


不同类型的创业者也有不同的心态,比如与之前的创业经历和工作经历相关。我最早加入的是创业公司,就被训练成对于供应链、现金流、回款周期这种事情极端敏感。已经有正的现金流,在这个基础之上再扩张业务,这就是我认为的靠谱。


我知道很多人不同意我的观点,尤其是在前几年,我们处在一个低利率环境中,所有人都是增长思维,可能会觉得我太保守了,不像是一个创业者,像一个做生意的人。



04

创业者和 VC 的关系像婚姻


Xiaoyin:创业者和 VC 的关系和谈恋爱也蛮像的。如果这个 VC 和你理念不一致,你也可以不选它,当然它也可以不选你。如果这个周期下 VC 变得太急功近利了,想马上拿到钱,那创业者就会不喜欢它,这种 VC 就会越来越没人选。另外也要看目前是谁方市场,可能这几年是 VC 方市场,过几年后又变成了创业者方的市场。


袁梦:不同的 VC,不同投资人间的风格差别确实蛮大的。像婚姻吧,理解、陪伴、激发、扶持。也像所有的合伙关系,好的时候大家一起开心,不好的时候就见人心了,共患难的才是真爱。我们在最早的阶段加入创业者,会陪伴他们最长的时间。对我来说最好的投资关系,不仅是商业合作,互相得有深层的、做为“人”的认可,有义气。


我记得 Sam 之前在 Twitter 上发过一条,他说投资人往往过于热衷于将创业公司的成功归功于自己,而对失败却不够负责(Investors take way too much credit for succeses and not enough responsibility for failures)。我经常想起来这句话。


Xiaoyin:那我换个角度问问你,Sam 发完这种 Twitter 之后,你觉得 VC 的态度有改变吗?以前你们很在乎成功,现在更可以容忍失败吗?


袁梦:不同的 VC 有不同的态度吧,毕竟 VC 也是一个生意,我们需要对 LP 负责,即使我们心里想很理想主义地支持创业者,但是身上也有责任——怎么能在 10 年甚至 5 年内给 LP 赚几倍的钱。


Yichen:我个人认为 VC 不应该做太理想主义的事,理想主义的事应该就是学术研究。我不知道你们怎么想?


Danfei:我有不同的看法。作为研究者也要先讲一个故事,然后这个故事需要讲得圆,也需要之前已经做了很多能把故事讲圆的事情,来证明你能把这个故事做出来,基金才可以来资助你。另外我们也要招人,产出 paper,再拉更多的钱,其实是一样的。


第二点,我的感觉是,对 OpenAI 不要想太多。OpenAI 最初创建是因为他们觉得 DeepMind 做太大了,需要在硅谷建立一个能够与之抗衡的机构,就是这么简单。


Yichen:我尝试总结一下,对于研究者而言,有一个好问题是很重要的,你要说服他们这是一个好问题。但可能对于真正的创业者,或者传统意义上的 VC 而言,不仅要提出一个好的问题,你还要能把问题给解决了,至少提出一个解决方案,这是他们关心的。


Danfei:对,但其实对学术界来说,提出好问题也得证明你能解决,要在这个问题上已经做了些尝试才能说服他们。但是对于创业者,可能就真的要解决这个问题。


袁梦:创业和学术都需要定义好的问题,但是不是维度也不太一样?从创业角度,要定义一个足够值得去解决的问题,可能有关未来的市场空间有多大,你能从中创造的商业价值有多大。学术界定义好问题是不一样的维度?


Danfei:对,在学术界,你需要证明自己做的事情能给整个共同体带来什么益处,我们还是抱着一个开放的态度,希望自己的成果可以带着大家共同向前走。


袁梦:我还蛮想了解,创业者怎么看待自己和 VC 的关系?VC 在失败上承担了太少的责任,把这部分都推给创业者,你们如何看待这种压力?


Xiaoyin:我理解压力也有督促的作用,让你去思考怎么找到好的商业模式,而不是陷在自己的空想中。


Yichen:其实,只要你不是出钱方,拿别人的钱干事都有压力。出钱压力可能更大,这就是自己的钱了。我觉得不要想太多。任何事情只要你想做点东西出来,都会有压力。



05

未来 AI 机器人会取代人类吗?


袁梦:你们觉得 AGI(通用人工智能)还有多远会到来?每个人的感受肯定不太一样。


Yichen:我觉得大家会有不同感觉,很大部分原因是各自的定义不一样。


袁梦:对我来说 AGI 是一个人形机器人,能替代我去解决大部分重复问题,比如生活琐事和一些不需要创造力的事。


Xiaoyin:我的定义是,在给定的某一个范围内它能够解决所有事情。但是,这个范围可以和人能解决的范围一样大吗?这个我持怀疑态度。


Yichen:我的第一想法是,人们对很多 AGI 的最初印象都是来自于电影里,所以拿电影里一些 AI 的状态来做判断,其实是一个挺好的方式。


比如最快能实现的所谓 AGI ,可能有点类似于钢铁侠里的 Jarvis,他拥有一些在网络世界里的执行功能,可以帮钢铁侠调出卫星图片,查一下车是哪个型号,还能根据钢铁侠服装上的传感装置来检测有没有 gamma 射线,等等。这个是可能比较快达到的。


再后一步就是我一直比较悲观的,当有了物理执行器之后,不仅要解决软件或者算法的问题,还要解决材料、能源的问题,还有整个规划的问题等等。时间会比较久。以及,到那个时候人们是不是还需要这个解决方案?


除此之外,现在大家最关心的一点就是,当你已经有了一定程度的所谓智能,你能给它什么样的权力,去做什么样的事情?我在这一点上比较悲观。我觉得人类作为一个共同体,推动 AI 的再进一步发展会面临极大的阻力,除非出现一些巨大的节点事件让我们觉得必须要这么做,不然人类不会允许人形机器人的存在来取代我们。


现在通过电影以及各种的言论,我们在不停地被训练说人工智能是有一定危险性的。所以从整个社会层面来讲,也许这件事压根就不会发生。


Danfei:我可能是做得越多想得越少。我初高中会想很多这类问题,大学开始学 CS 之后,偶尔会想了想,现在是真的完全不想了。这个问题太复杂了,我现在更倾向于去从一些具体的问题开始思考。我觉得绝大部分的工作在未来二三十年肯定是可以被取代的,你工作的内容如果在 AI 的能力之下,我觉得应该是可以的。


Xiaoyin:我们现在人口出生率本来也挺低的,是吧?


Danfei:对,其实这是一个非常有趣的问题。如果人口老龄化让生产力消失后,也要倒逼 AGI 的解决方案。过去到现在的自动化也是在解决这个问题。



大模型遇上机器人:AI机器人的大爆发时刻来了吗?|Z Talk


推荐阅读


大模型遇上机器人:AI机器人的大爆发时刻来了吗?|Z Talk
大模型遇上机器人:AI机器人的大爆发时刻来了吗?|Z Talk

原创文章,作者:ZhenFund,如若转载,请注明出处:https://www.agent-universe.cn/2023/07/18398.html

Like (0)
Previous 2023-07-17 15:29
Next 2023-07-19 15:05

相关推荐