最近和彩云科技的创始人袁行远一起录了一期节目(回头在B站放出),我有蛮多的感触,想明白了一些事情,也有一些还不清晰,没关系,先写下这篇文章,后面慢慢的补充。
分为几个部分:
第一.为什么是AI?
第二.AI的三次浪潮带来了彩云三款产品
第三.构建虚拟世界创造有意识的AI
第四.有关彩云小梦的一些探讨
01 为什么是AI?
AI是人工智能(Artificial Intelligence),在当下,可以简单的把AI理解为一种工具:
近些年,在基础层面,科技至少有这么几个方向在持续发展:
数据:互联网使得越来越多的数据在云端网络上,比如我们在社交平台大量发布文字和图片,以及视频
算力:摩尔定律持续多年,包括各种云的诞生,使得整个世界的算力在快速的爆发
存储:这也带来了存储成本的快速下降,也使得更多的数据被存储在网络上
模型:大模型也在持续的学界研究下获得突破式进展,最核心的是两个点,2012年基于统计的算法对于图像的识别超过基于规则的算法,以及2017年Google发布的Transformer,对于AI理解文本带来了巨大的突破。
基于海量的数据、算力、存储和大模型的突破,AI在大量的领域获得了突破式的进展。
为什么Super这么关注AI呢?在李开复《AI未来进行式》中,有这么一段描述:
前面讨论的这两项转变(指中国互联网的反超、国家政策的支持)——当今世界转变为了实干的年代和数据的年代,再加上中国如今拥有世界级的创业者和主动、积极支持人工智能发展的政府,这一切结合起来,使我相信中国在人工智能的发展与应用方面很快就会与美国匹敌,甚至超越美国。我认为,在人工智能应用上的领先,将转换为生产力的大幅提升,而且是工业革命之后最大幅度的提升。
人类当今的经济发展,特别是中国层面的,未来一定会基于科技的高速发展,这里面AI作为发动机,相信会贡献出巨大的价值。
在李开复另外一本书《AI未来》,最后有一个章节标题是“丰饶时代:技术发展的必然结果”,里面描述了由于AI的普及,技术的进步导致物质成本的降低和产量的大幅提升,人类将会进入一个物质丰饶的时代。
最近AIGC(AI生成内容)的火爆,已经开始验证这一点:
AI在技术层面的快速突破,让丰饶时代越来越触手可及,似乎我们有生之年就能迎接它的到来。
也由此,Super最近会大量的去研究AI领域,彩云科技是其中的一家典型科技公司,他的三款产品:彩云天气、彩云小译、彩云小梦,都和AI紧密相关。
02 AI的三次浪潮带来了彩云三款产品
接下来我们通过三次AI进化的浪潮,来从中顺带讲讲彩云科技的产品诞生。
事先声明的是,AI进化并没有标准的定义,这里更多是袁行远自己的理解,听完后我个人觉得比较合理,所以这里和大家分享:
第一次是1951年图灵测试的论文出现了,
什么是图灵测试。
图灵测试是英国计算机科学家图灵于1950年提出的思想实验
简单说就是把人和电脑分别放在两间房间,通过一些装置(如键盘)向被测试者随意提问。进行多次测试后,如果电脑让平均每个参与者做出超过30%的误判,认为对面的是人,那么这台机器就通过了测试,并被认为具有人类智能。
不过早期算法和算力都不好,智能的问题解决的方法是:规则。
对,比如说97年深蓝战胜国际象棋世界冠军,
其实当时“深蓝”的设计还是有些取巧的,因为编写程序的人不仅写入了国际象棋的基本规则,还加入了详细的棋局策略。
Google搜索,是基于规则的关键词匹配,还有像导航,路径规划问题也是典型的规则。
随着算力和数据的快速提升,我们可以处理更加复杂的数据,在2012年,规则方法输给了统计方法。
这是AI的第二次演进!
统计和规则的差别是什么?举个不恰当的例子,之前我们怎么去识别猪和长颈鹿呢?规则方法是写个规则,比如猪的鼻子是🐽,长颈鹿的脖子很长。
但是统计方法不需要定义规则,直接用大量的猪和长颈鹿的图片去训练它就解决了问题。
在ImageNet的图片数据集上,统计方法实现了16%的误差,但规则方法是25%的误差。
从这以后,就有很多关于图像的应用可以做了,比如说人脸识别,又比如说天气里的卫星云图,彩云天气就是从这里诞生出来的。
AI的第三次演进是Google提出的Transform模型,基于互联网的爆发,大量的文本数据就有了,再加上算力的增加,这个模型使得我们可以去处理文本。
原本解决不好的翻译问题,现在可以解决了。彩云小译的基础也在于此。
OpenAI 在Transform的基础上,推出了GPT-3,里面用到了1750亿个参数,没错,是1750亿!结果实现了一个很不错的结果,可以同时解决好翻译和续写的问题,只需要你给AI丢Prompt(即提示词)。
在GPT-3的基础上,彩云开发了一个翻译的专用模型(参数更少,针对性更强),大幅降低了翻译的成本。
2020年,彩云用中文小说训练出了一个模型,就是彩云小梦1.0,到了2022年8月,推出了2.0版,就是现在的彩云小梦2.0,可以实现和AI对话了。
Super查了下,确实很多人以为是真人躲在屏幕后面,假装AI来和用户对话。
“从某种程度上,图灵测试不是在测人的智能,而是在测人的智能”
后面会展开讲讲彩云小梦这款产品。
03 进入小说领域
这一part我们分两部分来讲:产品需求的挖掘和生长环境带来的起心动念。
一. 产品需求的挖掘
彩云的产品迭代史:
大致的心路历程,在Super和袁行远的播客节目里有聊:
从淘宝做算法出来后,袁行远在业余爱好里喜欢给朋友们通过卫星云图预报几点几分在天通苑将会下雨,每次都很准,这使得最后在选择创业时,明确了通过AI实现天气预报的方向。
以及,后面通过NLP来实现翻译,做出了彩云小译。
彩云小译是一个通用型的翻译软件,类似的产品还有腾讯翻译君。袁行远在深挖小译用户行为的时候发现一个很有意思的情况:
60%的用户和80%的流量都在用彩云小译看小说。
用脚投票的用户,启发了他,研究后发现小说的内容生产和消费量级太大了
根据阅文集团2021年财报:
内容方面,2021年,阅文集团平台新增了70万位作家和120万部作品,全年新增字数超过360亿
另外根据网络数据,2016年左右,每天用户打字量在360亿左右。
在2019年12月份,彩云和阅文达成一个合作,使用彩云小译翻译中文的网文,第一批上线了30本书,结果很多人是认可翻译质量的,
近日,阅文集团与国内人工智能公司彩云科技合作的30部AI翻译网文作品,上线阅文旗下海外门户起点国际(Webnovel)。平台同步上线“用户修订翻译”功能,使用户能够在阅读过程中对AI翻译进行编辑修正,修订信息将帮助翻译模型不断优化效果。接下来,阅文的编辑和技术团队还将持续提供语料对翻译模型进行训练,使其持续迭代优化。
这也成为了袁行远认为的一个里程碑:
对我们是一小步,是机器学习的一大步。
这里面存在一些难度,比如中国的网文是超长篇章回小说,普遍都是百万字以上,小说里面存在人物关系和性别,存在大量的章节,存在着世界观,在超长小说内,前后对于同一个词的翻译还不能不一样。。。
所以通用的翻译模型不会考虑这些细节,使得翻译效果差强人意。
但袁行远更加能够把手弄脏的去研究这个领域里的知识。
二. 起心动念
为什么愿意把手弄脏的挖掘这个领域的知识呢?
这里得讲讲袁行远的成长环境。
Super自己很喜欢看玄幻修仙类的小说,什么唐家三少、天蚕土豆、耳根这些大V的各种作品都是翻来覆去的看,直到有一次和媳妇聊起,她说:
“天蚕土豆是我们那的小吃”
原来,天蚕土豆是我媳妇家乡的一种著名小吃,再一看,天蚕土豆这位作者正是德阳人:
根据我媳妇的描述,他们那小说写作非常的盛行,为了看小说,甚至还会人手一本手抄本。
袁行远是我媳妇的校友,他自己的班级有个论坛,上面的文学版块里就有同学在写小说。。。
甚至《三生三世十里桃花》也是德阳的网络作家写的。
很自然的,袁行远也是重度的小说爱好者。
所有的这一切都有点“Connecting the dots”的韵味,他也说,小时候看小说看得有点多,就胆大的说,不如玩AI来写小说吧。
04 彩云小梦和真正的AI
综合上面两个点,彩云在自然语言处理上,在小说这件事情上深入了下去。
对于小说的理解塑造了现在的彩云小梦,也预示着后面的小梦如何发展:
小说是什么?
小说由文字构成,文字是线性的,也意味着小说里的世界是一件事一件事发生的一个序列。
这也意味着:小说是世界模拟器!
世界模拟器和AI的关系是什么呢?世界模拟器有助于把真正的AI做出来。
因为我们人类就是在玩一个世界模拟器,我们的一生都在书写着一部属于自己的小说,我们每天都在接收大量的信息,在做各种决策,过自己的人生。
假设我们有一个写小说的模型,是不是就能帮助我们做的每一件事情决策呢?这就是模拟自己的一个感觉。
世界模拟器是通向人工智能的一条通路
(使用“造梦笔”小程序,基于上述提示词AI生成的图)
因为当开放世界越来越多,积累的用户数据越来越多,AI对这个世界的理解也会越来越深刻和智能,当开放世界的复杂程度和真实世界一样的时候,AI有没有可能达到和人类一样的智能度呢?
基于上面的展开,彩云小梦有两个重大版本升级:
2020年,彩云用中文小说训练出了一个模型,就是彩云小梦1.0,支持小说续写。
到了2022年8月,推出了2.0版,就是现在的彩云小梦2.0,可以实现和AI对话了,提供了大量的可选的世界观:
(左为小说续写,可选纯爱、言情、玄幻三个模型,右为剧本,可以进入后基于设定的世界观和人物关系和AI对话)
在下一步的演变上,从文字、语音,升级为2D,以及未来的3D,是个理想的路径。
05 进一步分析彩云小梦
一、产品分析
首先我们来聊聊彩云小梦1.0版本
2021年2月彩云小梦启动了只包含Web版本的内测,用户提供开头设定,选择写作风格,AI就可以帮助创作者续写小说。
3月起,B站出现一些大火的搞笑视频,大多以名家大作开头,由小梦来续写,于是就出现了像是“林黛玉大战孙悟空”;“孔融让梨因一个梨引发了血案”;“蒲松龄笔下的狼袭击了多个城市无人能敌”等等视频,虽然无厘头,但也因好笑使彩云小梦开始进入人们视线,用户最高日新增20万,4周用户注册超百万。
【AI续写】蒲松龄的《狼》,恶狼屠杀三百人_哔哩哔哩_bilibili
2021 年的最后一周,由“收获App”主办的首届《无界》双盲命题写作大赛总决选颁奖典礼,作为特别环节,小梦与 7 位入围作者一起,根据特德·姜作品《你一生的故事》的千字开头,续写了一段 500 字的文字,成功骗过人类评委,把自己的作品隐藏在了 7 篇人类作品中。
大家觉得 AI 能够创造出这种新的形式,是很有意思的,它远远超出彩云团队的预期,形成了一种流行文化趋势。但这类似观光客的用户增长终究是昙花一现,并不能沉淀下来,我不禁产生疑问:
彩云小梦 AI 续写的功能究竟是哪些人在长期使用?
通过和袁行远的交流,得出的答案是——目前主要的用户来源于作家群体。虽然在小梦之前也有辅助写作的软件,但真正让网文作家大规模使用,得达到一个门槛,这个门槛就是能挣钱。自己写千字 10 块钱,用 AI 跟人一起写,变成千字 20 块,原来一天写 6000 字,现在一天写 2 万字,字数是原来的 3 倍,质量是原来的 2 倍,就得到了原来 6 倍的收入。
(背后的逻辑是:彩云小梦写的比人还好。。。)
也有一个非常小众的群体,他们热衷于创造属于自己的世界,你把一个世界的故事背景、人物和人物关系放进去,AI 就会在这个框架下顺着这个世界的设定来写,也就有大量的用户产生了很多精彩的世界设定。
2022年8月15号彩云小梦更新2.0版本,新增AI互动功能。
二、AI对话的背后是真人窥屏?
OK,就是这么一款产品,有人说它的背后是真人窥屏?接着从科普证伪、产品原理和商业模式三个部分来展开聊聊。
科普证伪
彩云小梦2.0版本更新后,在不同的社交媒体平台频频出现彩云小梦会窥屏的言论,原因在于很多人同小梦聊天时,它能准确的说出衣服的颜色,甚至有人说手机带有升降镜头的会在询问这个问题时,升起镜头。
为什么大家觉得彩云小梦背后是真人窥屏聊天呢?
提取问题中的两个关键词 「窥屏」和「真人」
先看窥屏,
当前,我们在生活中常常遇到一些APP存在过度索取相机、照片、通讯录等敏感信息获取权限的问题。这些APP在你不知道的情况下在后台擅自调用敏感权限,实际上已经越过了个人隐私的边界。
大家可以查看一下系统设置里面彩云小梦其实没有申请摄像头、录屏等权限,通讯录、短信、相册等隐私权限也都没有。[图片]
因此不存在窥屏的可能性。
其次,是不是真人在后台回复?我们可以想一下,一个人能这么快速的回复用户的实时聊天么?假设可以吧,那一个真人能同时响应几个用户的聊天呢?假定你手速非常快,还有一些快捷词库,一个人能同时处理10个人吧,
如果小梦同时在线有1万人,那是不是需要1000个真人来处理大家的需求呢?对应的成本就非常高了,1000个人工资按5000算吧,这一个月成本就是500万。而且边际成本很高,当用户增加,对应的也得增加真人来处理。
这不是一家互联网公司应该做的。
彩云这家公司之前有彩云天气,做天气预报的,彩云小译,AI翻译,接着就是彩云小梦,AI续写和对话。
从原先用技术解决用户需求,到现在用真人解决,既不能规模化也不赚钱,很难相信彩云愿意花很高的成本去做一件不怎么赚钱的事。
为什么用户会认为和自己聊天背后的AI是真人控制的?
看完大家发的内容,总体来看,用户觉得有两点,第一个是AI的语气像真人,第二个是在聊天过程中AI产生不友善的言论。
在8月份刚上线AI对话的时候吐槽是挺多的,最近几乎都没看到差评了,在豆瓣也看到官方的回应:
AI的回应和投喂AI的语料库相关度很大,早期彩云小梦使用了大量网络文学语料对模型进行训练,但网文价值观的不确定性也影响了模型训练,是有可能出现不友善的言论
不过AI的好处也是,云端可以优化,从后面看到的差评减少,包括Super自己的体验,也发现确实是很少遇到AI恶语相向的情况了,说明彩云优化了这块。
产品原理
彩云小梦能够让一些用户觉得对面是真人,也间接的说明了AI的强大。
最近Super有看到一份测试题,让人们选出哪些图是AI画的,不知道你们能不能看出,反正我是看不出来。
那彩云小梦背后的技术是什么呢?
是AI,只有使用了AI,通过预测用户输入的内容背后想要的回复,才能实现真正的规模化,即一套模型解决所有需求。
这套AI技术的核心逻辑,背后是OpenAI的GPT-3模型,这套模型通过互联网海量的文本信息,实现了文本预测,AI续写就是这个机制,根据你输入的一段话,预测出后面的一段话。
借鉴这套机制,彩云小梦就用中文小说单独训练了一个模型,2.0版本实现了AI对话。
这是整套产品的核心,基于AI的文本预测。
现在付费用户可以和AI打电话,本质还是文本预测,相当于在这个基础上,通过语音转文字,AI基于文字的续写,再用将续写的文字转为音频,实现了AI和人的语音交流。
商业模式
所以目前彩云小梦的商业模式是通过语音通话这一增值体验,来获得商业收入。
我们设想一个逻辑,主要的用户使用路径是,我先和AI用文字对话,觉得体验不错了,其中的部分用户就会愿意付费去和AI打电话。如果长期打电话的体验很棒,会选择续费。
这里面很重要的一点是,沉浸感。
所谓的沉浸感是,和AI对话让我觉得很真实,真的有陪伴感。
但根据Super的体验,觉得彩云小梦的AI水准,离到这个标准还有一定距离,
用这一点来做付费转化,可能会存在一些问题,
由此可以判断当前彩云小梦还无法实现营收平衡。
另一层面,AI技术日新月异,通过海量的用户内容生成,以及用户反馈,彩云小梦的模型会越来越人性化,最后实现真正的沉浸感,在toC层面实现自身的商业闭环。
另外,这套模型还有很多应用场景可以使用,
这是最近国外整理出来的AI应用场景,对话场景,比如游戏内的AI机器人,之前只能指定文案交互,现在可以变成更加开放的逻辑,实现真正的AI机器人对话。
再比如,虚拟偶像,可以实现真正的AI交流。
包括未来,2D,甚至是3D的虚拟世界交互体验,会更加的实现沉浸感,帮助彩云小梦塑造更加真实的空间。彩蛋
技术在不断的进步,沉浸感的问题,相信彩云小梦会最终得到突破和解决。
06 AI是否会有意识?(略)
07 尾声
技术一直都是指数级复利发展的。
我们对新事物的预期会遵循一个技术成熟曲线。要不是期盼它更早到来,过于乐观,要不就是认为它到来还要很久,过于悲观。这是因为,我们身为人这一生物属性,需要适应环境,天生喜新厌旧。
AI在技术上持续突破,但产品创新和商业模式创新还未跟上,这也是AI产品经理们的机遇。
Super坚定的看好AI方向,希望有识之士,一起加入~
是的,Super打算创建一个AI方向交流群,欢迎AI方向相关的朋友添加我的微信:lookforward,说明您的岗位和方向,邀请你入群。
本文有部分删减,全文请产品拆解群的朋友私聊获得链接。
Super黄的同路人@🍊橙子 对本文亦有贡献,感谢!
原创文章,作者:Super黄,如若转载,请注明出处:https://www.agent-universe.cn/2022/10/10384.html