AI字幕吐“脏话”；买不起手办就AI渲染一个；AI学会控制核聚变反应堆；科技冬奥，这位北京大妞让人意想不到

整数智能 • 2022-02-28 18:33 • 产品 • 231 views

AI字幕吐“脏话”；买不起手办就AI渲染一个；AI学会控制核聚变反应堆；科技冬奥，这位北京大妞让人意想不到

MOLAR FRESH 2022年03期

人工智能新鲜趣闻 每两周更新

01

AI字幕在儿童频道里吐“脏话”，中招比例高达40%

被AAAI 2022收录的一篇新研究发现，在7013个儿童视频中，接近40%的节目出现了少儿不宜或脏话等词汇。

甚至在一个113集的儿童机器人学习栏目中，AI就“爆粗”了103次，平均接近一集一次！

来看看这篇论文的调查结果。

研究人员一共从油管上选出了24个儿童频道，分别记录了这些频道的播放量和订阅量。

可以看出，这些筛选出来的视频播放量基本都达到了百万级，订阅人数也同样不少。

AI字幕吐“脏话”；买不起手办就AI渲染一个；AI学会控制核聚变反应堆；科技冬奥，这位北京大妞让人意想不到

然后，研究人员分别试了一下谷歌和AWS（亚马逊网页服务）的字幕生成效果。

结果显示，AI字幕的“少儿不宜”率可谓离谱：

在7013个视频中，谷歌AI出现错误字幕的次数达到2768次，接近40%。

亚马逊的AI字幕错误率还要更高，达到了3672次，超过52%。

具体来说，两个AI分别容易在这些“不太恰当”的字词上出错：

AI字幕吐“脏话”；买不起手办就AI渲染一个；AI学会控制核聚变反应堆；科技冬奥，这位北京大妞让人意想不到

（图左亚马逊，图右谷歌）

在这些数据集中，有一些词语又尤为“少儿不宜”，例如一些骂人的脏词：

AI字幕吐“脏话”；买不起手办就AI渲染一个；AI学会控制核聚变反应堆；科技冬奥，这位北京大妞让人意想不到

经过作者们人工检查（例如确认原视频是否真的说了脏话），发现AI主要容易在这几种情况中出错：背景音乐嘈杂、说话者为婴儿、说话者为儿童、说话者以英语为第二语言、说话者在唱歌。（包括但不限于这几种情况）

AI字幕吐“脏话”；买不起手办就AI渲染一个；AI学会控制核聚变反应堆；科技冬奥，这位北京大妞让人意想不到

那么，有没有什么办法减少这种情况发生呢？

语序连贯的错误更容易修复

研究人员提出了一个新的数据集，利用近音字词来构建禁忌词的“替换”备选。

例如，对于crap这一可能出现的“粗口”，研究人员就给它设置了crab、craft等读音相似的字词，便于AI在搞错时进行替换。

具体来说，他们在BERT、XLM、XLNet等NLP模型上，针对“完形填空”任务进行了重新训练，也就是用[MASK]遮住部分单词，让AI来填写对应的内容。

结果显示，在语序正常、前后文案有逻辑的视频中，AI替换的准确率更高（蓝色为正确替换词）：

AI字幕吐“脏话”；买不起手办就AI渲染一个；AI学会控制核聚变反应堆；科技冬奥，这位北京大妞让人意想不到

然而在一些逻辑不强的文案中，成功替换的效果就没有那么好了：

AI字幕吐“脏话”；买不起手办就AI渲染一个；AI学会控制核聚变反应堆；科技冬奥，这位北京大妞让人意想不到

最终，Megatron和Levenshtein等模型展现出了最好的修复效果，分别给亚马逊AI带来了超过25%的正确修复率，给谷歌AI带来了超过28%的修复率。

AI字幕吐“脏话”；买不起手办就AI渲染一个；AI学会控制核聚变反应堆；科技冬奥，这位北京大妞让人意想不到

看来AI在字幕生成能力上还是任重道远啊。

来源：量子位

论文地址：

https://github.com/sumeetkr/UnsafeTranscriptionofKidsContent/blob/main/YouTube_Transcription_Final.pdf

参考链接：

https://www.dailymail.co.uk/sciencetech/article-10553233/YouTube-AI-putting-explicit-language-captions-videos-aimed-children.html

02

买不起手办就用AI渲染一个！用网上随便搜的图就能合成

渲染一个精细到头发和皮肤褶皱的龙珠3D手办，有多复杂？

对于经典模型NeRF来说，至少需要同一个相机从特定距离拍摄的100张手办照片。

但现在，一个新AI模型只需要40张来源不限的网络图片，就能把整个手办渲染出来！

AI字幕吐“脏话”；买不起手办就AI渲染一个；AI学会控制核聚变反应堆；科技冬奥，这位北京大妞让人意想不到

这些照片的拍摄角度、远近和亮暗都没有要求，还原出来的图片却能做到清晰无伪影：

AI字幕吐“脏话”；买不起手办就AI渲染一个；AI学会控制核聚变反应堆；科技冬奥，这位北京大妞让人意想不到

甚至还能预估材质，并从任意角度重新打光：

AI字幕吐“脏话”；买不起手办就AI渲染一个；AI学会控制核聚变反应堆；科技冬奥，这位北京大妞让人意想不到

这个AI模型名叫NeROIC，是南加州大学和Snap团队玩出来的新花样。

它如何仅凭任意2D输入，就获取到物体的3D形状和性质的呢？

基于NeRF改进，可预测材料光照

介绍这个模型之前，需要先简单回顾一下NeRF。

NeRF提出了一种名叫神经辐射场（neural radiance field）的方法，利用5D向量函数来表示连续场景，其中5个参数分别用来表示空间点的坐标位置（x,y,z）和视角方向（θ,φ）。

然而，NeRF却存在一些问题：

– 对输入图片的要求较高，必须是同一场景下拍摄的物体照片；

– 无法预测物体的材料属性，因此无法改变渲染的光照条件。

这次的NeROIC，就针对这两方面进行了优化：

– 输入图片的场景不限，可以是物体的任意背景照片，甚至是网络图片；

– 可以预测材料属性，在渲染时可以改变物体表面光照效果（可以打光）。

它主要由2个网络构成，包括深度提取网络和渲染网络。

首先是深度提取网络，用于提取物体的各种参数。

为了做到输入场景不限，需要先让AI学会从不同背景中抠图，但由于AI对相机的位置估计得不准确，抠出来的图片总是存在下面这样的伪影：

AI字幕吐“脏话”；买不起手办就AI渲染一个；AI学会控制核聚变反应堆；科技冬奥，这位北京大妞让人意想不到

因此，深度提取网络引入了相机参数，让AI学习如何估计相机的位置，也就是估算图片中的网友是从哪个角度拍摄、距离有多远，抠出来的图片接近真实效果（GT）：

AI字幕吐“脏话”；买不起手办就AI渲染一个；AI学会控制核聚变反应堆；科技冬奥，这位北京大妞让人意想不到

同时，设计了一种估计物体表面法线的新算法，在保留关键细节的同时，也消除了几何噪声的影响（法线即模型表面的纹路，随光线条件变化发生变化，从而影响光照渲染效果）：

AI字幕吐“脏话”；买不起手办就AI渲染一个；AI学会控制核聚变反应堆；科技冬奥，这位北京大妞让人意想不到

最后是渲染网络，用提取的参数来渲染出3D物体的效果。

具体来说，论文提出了一种将颜色预测、神经网络与参数模型结合的方法，用于计算颜色、预测最终法线等。

其中，NeROIC的实现框架用PyTorch搭建，训练时用了4张英伟达的Tesla V100显卡。

训练时，深度提取网络需要跑6~13小时，渲染网络则跑2~4小时。

用网络图片就能渲染3D模型

至于训练NeROIC采用的数据集，则主要有三部分：

来源于互联网（部分商品来源于网购平台，即亚马逊和淘宝）、NeRD、以及作者自己拍摄的（牛奶、电视、模型）图像，平均每个物体收集40张照片。

那么，这样的模型效果究竟如何呢？

论文先是将NeROIC与NeRF进行了对比.

从直观效果来看，无论是物体渲染细节还是清晰度，NeROIC都要比NeRF更好。

AI字幕吐“脏话”；买不起手办就AI渲染一个；AI学会控制核聚变反应堆；科技冬奥，这位北京大妞让人意想不到

具体到峰值信噪比（PSNR）和结构相似性（SSIM）来看，深度提取网络的“抠图”技术都挺不错，相较NeRF做得更好：

AI字幕吐“脏话”；买不起手办就AI渲染一个；AI学会控制核聚变反应堆；科技冬奥，这位北京大妞让人意想不到

同时，论文也在更多场景中测试了渲染模型的效果，事实证明不会出现伪影等情况：

AI字幕吐“脏话”；买不起手办就AI渲染一个；AI学会控制核聚变反应堆；科技冬奥，这位北京大妞让人意想不到

以后或许只需要几张网友“卖家秀”，就真能在家搞VR云试用了。

来源：量子位

论文地址：

https://arxiv.org/abs/2201.02533

项目地址：

https://formyfamily.github.io/NeROIC/

参考链接：

[1]https://twitter.com/ben_ferns/status/1486705623186112520

[2]https://twitter.com/ak92501/status/1480353151748386824

[3]https://zhengfeikuang.com/

[4]https://ningding97.github.io/fewnerd/

03

有AI学会控制核聚变反应堆了，来自DeepMind，登上今日Nature

DeepMind在蛋白质折叠问题上实现巨大突破后，目标又转向核聚变了。

最近，它开发出了世界上第一个深度强化学习AI——可以在模拟环境和真正的核聚变装置（托卡马克）中实现对等离子体的自主控制。

这比传统的计算机控制要更高效且精准，成果登上今天的Nature。

AI字幕吐“脏话”；买不起手办就AI渲染一个；AI学会控制核聚变反应堆；科技冬奥，这位北京大妞让人意想不到

作为强化学习最具有挑战性的一个应用，这一成果也对加速可控核聚变有很大

原创文章，作者：整数智能，如若转载，请注明出处：https://www.agent-universe.cn/2022/02/8393.html

Like (0)

0

关于作者

整数智能

整数智能作为AI行业的数据合伙人，我们提供专家级的数据标注工程平台与数据集解决方案(数据采集、数据清洗与数据标注)

谷歌手机抠图极致到发丝；AI刷奥数题刷出模考最佳成绩；AI语言模型引诱AI危险发言；3D场景下实现的安全强化学习

Previous 2022-02-14

最全自动驾驶数据集分享系列一｜目标检测数据集（1/3）

Next 2022-03-09

产品

大模型日报（2月25日资讯篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。「奇绩大模型日报」知识库现已登陆飞书官方社区： https://www.feishu.…

2025-02-25
890
产品

对话真格基金戴雨森：有关创业、投资与AI的详细指南

用声音，听见真格。「此话当真」是一档泛商业类播客，我们希望搭建这样一个分享和交流的平台，让每一个对商业、科技、创投充满好奇的人都能在这里有所收获。每期播客将会由不同的真格投资人担…

2023-07-07
2720
产品

用AI预测奥密克戎变体结构；通过唇语提高语音识别准确率；凭借AI将草图实时变身二次元老婆；脑机结合的瘫痪病人自主喝咖啡

MOLAR FRESH 2022年42期人工智能新鲜趣闻每周一更新 01 AI一小时预测出奥密克戎变体结构，误差仅半个原子直径来自北卡罗来纳大学夏洛特分校的Colb…

2022-01-17
1530
产品

文心一言疯狂发垃圾短信背后的三大启示

文心一言疯狂发短信的背后反映了什么问题? 是道德的沦丧，还是人性的扭曲？作为一名资深的产品经理，我不禁要深思，为何国内大模型这么卷，迫不及待的抢用户真的能保证用户体验和积累长期价…

2023-09-06
2190
产品

狸谱 AI 爆款频出，让年轻网友们集体“上当”，花式拜年

继《换你来当爹》和《灵魂提取器》风靡之后，「狸谱」在春节期间，又上线了《万物变挂件》和《新年萌偶摇》的新玩法。狸谱也是真离谱，没想到能把 AI 生图玩出这么多花（创意工作者落泪了…

2025-01-31
1360
产品

真格天使项目「聚禾生物」宣布完成B轮超亿元融资｜Z News

更多被投新闻依图科技 | Momenta | Nuro | 云天励飞禾赛科技 | 晶泰科技&nb…

2023-12-28
1830
产品

官栈张宇：「传统」补品如何滋补年轻人？｜Z Circle

Z Circle 是关于人的栏目。人是一切创新的源动力。在过去的十二年里，真格一直专注投人哲学，连接起那些最真挚、勇敢、极具创新精神的人们。我们记录他们的故事和旅程，希望你能从中…

2024-02-26
1550
产品

整数智能4D数据标注工具亮相成都“第三次数据标注产业供需对接会”

为加快推动数据标注产业高质量发展，3月20日，由工业和信息化部电子第五研究所、中国移动通信集团信息技术中心、航天科工网络信息发展有限公司联合主办，成都数据…

2025-03-31
1820
产品

我的伙伴是 Soul AI，但我们从不尬聊

「今年过年，你总该见见大姨给你介绍的对象了吧？」老妈的微信又跳了出来，配上一个期待的表情。我看了看日历，离过年还有一个月，但催婚倒计时已经和那个男人的《恭喜发财》一样等待解冻。 …

2024-12-25
800
产品

被一些好消息包裹，寒意不侵｜真·新闻

从九月的秋色走来，一夜风紧，月至十一。直到闻见风里的寒意，再回首，发现一路惊喜。愿在这个凛冽的冬日里，和你分享过去三个月里的喜悦，传递一些温暖作来日期许，顺问冬安。真格被投新闻 …

2022-11-30
1470