
MOLAR FRESH 2021年32期
人工智能新鲜趣闻 每周一更新
01 网红波士顿动力狗“打工实录”


上班的地点是位于西澳大利亚的一座水力发电厂,由一所控制中心进行远程管理。
由于控制中心共管理了20所发电厂,进厂的路途又特别容易在极端天气下被封堵,因此便引入了机器狗。

所以,软件公司Energy Robotics做了更多的定制化开发。

公司CEO表示,未来会一直致力于使机器狗更聪明。
比如,现在还是使机器狗重复执行一些固定的具体任务,比如去某个仪器前拍照并测量温度。
但未来希望能做到点击即检查(Click and Inspect),直接告诉机器狗需要检查A区域,它就会自主提取分析信息,前往该区域收集所需信息。
拥有十八般艺能的波士顿动力家的机器狗,可以说是就业前景非常广阔了。
https://www.youtube.com/watch?v=PkW9wx7Kbws
来源:量子位
02 MIT新研究:强对手还是“猪队友?”AI和人类玩家之间的配合可以说是没有配合了
近年来,从国际象棋、德州扑克到《星际争霸》,基于强化学习(reinforcement learning)算法的AI智能体早已达到人类顶级玩家水平。
但在这些游戏中,AI与人类都表现为”对抗关系”
如果让AI与人类“配合”打游戏,强化学习智能体能成为一个“好队友”吗?
最近,麻省理工林肯实验室研究团队在arXiv提交了一篇新论文《Evaluation of Human-AI Teams for Learned and Rule-Based Agents in Hanabi》,论文表明,尽管强化学习智能体在Go、星际争霸等竞争性游戏表现相当优异,但它们与人类合作玩游戏时,在简单的纸牌游戏中表现都很“糟糕”。

基于“规则”的智能体表现更好
研究人员从客观和主观两方面评价了人工智能的合作水平。

强化学习与现实世界仍存在距离
研究人员说明,不要将Hanabi实验的结果外推到他们无法测试的其他环境、游戏或领域。
在技术和学术领域,关于强化学习的争论很多,研究结果也表明不应将RL系统的显著性能视为在所有可能的应用中都能获得相同的高性能。在学习型智能体在复杂的人类机器人交互等情况下成为有效的合作者之前,需要更多的理论和应用工作。
论文地址:
https://arxiv.org/pdf/2107.07630.pdf
https://bdtechtalks.com/2021/11/01/reinforcement-learning-hanabi/
来源:新智元、AI科技评论
03 现在,只动动嘴就可以生成图像了
继OpenAI于今年的1月份推出CLIP,实现文本描述与图片的精准匹配之后,研究人员从CLIP中学习了一种音频表示方法。
这个方法搭配VQGAN-CLIP,就能实现声音到图像的转变!
比如给它听4种不同的青蛙叫,它就能生成4种青蛙的照片:

再来一段更直观的根据音频生成的视频:
目前,关于这个音频表示方法的研究已被国际声学、语音与信号处理顶会ICASSP接收。
下面就来看看这个音频表示方法有何特殊之处。
方法名叫Wav2CLIP,从下图我们可以看出它和CLIP的模型架构非常像。

作为视听(audio-visual)对应模型,Wav2CLIP也有两个编码器,一个是冻结图像编码器(Frozen Image Encoder),一个是音频编码器,分别从视频中提取图像和音频数据进行训练。
按照CLIP论文的原始方法,研究人员采用对比损失(contrastive loss)进行特征提取,并添加多层感知器(MLP)作为投影层。
总的来说,Wav2CLIP的训练数据为一段视频,利用CLIP的图像编码器(freeze操作)对音频图片和音频进行特征提取,就可以生成“明白”自己应该对应什么图片的音频表示。
所以反过来也可以根据这种表示推出图片。
具体方法就是通过把引导VQGAN在潜空间中查找与文本提示匹配的图像的CLIP embeddings,替换成Wav2CLIP音频embeddings而完成。
由于Wav2CLIP不同于以往的视听对应模型,它不需要将视觉模型与听觉模型结合起来学习,所以训练方法也就非常轻量级。
经过额外层的训练,Wav2CLIP也能执行零样本音频分类、音频字幕和跨模态检索等下游任务。
在未来工作方面,研究人员表示将在Wav2CLIP上尝试各种专门为多模态数据设计的损失函数和投影层,并探索从共享embedding空间生成音频,以实现从文本或图像到音频的跨模态生成。
论文地址:
https://arxiv.org/abs/2110.11499
开源代码:
https://github.com/descriptinc/lyrebird-Wav2CLIP
来源:量子位
04 为机器人配置皮肤,Facebook宣布为新一代机器人提供触觉功能
扎克伯格刚刚宣布Facebook更名为Meta没两天,又“趁热打铁”地宣传起一款机器人皮肤。
这款皮肤有啥用呢?
小扎说,可以用于元宇宙中的虚拟对象,使我们与之交互时获得触觉感受
这款皮肤成本约为6美元,可测量轻至0.1N的力

搭配一个薄的柔性PCB,它基本上是一个磁力计的网格。
皮肤背后的传感技术非常简单,如果向它施力,弹性体就会变形,随着它的变形,它改变了磁通量。
这些变化会被磁力计监测收集,并反馈给通过自监督学习训练过的AI模型。
该模型负责分析并转换成接触位置、施加力的大小等具体信息。
研究人员用该皮肤测试了对葡萄、蓝莓这种水果的细腻触感。

而在此次介绍ReSkin的技术博客里,他宣布:
一个关于机器人触觉感知的开源生态系统正式生成(详情可参考文末链接[1])。
该系统就由ReSkin、他们此前出的基于视觉的触觉传感硬件DIGIT,以及模拟器 (TACTO)、基准测试 (PyTouch) 和相关数据集组成。
这么看来,带有触觉体验的元宇宙什么时候到来并不好说,但拥有成熟触觉感知能力的机器人已经不远了?
[1]https://ai.facebook.com/blog/teaching-robots-to-perceive-understand-and-interact-through-touch
[2]https://www.newscientist.com/article/2295617-metas-touch-sensitive-robotic-skin-could-form-part-of-the-metaverse/
[3]https://ai.facebook.com/blog/reskin-a-versatile-replaceable-low-cost-skin-for-ai-research-on-tactile-perception
来源:机器人大讲堂、量子位
END