
MOLAR FRESH 2022年41期
人工智能新鲜趣闻 每周一更新
01
谷歌推出全能扒谱AI:只要听一遍歌曲,钢琴小提琴的乐谱全有了
听一遍曲子,就能知道乐谱,还能马上演奏,而且还掌握“十八般乐器”,钢琴、小提琴、吉他等都不在话下。
这就不是人类音乐大师,而是谷歌推出的“多任务多音轨”音乐转音符模型MT3。

先展示一段原音频,以及由MT3识别乐谱渲染的音频。大家可以感受一下区别:
原音频
MT3
谷歌团队放出了MT3的源代码,并在Hugging Face上放出了试玩Demo。

不过由于转换音频需要GPU资源,在Hugging Face上,建议各位将在Colab上运行Jupyter Notebook。
相比与自动语音识别(ASR),自动音乐转录(AMT)的难度要大得多,因为后者既要同时转录多个乐器,还要保留精细的音高和时间信息。
多音轨的自动音乐转录数据集更是“低资源”的,现有的开源音乐转录数据集一般只包含一到几百小时的音频。
作者受到低资源NLP任务迁移学习的启发,证明了通用Transformer模型可以执行多任务AMT,并显著提高了低资源乐器的性能。
作者使用单一的通用Transformer架构T5,而且是T5“小”模型,其中包含大约6000万个参数。
该模型在编码器和解码器中使用了一系列标准的Transformer自注意力“块”。为了产生输出标记序列,该模型使用贪婪自回归解码。
MT3使用梅尔频谱图作为输入。对于输出,作者构建了一个受MIDI规范启发的token词汇,称为“类MIDI”。

生成的乐谱通过开源软件FluidSynth渲染成音频。
作者定义的通用输出token还允许模型同时在多个数据集的混合上进行训练,类似于用多语言翻译模型同时训练几种语言。
这种方法不仅简化了模型设计和训练,而且增加了模型可用训练数据的数量和多样性。
来源:量子位
论文地址:https://arxiv.org/abs/2111.03017
源代码:https://github.com/magenta/mt3
Demo地址:https://huggingface.co/spaces/akhaliq/MT3
02
AI学高数达到MIT本科水平,学了微积分线性代数概率论等6门课,不光能做题还能出题
让语言模型做数学题,有多难?
强如GPT-3,在9-12岁的小学数学上,第一次才考20多分。
万万想不到啊,2022年才刚开始,突然有人宣布他们的模型掌握了高数,达到MIT本科水平。

AI学了6门MIT本科基础数学课里随机抽取的例题,都是网上就有的公开课,包括:
单变量微积分(课程编号18.01)
多变量微积分(18.02)
微分方程(18.03)
概率与统计入门(18.05)
线性代数(18.06)
计算机科学中的数学(6.042)
那么AI最后学到什么水平呢?
总计210道题,AI全部答对。
最后为了证明训练出来的AI没有过拟合,还额外加试了一场应用线性代数,结果AI也掌握了。
这项来自MIT+哈佛+哥伦比亚大学+滑铁卢大学的联合研究开了什么挂?
核心思想是把数学问题转换成等价的编程问题。
他们找来的这位AI——OpenAI的Codex,是GitHub代码生成工具Copilot背后的技术基础。

Codex解题的过程分两步:先审题,再作答。
第一步,自动生成需要的上下文,把题干扩充、缩减或改写成适合编程解决的样子。
第二步,生成对应的代码,运行后给出答案。

比如补充自然语言题干中隐藏着的问题语境“在微分方程中”。
列好解题需要用到的Python库。
把问题扩充成更精确的数学语言。
除了做题,学会高数的AI还能反过来给人类出题。
不到一秒钟就能出一道题,试验中总共出了120道题。
把人类出的题和AI出的题混在一起,找学生来做问卷调查,学生也很难分清一道题是不是AI出的。
来源:量子位
论文地址:https://arxiv.org/abs/2112.15594
参考链接:https://www.reddit.com/r/MachineLearning/comments/rutbpv/r_a_neural_network_solves_and_generates/
03
这就是低配版「钢铁侠」吗?略输颜值,但毕竟是飞起来了
「看,那个大眼睛机器人好像钢铁侠啊!」
来自意大利理工学院的一支研究团队致力于制造能够实现飞行的类人机器人。
IIT的团队最近推出了一个新框架,可以估计未配备推力测量传感器的飞行多体系统的推力强度。
该框架发表在 IEEE Robotics and Automation Letters 上的一篇论文中,最终可以帮助他们实现他们设想的飞行类人机器人。

团队将他们一直关注的研究领域称为「空中人形机器人」。
「据我们所知,我们完成了第一部关于飞行类人机器人的研究,」研究人员Pucci 说道
「这篇论文显然只是在模拟环境中测试飞行控制器,但是抱着期望,我们开始了设计 iRonCub 的旅程。」

研究者提出的推力估算框架极大地简化了飞行机器人的设计,并降低了制造成本。
他们将两种不同的信息源组合成一个单一的估计过程,因此不需要在推动机器人的每个喷气发动机上安装力传感器。
Pucci说:「我们首先建造了一个特别的实验装置,它看起来像一个防火、防弹的房间,用来放置喷气发动机和安全地进行实验。」
「然后,通过使用这种设置,我们从喷气发动机收集输入/输出数据,并选择描述发动机行为的模型。」
框架用来估计推力的第二个信息来源是整个机器人所谓的「质心动量」。
这是一个机器人的人形系统开发的著名定理,以控制和估计它们的运动。
为了评估框架的有效性,Pucci 和他的同事们在一个名为 iRonCub 的新型机器人上进行了测试。
「操作喷气动力机器人不是一件容易的事情,因为喷气温度可能达到700摄氏度,而且空气速度可能具有超音速特征,流速约为1800公里/小时。」

「除了在类似灾难的情况下的应用,我们相信这项工作可以应用于比飞行类人机器人更简单的设计,包括喷气动力的飞行箱。」
论文地址:https://ieeexplore.ieee.org/abstract/document/9622189
参考资料:https://techxplore.com/news/2021-12-humanoid-robot.html
04
金鱼会开车?对,以色列新研究证明金鱼有陆地导航能力,还能看标志认出目的地
只能在水中游动的金鱼,竟然学会了在地面上“开车”?

没错,它不仅能通过改变在鱼缸中游动的方向,来控制小车方向:

经过努力后,还能准确到达指定地点(粉色标记)!

这是来自以色列内盖夫本-古里安大学(Ben-Gurion University of the Negev)的一项最新研究。他们将金鱼的鱼缸做成小车,来验证它们具有陆地上的导航能力。
那么,这些金鱼究竟是怎么学会“开车”的呢?
利用摄像头+目标检测算法,就能捕捉到金鱼在鱼缸中所处的位置,并以此决定小车行驶的方向:

为了避免金鱼驾驶小车撞上墙壁等障碍物,研究人员给小车装上了激光雷达,并用树莓派控制它
当小车与障碍物相距只有20cm的时候,小车就会自动停下,无论金鱼怎么操控这个小车,它都不再继续前进,直到金鱼转到其他方向:

这样一来,一个专门为金鱼打造的驾驶系统就做好了。
研究人员给实验房间的一面墙贴上粉色标记,训练金鱼控制小车到达目的地。
他们严格控制金鱼的饮食,只有在它成功控制小车到达目的地后,才会给它比平时更多的食物奖励
此外,研究人员通过更换起点和终点的位置,来证明金鱼对于“粉色标签”目的地的记忆,不仅仅是一种肌肉记忆。
此前,虽然有研究发现鱼类具有“水中导航能力”,但并没有研究表明金鱼同样具有陆地导航能力,这次的实验结果无疑证明了这一点。
来源:量子位
论文地址:
https://www.sciencedirect.com/science/article/abs/pii/S0166432821005994
参考链接:
https://techcrunch.com/2022/01/03/the-fish-is-driving-again/
https://twitter.com/ronen_segev/status/1477889582398164994
END 原创文章,作者:整数智能,如若转载,请注明出处:https://www.agent-universe.cn/2022/01/8397.html