MolarData| AI领域资讯速递

MolarData| AI领域资讯速递
MOLAR FRESH   2021年第11期
人工智能新鲜趣闻    每周一更新
IBM华人研究员多角度分析鲁棒性,发现Transformer比谷歌BiT效果高4.3倍
为什么Transformer比CNN更有效?IBM Research在arxiv上发布了他们的研究成果,通过对六个ImageNet数据集上的实验,通过分析,提供定量的指标来解释Transformer的有效性,代码也上传到GitHub以供复现。
在这篇论文中,研究人员研究了Vision Transformer(ViT)的常见的模型变体,distribution shift和一些对抗样例,来检验模型鲁棒性。文章使用六个不同的 ImageNet 数据集进行分类的鲁棒性实验,对所有ViT模型进行全面的性能比较型和 SOTA 卷积神经网络(CNNs) 。通过这一系列的实验,提供了定量和定性的指标的分析来解释为什么Transformer确实是更鲁棒的learner。
  • ImageNet-P有十个常见类型的绕动,例如几个像素的变化。在这种情况下,mFR和mT5D是是标准的方法去评估模型的鲁棒性。
  • ImageNet-R和ImageNet的标签类相同,只是在不同领域之间增加了semantic shift。
  • ImageNet-A 主要针对多标签分类问题下,类别标签误分类的问题。同时还包括一些纹理细节。
  • ImageNet-O 数据主要针对训练和测试标签不一致的情况下,是否模型预测有较低的置信度。
  • ImageNet-9 主要面向需要背景的视觉任务,而不只是关注前景。
MolarData| AI领域资讯速递
和其他相似的模型相比,参数较少,在数据集和预训练组合类似的情况下,ViT在ImageNet-A上的top-1准确率为28.10%,比BiT(Big Transfer)的模型变体高了4.3倍。通过对图像掩蔽、傅里叶光谱灵敏度和离散余弦能谱扩展的分析,展示了 ViT 的鲁棒性。
来源:新智元
 
 

Mendix 披露低代码方法论,解读真实技术趋势

2021年初正式宣布进入中国市场之后,Mendix 在近日向媒体重点披露了关于低代码的技术方法论,以及近四个月在中国市场的进展。
对于低代码常被讨论的模型驱动部分,Mendix 希望做到同一套模型一贯到底。不同角色包括业务、技术,他们面对同一套模型;时间角度上,项目第一天到最后一天,面对同一套模型来开展工作;软件各个阶段,同一套模型既代表需求、又代表设计文档,上线后通过内置的解释器,模型也是可运行的逻辑载体;针对不同技术,同一套模型在服务器端代表着类似java语言,在浏览器端代表着类似JavaScript的语言;最后,同一套模型也会通过Mendix平台技术,帮你构建,运行在各类设备终端,包括iOS、Android等设备
MolarData| AI领域资讯速递
另外,Mendix 推荐了 MASA 架构作为更加全面、管理和盘活整个企业架构的模式。在 MASA 架构层中,用户可以通过 Mendix 直接开发涉及 UI、逻辑和数据的应用,也能使用 Mendix 以微服务的形式暴露可被其他模块调用的逻辑和数据接口,或者借用 Mendix 已有 UI 和逻辑,去联调底层的核心系统。
来源:AI科技大本营
 

Google机器臂能抓手帕了,软的硬的都能抓!ICRA 2021已接收

ICRA2021会议上,Google 发布了一个名为deformaleravens 的开源模拟基准,对可变形物体操作的研究有极大促进作用。
论文中共设计了12个任务,包括操作电缆、织物和包,还包括一系列模型架构,用于操纵可变形物体,使其达到预期的目标状态。这些模型架构也能够让机器人重新排列电线来达到目标状态,平滑地使非钢体如织物达到指定形状,或是将物品放入袋子中。
Deformaleravens 扩展了之前Google对重排列对象(rearranging objects)的工作,包括一套12个模拟任务,覆盖一维、二维和三维可变形结构。每个任务都包含一个模拟的 UR5手臂和一个用于捏握的模拟夹钳,并与脚本演示器捆绑在一起,自动收集用于模仿学习的数据。任务随机化分布中项的起始状态,以测试不同对象配置的一般性。
MolarData| AI领域资讯速递
UR5 是一款轻量级、可适应的协作式工业机器人,具有极高的灵活性,可处理中型应用程序。UR5e 的设计是为了无缝集成到广泛的应用程序。UR5e 也提供 OEM 机器人系统,并带有三向示教器(3-position teach pendant)。
来源:新智元
 
 

OpenAI新研究:扩散模型在图像合成质量上击败BigGAN,多样性还更佳

DeepMind曾于2018年在一篇 ICLR 2019 论文中提出了BigGAN,当时一经发表就引起了大量关注,很多学者都不敢相信AI竟能生成如此高质量的图像,这些生成图像的目标和背景都相当逼真,边界也很自然。
如今,AlexNichol和Prafulla Dhariwal两位学者提出的扩散模型,在ImageNet512×512上实现了3.85FID,甚至在每个样本只有25次正向传递的情况下,其生成图像质量可匹敌DeepMind提出的BigGAN。
MolarData| AI领域资讯速递
从最佳ImageNet512×512模型(FID3.85)中选择的样本
据PapersWithCode数据显示,目前在ImageNet数据集的从64×64到512×512分辨率的图像生成模型榜单中,本文提出的ADM模型全部占据榜首。另外,在LSUN数据集上,ADM模型图像生成能力也首屈一指。
Nichol 和 Dhariwal 找到为扩散模型提供最佳样本质量的模型架构进行一些架构调整。Jonathan Ho在论文“Denoising diffusionprobabilistic models”中引入了U-Net的扩散模型架构,与先前的架构相比,该架构大大提高了样本质量,用于去噪得分匹配。此外,他们使用了一个16×16分辨率的单头全局注意力层,并且在每个残差块中添加一个时间步嵌入的投影。
来源:AI科技评论
 
 

Facebook AI 研究院在无监督语音识别上取得新突破,wav2vec-U性能直逼监督模型

近日,Facebook AI 研究院(FAIR)发布了无监督的wav2vec架构——wav2vec-U。wac2vec-U只需要从录制的语音音频和未配对的文本中学习,无需进行任何转录。
与以前的ASR系统相比,FAIR采用了一种新颖的方法:该方法首先从未标记的音频中学习语音的结构。通过FAIR开发的自监督模型wav2vec 2.0和简单的k均值聚类方法,研究人员将语音数据分割成与发音对应的语音单元。
MolarData| AI领域资讯速递
为了学习识别录音中的单词,研究人员训练了一个生成对抗网络(GAN)。生成器获取嵌入在自监督表示中的每个发音片段,并预测相对应的音素,鉴别器会评估预测的音素序列是否看起来逼真。一开始,转录效果很差,随着训练的进行,生成器的生成结果逐渐变得准确。
在GAN训练提供了第一个非监督模型之后,研究人员使用半监督学习的多次迭代逐步完善转录的质量。
研究人员执行了两次迭代:首先,使用无监督的GAN模型对训练数据进行伪标记,然后在伪标签上训练HMM。其次,研究人员用HMM重新标记训练数据,然后使用具有CTC损失的HMM伪标签微调原始的wav2vec2.0模型。
来源:AI科技评论

END

MolarData| AI领域资讯速递
MolarData| AI领域资讯速递
MolarData| AI领域资讯速递
MolarData| AI领域资讯速递
MolarData| AI领域资讯速递
MolarData| AI领域资讯速递
掌握AI咨询
了解更多科技趣闻
长按扫码 关注我们

原创文章,作者:整数智能,如若转载,请注明出处:https://www.agent-universe.cn/2021/05/8439.html

Like (0)
Previous 2021-05-21 16:03
Next 2021-05-28 13:39

相关推荐