MolarData| AI领域资讯速递

MolarData| AI领域资讯速递

MOLAR FRESH   2021年第9期

人工智能新鲜趣闻    每周一 更新


谷歌提出MLP-Mixer:一种无卷积、无注意力、纯MLP构成的视觉架构

尽管CNN和Vision Transformer(ViT)在计算机视觉领域取得了优异的成绩,本文提出了一种区别于CNN和Transformer的新架构MLP-Mixer,一种极具竞争力且概念与技术简单的新方案,它无需卷积与自注意力。相反,MLP-Mixer仅仅依赖于在空域或者特征通道上重复实施的多层感知器;Mixer仅依赖于基础矩阵乘操作、数据排布变换(比如reshape, transposition)以及非线性层。


下图给出了Mixer的宏观建构示意图,它以一系列图像块的线性投影(其形状为patches x channels)作为输入。Mixer采用了两种类型的MLP层(注:这两种类型的层交替执行以促进两个维度间的信息交互):

MolarData| AI领域资讯速递

channel-mixingMLP:用于不同通道前通讯,每个token独立处理,即采用每一行作为输入。

token-mixingMLP:用于不同空域位置通讯,每个通道图例处理,即采用每一列作为输入。


在极端情况下,本文所提架构可视作一种特殊CNN,它采用1×1卷积进行channel mixing,全感受野、参数共享的的单通道深度卷积进行token mixing。

来源:AIWalker



CVPR2021|引入记忆模块,突破长距离依赖视频预测的性能瓶颈

本文专门对长距离动态上下文进行建模来进行视频预测,解决了RNN方法捕获动作上下文的固有问题,并提出了一个LMC-Memory记忆对齐模块建立起当前输入序列与历史动作上下文的映射关系,方便后续的上下文重建。此外,为了解决运动特征的高维表征问题(由动作的复杂性和外观的多样性造成),作者对记忆特征进行解藕将全局运动和局部运动区分开来,可以提升对局部运动预测的准确性。

 

下图为LMC-memory进行视频预测的总体流程,模型的输入为一系列连续的视频帧以及它们的差分序列,分别输入到上侧的未来帧预测支路和下侧的动作上下文记忆支路。

MolarData| AI领域资讯速递

LMC-Memory模块主要用来保存和提供长距离依赖的动作上下文信息,LMC的优化分为两个阶段,分别为运动上下文存储阶段和输入序列上下文匹配阶段,如下图所示:

MolarData| AI领域资讯速递

来源:我爱计算机视觉



“重参数宇宙”再添新成员:RepMLP,清华大学&旷视科技提出将重参数卷积嵌入到全连接层

本文提出一种多层感知器风格的神经网络构建模块RepMLP用于图像识别,它有一系列的全连接层构成。相比卷积层,全连接层更为高效,可以进行更好的长期依赖与位置模式建模,但在局部结构提取方面较差,因此通常不太适合于图像识别。


训练阶段的RepMLP(见下图)由三部分构成:Global Perceptron,Partition Perceptron,Local Perceptron。

MolarData| AI领域资讯速递

本文提出一种结构重参数技术,它为全连接层添加了局部先验信息以使其可以进行强有力的图像识别。具体来说:在训练阶段,我们在RepMLP内部构建了卷积层,而在推理阶段,我们将这些卷积层合并到全连接层内。


在CIFAR数据集上,简简单单的MLP模型即可取得与CNN非常接近的性能。通过将RepMLP插入到现有CNN中,我们在ImageNet数据集上提升ResNets模型精度达1.8%,在人脸识别任务上提升2.9%,在Cityscapes提升2.3%mIoU精度且具有更低的FLOPs。

来源:AIWalker



商汤、港中文实现单目人脸重建新突破:基于生成网络的渲染器

近日,商汤-港中文联合实验室提出基于风格化对抗生成器的人脸渲染器,用于取代传统图形学基于栅格化的渲染器来进行3D模型的重建。

受最近基于StyleGAN的真实人脸生成器的启发,为了实现人脸几何参数受控的生成器,文章提出了基于3D人脸几何信息的渲染模块,在保持用随机隐变量生成纹理的同时显示地加入了人脸的几何信息。

MolarData| AI领域资讯速递

图5 整体网络结构

此外,为了解决同时优化人脸参数模型和在生成器中使用的表征人脸纹理的隐变量的问题,文章设计了与生成器结构对称的回归网络来估计隐变量的初始优化值。在此基础上,进行网络本身相对于输出图像的梯度反传进行人脸几何参数的优化,进而得到更具细节的人脸3D模型。


人脸重建效果的对比如下图所示。由于生成式渲染器的引入消除了渲染图片与目标图片之间的偏差,因此渲染图片与目标图片之间的距离可以更好反映渲染器的法向输入与真实3D几何之间的差异,从而使该方法获得了比之前方法更精准的人脸重建结果。

MolarData| AI领域资讯速递

图6 人脸重建效果对比

来源:我爱计算机视觉

CVPR2021 | 任何网络都能山寨!新型黑盒对抗攻击模拟未知网络进行攻击

目前,研究者们提出了越来越多的黑盒攻击算法,其中基于「模拟」的攻击成为了一种新的攻击形式。利用元学习,可以将黑盒攻击的查询复杂度降低几个数量级。CVPR 2021 的《Simulating Unknown Target Models for Query-Efficient Black-box Attacks》这篇论文解决了模型窃取攻击中长久以来存在的一个问题:训练代理模型的时候需要查询目标模型,因此查询量仍然很大,而且更为严重的问题是这种攻击方式可以被轻易地检测和防御。


为此,基于知识蒸馏的 MSE 损失函数被应用在元学习中的内部和外部更新来学习多种不同网络模型的输出。如此,一旦训练完成,模拟器只需要少量的查询数据微调(fine-tune) 就可以精确地模拟未知网络的输出,从而使大量的查询转移到模拟器上,有效降低攻击中目标模型的查询复杂度。


模拟器攻击首次解决了这个问题,Simulator 在训练的阶段中没有与目标模型有任何交互,仅仅是攻击时花费少量的查询,便可以极大地节省攻击的查询量。总结一下,模拟器攻击在训练阶段时使用大量不同的现有模型生成的训练数据,并且将知识蒸馏损失函数应用在元学习中,这样在测试的时候就可以模拟任何未知的黑盒模型。

MolarData| AI领域资讯速递

来源:机器之心

END

MolarData| AI领域资讯速递
MolarData| AI领域资讯速递
MolarData| AI领域资讯速递
MolarData| AI领域资讯速递
MolarData| AI领域资讯速递
MolarData| AI领域资讯速递

掌握AI咨询

了解更多科技趣闻

长按扫码 关注我们

原创文章,作者:整数智能,如若转载,请注明出处:https://www.agent-universe.cn/2021/05/8443.html

Like (0)
Previous 2021-05-07
Next 2021-05-14

相关推荐