MOLAR NEWS
2020年第28期
MolarData人工智能每周见闻分享,每周一更新。
AI语音独角兽思必驰完成数亿元Pre-IPO融资,冲刺苏州AI创业第一股
思必驰总部位于苏州,是国内语音赛道上的AI独角兽。
距上一次4.1亿元的E轮融资,仅仅相隔4个多月(4月7日)。
而这一次的Pre-IPO轮融资的目标也是非常明确:准备上市!
据官方介绍,在本轮融资后,思必驰将从三方面着手:
首先,持续加大核心技术的研发投入,增强源头技术的持续创新力。
其次,加大对AI芯片、语音交互解决方案的研发投入,巩固在物联网智能终端市场的优势地位。
最后,加速赋能金融、政务、医疗等行业的智能化升级。
总体来看,依旧是对技术研发的不断投入,以及加速技术的落地。
随着本轮官宣的Pre-IPO融资,思必驰冲刺苏州AI创业第一股,指日可待。
来源:新智元
更精确地预估到达时间,滴滴新研究提出异质时空图卷积网络
随着人们与日俱增的出行需求,智慧交通系统已成为城市建设中不可或缺的角色。预估到达时间(Estimated Time of Arrival,ETA)是智慧交通系统中尤为关键的一项任务,根据给定的出发时间,精确地预估出从起点到终点所需时长,有助于节省用户的出行时间,优化车辆调度和路径规划等。
滴滴的研究团队提出了 HetETA 框架,联合卷积神经网络(Convolution Neural Network,CNN)和图神经网络(Graph Neural Network, GNN)处理时序信息和空间信息。此外,该研究还将 HetETA 与 WDR 模型联合起来,将 HetETA 最后一层的隐状态向量作为 WDR 的额外特征输入。与原来的 WDR 模型相比,加入了 HetETA 的 WDR 模型 MAPE 下降了 1.19%~1.94%,MAE 下降了 1.57%~5.30%,RMSE 下降了 1.67%~6.42%,BCR 下降了 3.33%~18.50%。这对于具有不可预测性的 ETA 任务而言,无疑是非常显著的提升,证明了 HetETA 模型的有效性。
来源:机器之心
MIT、IBM联合打造AI配音师:检测动作自动添加音效,视频「无声」胜「有声」
MIT-IBM 沃森人工智能实验室主任研究员淦创博士领导的研究小组提出了一种名为 “Foley Music” 的模型,可以从无声视频中生成富有表现力的音乐。该模型将视频作为输入,检测视频中的人体骨架,识别其与乐器之间的交互作用,预测相应的 MIDI 文件。
首先,研究者确定了生成音乐的两个关键要素。对于视觉感知,采用身体和手指关键点作为视觉表征,从而可以显式地对身体部位和手部动作进行建模;对于音频表征,研究者提出使用 MIDI,可对每个音符事件的时间和强度信息进行编码,使用标准音频合成器,亦可轻松将 MIDI 转换为逼真的音乐波形。由此将音乐生成问题视为 Motion-MIDI 的转换问题,如下图所示。同时研究者还提出了 Graph-Transformer 模块来学习将它们关联起来的映射函数。
来源:机器之心
第四范式提出AutoSTR,自动搜索文字识别网络新架构
由于文本的多样性和场景的复杂性,场景文本识别(Scene Text Recognition,STR)具有很大的挑战性。
通过对图像预处理模块(如校正和去模糊)或特征序列翻译模块的改进,提高文本识别网络的性能越来越受到各方关注。然而,另一个关键模块,即特征序列抽取器(骨干网络),还没有得到广泛的研究。受神经架构搜索(NAS)的成功启发,第四范式提出了自动STR(AutoSTR)来搜索数据相关的主干网络,以提高文本识别性能。首先,该工作为STR设计了一个特定领域的搜索空间,既包含了操作上的选择,也包含了对下采样路径的约束。通过一个两步搜索算法将操作和下采样路径分离,以在给定的空间内进行有效的搜索。实验表明,通过搜索数据相关的主干网络,AutoSTR可以在标准基准测试中优于其他SOTA方法。
来源:AI科技评论
深度学习算法新应用:脸部识别检测心脏病,准确率达80%
脱发、黄弹瘤(眼睑发黄)和角膜弓(角膜周围的一个不透明的环)是几个面部生物标志物之一,表明一个人可能患有心血管疾病。
基于此,一个来自中国的研究小组现开发出一种深度学习算法,只需要研究一个人的四张照片,就可以确定一个人患冠心病的风险。
在2017年至2019年的两年时间里,研究人员招募了5796名曾在医院接受心脏成像检查的患者。每个病人都拍了四张照片——两张侧面照片,一张正面照片,一张俯视头顶。然后训练一个深度学习算法来研究这四幅图像并评估一个人的心脏病风险。
其算法结果,在另外1000名患者中得到验证:在队列中80%的人中,该算法能够正确检测出心脏病。另外,该算法能准确检测出61%的冠心病患者。这项新研究发表在《欧洲心脏杂志》上。
来源:Ofweek
MIT 更新最大自然灾害图像数据集,囊括 19 种灾害事件
麻省理工学院在最新论文《Building Disaster Damage Assessment in Satellite Imagery with Multi-Temporal Fusion》(《具有多时相融合的卫星影像中的建筑物灾害破坏评估》)中提出了一个深度学习模型,能够对受损区域的卫星图像进行更快、更精准的评估,从而为急救人员争取更多的时间、最大程度地减少损失。
除了提出新模型外,该研究团队还重磅发布了一个新的事件数据集:xBD 数据集。
该数据集包含 22068 张图像,标记有 19 种不同的事件,包括地震,洪水,野火、火山爆发和车祸等。这些图像包括了灾前、灾后图像,图像可用于构建定位和损伤评估这两项任务。
来源:AI科技大本营
AI资讯
掌握最新时事新闻
长按扫码关注我们

原创文章,作者:整数智能,如若转载,请注明出处:https://www.agent-universe.cn/2020/08/8505.html