资讯

2018年AI技术的四大突破

深度观察
来源:中国安防协会 |Maggie |2019-01-31 10:17:37

  AI是2018年的核心热点,结合这一年以来AI的发展情况以及笔者对AI的理解,以下简单做些梳理总结。

  自然语言处理(NLP)

  2018年是NLP历史上的分水岭。2018年NLP领域的突破接连不断:ULMFiT、ELMo和最近大热的BERT,当然这不完全和视频监控相关。迁移学习成了NLP进展的重要推动力,从一个预训练模型开始不断去适应新的数据,带来了无尽的潜力。

  根据ULMFiT作者Sebastian Ruder的2019年权威展望,预计“预训练语言模型嵌入将无处不在,不用预训练模型,从头开始训练达到顶尖水平的模型,将十分罕见。能编码专业信息的预训练表示将会出现,这是语言模型嵌入的一种补充。到时候,我们就能根据任务需要,把不同类型的预训练表示结合起来。在多语言应用、跨语言模型上,将有更多研究。特别是在跨语言词嵌入的基础上,深度预训练跨语言表示将会出现。”

332174287212560860.jpg

  计算机视觉(CV)

  2018年无论是图像还是视频方向都有大量新研究问世,有三大研究曾在CV圈掀起了集体波澜。

  一是BigGAN。2018年9月,当搭载BigGAN的双盲评审中的ICLR 2019论文现身,行家们就沸腾了:简直看不出这是GAN自己生成的。在计算机图像研究史上,BigGAN的效果比前人进步了一大截。比如在ImageNet上进行128×128分辨率的训练后,它的Inception Score(IS)得分为166.3,是之前最佳得分52.52分的3倍。除了搞定128×128小图之外,BigGAN还能直接在256×256、512×512的ImageNet数据上训练,生成更让人信服的样本。

  二是Fast.ai。18分钟训练整个ImageNet。2018年8月,在线深度学习课程Fast.ai的创始人Jeremy Howard和自己的学生,用租来的亚马逊AWS的云计算资源,18分钟在ImageNet上将图像分类模型训练到了93%的准确率。

  三是vid2vid技术。2018年8月,英伟达和MIT的研究团队研究出一个超逼真高清视频生成AI。只要一幅动态的语义地图就可获得和真实世界几乎一模一样的视频。换句话说,只要把心中的场景勾勒出来,无需实拍,电影级的视频就可以自动P出来。2019年,在计算机视觉领域,对现有方法的改进和增强的研究可能多于创造新方法。而2018年大火的自监督学习在2019年可能会应用到更多研究中。

  工具和框架

  AI赋能离不开工具和框架,机器学习领域的工具和框架仍在快速的发展:

  一是PyTorch 1.0。根据2018年10月GitHub发布的度报告,PyTorch在增长最快的开源项目排行上名列第二,也是唯一入围的深度学习框架。作为TensorFlow的对标者,PyTorch其实是一个新兵,2017年1月19日才正式发布。2018年5月,PyTorch和Caffe2整合,成为新一代PyTorch 1.0,竞争力进一步加强。

  二是AutoML。AutoML是深度学习的新方式,彻底改变了整个系统。有了AutoML人们就不再需要设计复杂的深度学习网络。2018年1月,谷歌推出Cloud AutoML服务,把自家的AutoML技术通过云平台对外发布,即便你不懂机器学习也能训练出一个定制化的机器学习模型。

  三是TensorFlow.js。2018年3月底的TensorFlow开发者会峰会上,TensorFlow.js正式发布。这是一个面向JavaScript开发者的机器学习框架,可以完全在浏览器中定义和训练模型,也能导入离线训练的TensorFlow和Keras模型进行预测,还对WebGL实现无缝支持。在浏览器中使用TensorFlow.js可以扩展更多的应用场景,包括展开交互式的机器学习、所有数据都保存在客户端的情况等。  强化学习

  强化学习似乎还有很长的路要走。目前强化学习领域还缺乏真正的突破,强化学习的研究非常依赖数学,而且还没有形成真正的行业应用。希望2019年可以看到更多RL的实际用例。这个是我们需要关注的一个方向。

  谷歌的强化学习新框架是Dopamine(多巴胺),这是谷歌2018年8月发布的强化学习开源框架,基于TensorFlow。新框架在设计时就秉承着清晰简洁的理念,所以代码相对紧凑,大约是15个Python文件,基于Arcade Learning Environment(ALE)基准,整合了DQN、C51、 Rainbow agent精简版和ICML 2018上的Implicit Quantile Networks。