GluonCV 0.8 助力街景分析

09 Sep 2020 · 朱毅 Amazon Applied Scientist

街景分析是计算机视觉应用最广泛的一个领域之一，越来越多的项目正在围绕街景展开，比如生成一个交互式的虚拟城市，建造一个属于自己的无人车等等。最近，OpenBot项目的推出大大降低了小机器人成本。一部旧的智能手机加上一个电动车身，不到400软妹币，你就可以造出一个先进的小机器人，行人跟踪和自主导航都不在话下。想必很多人都很心动，正准备打造一个属于自己的无人车吧。基于这波热潮，我们在GluonCV最新发布的0.8版中引入了一个新的任务：深度估计。同时，这次发布还有更多的语义分割模型，一起助力街景分析。

深度估计

场景深度估计是一个经典的计算机视觉问题，是从平面图片中推测场景几何关系的重要一步。它的目的就是要去预测平面图片中每个像素的深度，简单地说，就是每个像素离你有多远。一旦有了精确的深度估计，你的无人车就能很大程度上做到避撞了。废话不多说，上图为证：

最近，自监督深度估计取得了重大的进展，尤其是monodepth2这个代表性的工作，深受广大从业者好评。于是，我们在GluonCV 0.8中提供了monodepth2的各种实现，包括单目，双目，单双目混合的三种模式。我们的模型完美复现了作者论文中的效果，同时还提供训练日志当做参考，免去大家复现的烦恼。

为了帮助大家快速上车，我们还提供了一系列的教程，包括如何估计一张图的深度信息，如何分析一段视频的深度信息，如何训练一个monodepth2的模型以及如何使用PoseNet去估计物体在一段视频中的轨迹。感兴趣的小伙伴现在就可以试起来啦。

结语

本次GluonCV 0.8囊括了monodepth2，DANet和FastSCNN三个算法，可以顺利帮你分析街景，造一个属于你自己的无人车。然而我们想说的是，这些算法本身是通用的，并不局限于街景分析，比如你也可以用我们的代码训练室内深度估计模型。所以欢迎多多关注使用GluonCV，也欢迎给我们留issue开PR，感谢小伙伴们一直以来的支持！

ApacheMXNet博客

GluonCV 0.8 助力街景分析

深度估计

更多更快的语义分割模型

结语

相关链接