首页 > 新闻 > 专题文章

分享到微信

打开微信，点击底部的“发现”，
使用“扫一扫”即可将网页分享至朋友圈。

上海芯翌智能科技有限公司首席科学家杨铭丨视觉识别在智慧城市应用中的挑战

第一财经 2019-09-05 15:18:36

责编：王艺

主题演讲杨铭

演讲嘉宾：上海芯翌智能科技有限公司首席科学家杨铭

尊敬的各位嘉宾、各位来宾，大家好！我是芯翌智能的杨铭，今天非常荣幸有这样一个机会和大家分享一下、探讨一下视觉识别在智慧城市运用中的一些挑战和问题，也分享一下我们在做的一些工作和尝试。

首先做一个自我介绍，芯翌智能是一家非常年轻的创业公司，我们成立于2018年，我们成立于上海，我们能够为大家提供的一个完整的软件为主的解决方案，我们可以给大家提供一个软硬件结合的完整系统。

我们有三个大的业务方向，第一是AI和智慧城市，第二是AI和工业制造，第三是AI和5G物联网。我们希望提供我们大规模的动态人脸识别技术，一些工业中的缺陷检测和信息自动化识别技术和5G物联网来结合，来落地于上海的各种应用场景中。

首先，智慧城市是一个非常广泛，一个内涵非常丰富的概念，就像前面的嘉宾提到了。智慧城市的核心是以人为本，能够与各种先进信息技术，把各种资源整合起来提升管理水平服务能力。这个概念行业非常广，包括基础设施、油气、水电、交通、物流、政务、安全、工业制造。

从技术角度来说，它有四个核心技术支柱。首先是如何获取数据，如何让这些数据能够互相互通互联，如何用算法分析出数据中包含的内容，以及如何用软件和硬件基础架构来支持这些应用。

我们看到在这些技术的基础之上，我们要分析场景需求，能够获得统计、展示、识别、应用的功能。在应用中有两个比较主要的瓶颈和困难，第一个是我们对这种场景需求的理解还是有些有限，第二是我觉得智能算法本身有些不够智能。由于我们的专长是在计算机视觉，图象识别，我们就以视觉识别为例说一下它的问题所在。

首先，我觉得从数据角度来说，我们可以看到摄像头在我们的生活中是无处不在，中国至少有2亿以上的摄像头，所以这个超出了我们能处理的能力。从2012年开始，深度神经网络已经基本上占居了统计地位，而且使跟踪、追踪的任务有识别提升。从应用场景来讲，我们看到的是人脸识别、刷脸，大家都看到了，甚至可能大家闯一个红绿灯在某些城市都有可能被抓住。在更多的一些，更广泛的行业中，其实应用还是有很多困难的。有哪些困难和挑战呢？首先深度神经网络就不再多说了，前一位嘉宾指出了深度神经网络把解决问题的方法改变了，提出一个工作新范式，我们成为行为驱动的人工智能，有了数据就可以训练出神经网络。但是也带来一些问题，包括它是一个黑箱子，需要的数据量大，计算能力要求也非常多。

智慧城市的场景中有很多行业，包括刚才提到的一些行业，它们之间是有非常大的差异性和多样性。如果我们开始想把一个新的场景，比如说一个电力系统或者水务系统做异常检测，我们首先第一个问题就是数据和算法之间的问题，第一个问题会问你需要多少数据。作为算法开发人员来讲，他会答说多多益善，多多益善的核心意思是说我也不知道，所以深度神经网络的第一个问题就是需要多少数据、需要多少标注的数据和识别性能之间是没有确定的关系，实际上是需要我们通过一些类似难度的问题去估计的。比如说人脸识别可能需要上千万的数据，对于文字的识别需要几万的数据，我们去根据已有的问题估计一个新问题。

第二个困难是应用和数据之间的问题，我们希望这种算法是能够解决实际问题的，我们需要实际的数据，但是实际的生产环节中获取数据是很难的，我们不希望干扰生产过程，比如我们在做一些和港务相关的应用中，摄像头、传感器安装有很多物理限制，我们在获取数据过程中就有一些限制，我们在检测事故预判，我们实际上要收集一些非常罕见发生的事故数据，这些是需要花很多时间去积累。另外我们希望提供一个非常实用的方案和系统，我们需要收集全天候各个季节下的数据，可以想像需要花的时间和人工成本是很多的。更重要的是一个新的行业来应用智能算法，行业经验和算法能力之间的期望是有一些差异的，从概念上讲，我们当然可以说智能算法是可以解决很多问题的，但是实际上真正应用的时候就发现任何一个具体的问题，它的研发难度和所需要花的时间和成本都是不低的，而且往往行业中我们是希望得到一个系统帮我们解决一个问题就可用了，而算法研发很可能给你的是一个验证性的功能，这两个之间还有一个很大的差距就需要双方各走一步，也许是系统方面，也许是行业方面需要走一步去完善一个系统去集成这个功能，也许是算法研发能提供一个解决方案，这是一个很大的差距。

另外，神经网络算法需要很多数据去训练。我们即使得到了一个比较好的网络模型，不是一劳永逸解决问题，其实是需要不断优化和改进的。即使我们有了一个系统之后，我们如何去部署和维护呢？这个工作由谁来做呢？这也是在应用中的一个具体的问题。即使我们得到了很好的系统，我们的系统识别率是99%，到底是什么含义呢？我们可能觉得99%是非常准了，所有的问题基本上都识别非常准了。但是有一个含义是1%不准，那可能是相当不准，而且不光是相当不准，还有可能是我们很难理解它为什么不准，这个就产生了行业应用和算法研发很明显的期望上的差异。

这都是我们整个行业需要一起努力解决的。

我们有初步的思考了，不一定很成熟了，在智慧城市中各行各业的需求非常多种多样，差异非常大。即使是水务、电力差别也很大，我们感觉从需求的理解跟算法研发角度来讲，一个包罗万象的城市大脑还为时尚早，需要具体解决各个行业的需求，理解他们的问题，先得到一些分布式的行业大脑。第二，算法确实是远没有达到我们期望的智能，所以我们需要深入行业理解他们的问题，理解行业的经验，得到定制性的算法。算法本身可能不能完全依赖于大数据的学习，可能要想办法得到一些需要少量数据就可以得到结果的新的算法。而且也需要有某种方法把已有成熟行业经验，能够跟算法研发结合在一起，能够让神经网络不要学的非常发散性。

很重要的是说，我们现在可以看到智慧城市有那么多应用，实际上是需要来吸引城市中更多居民的参与，居民是一个广义的概念，不只是包含使用者，也包含真正服务的用户，我们能不能有一个办法不只是授人以鱼，而是授人以渔，让他们参与到人工智能技术的落地研发过程中。

我们的尝试是说我们希望提出一个完整的闭环的视觉识别的训练迭代平台，这个平台包含从数据收集、标注、训练、模型的部署、评测和改进，包含完整的开发流程，我们希望在开发流程当中我们能够把这些比较定制化跟任务相关的部分，跟任务不项目的部分可以解耦合，可以分开，这样快速响应需求，做人脸识别，做其他的集装箱识别。

包括人员管理、智慧港务、智慧水务、智慧交通。首先从支持大规模人脸识别开始的，有一个开发平台和开发框架之后，我们可以快速尝试不同网络模型，使用更多数据，尝试不同的评价函数，希望他们有更好的解释性。在这个平台之下我们现在开发了人脸识别算法，现在已经可以支持上亿级别比较快速准确的人脸识别，在两三百毫秒之内准确在亿人当中找到准确的候选人。芯翌智能入选上海五家算法提供商之一。

另外做的一些案例，比如像智慧港务，可以想像在上海如果能够把智慧港务做好的话，其实在世界上也是非常大的份额。包含做的工作就是以集装箱的自动识别提取信息为核心，与集卡的调动相结合，识别集装箱的尺寸、朝向、编号这些比较简单的信息，也包含比较难的比如说破损、危险品的标志。这个问题的核心难度在于问题本身看上去比较简单，但是落地过程中可能要处理各种不同光照，不同天气，甚至不同的振动，因为在实际操作过程中摄像头有一些非常剧烈的不规则振动，我们就需要用图像增强的方法把数据准备好。

在智慧交通领域，我们做了一些比较重要的桥梁的监控、桥梁维护相关工作。我们一方面在维护车辆上安装摄像头，快速围绕准确识别路面上的破损，比如说横向的裂纹、纵向的裂纹，同时在桥面两侧安装摄像头，进行交通流量的统计，包括事故异常预警。在这个基础之上，把这些信息提供给在路上行驶的无人驾驶车辆，给他们提供一些超视距的交通信息。这个问题中比较难的部分在于，可能数据量不足以支撑学习非常大的神经网络，我们需要在有限的小数据集上实现功能。

最后一个案例就是说我们智慧水务，我们希望能够在水务的管理过程中，把我水资源的信息监控，提升它的管理水平，提升这种闸站的信息自动提取的能力。包括水尺的识别，闸位标尺位置的识别，还有水域变化的跟踪，还有排污的识别。在这个问题上，它的数据量是有限的，我们需要用图像分割的方法，能够把这些情况，或者是异物切分出来，因为我们并不可能事先知道是怎样的异物需要检测。得到这些信息之后，我们要应对不同天气情况下图像的增强问题。

从人工智能的技术角度和产业发展角度来说，我们都处于一个方兴未艾的幼儿时期。我相信，在这种需求的引领下，在整个行业的上下游的合作下，不懈努力，我相信人工智能在智慧城市中的应用范围会越来越广，应用的程度会越来越深。谢谢大家。