分享到微信

打开微信，点击底部的“发现”，
使用“扫一扫”即可将网页分享至朋友圈。

人工智能是否有国界？警惕AI开源风险关键技术待破解

第一财经 2019-06-05 20:01:13

作者：邱智丽责编：刘佳

在人工智能领域，国内科技公司对开源算法框架的依赖程度不亚于芯片。

人工智能是否有国界？

华为事件后，作为全球科技竞争的新高地，人工智能领域是否也会面临“华为之劫”，引发行业反思。得益于丰富的数据以及广泛的产业界需求，中国AI公司在场景应用上具备得天独厚的优势，然而，应用层面的跨越式发展，底层技术框架和基础产品上却存在明显差距。

例如PC互联网的Wintel联盟，移动互联网的ARM+Android，AI的GPU、TensorFlow、Kubernets，这些支撑行业应用、产品和生态的底层基础，国内公司几乎都还是“拿来主义”，一旦如果出现安全问题或者断供，众多中国科技企业和用户将面临“盖楼没有地基”的困境。

敲响开源警钟

在谷歌暂停和华为部分业务合作后，一些从业者发现美国开源代码托管平台Github用户协议里也提及可能受美国出口管制约束，一时间市场开始恐慌。

所谓开源简单而言是指将技术的源代码开放出来，让所有的开发者能够了解、使用、优化，免去从底层搭建技术。要搭建诸如Linux、Android、TensorFlow等底层操作系统是一个极为耗费人力、时间的巨大工程，需要具备雄厚的技术基础，选择开源的技术可以免去底层开发，因此很多开发者都会选择“站在巨人的肩上”，直接开发应用场景。

在引发行业热议后，中科院计算所研究员包云岗对12个知名开源基金会、6个常用的开源协议、3个代码托管平台进行了调研与分析，最终得出结论：合理的开源基金会管理办法可以规避美国出口管制。开源许可证关联的是知识产权，与出口管制无关。现有常用开源许可证并没有在知识产权层面上对中国进行管制，但不排除未来会出现将使用范围限定在美国的开源许可证的可能。

现有Github等代码托管平台默认同意遵守美国的出口管制条例和美国法律，因此代码托管平台同时受出口管制和司法管辖权的限制，是最大的风险。包云岗强调，长远来看，中国必须建立开源项目托管平台，以备极端情况下依然能自由访问开源项目。

这也敲响了开源警钟，在人工智能领域，国内科技公司对开源算法框架的依赖程度不亚于芯片。

核心算法缺失

“最大危机不在于代码协议和托管平台，而是TensorFlow等开源框架背后强有力的控制者是商业巨头公司，托管平台的法律问题随着时间的推移都可以解决，关键在于掌控社区厂商的态度是否中立，厂商主导的开源协议可以禁止其他人用于商业竞争。”第四范式创始人兼CEO戴文渊告诉第一财经。

据官方数据，2018年TensorFlow基础架构的下载量已经超过了1000万次。戴文渊透露，从开源社区下载量来看，约70%的研发机构会使用TensorFlow开源软件库。具体到中国市场，约50%的AI公司采用TensorFlow开源算法框架及二次开发作为产品，在人脸识别、语音识别、无人驾驶、自然语言处理等领域进行服务。

戴文渊认为开源的确可以免去底层开发的门槛和宝贵资源，但这种“半成品”背后却隐藏着巨大风险。

以Android为例，根据GPL协议系统的代码版权并不属于某个人和机构，谷歌虽然无权限对安卓系统进行收费，但谷歌可以针对深度植入的移动服务收费以及筛选参与“OHA”联盟的厂商资格。（谷歌组建的全球性联盟组织，这一联盟将会支持谷歌发布的手机操作系统或者应用软件，共同开发名为Android的开放源代码的移动系统。）

早在2017年，Facebook的ReactJS是GitHub上最受欢迎的前端框架之一。但Facebook曾修改开源协议，表示要在ReactJS开源库的授权中加入了专利条款，如果ReactJS用户起诉Facebook侵犯专利，那么这位用户的ReactJS授权将被撤销。

在业内看来Facebook霸道协议背后意在维护自己垄断地位，对此百度内部要求内部全线停止使用ReactJS，并给出半年时间进行转型，自研替代方案。在深度学习框架领域堪称一家独大的AI开源框架TensorFlow，也同样面临在极端情况下的风险。“开源代码协议如何写受背后控制者的影响比较大。”戴文渊表示。

无独有偶，早在2016年原百度研究院副院长、深度学习实验室主任余凯也曾在朋友圈发文呼吁大家避免使用开源框架TensorFlow，他认为TensorFlow成为世界上占统治地位的人工智能开发平台对世界是危险的。

“尽管这个平台目前是开源的，但随着人工智能变得越来越强大，这个系统会变得极端复杂到失去透明度，而且会很可怕的变成全世界数据、计算、硬件、编译器等的标准制定者，很可能会使得个人、公司甚至国家在人工智能领域的自主发展，最终被一家商业公司所控制。”余凯表示。

AI自主创新可期

事实上，相较于传统IT，在人工智能产业上中国完全具备自主创新的能力。从深度学习基础框架层面而言，百度研发了开源开放的深度学习平台paddlepaddle，商汤科技搭建了Parrots深度学习平台，第四范式也自主研发了机器学习平台“先知”。

“TensorFlow这类底层框架，我们是完全有能力自己做出来的。”戴文渊表示。作为当初百度凤巢系统的创造者之一，其所在的团队成功上线了全球首个商用的深度学习系统。“十年之前还没有出现Tensorflow、Spark、Kubernets等开源框架，每一行代码都需要从底层开始写，就像是打造一辆赛车，每一个部件都是榔头敲打出来的。”

戴文渊认为，实际上自研AI底层框架从长远看是非常值得投入的，自主创新的AI底层框架可以支撑更大的应用和模式创新空间，产业发展也更加牢靠。

而中国市场有很多大场景AI应用，例如百度、今日头条的信息搜索场景，淘宝的交易场景，以及包括银行、石油等关乎国计民生的大型企业，这些企业服务的场景中数据量巨大，模型复杂度比国外要高几个数量级，也需要用更灵活、性能更好的框架来满足自身市场的需求。

另一个趋势是，随着AI应用爆发和摩尔定律的失效，传统的CPU和GPU的通用计算效能和影响力在逐渐下降，也提供了一个大家同时起步的公平竞争时机。对于目前AI算力的挑战，戴文渊认为AI所需的算力并非传统的通用计算，而是专用的AI算力。

AI系统是有“套路”的设计，不像编程语言可以任意编写，而是具备固定的计算模式，AI在企业的大量场景应用时发现算力不够用，这不仅仅是买一个更好的CPU、GPU就可以很好解决的，需要通过软硬一体的优化方案提升计算效率，有效降低AI应用的总拥有成本。

近期其所在的团队尝试拿中国纯国产服务器，装上自研软件和加速芯片进行测试，最终跑出了与美国服务器加上Tensorflow同样的性能。国产服务器在硬件的性能劣势，依靠软件和加速芯片的优势得到了弥补。戴文渊认为AI时代对于CPU的依赖是在降低的，更重要的是它是由软件算法驱动的，针对学习框架优化的软硬件一体设计才是AI所需的算力，这是中国的机会所在。

当然，AI应用面临的瓶颈不止计算芯片一个方面，在更高的网络带宽、更密集快速的数据访问和存储等方面同样需要改进提升的空间。“随着国内AI软件和硬件产业链的不断完善，国内AI企业推出从软件系统平台到硬件芯片、内存、存储、网络的全made by China服务器产品只是时间问题，届时将真正构建一个完整的AI自主创新生态系统。”戴文渊表示。

第一财经广告合作，请点击这里

此内容为第一财经原创，著作权归第一财经所有。未经第一财经书面授权，不得以任何方式加以使用，包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。
如需获得授权请联系第一财经版权部：banquan@yicai.com