首页 > 视听 > 中国经营者

分享到微信

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

专访达观数据CEO陈运文:AI大模型扣响未来之门丨中国经营者

第一财经2023-06-13 13:33:09

责编:程蕾

举报

今年以来ChatGPT热潮席卷全球,成为当下最热门的话题,而如今国内的大模型创业浪潮也在扑面而来,除了多家的大厂纷纷布局之外,不少的创新企业也在纷纷发力。国产大模型之战悄然打响,行业遭遇怎样的困难?企业又该如何布局?

本期嘉宾

陈运文,达观数据创始人兼CEO。达观数据是国内领先的自然语言和文本文档处理领域的人工智能创业企业。不久前,达观数据基于多年的技术数据积累推出了曹植系统,是国内大语言模型中首批可落地的产业应用级模型。

特约评论员

张军平,复旦大学计算机科学技术学院教授、博士生导师

全文约4000字,阅读大约需要10分钟

1.国产大模型紧跟行业风口

2022年11月,硅谷创业公司OPEN AI推出新型AI聊天机器人工具ChatGPT一夜之间火爆全球互联网,两个月用户数突破1 亿,成为历史上增长最快的应用程序。

大模型是指具有巨量参数数量的人工神经网络模型,主要用于解决复杂的自然语言处理、语音识别等任务。大模型是ChatGPT及其同类产品的底层基础设施。

刘晔:两位是从什么时候开始接触和使用这个ChatGPT,我想两位都是业内人士,是不是会比我们更早的获悉到Open AI在大语言模型方面的一些突破?

陈运文:ChatGPT他们在2016年就已经创办了,我们注意到他们是在2020年的3月份,那个时候他们发布了GPT3,所以我们当时也下载并且使用了GPT3的系统。当时系统坦率来说效果不太好,但我们后来到2022年的年底的时候,随着ChatGPT,也就是GPT3.5代发布以后,确实我们当时用了一下发现和3.0有天壤之别,有巨大的效果的飞跃。所以从那个时候开始非常认真地重视起GPT相关的模型。

张军平:我对这个其实接触得还没有陈总早,大概是在2023年3月份左右,结果感觉和以前最大的区别,它其实是基于一种对话的形式,而且这种对话它可以不断地跟它去聊,然后它就会有反馈,我们说ChatGPT它可能和前面的一个最大的区别是一个思维链,这种现象在以前的这个模型里面是没有的。这个数据量达到一定规模,就是应该是十的几次方以后,它会出现一个跳跃。

刘晔:你大概经历了一个什么样的决策的流程,你们是什么时候开始采取行动的?

陈运文:我们响应得非常快,在去年年底的时候,其实那个时候只在学术界或者产业界一小部分的技术人员里面是了解这个技术的,我们就敏锐地发现是一个巨大的机会,我们当时从去年年底开始就开始着手来做这件事情,然后我们从几个方面就开始组建团队来,抽调我们的精干人员去学习相关的技术、论文,去复现相应的算法模型,并且开始收集我们的数据,以及为我们算力等等,这些都是从去年年底开始。然后整个春节期间都没有休息,紧锣密鼓地来推进我们自己的国产的GPT模型的工作。

2.行业面临的共同难题

过去几个月,百度的文心一言、阿里的通义千问、科大讯飞的星火、昆仑万维的天宫、商汤的日日新、网易的子曰等等都先后问世。越来越多的国内企业入局其中,大模型之战已悄然打响。

刘晔:你当时组建了一个多大的团队?

陈运文:团队组建方面我们原来的这些技术团队,因为他们其实也一直在做自然语言处理的技术研发工作,而且这个技术团队在过去几年他们参加了一些国际的算法竞赛,也拿过冠军的,所以我们对这个团队的技术能力我们还是非常认可的,所以我们让他们加班加点来研究GPT模型的相关的核心技术。而且我们发现在这个过程当中其实问题还是很多的,比如说第一个拦路虎就是我们缺算力,不光是我们缺,整个社会都很缺,因为很缺算力,我们的这个程序要能够有非常强大的系统才能够把它拉动起来,所以的话当时有段时间就像唐僧一样到处去化缘,到处去借这个算力。

刘晔:张教授怎么来看待刚才陈总说到的这个可能遇到的第一个拦路虎,就是我们这个算力的短缺问题。

张军平:其实陈总讲的这个问题还是蛮严重的,对于我们国内来说。我们知道ChatGPT其实用的这个显卡是(英伟达)A100,用了一万块,国内的话能够有一万块显卡的这个算力可能不超过五家。然后另外的话就是这个数据当时为什么大家说国内的数据不太好做呢?因为美国的数据是在互联网上爬的,然后这个爬的过程中的话,不同网站之间它是没有太多这个限制的条件,你可以同时爬下来,但是中文的话,每个公司在这个网络数据上的格式都不一样,它的限制也不同,所以你就没有办法爬出跟这个ChatGPT一样的中文语料库,这是一块。

还有一个就是这个大模型本身我们其实对国内的话在这个对于GPT的了解其实是在GPT2这个位置,然后GPT2以后的话其实美国它已经没有开源了,我们只能猜。所以其实认识跟陈总差不多,就是数据然后模型、算力这三块我们还是存在短板的,需要去追的。

刘晔:在这个大模型的生态当中有几层,那底层可能是算力层,然后是框架层,再往上是模型层,最后是应用层。这四层当中从两位来看,就目前国内的这些不管是大厂还是创新企业,大家主要的机会会来自于哪里?

陈运文:我觉得整体来看我还是非常乐观的。因为我觉得整个这个产业链,不管是从底层的算力 硬件到上面的应用层,我觉得对中国企业来说都充满着机会。那么对我们达观这样的创业企业来说,我觉得我们自己的定位非常的清晰,就是说我们会专注于做垂直行业的专用的大模型,我觉得未来这个模型会裂变成两大类模型:一大类我们叫通用模型;一大类叫垂直专用模型。我们要做的是一个专而精的模型,它可能只局限在某一个垂直领域,但它可以挖得更深,可以在垂直领域解决任务的效果可以更好,而且这个模型的参数规模相对来说可以缩小一个数量级,对我们的很多客户来说是他能够用得起,能够玩得转的这样一个模型,这些专业任务我们觉得是非常非常有商业价值的。

刘晔:张教授怎么看达观为自己选择的这样一条道路?

张军平:他这个定位我觉得还是比较准确的。陈总也讲了其实我们现在还有一种做法,就是说你能不能用一些轻量的卡去跑这种大模型,别人的话100张(英伟达)A100那个卡能够跑的东西,我一张卡能够跑出同样的性能。所以的话有很多人在做模型轻量化的这样一种研究,而且确确实实也有效果了。另外就是说你做垂直领域它有个好处就是说它其实不需要那么大的算力,而且它又可以用以前这个通用模型这个架构帮助你。

3.大模型行业未来格局几何

刘晔:你怎么去看待目前大家市面上逐渐听到的这些各个国内的大模型,他们选择的一些角度或者说他们各自的优劣势?

张军平:挑几个说吧,比如说百度,百度它互联网是做的最早的,所以我相信它这个互联网数据上面它会比较多一点,这是它比较有效的。我也试过这个文心一言,我觉得文心一言的话做的还不错,但是我做过测试,它这个在回答一些普通问题的时候,它会有一个像提纲式的做法。但是它也会出现,几乎所有GPT都会出现的问题,就是事实性错误。你比如说我问它张军平是什么样一个人,它就会说我是一个音乐家。然后科大讯飞我觉得它在做的时候它会利用它语言的优势,因为它语音处理做了很久了,所以它其实是把这个东西嵌进去了。那么商汤的话其实在这个理论基础方面,可能做得比较好一点。因为看它前几年这个发展趋势,一般都会比较喜欢谈它在各大计算机顶刊、机器学习顶刊上、顶会上面发论文的情况,它会把这个基础这一块知识结合进来来做。

刘晔:陈总你们怎么去评价行业内一些其他的竞争对手?

陈运文:我自己觉得这是一个很好的现象,我觉得其实大家是可以对未来的人工智能渗透在各个行业做好准备的。我打个比方,今天人工智能就像一百年以前我们发明了电,然后爱迪生发明了灯泡,大家看到电居然这么有用,那么我们把今天百花齐放的状态看作刚刚发现灯泡的那一刻,所以我们接下来要想的是说不是大家比谁造一个更大更亮的灯泡,而是说大家能不能去想其实还有很多未来可以去应用的这些场景,这些场景可以诞生出很多全新的产品形态,它可以用在我们各行各业,造福我们的人类,提升我们的工作效率。iPhone当年发明的时候大家只是觉得比原来的诺基亚好用一些,没有键盘了,屏幕大了一些而已,但你看移动互联网时代的全面的繁荣,甚至改变了我们每个人的衣食住行的方式。今天我们这样一个智能化的时代刚刚开始的时候,我们今天大家觉得不就是用来聊个天对个话而已,但其实我相信未来的五到十年对我们整个社会,对我们的方方面面,对我们的教育,对我们人的生活都会有巨大的影响,这些影响一定会超出我们今天我们的认知。所以我觉得我们今天一定要为此做好准备,然后大家一起齐心协力的把这个技术突破,这个是我们应该来做的这个事情。

4.企业如何平衡资金投入、把握市场需求

刘晔:这一轮的大模型带来的每一家企业需要的投入是很大的,OpenAI可能要一万张,那可能是十个亿左右的投入。这个不管是对于大厂,还是对于创新企业来说,它都是一个巨额的资金的投入。这个账是怎么算的?

陈运文:我觉得是跟每个企业的定位有关系,那么像我们的话,因为我们下决心要做我们自有的垂直模型,所以我们不管是多大的投入我们都是要坚决投的,而且我们也有这个资金。但是我觉得对更多的创业企业来说,它的机会在于下游的应用层,我们会开放这些能力给到下游的应用方去使用的,他们按量来调用就行了,这也是我们的商业模式。就是我们把模型的能力开放给下游的这种使用方,然后我们共同获利。它既有一次性模型安装部署的费用,也有接下来用这个模型去专门训练每个岗位的人员他的工作能力,这样一个长期持续的能力深层训练和迭代升级的这样一个服务工作。

刘晔:陈总给我们预测一下,大概什么时候对于大模型的这个投入会带来正向的现金流,甚至能够去打平它的这个投入?

陈运文:我预测是在今年年底之前,国内第一批大模型的商业化会陆陆续续地能够产生。也就是说这个大模型大家现在是看个吆喝,看个热闹,在今年年底之前陆陆续续大家会看到大模型开始能够落地商业化应用了。但大规模的商业化落地应用,我觉得至少还要到明年甚至后年才能够全面开花的。

刘晔:张教授,刚才我们陈总给我们完整的去解构了一下他的整个商业模型,包括他对未来全面商业化落地开花预测的一些思考,您怎么看?

张军平:我觉得其实应该看两点,一个叫黏性消费,一个叫成本。黏性消费什么意思呢?其实你一个企业想把大模型给到用户,不管是ToB还是ToC,你一定要让它形成一个黏性消费。比如说Windows它里面有很多系统被嵌进去了,Office也有很多系统嵌进去了,一旦这个黏性消费形成了,他就习惯用你这些模型,后面的其他人就没办法进去了。第二个问题是成本。实际上我们现在这个大模型ChatGPT训练一次四十万美元,那这个成本不是每个企业包括这个专用企业都能够掏得起钱的,所以我觉得大模型真正做商业化的话要解决一个抢占黏性消费的市场,然后第二个要降低成本。

一财最热
点击关闭