人工智能(AI)革命正在兴起,大模型技术以其强大的数据处理能力和广泛的应用前景,成为推动行业进步的关键力量。从ChatGPT爆火到今天,大模型不仅在技术层面实现了质的飞跃,也在行业应用、商业落地方面展现出更多可能性。
近日,第一财经对话上海交通大学博士生导师、上海人工智能研究院首席科学家闫维新,探讨大模型技术和行业经历的变革,以及大模型大规模落地面临的挑战等问题。
算力制约国内AI模型训练
第一财经:从2023年年初ChatGPT爆火至今,大模型技术和行业发生了哪些趋势性的变化?
闫维新:技术层面,首先是模型规模和能力有所提升;第二是加入了多模态技术;第三是框架算法和架构有了一系列的创新。
此外,模型的泛化性也有了比较好的契机,接下来就是解决算力成本的问题。目前大模型的发展以政府为指导,大家都在向这个方向靠拢,算法移植到算力的成本越来越低,包括端侧算力成本也越来越低。这些趋势在技术层面将大模型往前推动了一大步。
在行业方面,也可以观察到几个重要的趋势变化。首先是垂直应用领域的兴起,例如,在医疗影像和语音识别领域,人工智能的应用正日益成为一种趋势。这些技术不仅提高了数据处理的效率,还在疾病分期分型和诊疗等方面显示出巨大的潜力。
其次,MaSS(模型即服务)的概念形成后,模型和服务强关联,它通过将预训练的AI模型作为服务提供,极大地方便了用户访问和使用这些模型,无需担心背后的技术复杂性。这种模式不仅推动了AI技术的普及,还促进了应用创新,因为开发者可以将不同规模的模型组合起来,创造出新的应用。
最后,政策环境的变化对人工智能的发展起到了关键作用。虽然人工智能不是一个新概念,但近年来,随着大型AI模型的出现,政府开始意识到其在多个领域的潜在应用价值。因此,我们看到了更多的政策支持和资源分配,以促进AI技术的发展和应用。
第一财经:目前国内大模型厂商与OpenAI还有哪些差距?
闫维新:大家都在逐步地竞争与追赶。差距主要体现在以下几个方面:
一是模型表现与呈现形式。在自然语言处理和图像生成方面,OpenAI表现出了强大的能力,尤其是在理解方面,显示出其技术领先地位。模态处理能力方面,涉及到语音、影像、文字等综合数据处理,也仍然存在差距。
二是数据集的质量和训练策略。有效的数据集对于训练准确的AI模型至关重要。我们拥有大量数据集,但质量参差不齐,在数据的有效性方面还有待提高。训练方式和策略的差异也导致了模型性能的不同,国内各个团队正在通过改进训练方法和探索新的训练策略来提升模型的表现,这方面整体差距不大。
三是算力与基础设施。算力是制约AI模型训练的一个关键因素,特别是对于参数量庞大的大模型来说尤为明显。海外企业能够更容易获得算力资源,如NVIDIA的GPU系列,相同类型下,海外企业获取渠道更加通畅,价格也更便宜。大模型基础设施的建设也在追赶过程中。早投入、早布局的企业在基础设施建设方面有明显优势,这对于支撑大规模模型训练和应用场景的部署至关重要。
四是应用场景的广泛性。NVIDIA等企业因其成熟的CUDA生态和广泛的合作伙伴网络,产品和技术得到了广泛应用。英伟达的很多收入来源于推理,这说明他们有很多应用场景已经在广泛使用大模型了。
大模型商用关键在于找到合适落地场景
第一财经:L1和L0级大模型的商用进程如何?什么样的大模型落地和变现更容易一些?
闫维新:L0阶段的模型可以看作是早期版本,主要是用于探索和研究;而L1阶段的模型则已经具备了商业实施性和可落地性,很多企业已经开始将其集成到自己的产品中,比如直播和客服等场景。
从L0到L1的进化,首先是场景的选择问题,尤其是对于L1来说,选择合适的落地场景非常关键。这需要结合企业自身的实力,包括算力、算法以及样本的收集和处理能力。
在行业落地方面,应用场景必须是真实存在的,而不是凭空想象出来的。对于人工智能来说,如何与各行各业现有基础结合,进行赋能或升级,是一个核心问题。纯人工智能企业的算法在行业落地,要遵循行业已有的规律和行为模式,否则不会被市场买单。此外,寻找算力和算法的同时,也要着眼于市场增量的开发前景,这意味着要不断探索和发现新的应用场景和商业模式。
第一财经:现在一些行业公司做所处行业的行业大模型,似乎也并不费力?例如京东方就推出了显示工业大模型。
闫维新:对。有两种方式,一是纯人工智能公司进入已有的市场和方向;二是已有行业和市场,再进行人工智能升级。京东方就属于后者,已经有了场景,并且是明星场景,已有样本积累,针对现有的数据样本进行筛选,这样做垂类模型,我觉得比第一类更有优势。
海康威视、大华股份也是很典型的第二类的案例。像海康做安防时就已经有硬件本体和销售渠道了,供应链也很完善。再做人工智能的升级时,就已经有渠道来收获样本数据,同时他们对于行业的理解和认知也高于纯人工智能公司。
第一财经:所以场景找技术是更容易落地的方式?
闫维新:技术找场景,我们可以用学术来做这个事情,去思考相应的算法和技术;场景找技术是真正进行产业化落地的方式,即已有需求,根据需求凝练出痛点,再基于痛点做人工智能赋能。
第一财经:目前一些纯AI企业正在不遗余力地寻找不同的应用场景,以实现算法的落地与变现。
闫维新:雾里看花,需求是关键,而不是假想不接地气的应用。现有的纯AI企业,需要以需求为牵引寻找真正的应用痛点,理解行业、敬畏行业,熟悉行业的运行规则,以及其所能爆发的潜力,用人工智能对行业进行新的诠释和赋能。
价格战有益大模型产业发展
第一财经:目前国内算力面临哪些瓶颈?
闫维新:第一是训练价格非常昂贵,特别是像百卡、千卡甚至万卡级别的GPU计算资源的成本,不是普通企业能够承担的。
第二,目前算力没有统一的规范标准,服务水平和质量参差不齐。
第三,算力的强大与否和样本的质量和数量密切相关。有了强大的算力,如何获得足够的、高质量的样本也是一个重大挑战。
目前,最好是能够有统一的解决办法,特别是针对算力的部分。首先政府或相关机构可以提供针对算力使用的补贴,特别是对于医疗、教育、机器人等社会关键领域的人工智能研究和开发,通过财政补贴降低企业和研究机构的研发成本;其次,可以建立公共的算力平台,按照领域进行算力的划分和优先级分配,对于重点和前瞻性领域,如对公共利益影响较大的研究,可以提供更大的算力支持和补贴。
第一财经:从AI三要素来看,未来大模型降本有哪些渠道?
闫维新:算力会越来越便宜,但购买GPU板卡只是第一步,真正的挑战在于能源消耗和维护问题。板卡会老化,其算力有时间限制,因此需要考虑长期的能源和维护成本。随着国产技术的进步和市场竞争的加剧,算力的成本预计将下降。国产厂商的加入和低功耗技术的应用将推动算力运营成本的降低。
算法层面,开源平台提供了一个优秀的算法共享机制,使得开发者可以在现有算法基础上进行迭代,而不需要从零开始,这可以显著降低研发成本并加速技术进步。
样本(数据)层面,我最不担心的就是样本了。在中国,由于加工行业的全面性,各行各业的样本数据都易于获取。这一点为机器学习提供了丰富的训练资源。随着数据采集技术和存储技术的发展,样本数据的采集和存储成本也会逐渐降低。
第一财经:最近的大模型价格战,你怎么看?
闫维新:我觉得引入竞争和商业行为对于大模型领域的发展是有益的,能促进技术创新,提升服务质量。如果都是开源或者免费的,大家会觉得这件事情门槛很低,产生依赖性。现在先打价格战,未来有几家活下来之后再会考虑企业的盈利。
在被广泛讨论的AI算力底座中,无论是云端的“CPU+GPU等加速卡”还是端侧的“CPU+GPU+NPU”,CPU都是不可或缺的存在。
各行业数字化、高端化、智能化转型步伐加快,更加迫切地需要以算力设施为代表的新型数字信息基础设施来畅通要素流动、经济循环的“大动脉”。
发展通算、智算、超算等多元化算力资源,支持企业参与算力全产业链生态建设,构建高质量算力供给体系。
推动算力赋能千行百业,重点面向人工智能、工业生产、城市治理、科研教育等重点方向开展算力创新应用,支撑不少于20个行业模型训练推理。
发展新型信息基础设施,对于加快推进新型工业化、构建现代化产业体系、培育发展新质生产力,助力制造强国、网络强国和数字中国建设,具有重要支撑作用。