对话澎湃新闻 | 训练ChatGPT有多烧钱?国产大模型有机会吗?
来源:法国里昂商学院时间:2023-03-04
在ChatGPT大热的环境下,同时引发社会各界的热烈讨论与深度思考。法国里昂商学院多位教授受多家媒体采访,发表深刻见解。近期,法国里昂商学院人工智能管理学院 (AIM) 院长、全球商业智能中心 (BIC) 主任龚业明接受澎湃科技采访,就这一个问题给出专业分析。
GPT1.0和GPT2.0是开源的,目前很多国产大语言模型是用开源软件,加上中文语料处理的,差距和GPT3.5可能并不只相差了一代。而现在GPT3.0没有可靠的开源软件。
“诚然很多国内厂商对ChatGPT有兴趣,但是他们的兴趣点也很多,跟风投机性强,无法像OpenAI那样全力以赴,意志坚定。”
ChatGPT风靡全球后,科技巨头们纷纷入局,各类初创公司也如雨后春笋。最近,原美团联合创始人王慧文的一条“5000万美元,带资入组,不在意岗位、薪资和title,求组队”的宣言更是引起诸多讨论。
然而,训练通用大模型非常“烧钱”。据国盛证券报告《ChatGPT需要多少算力》估算,GPT-3训练一次的成本约为140万美元,对于一些更大的LLM (大型语言模型),训练成本介于200万美元至1200万美元之间。以ChatGPT在1月的独立访客平均数1300万计算,其对应芯片需求为3万多片英伟达A100 GPU,初始投入成本约为8亿美元,每日电费在5万美元左右。
更直观地理解,如果将当前的ChatGPT部署到谷歌进行的每次搜索中,需要512820.51台A100 HGX服务器和总共4102568个A100 GPU,这些服务器和网络的总成本仅资本支出就超过1000亿美元。
“大模型的训练和推理成本一直以来是AI产业发展的瓶颈,因此具有大模型构建能力的企业往往是世界科技巨头。这会形成强大的护城河,造成强者恒强的局面。”法国里昂商学院人工智能管理学院 (AIM) 院长、全球商业智能中心 (BIC) 主任龚业明接受澎湃科技 (www.thepaper.cn) 采访时表示。
“的确成本很高,所以短期内大厂具有优势。或者资本市场高度看好这一领域,重金投资出一些创业公司来做大模型。”IDC中国研究总监卢言霞对澎湃科技表示,“将来要么是大厂作为最上游提供基础模型,中小型企业作为下游开发出基于大模型的应用。要么是也会诞生出一批做大模型的AI创企,即使如此,产业也将是大模型提供商为上游。还有可能大模型发展到一定阶段,开源的越来越多,头部行业用户基于开源模型开发自己的AI应用,提供给行业里其他友商,也就是类似行业云的形式。”
国产大模型与ChatGPT基础模型相差不止一代
“ChatGPT本质上是一个由浮点数参数表示的深度神经网络大模型,属于深度学习的框架。ChatGPT的推出是深度学习提出后又一个里程碑式的技术革命,将为以自然语言处理为核心的认知智能技术发展提供新的‘历史机遇期’。”科大讯飞副总裁、研究院执行院长刘聪对澎湃科技解释道。
近期,除了惊艳于ChatGPT的表现之外,AI行业内对于中国能否做出类ChatGPT的产品也有诸多讨论。国内大模型究竟与ChatGPT背后的GPT系列大模型相差多少?
“GPT1.0和GPT2.0是开源的,目前很多国产大语言模型是用开源软件,加上中文语料处理的,差距和GPT3.5可能并不只相差了一代。”龚业明表示。
而现在GPT3.0没有可靠的开源软件了,龚业明说,“但是有理论论文发表,一些国产大语言模型正在根据GPT3.0论文和一些相关的情报开发系统,但是和OpenAI的原创模型会有较大差距。”
据龚业明分析,问题在于GPT3.0比很多目前国产大模型采用的GPT2.0要进化很多,而OpenAI正在一个从GPT3.5到GPT4.0的发展过程中。如果要彻底达到GPT3.5的水平,在短期内是不太可能的,语料库的建立,人工标注,算法的训练都需要时间。
很多国产大模型计划用半年完成追赶,龚业明判断,“半年后市场会出现一批这样的所谓的GPT,但要达到真正实用需要2-3年,那时候OpenAI又进步了。”
差距的背后是什么?
从技术角度来看,龚业明认为,国内的AI领域在基础理论、算法研究、语料库以及技术人才方面相对滞后。
➤ 第一,就语料库而言,龚业明具体解释道,“一个装样子的语料库的构建和获取也许不是特别费劲,但是语料的标注与理解工作比较繁复。目前有很多人工智能专家还认为中文语料质量会影响国产大模型的发展。语言学的长期研究告诉我们,语料库的构建最好不能只局限于简体中文语料库,要能理解多种语言,才能构建一流的中文语料库。所以不要认为靠人海战术和低人力成本建一个简中语料库就能解决语言学问题。”
➤ 第二是算法。“GPT对算法的要求特别高。算法要能容纳和分析大数据,个别国产大语言模型出现了过载问题,就是算法处理不了更大的数据,或增加了数据后服务质量没提高。”龚业明说。
➤ 第三是运算量。“GPT需要高端显卡和高端芯片。在目前的国际环境中,并不是所有我国企业能获取足量的高端显卡和高端芯片。同时运算量也要求较高的投资。”龚业明也聊到当下的现状,“诚然很多国内厂商对ChatGPT有兴趣,但是他们的兴趣点也很多,跟风投机性强,无法像openAI那样全力以赴,意志坚定。”
➤ 最后,“短期内很不容易找到GPT的领军人才,在这个领域领军人才几乎全在美国。”龚业明不无遗憾地总结道,“由于这些关键因素,我不认为能够比较容易地在短期内实现追赶。”
另一方面,“国内缺乏明确的前瞻性生态与商业布局。”龚业明从商业模式角度分析,“现在出现了ChatGPT这样的产品,国内也会出现很多的公司、机构,但在技术路径的复制上面,由于缺乏基础模型积累和大量的训练数据来源,所以复制难度较大。OpenAI在很多年前就理解了GPT的价值,我们到现在别人已经做出来,才知道该这样发展,才理解其中的商业价值,就慢了点。”
ChatGPT商业价值几何?“兵家必争之地”
刘聪认为,这次ChatGPT所带来的革命将会深刻地改变当今世界的生产和生活方式,重构产业格局,是人工智能领域推动工业乃至社会变革的重大战略机遇,是未来发展兵家必争之地。
具体而言,刘聪概括了四个方面的变革。
- 一是改变现有人机交互模式,未来人们可能用自然对话的方式与智能产品交互。
- 二是改变信息分发获取模式,基于认知智能技术可实现更高效的信息整合和知识推荐等。
- 三是革新内容生产模式,提高生产力。“未来ChatGPT被集成到word、excel、ppt等工具软件后,将提升内容生产效率与丰富度,变革人们的办公方式,成为新的全行业生产力工具。”
- ”四是加速“AI for Science”的发展,“随着其学习的科研数据越来越多,未来ChatGPT有可能提供专业的研究建议甚至主动探索发现新的理论,带来整个科学研究范式的全新变化。”
卢言霞则认为,ChatGPT短期内不可能颠覆AI行业格局,其对市场真正的影响在于底层大模型对AI开发模式的转变。
这句话包含了两层判断。
为何ChatGPT短期内不可能颠覆AI行业格局?卢言霞认为,基于GPT-3模型已读取的数据,ChatGPT可以回答用户的问题,甚至可以为用户推荐适配的产品、服务。其所提供的答案在准确性、广泛性方面仍存在局限,因此现阶段无法直接用于企业特定的场景中以替代之前的AI应用,不可能彻底颠覆搜索市场,也不可能改变人工智能市场格局。”
龚业明则持截然相反的观念,“由于内容可信度还不是特别高,交互成本高,很多市场分析人员认为ChatGPT对市场真正的影响有限,这种看法可能对这个技术的商业价值理解不是特别深刻。目前也只是处在ChatGPT发展的早期,内容可信度会随着训练与算法的提高,逐步解决。”
对于另一个AI开发模式转变的判断,卢言霞进一步解释道,“以前很多AI应用都是直接使用通用AI软件,或者通用AI公有云服务。ChatGPT基于大模型的效果被认知到并且重视以后,将会有越来越多的AI应用或是嵌入大模型,或是直接用基于大模型的AI软件替代。也就是说,这会是已经部署的AI应用更新换代的机会。”
“之前AI市场很分散,未来如果大模型发展起来,那么产业链可能的分工是:大厂提供大模型,AI应用厂商基于大厂的大模型开发AI应用。这将是上下游的关系,不再是之前的竞合关系。”卢言霞说。
欧科云链研究院高级研究员蒋照生则对澎湃科技谈到一个新的角度,ChatGPT将加速Web 3.0时代的到来。
“以ChatGPT为代表的生成式AI完全有潜力成为Web 3.0时代的生产力工具,通过从包括链上数据在内的新型生产要素中学习和分析,为Web 3.0创作者和贡献者们提供更可靠和更便捷的生产力工具,解决数字世界的数据资产与内容生产难题,补齐Web 3.0发展中的生产力短板。”蒋照生表示。
龚业明也表达了相似的想法。他认为从长期来看,AIGC (人工智能生成内容) 将成为元宇宙生产工具。“ChatGPT等AIGC应用程序将显著提升数字人的制造效率,内容生成快、成本低且可定制。AIGC能显著提高数字人多模态交互中的识别感知和分析决策能力,成为元宇宙世界重要的生产工具。AIGC有望成为元宇宙搭建的重要工具,并推动web 3.0的发展。”
在采访的最后,卢言霞说,未来充满想象,不可预测。
*本文出自澎湃科技 原文链接:https://m.thepaper.cn/newsDetail_forward_21953944