文|经纬创投
新一代AI浪潮正在席卷全球,从硅谷、华尔街、中关村,直至世界各个角落的办公室和大学教室,人们都在热烈讨论着ChatGPT及人工智能的未来。
最近,OpenAI新发布了GPT-4,令AI达到了“历史上前所未有的、不可逆转的新高度”。GPT-4新增了接受图像输入,而之前的GPT-3.5只接受文本。并且“专业性”大大提升,在模拟律师考试中,GPT-4的成绩超出了90%的人类考生,而上一版GPT-3.5的得分,仅仅超出10%左右。
图像识别、高级推理、庞大的单词掌握能力,是这次GPT迭代的核心,具备多模态能力的GPT-4可以根据用户提供的信息,来生成视频、音频、图片和文本。但这次OpenAI没有公布模型参数和数据规模,也没有涉及技术细节、训练方法等等,追赶者可能难以模仿。
而在几周前,OpenAI还发布了ChatGPT API,将每输出100万个单词的价格降低到2.7美元(约合18元人民币),使用成本仅为此前GPT-3.5的十分之一,似乎在宣告“人手一个ChatGPT”时代的到来,也一举奠定了OpenAI作为人工智能时代新基础设施建设领域的重要地位,紧随其后势必涌现大量应用中间层的新公司。
同期,OpenAI创始人Sam Altman又通过Twitter提出了“新摩尔定律”——宇宙中的智能总量(amount of intelligence)每18个月翻一倍。
面对这个AI时代的“iPhone时刻”,我们陆续邀请学界与业界的资深专家,以及行业投资人与创业者进行深度交流。
本期特邀嘉宾北京衔远科技创始人周伯文先生,曾任IBM Research人工智能基础研究院院长、IBM Watson Group首席科学家、IBM杰出工程师、京东集团高级副总裁、集团技术委员会主席、云与AI总裁;同时,担任清华大学惠妍讲席教授、清华大学电子工程系长聘教授。
周教授针对包括语音和自然语言处理、多模态知识表征与生成、人机对话、可信赖AI等领域拥有二十年多年的研究经验。早在2016年,由他提出的自注意力融合多头机制的自然语言表征机理成为之后Transformer架构的核心思想之一;此外,AIGC领域两个被广泛引用的自然语言生成模型架构与算法也出自于他。
在产业层面,周教授2021年底创立衔远科技,采取垂直模式打通了自有基础大模型、应用场景和终端用户,形成了垂直闭环。其核心产品是领衔CIP和基于其的ProductGPT,通过垂直数据集,并在训练中加入Instruction-tuning,令最终模型在不断调优迭代中越做越好,从而帮助企业实现产品创新,以期在垂直赛道上,以更具深度、精准度的洞察与创新能力超越ChatGPT。
面对这一令人兴奋的新趋势,我们有太多问题想聊,所以这篇文章较长,不过由于这次采访是在几周前进行的,对于GPT-4的相关内容,本文仅做了有限补充,不做过多展开,有待日后再探讨。以下,Enjoy:
1. ChatGPT背后有哪些核心突破?ChatGPT4有哪些核心迭代?
2. OpenAI为什么能坚持下去?Google为什么变成了那个“脆弱的大公司”?
3. 大模型时代的另一种模式:垂直闭环
4. 在ChatGPT的“数据飞轮效应”下,中国公司应该如何追赶?
5. 对ChatGPT的总结:到来不吃惊、影响不低估、未来不可怕
1、ChatGPT背后有哪些核心突破?ChatGPT4有哪些核心迭代?
经纬:OpenAI最近发布了GPT-4,并且此前还把ChatGPT API的价格下降了90%,这奠定了OpenAI作为AI时代基础设施的地位,随后势必会涌现出大量应用中间层的新公司,您认为这将带来哪些变化?
周伯文:GPT-4有三大变化:多模态、逻辑推理和可控性。
第一是多模态,这带来了人机协同交互的通道趋向统一。GPT-4具备十分强大的图片理解能力,能够支持像素级别的图文处理,比如:可以根据设计图写代码、对拍照题目写解答过程、通过文档图片进行摘要问答等。GPT-4多模态能力必将催生更加广泛的下游应用,智能体的“摩尔定律”时代已然到来。
第二是复杂长文本理解和生成能力大幅提升。GPT-4对文本长度的限制提升到32k字符,能处理超过25000个单词的文本,并且可以使用长格式内容创建、扩展对话、文档搜索和分析。GPT-4能够融合更加复杂、多样性的训练数据集,相较 ChatGPT在逻辑推理方面上获得显著提升。目前,其在各种专业及学术测评,像是美国律师资格考试(MBE)、美国大学预科考试(AP)和美国高考(SAT)等测试中,达到了和人类相当的水平。
第三是可控性,GPT-4具备创造性的写作能力,包括:编歌曲、写剧本、学习用户写作风格等。在微调过程中OpenAI引入了大量的人力来确保监督信号的高质量。相比于InstructGPT和ChatGPT,可以猜测GPT-4中的RLHF可能是一个更加通用的范式,即覆盖的任务和场景更为广泛。
GPT-4存在一些局限性和改进。GPT-3和GPT-3.5存在的问题也都基本存在于GPT-4之中,例如:数据时效性、“幻觉”等问题。GPT-4在评测的各种任务上效果优异,但在一些简单问题上难以运用已有能力进行解决,这与GPT-4在知识存储、定位、修改等方面存在问题有关。目前的大模型还是基于全连通图的Transformer架构,其中对于知识的可控存储、定位以及修改、持续的演变机理等仍未知,对于知识信息的时变维度刻画也存在缺失。
目前,GPT-4在公开的技术报告及System Card中仅展示了其对视觉输入的支持和较为浅层的推理能力,在更困难和深层的推理任务上仍有待测评和验证。同时,GPT-4缺乏对音频、视频及其他模态的理解和生成能力,或许这与Transformer预训练架构有关,未来在合并扩散模型的图像生成能力与构建统一的多模态理解和生成模型上存在显著的技术挑战。当下,AI学术研究社区正在推进中的很多工作,都基于强大的语言模型结合多模态能力,通过语言智能撬动 AGI 值得期待。
ChatGPT开启了协同交互的新阶段,把交互作为了一种学习的手段。GPT-4则在此基础上更进一步,通过视觉信号能够更好洞察、形成新知识并完成任务。由此,我们更加相信 AI 的新一轮创新必将逐渐从传统的智能质检、客服等简单场景,向产品创新、知识发现等复杂场景转变。
GPT-4在去年8月已完成训练,现在看到的很多问题可能已经被解决。不可否认,GPT-4 存在巨大的技术壁垒,在短期内难以被超越。OpenAI通过“Scaling Law”来预测GPT-4的性能边界,而GPT-4是我们可见的现有最强的AI性能边界,这有助于反思现有AI理论的优势和缺陷。
OpenAI不再Open, 那跟随已不是选项,新一代AI大航海时代的参与者需要有自己的深刻技术理解、前瞻技术趋势判断,需要场景的反馈与打磨,也需要领路的将军用自己的微光照亮大家前行。
Sam Altman前段时间在Twitter上提出了一个“新摩尔定律”,即“每18个月宇宙的智能总量(amount of intelligence)会翻一倍”, 我认为更准确的说法是“智慧触点数目(number of intelligent touch points)会翻一倍”,而这件事的确正在发生。OpenAI令ChatGPT API大幅降价就是为了加速聚焦开发者,并通过更多开发者探索更多应用场景,以此形成新的AI生态。
大模型的使用成本主要来自两部分,其一是训练部分,其二是推理部分。OpenAI近期这一新举措意在将推理成本降到尽可能更低的水平,这是可预料的并将持续发生,即:一个模型经过不断优化后,其模型密度与推理效率会变得越来越高,推理的成本也就会越来越低。
这件事对专注通用大模型的竞争者,无论是大厂亦或创业团队,都是一个颇具挑战的信号。今后,他们不仅要在技术与算法层面加速追赶,还要负担高昂的模型训练及推理部署成本,却在推理的调用收入上不具备定价权。同时,还要面对开发者生态、用户心智正快速集中到OpenAI等“先行者”上的被动局面,完成逆势爬坡。
但在训练的部分,OpenAI的降价并没有带来本质上的改变,比如ChatGPT对垂直场景的深度洞察与创新等等。当然,我预计OpenAI现阶段也不会涉足垂直市场,他们不太可能为了某一垂直领域而耽搁占领整个平台市场的先机。
在此背景下,大模型创业者想要取得成功首先需要找到正确的商业模式与护城河,做到“enjoy the ride of this wave” ,即相信智能触点数目的增加会令自己发展得更快而不是更糟,但又不会被OpenAI等领先的通用大模型玩家不断叠加的平台优势(技术+训练高投入+推理定价权+迅速培育和占领的生态)所淹没。
经纬:您很早任职IBM时,就已经在研究人工智能,那个时代的很多研究,比如Transformer奠定了如今ChatGPT成功的基础。您认为Transformer、 ChatGPT等实现重大突破的背后,是基于哪些核心进展达成的?
周伯文:是的,最初我在中科大读书期间就已开始研究人工智能,此后读研和赴美留学也都是研究语音与语言理解,CU-Boulder博士毕业后直接进入IBM T. J. Watson Research Center 工作。那时的IBM是全球范围内人工智能在语音、语言领域能力最强的机构之一,诸如使用机器学习去做语音识别、机器翻译等奠基性工作都起源于此。这些优秀人才中后来有不少去到学术界,如JHU、Yale和CMU;也有一部分去到华尔街,使用隐马尔科夫模型(HMM)来做量化高频交易等等。我自己的研究方向早期是融合语音识别、自然语言处理、机器翻译等多个领域做语音翻译,后来做深度语言理解、表征学习与推理。
如果去谈ChatGPT为什么能取得成功?我认为首先要聊一聊Transformer,作为前者极为重要的一个支撑点,它融合了几个非常核心的突破:
第一个核心突破出自于采用自注意力和多头机制来表征自然语言,这个核心思想最早出自由我带领的IBM团队在2016年发表的论文,“A Structure Self-Attentive Sentence Embedding”,并在2017年被Transformer认可并引用。
此前,最常用的自然语言表征是基于序列到序列到模型加上注意力机制。比如:让AI学习回答问题时,输入的是问题,输出是答案,用一个序列RNN或LSTM来表示,这就是序列到序列的表征模式。在这个基础上,Bengio引入了attention,就是注意力机制,其核心是在回答问题时,并非所有词都同等重要;如果能根据问题与答案之间的对应关系识别出更关键的部分,继而更加关注这部分,就能给出更好的答案。这种注意力模型很快就得到了非常广泛的认可。我本人也是基于这个思路,在2015年左右发表了几个最早期被引用较多的AI用自然语言写作生成模型。
但是,这个方法也存在一个问题,即注意力是基于给出答案后去构建的。这样训练的AI,形象地比方,就像大学期末考试前问老师划重点的学生,再去有针对性(attention)的重点复习。这样AI虽然对特定问题的表现能有所提高,却并不具备通用性。所以我们提出了完全不依赖于给定的任务和输出,只基于输入自然语言的内在结构,通过AI多遍阅读去学会哪些部分更重要及其相互之间的关系,这就是自注意力加上多头机制的表征学习。这种学习机制只看输入,更像学生在考前就多遍、系统性地学习理解课程,而不是基于考试重点去针对性、碎片性地学习,从而更逼近通用人工智能的目的,也大大增强了AI的学习能力。
第二个核心突破是采用了简单的位置编码而抛弃了RNN/LSTM等序列性神经网络结构。我认为,它是这篇重要论文中最简单也是最聪明的一点,通过一个简化让Transformer不再受RNN/LSTM难以并行训练的束缚,可以更高效地使用更多数据进行训练。这篇论文也因此成为该领域一个重要的里程碑,推动了其后一系列的变化,并最终开启了大模型时代。Transformer论文的标题是《Attention is All You Need》,表达的同样是 “自注意力很重要,多头很重要,但RNN或许没有我们以前想象中那么重要”的意思。顺便说一下,Transformer论文的第一作者Ashish Vaswani正是我在IBM指导过的学生,后来他加入了Google Brain团队。
了解过上述历史沿革,我们再来看ChatGPT作为里程碑的意义所在:它的“前辈”,包括IBM Deep Blue、IBM Watson、Deepmind AlphaGo,这些虽然都是当时引领时代的人工智能,但它们跟ChatGPT最核心的不同在于,此前的人工智能设计思路是与人类竞争的AI,通过展示其在某些领域比人类更优秀来证明AI技术的进步。
与之不同,ChatGPT引入了Instruction-tuning,强调的是和人的协同、交互与价值对齐。在经过GPT-1和GPT-2漫长且不那么成功的摸索与积淀过程,直到在GPT-3阶段实现工程上的重大革新,如今的ChatGPT正是在GPT-3基础上引入了Instruction-tuning与人在环路的强化学习,通过人对AI的标注、反馈,实现价值对齐,更好地帮助ChatGPT去理解,让它更清楚什么样的答案是好的并从中不断学习。
举个例子,如果要求AI为一个6岁的小孩解释登月,以GPT-3的基础模型能力可以从各种角度去回答这个问题,包括基于物理原理的万有引力、基于历史背景的美苏冷战促使登月、基于天文学角度的地月关系,或基于人类关于月亮的神话传说等等。须知,找到这些信息并整合生成文字并不难,难的是GPT-3该如何辨别其中哪个答案更适合一个6岁的小孩子,这就是价值对齐。
常规模式会按照答案的出现概率进行排序。但ChatGPT在这个基础上,由人对四类答案进行选择、打分并给出排序,这些反馈可用于微调GPT-3模型,将GPT-3与人类的意图和评价体系进行对齐,进而改变模型参数和推理结果。
通过上述与人的交互协同后,如果再要求ChatGPT为6岁孩子写童话,它就会自己学会以“once upon a time(很久以前)”来开头,因为它已经掌握在一个与6岁小孩的谈话环境中,以这种方式进行回答会更好。因此,人类越多去使用ChatGPT,它就会变得越智能。
大家对ChatGPT效果惊艳的同时,可能也意识到了,这些结果的产生也取决于用户提问的方式、指导ChatGPT修正与迭代答案的技巧与耐心。所以严格来说,这些惊艳效果是用户和AI共创得来的。正因如此,ChatGPT成为了历史上第一个与人协同交互而非竞争关系的,以人为中心、更好服务于人的里程碑式产物,其社会价值与潜力不可限量。这也是我长期研究前沿AI的理念,我的观点一直是AI更大价值将来自于人和环境的协同与交互,所以我在2022年5月加入清华即建立了电子系协同交互智能研究中心。
诚然,当我们回顾来路,GPT-1、GPT-2当年所使用的参数局限性也是一个重要影响因素。GPT-1只有1.1亿参数,GPT-2也不过15亿参数,直到GPT-3这一数字猛增至1750亿,方才有了涌现能力,有了后面更多突破性成果的产生。面对这一发展过程中对算力和训练投入的庞大需求,不得不承认,不仅要有长期的研究积累,与清晰的前瞻思想引领,也要有足够的资金做支撑。
2、OpenAI为什么能坚持下去?Google又因何变成了一家“脆弱的大厂”?
经纬:GPT大模型背后是一部艰辛的创业史,起初两代由于不够成熟经常败给谷歌的Bert,直到GPT-3才真正实现了飞跃。很多人都佩服OpenAI的毅力,能够在GPT-1和GPT-2不断受挫的阶段仍然坚持下来并对抗全世界,最终证明自己是对的。您认识很多业内核心人士,对OpenAI能一路坚持下来并最终取得成功是怎样看待的?
周伯文:当年Transformer成功后,一时间大家都拿它来做各种大模型,但在NLP领域分成两派:一派像是OpenAI这类公司,专注实践从左到右的预训练,命令AI去学习预测下一个词是什么,一步步把自然语言的生成全部实现出来。这个思路的底层和我们的2016年论文中强调自注意力理念是一致的,即不允许AI使用未来的信息来学习,这样更逼近通用人工智能的思路。
另一派像是Google的Bert,采用任务导向型的思考方式,目的在于做好针对自然语言的理解,即一段话从左到右要看,从右到左也要看,看得越多理解能力就越强。
这两种思路其实不存在对错,只是反映出双方在哲学观上的巨大不同,就如同我们提出的自注意力一样,即坚决要求学生不能先看考题再来学习,而是要先把知识学明白再去考试。这也是为什么我认为GPT的哲学观更适合真正的通用人工智能。但在发展的前期,GPT模式确实让OpenAI受挫不少,GPT-1和GPT-2都没能胜过Bert,直到GPT-3才扬眉吐气。
此外,还有一个角度我认为非常值得关注,即OpenAI的成功不单单是这家公司独立实现的,而是依托于整个AI学术研究社区的支持和帮助。英文里有一句俗语叫“It takes a village to raise a child”,OpenAI之所以能够一直坚持做GPT,得力于整个AI学术研究社区对大模型丰富的研究分析,比如其中很多研究人员一直试图证明在GPT和Transformer的中、低层中,包含有词法和语法知识;在中、高层中存储了大量语义和常识知识。
AI学术研究社区的相关验证分析工作,极大地增强了OpenAI团队的信心和方向。如果没有上述这些自发研究工作的助力,OpenAI可能很难坚持下来。试想一下,如果你拿大量数据训练了很久,最后却发现没有证据证明这个大模型学会了任何知识和推理,只是学习到了统计相关性,无法形成自身沉淀与未来涌现效应的可能性,那谁还会一直有决心坚持下去呢?ChatGPT的成功,正是因为OpenAI公司依靠背后强大的AI学术研究社区,有较好的产学研的融合生态,这样的经验值得我们借鉴。
经纬:从规模上看,OpenAI只是一家几百人的创业公司,而Google却是一家拥有上万员工的科技巨头。我相信在Google内部,无论从技术亦或想法上也是具备领先意识的,他们也传出过与人工智能相关的新闻,但相比于openAI迟迟没有上线真正的产品。其中一个原因或许是Google的主要利润源自其搜索业务,而生成式AI则可能彻底颠覆相关商业模式,这似乎又是一个柯达与数码相机的故事?
周伯文:一个是商业层面,一个是大公司的决策层面。大公司虽然看起来很强,但在很多时候特别是技术代际跃迁时其实是非常脆弱的。
ChatGPT这种深度强人工智能的对话模式,会让搜索业务本身的价值大大降低,原有以“搜索关键词排序”的商业模式届时很可能已经不成立了,因为用户不再需要去看网页中那么多搜索引擎排序后的链接,这将导致的结果是Google的毛利率会迅速下降。而在占比份额不足10%,久居搜索引擎次席的微软看来,这却是一次千载难逢的机会,其在该领域的疯狂投入可见一斑。
同时,微软的To B业务及受众非常多元化,所以我认为微软的组织能力是远优于Google的。在这种情况下,微软可依托To B业务在前,同时迅速调优整个组织,从而比Google更好地适应新挑战,并在搜索领域跟Google打消耗战。
此外,微软具备在更多To B场景中嵌入ChatGPT的能力,而Google在这方面相形见绌。因此,我认为投资人在AI时代不可以再轻视To B领域。过去,AI在生产力工具方面不够强力,因而变成了“C端的玩具”;但是,现在的AI已跨过技术门槛,其在B端的应用将会越来越具备冲击力。当然,不是说To C不重要了,最好的模式依然是做到To B和To C兼顾。
在大公司的决策层面上,总有很多声音质疑大公司缺乏创新,但大公司往往不缺乏单点创新能力,问题往往出现在系统性创新过程中,特别是在内部资源的协同与聚焦上。与此同时,大公司也有很多负担,比如:Google需要维护自己的技术形象,如果认为新研发的产品不够好,就不会开放公测。以ChatGPT为例,它一开始就存在非常多的错误和问题,如果是Google在做,大众和舆论恐怕也很难像对OpenAI这类创业公司一般宽容。此外,在技术开发的早期,甚至可能引发政治性的争论,这些均会对公司市值产生严重影响。
综上两方面因素,导致Google 在类似的产品发布上趋于保守。但这种生成式人工智能技术,从GPT到ChatGPT,中间很大的一道门槛是与大量用户的真实交互,如果缺乏大量用户的反馈,就永远越不过这道门槛,且一旦落后便可能永远落后。OpenAI敢于大胆投入,聚焦设计和打磨好一款产品。而大公司背负来自市值管理、资金使用效率、技术声誉、社会口碑等方面的一系列压力,因而在决策中很容易动作变形。
这就是为什么像OpenAI这样的创业公司会跑得更快、路线更灵活,因为他们没有大公司过多的包袱,不管有什么困难都能够勇往直前。当然,无论是在Google还是微软,都有我很尊敬的同事和朋友,他们都很聪明,个人能力也绝不比OpenAI差。
值得一提的是,微软是在体外投资了OpenAI去完成这项工作,如果做得不好只需要在PR上进行切割,一旦功成微软便大获全胜,这也是其投资眼光和技巧上值得称道的一点。
我曾在国内国外的大厂长期任职,这种决策上的问题是根深蒂固的,不是一个人,或一个团队就能改变的。所以对大厂而言,最好的决策就是内部创新的同时,投资一家专注该领域的创业公司去完成这部分工作。
经纬:不仅是新公司,所有人都需要积极思考怎么去结合。比如最先到来的一大波C端变革,反而可能会是微软,如果它把人工智能集合在Word、Excel、PowerPoint、outlook里面,这将是很大的场景。同时,GPT也会颠覆很多SaaS公司,比如一个财务SaaS,作为客户可能只需要输入问题,它就可以直接形成答案了。您觉得会有很多公司因此受到威胁吗?
周伯文:对SaaS公司而言,如果原来的业务涉及太浅,只是在流程上做了自动化或信息整合,那么这样的公司的确会受到很大的威胁,因为所有的流程如果基于深度自然语言理解和协同交互重新迭代一遍,不但门槛迅速降低,带来的体验会远远超过现在的产品;但如果业务跟行业深度绑定,且具备非常强的行业Know-how,那ChatGPT的加入就只有帮助而没有威胁,因为ChatGPT目前还没有办法产生真正的洞察,在需要精确答案时不具备可用性。
此种情况下,端到端的垂直模式壁垒会更深。比如,有些SaaS公司可能原来与行业绑定较浅,虽然通过ChatGPT可以重构业务,但这个能力是与别人拉平的,大家都可以做同样的事情,这时门槛就很低。
3、大模型时代的另一种模式:垂直闭环
经纬:其实衔远是想做一个端到端的、上下打通的模式?
周伯文:衔远从能力、场景到用户是全部打通的。从底层模型到深层对话能力,都与场景紧密结合在一起。通过这个方式,我们把基础大模型、应用场景和终端用户形成了一个可以快速迭代的闭环,这对用户的价值会更大。我们也能获取用户的反馈帮助迭代基础模型,在训练中也会加入行业专家的Instruction-tuning,最终令模型在不断调优迭代中越做越好。
ChatGPT的模型,它的好处是覆盖面很广,但缺点是都很浅而且只是整合已有的信息。我认为人工智能的高价值应用除了广度之外,也会存在另外一种形式,就是在兼具一定广度的基础上,于特定领域能做到非常深,甚至超过专业的人。
之所以这么说,是因为我们预计未来的人工智能在十年后能够做到这个程度。2002年诺贝尔经济学奖得主丹尼尔·卡尼曼有一本畅销书,《思考,快与慢》(Thinking Fast And Slow),他当时提出了人的思考方式有两类:“系统1”和“系统2”。“系统1”的特点是基于直觉和经验判断,快速、对人很轻松;“系统2”的特点则是慢、基于复杂计算和逻辑,对人有较重的认知消耗和较高的认知门槛。
在上一波的人工智能热潮中,大部分人认为AI会适合干“系统1”的工作,比如通过模式识别做人脸识别或工业品质检,而“系统2”的工作远远超过AI的能力。所以AI更多的是部署在蓝领的工作场景里面,替代那些重复性工作。
但我认为,AI更大的价值是去辅助人更有效、更有深度地做好“系统2”的工作,这类工作需要非常复杂的推理、数据和逻辑,然后在特定领域里产生更多的创新,甚至创造新的知识,更好地完成更复杂的任务。最近AIGC和大模型的进展都在展示这个方向上的潜力。但如果按这个思路来看,真正要突破价值门槛,就需要在落地上不能想着做大且全的领域,而是要把领域收窄。
基于上述思路,衔远一直在研发自有大模型领衔CIP和ProductGPT,以帮助企业实现产品创新。它能提供全面的分析和详实的数据支持,以及按照品牌、品类、特点去展开深度分析,真正帮助到专业人士。
领衔CIP和ProductGPT作为垂直领域的协同交互式人工智能,按照我们的市场验证和预测,它能够让创新机会翻10倍,上市周期缩短近10倍,大幅降低创新成本,帮企业带来更多收入、业务增长和利润,我们的模式就是要在产品创新领域里超过ChatGPT。
经纬:OpenAI也提出了应用中间层的说法,就是在OpenAI的GPT大模型之上,去对接各个应用领域,形成一个中间层。当然像GPT这样的大模型,覆盖面广但浅,这时就需要有新公司加入,自己不做模型,而是直接拿GPT来衔接各个垂直赛道,比如医疗、法律等特定领域的数据集去做训练,这类公司在未来会与垂直闭环型的公司产生强竞争吗?
周伯文:针对这个市场我会把它分成三类,第一类就是衔远科技这种创业公司,我们自己做底层模型,从技术算法到模型迭代、场景闭环都具备,这类是垂直的;第二类就是基于别人的模型(如GPT),然后结合自己的行业Know-how去做训练;第三类是纯粹做应用,是将模型拿来直接使用,这种的壁垒会较低。
为什么我认为衔远科技的模式从长远看更具竞争力?从技术角度来讲,因为它把基础设施、大模型、应用场景和终端用户形成了一个完整的闭环。当公司有了具体的功能让终端用户使用,进而会产生非常多的使用数据,数据反馈后又能帮助提升应用,也能帮助提升基础模型能力,最终模型也会不断去调优迭代越做越好。从端到端做起,慢慢迭代出更大的商业模型。这样的好处还使训练的复杂度降低,从训练成本和速度上来说,我们可以用更小的训练成本更快的达到让技术团队训练100次,通过这些百次的训练打磨迅速提升工程化、各种Know-how与工程技巧和产品经验。
对于第二类能不能成功,我觉得需要时间去验证,现在还不明确。原因在于大家还不知道如何把行业Know-how去和大模型做融合的有效路径,如何在有护城河的同时又有可持续的商业模式,这仍是个未知数。
站在OpenAI的角度或是大厂的角度,他们喜欢这种“应用中间层”的模式。当然要想真正成为基础设施,能不能走得通,还需要先运行一段时间再做观察。
但社会肯定需要另外一种模式,因为这对保持创新也很重要。比如过于中心化的问题,像是全世界所有应用都只集成在一个大模型里面,那这个世界是相当可怕的。这样一种模型又是通过大量的数据反馈训练出来的,其本身具备去进行一些价值观对齐的能力,那将对人类社会的治理体系产生巨大的挑战。
另外是技术层面的原因。如果只有一个通用大模型思路,就没有办法看到不同技术方向的迭代与对比。就像前面说的,如果没有Bert与GPT竞争,GPT也不会发展得这么快,也只有在竞争中才能让GPT的发展动能变得更大。学术创新和技术生态,都需要多元化,不能完全集中在一个大模型之上,也不应都用一种思路去做事情。
4、在ChatGPT的“数据飞轮效应”下,中国公司应该如何追赶?
经纬:随着ChatGPT的爆发,中国的AI相关公司也需要奋起直追,但OpenAI确实占据了先发优势,并享受数据飞轮效应。您觉得中国AI行业在追赶的道路上,应该如何抉择?
周伯文:一方面我们需要有自己的大模型,但另一方面可能要先从垂直领域开始。我的观点是,先通过垂直领域的模型,去学会大模型是怎样工作的,在场景上怎么跟大模型互动,获取更多数据,形成垂直领域的数据飞轮,再去看商业模式该如何展开;等到把垂直领域做好之后,才是去思考大模型该怎么做的时候。
特别是大模型需要很多工程化。工程化是指要进行足够多的尝试,在试的过程中工程师才会产生经验,继而总结出Know-how,以令下一次尝试更容易取得成功。当然,这一过程在某些时刻和阶段也会演变成谁投入的资金更多,谁就有能力去做更多尝试。但若各家都投入高昂成本去做自己的大模型,分别产生各自的Know-how,则无疑会带来重复性的资源浪费问题。
聚焦在一个有足够广度的垂直整合领域里,通过大量的数据的饱和训练,有真实的闭环场景和用户反馈,能够获得更多垂直数据,大模型深度和推理能力可能以更低的成本获得涌现能力。另外,中国的算力资源是十分紧张的。如果各家蜂拥去做大模型,假设每家需要一万片A100,但激烈的内部竞争导致最终没有任何一家拿到一万片A100。如此恶性竞争,倒不如先通过100片A100把垂直模型做好,然后再加到1000片跑通toB或者toC的模式并产生出价值,最终由价值最高的通过市场的称重机集中算力资源加到一万片。所以说,从垂直开始尝试,是更符合客观实际的。
当然,我坚信中国最终肯定会有自己的通用大模型,只是这个道路不一定是要完全模仿OpenAI。OpenAI之前有很长一段时间都是非常艰难的,无论是技术层面的障碍与瓶颈,还是算力、数据上的窘境。同时,大公司则受到更多来自责任方面的压力,以及类似对自家搜索业务的影响等因素,举棋不定是可以理解的,这并不是件容易的事情。
经纬:对,其实从参数角度来说,也不是越多越好,现在OpenAI也说GPT-4不会是一个过于庞大的参数量级。您认为什么样的参数量级是合理的?
周伯文:参数确实不是越多越好,进行充分的训练更为重要。在充分训练的前提下,800亿参数有可能实现相较1000亿参数更好的效果。同时,参数规模也应根据训练的实际情况逐步增加。另一点值得注意的是,2022年ChatGPT面世有很多公司宣称自己模型的参数比GPT-3要大的多,但到目前为止,没有任何一家能够跟ChatGPT的实际效果进行对比。
从技术原理上来说,模型的复杂度包括参数量级都应遵循“奥卡姆剃刀原则”,也就是说如果你能充分模型化一个假设的前提下,所用的参数永远是越少越好。因为越少就越说明模型没有做过多假设、更容易被泛化和通用化。这也被爱因斯坦称为KISS原则,即“Keep it simple, stupid!”
经纬:有一种保守观点认为,ChatGPT有很大的局限性,虽然它现在的回答很惊艳,但本质上其实是一个基于统计学的语言模型,即看过很多数据,然后基于统计结果去预测下一步。但如果我们给它一些杂乱无章的数据,它的回答也就会变得没有逻辑。所以这种观点会认为,即便未来给的参数和数据越来越多,但最终能否真的成为一个通用人工智能,还是有很大的疑问。对此您怎么看?
周伯文:首先我不认为ChatGPT等于通用人工智能。但是,ChatGPT确实在尝试创造更好、更强大的人工智能。
同时,ChatGPT也存在很多弱点。首先,它缺乏真正的洞察,究其根本还是其推理能力不够;其二,它对信息仍然是在比较浅薄的语义层面上进行整合,虽然能区分不同的观点并将之整合起来,但仍旧缺乏深度;其三,则是它在知识和数据方面的可信度问题。
相比之下,衔远科技要做的不是那种很宽泛的通用平台,而是用更垂类的数据去训练出在某个特定方向上更具深度的人工智能——它能给出的回答更细、更深、更精准,从而更好地帮助专业人士完成洞察和产品创新,这将成为强人工智能的又一种新形态。
5、对ChatGPT的总结:“到来不吃惊、影响不低估、未来不可怕”
经纬:近几年来,虽然不断有AI绘画、AI视频、AI声音、AI预测蛋白质结构等新技术出现,但它们还是点状分布的。而这次ChatGPT的面世,却以产品化聊天机器人的形式让全世界感到震撼。您怎么看待AI的前景?
周伯文:最近确实有非常多的人在问我对ChatGPT的看法,其中一部分人对其到来感到兴奋,同时也有人抱持顾虑。我的观点总结起来就十五个字:“到来不吃惊、影响不低估、未来不可怕”。
“到来不吃惊”是指,这轮并非那种“斯普特尼克时刻”(Sputnik Moment),因为里面的很多技术和理念其实是2021年就已出现的趋势。所以,这轮对于长期做AI前沿和前瞻研究的人来说并不太吃惊,核心的技术创新点大部分在2021年就已经出现了。所以说ChatGPT这样的集成产品创新的出现是必然的,只不过什么时间、最终由谁做出来存在一定偶然性。
“影响不低估”是指,ChatGPT将会改变很多事情。ChatGPT在这个时刻出现是具有里程碑意义的,它对人类社会的影响将在经济、技术等方方面面得以体现。
“未来不可怕”是指,我不认同很多人对AI的妖魔化,其中就包括马斯克的所谓“危机意识”。至少目前来看,AI是可控的。而未来,包括政府决策者、学术研究团队、企业家及法律界人士在内,也将持续从各方面思考人工智能该如何融入人类社会。
举例来说,当下就会面临一些问题,比如ChatGPT其实是一种讨好型人格,偏向于不停的依循所得到的回答来修正自己,但人类社会充斥着矛盾、冲突等信息,ChatGPT在形成自身价值体系的过程中该如何迭代,就是一道非常值得思考的问题。
此外,知识版权也是不可回避的问题之一。ChatGPT的数据有很多是基于大众创造的,如果涉及商业化,其中的利益又该如何分配?更何况ChatGPT并不是简单的搜集,而是一个融合机制,那又该如何溯源、分配,厘清此间种种会十分复杂。
还有对使用方面的界定问题,比如部分学术界不允许论文发表者使用ChatGPT,但很多非英语母语的学者却很喜欢用ChatGPT去修改语法和润色语句,相关应用场景也很值得讨论。
总之,ChatGPT是一个划时代的产品。自此,AI开始真正找到了应用的爆发点,未来将与各个行业持续融合发展。最后,我还是用那十五个字来收尾,希望大家对正在发生和即将到来的AI新时代:“到来不吃惊、影响不低估、未来不可怕”。
评论