周伯文：ChatGPT & GPT-4 与下一代协同交互智能

2023-3-23 2 分钟阅读时长

2023年03月18日，“新一代人工智能技术发展研讨会暨系友论坛” 在清华大学电子工程馆报告厅举行。本届论坛由清华大学电子工程系、清华校友总会电子工程系分会主办，SEE Fund、高榕资本、金沙江创投、中金资本、招商银行北京分行协办，旨在集聚人工智能领域的优秀人才，开展行业间的互动交流，体验人工智能创新应用，展望人工智能未来发展趋势。

IEEE/CAAI Fellow、清华大学惠妍讲席教授、清华大学电子工程系长聘教授、衔远科技创始人周伯文受邀出席并发表《ChatGPT & GPT-4 与下一代协同交互智能》主题报告，为大家带来了ChatGPT和GPT-4的核心技术点介绍与下一代协同交互智能研究方向的思考。

联系我们 →

演讲摘要

ChatGPT与GPT-4显示了AI的更多高价值场景在于System 2（逻辑分析系统）而不是System 1（直觉无意识系统）；
其重要进展是AI与人的协同和交互学习的提升，而不仅仅是模型变大，对人机协同创新知识发现意义巨大，我们需要重新定义与研究更多承担System 2的AI系统与人的协同与交互；
AI的下一个突破会从纯虚拟的存在转到帮助人在物理世界、生物世界和信息世界里更高效洞察、形成新知识并完成任务，创造更高价值场景。

»»» 点击此处下载完整演讲PPT «««

演讲原文

ChatGPT & GPT-4 与下一代协同交互智能

大家下午好！非常开心能来参加我们清华大学电子系主办的“新一代人工智能技术发展研讨会暨系友论坛”，我们的研讨主题恰恰与当前的研究趋势紧密相关。今天，我要跟大家分享的报告题目是《ChatGPT & GPT-4与下一代协同交互智能》。不知道大家怎么样，我形容过去这一周是“What an amazing week！”每天我只睡大概4个小时，但还是感觉很难Catch up，Keep up，需要接收和消化的信息数量大、频率快。

我带大家快速回忆一下：周一，Stanford Alpaca （“羊驼”文本生成模型）火了。周二，相隔不到一天的时间，全世界的注意力就已经转移到GPT-4上。有意思的是，Stanford Alpaca刚刚传递出一个信号——小团队也有希望；OpenAI马上跳出来说：“不行！我们还要更大！”同期发布的，还有Google的PaLM-E和Meet Claude等竞品聊天机器人。后面两个大家可能关注得不多，但随着时间的推移和了解的深入，相信会有更多影响力显现出来。周三，Google 继续发力推出 AI Workspace。 紧接着周四，微软就高调宣布将Office软件与GPT-4人工智能应用进行融合；同一天，百度的“文心一言”也略显仓促地召开了发布会。 到周五的时候，我想说 “Thank God It’s Friday! ”，这个周末终于可以Relax一下了… 然后周六，我们清华大学电子系论坛又隆重登场（Joke）。这种体验，如果我们把它想像成一个GPT Generative Model（生成式模型）的话，就会Keeps your wonder，What’s happening next？那么Sunday is a question mark，而这个question mark也不会持续太久。我目前的计划是，做完这场报告后就赶紧回去继续工作，否则就会有种无法plan自己未来的感觉。所以，这是一个关于“生成式人工智能的生成式模型”问题，这一概念也是我在此首提，大家以后可以去quote它，就是基于过去5-6天发生的事情，人类能否预测未来？

今天我们要讨论的topic很新也很大，所以我把核心的message put up front，先跟大家take home message，请重点记忆下面几点：

1、AI的高价值场景在System 2

ChatGPT和GPT-4显示了AI的更多高价值场景在于System 2（逻辑分析系统），而不是System 1（直觉无意识系统）。这是一个极具革命性的变化，因为过去的认知并非如此；

2、AI与人的协同交互至关重要

ChatGPT和GPT-4的重要进展体现在AI与人协同及交互学习能力的提升，而不仅仅是模型变大，这对人机协同创新和知识发现的意义尤为巨大。自此，人类需要开始重新思考、定义和研究更多承担System 2的AI系统，帮助它更好的与人进行协同和交互。

3、高效洞察、形成新知识并完成任务

相信未来大家会看到AI更多具体的实践落地，而不仅仅是在模型层面上去炫技。我认为AI的下一个突破是帮助人类在物理世界、生物世界和信息世界里实现更高效、更广泛、更深度的洞察并形成新的知识。未来，新知识的发现很可能不再为人类所独有，AI会自己Rediscover new knowledge并完成任务，创造更高价值场景。

那么问题来了，为什么ChatGPT如此引人关注？ 以AI从业者的价值观来看，我们一直在讲“AI是以人为中心的AI”。但事实上在过去20多年里，每一个造成社会风洞效应的AI几乎都是通过“与人竞争（beat the best human）”来获取广泛关注的。从我在IBM时带过的团队DeepBlue和Watson，到谷歌的DeepMind Alphago，都是通过击败真实的人类制造“人机竞争”的热点。但ChatGPT是第一次通过与人类的协同制造出热点的，因而其展现出的惊艳效果，我们每一个用户都有贡献！ 如果换做IBM Watson或DeepMind Alphago，我们是很难Claim自己有贡献的。但每一次与ChatGPT的交互，我们都可以Claim自己是有贡献的。所以AI的本质就是与人类的协同和交互，它从交互中不断学习，进而协同人类更好的解决问题。这个观点在不远的未来将愈发重要，同时也将面对技术和伦理层面的更多挑战，最终想要守住底线并不容易。

这个观点现在提起来好像大家会觉得比较平淡，可能过三五年会变得越来越重要，因为我们要守住这条底线，其实没有那么容易，这个在技术上、在伦理上都是非常有挑战的。受限于今天的时间，欢迎大家线下来跟我讨论这个问题。

让我们快进到2023年，前不久OpenAI的CEO Sam Altman在Twitter上提出了一个“新摩尔定律”，即“每18个月宇宙的智能总量（amount of intelligence）会翻一倍”。我认为更准确的说法是“智慧触点数目（number of intelligent touch points）会翻一倍”。但前者的描述的确是一个非常好的Marketing Language，能让市场和大众都听得懂。

以我本人的经历来看，所谓“新摩尔定律”其实也并非刚刚发生。 2019年，我带领京东AI团队就已落地应用了通过生成式人工智能去创作商品文案并选择图片的工作。那时消费者可能都没意识到自己在京东搜索好物时，看到的很多品类描述其实是在浏览商品的一瞬间，AIGC（生成式人工智能）逐字逐句根据每个用户的偏好并结合商品卖点自动生成的。

换句话讲，当年在京东的每一个SKU背后，就已经具备一个人工智能助理了，它的任务就是：第一，帮助该商品归纳总结卖点；第二，理解每个消费者的需求，并动态生成最符合消费者喜好的导购文字，最终把商品推销出去。所以，我认为“新摩尔定律”早在2019年就已经发生了。 区别在于2023年之后，这类人工智能的广度和深度跟此前已完全不一样了。未来，万物都将是智能触点，我认为这是“新摩尔定律”开始的一个最基本的假设。

从ChatGPT到GPT-4，我们发现AI的人机交互、意图理解准确率、逻辑推理及可控性都得到进一步提升，能够处理更多复杂任务，都是十分重要的进展。

ChatGPT & GPT-4 核心技术点

接下来，我想和大家讲一讲ChatGPT & GPT-4背后的核心技术原理。How do we get this far？

我们知道，所有这一波大模型都来自于Transformer，所以当你看到模型里面有个T，那这个T大概率是代表Transformer。我很荣幸，在这方面有一些前瞻性工作。 我们在2017 年的ICLR上公开发表论文“A Structured Self-attentive Sentence Embedding”提出了“多头自注意力机制”，也是首个提出这一机制的团队。更关键的这是第一个完全不考虑下游任务的自然语言表征模式。以前大家也使用过注意力或某种情况下的自注意力，但都是依赖任务的。

从通用人工智能角度来讲，这是一大进步，因为做通用人工智能意味着在不需要知道下游任务是什么的时候就能有更好的学习。而过去依赖任务的这种表征，实际上都是用输出的信息或者说用未来的信息帮助AI学习。这就像是GPT与Bert的模型差别，两者之间有着很大的不同。Bert为什么开始很成功，后面却不如GPT的原因就在于：它既使用了从左到右的信息，也使用了从右到左的信息。换句话说就是，Bert使用了未来的信息去帮助AI学习如何表征，而GPT坚持只基于过去的信息去预测下一个词是什么。后者的做法与我们团队的思路一脉相承，即：尽量不要使用答案去学习。

这就像大学考试一样，如果你在考试前找老师划重点再复习，一般来说考过的几率会很大，但考完忘得也更多、更快。好的学习方法是不去管会考什么，而是把完整的教材反复看很多遍，过程中自己发现并记忆那些可能需要pay attention的内容，理解不同章节知识间的关系，把其中的脉络梳理清楚，你的学习能力自然就会增强。这也是我们提出这个模型的初衷。

所以我们的这个idea（自注意力加多头，跟下一个任务无关的表征）被Transformer在“Attention is all you need”中引用，这篇论文的第一作者Ashish Vaswani正是我在IBM指导过的学生。这里值得一提的是，这篇论文除了为Transformer在大模型上带来引领性作用之外，还催生了一种文风的变化。 可以看到，Transformer这篇论文的题目“主谓宾”齐全，而此前学术界写论文题目更多是像我们这篇论文“A Structured Self-attentive Sentence Embedding”，意为：一个结构化的自注意力的句子表征，是以一个Long Phrases（长短语）名词词组的形式出现的，一般是去描述作者提出了什么方法、理论和假设，或者说“On the complexity of ….”研究某个模型的复杂性，总之会是非常具体的一个信息。

但从Transformer这篇论文开始，它的题目更像Twitter这类社媒的措辞，将作者的核心观点直接写成论文题目，“Attention is all you need”就是完完整整的一句总括陈述。此后，据我观察这种表达方式越来越多了，包括OpenAI和Google的论文都在采用此种命题法。所以，如果现在的作者想让一篇论文获得更好的传播效果，这会是一种值得考虑的方式。但从传统学术角度看，这种标题就显得不够具体了。

从Transformer到GPT再到GPT-3，以及后续的一系列重要进展，造就了今天的ChatGPT和GPT-4。上图列举了过程中几处较为重要的进展及时间信息，了解它们的起源和发展过程十分重要，读者朋友们也可以通过查阅相关论文进行深入研究。

首先，我认为指令微调（Instructions Tuning）很重要。 需要注意的是，这个最重要的想法并非源自OpenAI，而是在Allen Institute和UW于2021年合作发表的一篇联合论文中被提出的。同时，他们开始考虑“使用代码进行预训练”，这是一个非常聪明的举动；其次是人在环路的强化学习，最早期的工作始于2017年，OpenAI和DeepMind对此均有所贡献；再之后才有了ChatGPT的出现以及GPT-4的问世。我认为其中最核心的三项技术分别是In-Context Learning、Chain-of-thought和Instructions Tuning。

这三个模型有一个核心共通点：都是通过与人的协同和交互完成的。需要再次强调的是，这不仅仅是模型本身的胜利，将人的思考融入其中成为了一个非常重要的支撑点。

这三个模型的核心共同点是通过与人的协同和交互完成的。 需要再次强调的是，这不仅仅是模型本身的胜利，而且将人的思考融入其中是非常重要的支撑点。

首先，让我谈一下In-Context Learning（上下文学习）。 它出自OpenAI的一篇论文“Language models are few-shot learners”。正如先前所说，这篇论文的命题风格也是一个“主谓宾全齐”的句式。作者直接把结结论呈现给读者，即“大语言模型本身就具备Few-shot Learning的能力”。文章的核心观点是大模型中出现了“涌现能力”——当模型参数超过一定数值后，它的能力会突然提升。 从学术角度来讲，以前基于大模型的那种Fine Tuning现在已经不需要了。Fine Tuning的意思是我们需要通过反向传播的梯度来改进模型。然而，现在以大模型作为基石的情况下，我们不需要再改模型了。这篇文章举了三个例子：Zero-shot、One-shot和Few-shot，它们都是只通过人类给出的Prompt，让AI通过这些例子来学习，而不需要再改变模型参数，也不需要涉及梯度，使用起来非常方便。这也是为什么人们觉得它具有AGI（通用人工智能）的原因。

同时，我们要知道这种“涌现能力”其实并不奇怪、也不罕见，在复杂系统理论中就涉及到很多关于“涌现”的理论。只是在大规模神经网络里面，涌现现象第一次被广泛关注到，但其解释并不复杂。长期做NLP的人容易想到的一个比较可能的解释，是从隐式贝叶斯的角度来看这个问题。

比如给出几个例子，先提到爱因斯坦是德国人，甘地是印度人，然后问“Marie Curie was ? ”让模型去猜下面这个词应该是 Brilliant 还是 Polish？即回答居里夫人很聪明还是她的波兰国籍？从一个自然语言模型的角度来看，就是运用这些历史信息猜单词出现概率的最大性；但从涌现能力的角度来看，它为什么突然懂得了通过前面两个例子就能猜出应该回答她的国籍是Polish而不是形容她这个人Brilliant？是因为语言模型里面有一个隐含的变量叫做 Concept，通过对这两个例子的学习，它能发现Concept（概念）最大的概率是去跟她的国籍发生匹配。

当针对某个给定的提示(prompt)，计算下一个词的条件概率p(output|prompt)时，需要对所有概念进行积分。但由于“国家”的隐含Concept占据主导地位，因此在进行argmax时可以跳过对其他概念的积分。因此，计算出Polish的可能性要远高于Brilliant。这就是为什么语言模型具有“涌现能力”的原因。语言模型的复杂性使其能够计算所有这些隐含变量，并得出Concept代表“国家”的概率最高的结论。

In-Context Learning 能做得这么好，是因为人类在前面给出了很好的Context（上下文）。所以我还是强调，这是与人类协同交互的胜利。

接下来我们说说Chain-of-thought（思维链）。 上图这篇论文“Chain of thought prompting elicits reasoning in large language models”的题目也符合自Transformer以来论文题目的格式，一个主谓宾齐全且不容置疑的观点表达。

这篇论文很有意思，它强调“上下文”和“人给出的示例”对语言模型的重要性。 如果直接给模型一个原始示例，然后询问计算出的答案，模型很可能会出现错误（如上图，给出错误答案27）。这种错误可能是由于模型中的隐含变量Concept不够清晰，导致没有明确的结果，最终表现为一个十分泛化的分布，更像是随机产生了27这个数字。

但是，如果向模型提供更多的推理过程，它将在这些推理过程中持续地、更好地寻找隐含概念，这可以从某种角度解释为什么“Chain-of-Thought”能够奏效；第二个解释是，通过向模型提供更多具体的示例之后，它能够将一个大问题分解为小步推理，而在每个小步推理的过程中寻找隐含概念会更容易，概念的分布也将更尖锐，因此可以得到更准确的答案。然而，要培养这种思维链的能力并不容易。根据研究来看，有两大核心技巧：

技巧一是充分运用代码，在这点上我们应向工程师们致敬。人在使用代码进行表达时，通常会比自然语言更严谨、更具逻辑性。这也是为什么模型可以从示例中学习，因为可以找到隐含概念。相比自然语言，代码的语法非常简洁，因而在推导隐含概念时更容易找到明显的关联和尖锐的分布；技巧二是提供多样性的数据。 数据量越大，思维链的质量就越好。

最后我们说回到Instruction Tuning（指令微调），通过与人类的协同交互帮助大模型去泛化、增强自身的能力。这里的“增强”是指大型模型本身具备这种能力，但如果没有人类的协同交互，它将无法展现这种潜力。

上图这篇论文中的交互方式，更便于人类去理解任务的指令类表述。在图中，我们将三种方法进行比较：（A）阶段最初是使用微调技术（fine tuning），在训练大型模型之后，需要提供监督示例并计算梯度，以调整模型内部的参数。这是最复杂的方法，在当时除了从事NLP研究的人以外没有什么人关注，因为他们不具备微调大模型的能力，也就没有那么狂热；到（B）阶段，人们的狂热程度开始激增，因为只需掌握提示语言（prompt）的使用方法，就可以生成大量结果。不再需要改变模型参数让门槛大大降低了，也因此出现了“Prompt Engineering”；再到（C）阶段，出现了一种被称为FLAN的指令微调系统，上图中有一个详细的例子来解释其逻辑。如果想让模型进行逻辑推理，可以通过提供完全不相关的例子，如翻译、摘要或情感识别的例子等，然后再提供一个前提、假设之类的推理任务，模型就会突然表现得非常出色，这就是Instructions Tuning。

人类在教这个大模型的时候，更像是在教一个孩子。 我们并不直接告诉它要解决的问题，但是通过其他方式让模型内部产生适配性，从而得到令人震惊的、非常好的结果。如上图所示，最低的橙黄色柱条代表了zero-shot的GPT-3，中间的红色柱条代表了few-shot的GPT-3，我们发现即便给到GPT-3一些关于同一个任务的例子，它的学习效果还不如右边蓝色柱条采用指令微调方式在zero-shot上的表现。指令微调能让模型在没有给任何具体例子的任务上表现得比给了示例的还好。它不仅增强了模型的零样本泛化能力，而且更适合人机交互。换句话说，人类只需要教会模型A和B，它自己就能学会C。

在工程领域，许多人会考虑如何更好地利用它。上图中，黄箭头左端表示基于模型的生成方法（Model generated），可以生成多个示例以指导大模型执行不同的任务，这种方法快速且便捷；而右端的方法则是让人类编写（Human written）示例以进行指导，就像大家熟知的ChatGPT一样。通过每天教它不相关的内容，比如上午教它天文和地理，下午它可能就学会了物理，即使没有人教过它。所以像ChatGPT这样有大量用户集中在一起，它在"Human written"这一端就有着巨大的潜力。那么，要将这个指令调整进一步发挥到极致，就要看如何增加指令的多样性和真实性。在这方面，OpenAI可能又占得先机了，这家公司去年就已在大量进行“人在环路”的Instruction tuning，而很多学者可能还在依循条件做“Model generated”这种Instruction tuning。

实际上，对模型的指令微调有很多种方法，不仅是为了提高下游任务的准确性，还包括提高它的价值观和道德对齐。因此，我们通常将其称为AI Alignment（AI对齐）。也就是说，我们需要通过这些示例将人类的智慧和意志传递给大模型。

前面展示的更多是关于“监督学习”的范例。实际上，许多公司都在进行类似的工作，采用强化学习或记忆增强等不同方法以实现AI与人类的对齐，同时对AI的道德观和价值观进行限制。除了OpenAI，LaMDA和DeepMind Sparrow等公司也在从事这类研究。我个人认为这将是接下来非常重要的一个领域。

OpenAI在2022年1月发布了InstructGPT，我认为这是一个里程碑式的成果，从其就能基本预见ChatGPT的到来。该模型的本质是通过多阶段的交互和不同的任务，将模型与人类的偏好进行对齐，令模型具备了将所学到的知识应用到其他任务的能力，并通过交互提高模型的知识利用和推理能力。大量实验分析表明，与人类进行真实交互的反馈数据非常重要。在这方面，人类创造的1个例子的重要性可能会超过机器生成的10个甚至100个例子。同时，需要大量的资金投入，以及模型架构、系统构建和运营维护等方面的支持。

我想说的是，大模型的底座是非常不完备的，还存在很多缺陷。但通过引入协同交互的方法，即使在不具备完美的知识和推理能力的情况下，大模型仍能令人在感知层面上惊奇于它的强大。如今大家看到的部分AGI方面的潜力，核心就来自于这些因素所引发的能力。

这里给出一个我经常讲的例子，非常直观：GPT-3 175B模型在回答基于事实驱动（fact driven）的问题时表现得非常出色。然而，如果你问它如何向一个6岁的孩子解释登月，它虽然可以从多个角度回答这个问题，包括基于物理原理的万有引力（A）、基于历史背景的美苏冷战促使登月（B）、基于天文学的地月关系（C）或基于人类关于月亮的神话传说等（D）。但是，GPT-3或GPT-3.5无法判断哪个答案更适合6岁的孩子。

然而，如果将人类的指令微调（Instruction tuning）融入其中，对这些答案进行排序，那么在上述示例中，D会被认为比C更好，而且远远优于A和B。这种指令微调可以让模型学会高质量的回答。之后，如果让它为一个6岁的孩子写一首有关青蛙的童谣，它会从“once upon a time”（很久很久以前）开始讲起。这种方法非常有效。与此同时，与GPT-3的175B相比，InstructGPT只有1.3B的规模，以前者1% 的模型规模实现了更好的效果。

因为（报告时）GPT-4刚刚发布，我们还没有对它进行全面的分析，一些直观的感受是它支持图片模态和超长文本输入等等。我们之前提到In-Context Learning，GPT-4虽然支持图片输入，但它的底层仍然是一个语言模型，而语言模型永远对Context有要求。上下文越多，使用更多的few-shot example，模型就能够做得更好。所以GPT-4支持了更多的token输入（32K），我认为这是一个非常重要的进步，因为背后的工程挑战是非常巨大的。

此外，很重要的一点是它的预训练数据量和模型参数量在不断变大；同时，它有一个性能可预测的区间，我稍后再做解释；还有就是它的意图可控性进一步增强，也就是说Instruction tuning能做得更好了。以上种种，都是GPT-4的进展。

同时，GPT-4仍然存在很多不足。比如，虽然它的 Hallucination （幻觉）得到大大改善，但仍然存在这个根本上的问题。所以，我们应该去思考怎样解决这个问题。我们课题组正在更换方式去研究怎样减轻它 Hallucination 的相关问题，而不是纯粹靠堆数据上去。

此外，我还想特别强调的是性能边界的问题。OpenAI 通过 Scaling Law 是基本能够准确预测到 GPT-4 模型达到什么规模的时候，它的性能会怎么样。这对我们研究者来讲是印象深刻的，用户可能感觉不到。也就是说，在模型上线之前，你可以大概知道它的效果，这非常了不起。此外，GPT-4的性能边界有助于我们反思现有的AI理论，启发我们去思考哪些是已知的，哪些是未知的。

所以我认为，学术界还是有很多工作可以做的。国内外有很多学生、博士后，包括年轻教授问我：周老师你现在从工业界回到学术界，这个模型这么大，咱们能做吗？我说没问题，我们有我们的方法，还有很多问题需要去思考。当然也需要很好的产学研融合，这是必须要去解决的问题。

下一代协同交互智能

那么，基于新一代协同交互智能我们能够做什么？前面讲了相关理论、取得的进展和一些解释，接下来我们讲一下它在学术领域的应用价值。

在 ChatGPT 火遍全世界的同时，Nature杂志今年1月5号发表了一篇封面论文，通过对过去几十年全世界论文的分析得出一个结论：虽然人类的论文数和专利数持续增长，但突破性的科研成果却越来越少，且这种现象在全球范围内普遍存在。针对这一现象，我认为是科学本身发展规律造成的。日益完善的科学体系就像一座即将竣工的大厦，内部是一个个小房间，而每个房间都是一个信息过载的“茧房”。这一点在座的博士生肯定特别有感受，比如：原来你读5篇、10篇论文就可以开始创新、写新论文了，但你现在必须要读500篇。因为不读完这些论文，你可能很难明白它们相互之间的关系，而每个论文的题目看上去又都那么不容置疑，让人无法忽视。同时，茧房之间的壁垒过高，自己的学术领域还没搞懂，想去涉猎别的学科也会发现很难进入，从而导致这种交叉性的难度极大提升。

这里说的交叉性不仅是学科的交叉，而是一个人本身真的要能理解，但要做到这一点的话认知负担就会很重。想要解决问题很重要的一点，需要科研工具的与时俱进。我一直希望有谁能帮我读论文，这样我才能有更多时间和精力去思考创造性层面的东西。

现在我们已经相信，ChatGPT和GPT-4能够承担这类任务，这是非常令人兴奋的。相关实验显示，GPT-4已经能够去做药物发现了；又比如给它任何的化合物，它就能找到相似的化合物，并通过很聪明地修改，使之免于专利法的保护限制；又或者用它去研究供应链等等。

ChatGPT和GPT-4对科学研究方式带来了颠覆性的改变，我将这种变革称作“System 1和System 2的转变”。在《快与慢》一书中，System 1被定义为基于直觉做出判断的能力，具有快速、无需计算的特点；而System 2则依赖于深度思考，速度较慢，需要进行数学计算和逻辑推理。虽然人类都能使用这两种模式，但人类大脑由于惰性会惯于采用System 1的方式进行推理。但是，当我们需要进行高等数学考试、论文写作或实验等任务时，必须切换到System 2的模式。过去AI界普遍认为人工智能适合更多应用于System 1，例如安防人脸识别和质检等。但我一直认为，AI的真正价值在于System 2，即帮助人类更好地完成复杂的逻辑推理任务。

当然在3到5年前，人们并不相信AI能够广泛应用于System 2，对AI的定位还是一种模式识别和统计工具。不过随着AI最近取得的一系列进展，人们越来越清楚地认识到AI在System 2方面的能力越来越强。因此，我认为AI的产业化场景将从“蓝领+重复劳动”转向“白领+知识创新”，并将持续增大其价值空间和飞轮效应。飞轮效应是指AI可以让整个系统更好地发现新知识，这些新知识又可以帮助设计更好的AI系统，从而形成一个良性循环。因此，AI与知识或创新之间形成了一种相互促进的关系，这也导致AI和人类的协同方式必须转变。

正是基于以上认知，我很荣幸在 2022 年年初加入清华大学电子系，成立了协同交互智能研究中心。在ChatGPT推出前一年，我们就已经确定了“ 3+1”的研究方向，即以可信赖AI为研究基底和长期目标，以多模态表征交互、人机协同演绎、环境协同演化为研究着力点，核心是要做人机的协同共创，实现人类帮助AI创新、AI帮助人类创新的目标。

为了实现这一目标，我们认为需要做好几个支撑：其中之一是多模态表征交互，可能存在着一个大一统的理论。在2022年时，人们对此仍持怀疑态度，但随着GPT-4的问世，这种多模态的统一表征交互已经比较有说服力了；另一点是人机的协同交互。这在2022年时人们也抱持怀疑的态度，但现在这种交互方式已经变得更加可信，人们开始相信它很可能会发生；第三点是AI与环境的协同演化，这意味着AI不仅需要与人类协同，还必须自适应周围的环境。我们在2022年年初率先提出了这一概念，直到目前还没有看到在这个方向上取得成功的案例，OpenAI也没有。

举例来说，电子系的各位肯定对通信、带宽、硬件、终端等方面都非常熟悉。但在实际的应用场景中，这些条件经常是不一致、不连贯和离散的。如何使通用AI能够在不同的边缘端自我适应，这是非常重要的研究方向。但更重要的是，我们需要探索如何从边缘端获取足够的智能，以帮助大模型不断自我迭代和演化。

当然，这必须建立在可信赖的人工智能之上。我们在2022年在ACM Computing Surveys上发表了一篇题为“Trustworthy AI: From Principles to Practices”的论文。该文章就在讲关于“可解释性、泛化性、隐私保护”等方面的内容。我们认为，这些问题不应被视为独立的课题，而应将它们作为一个整体的课题进行研究。因为当把它们视为独立的课题时，各个方向之间会存在矛盾，难以达成一致。