《麻省理工科技评论》:什么是人工智能?
- 什么是人工智能?
- 每个人都认为自己知道,但没有人能达成一致。这就是问题所在。
——via MIT Technology Review What is AI? By Will Douglas Heaven
互联网上的恶意、谩骂以及其它非琐碎、足以改变世界的意见不合...
人工智能既性感又酷炫。它在加深不平等、颠覆就业市场并破坏教育体系。人工智能像是主题公园的游乐设施,又好像是魔术戏法。它是我们的终极发明,也是道德责任的体现。人工智能是这十年的流行语,也是源自 1955 年的营销术语。人工智能类人,又似异星来客;它超级智能却也愚不可及。人工智能热潮将推动经济发展,而其泡沫似乎也将一触即发。人工智能将增加富足,赋能人类在宇宙中最大限度地繁荣发展,却又预示着我们的末日。
大家都在谈论些什么呢?
人工智能是我们时代最炙手可热的技术。但它究竟是什么?这听起来像是一个愚蠢的问题,但从未像现在这样紧迫。简而言之,人工智能是一系列技术的总称,这些技术使计算机能够完成那些当人类执行时被认为需要智慧的任务。想想面部识别、语音理解、驾驶汽车、写作句子、回答问题、创作图像等。但即便这样的定义也包含多重含义。
而这正是问题所在。让机器“理解”语音或“书写”句子意味着什么?我们能要求这类机器完成哪些任务?我们又该对它们的执行能力给予多大信任?
随着这项技术从原型快速转化为产品,这些问题已成为我们所有人的议题。但(剧透警告!)我并没有答案。甚至无法确切告诉你人工智能是什么。制造它的人也不真正知道。Anthropic 人工智能实验室位于旧金山的首席科学家 Chris Olah 表示:“这些都是重要的问题,以至于每个人都觉得自己可以有意见。同时,我认为你可以对此争论不休,而目前没有任何证据会反驳你。”
但如果你愿意坐稳并加入这场探索之旅,我可以告诉你为何无人真正知晓,为何大家看似各执一词,以及你为何应当关注这一切。
让我们从一个随口的玩笑开始...
回溯至 2022 年,在《神秘 AI 炒作剧场 3000》这一档略显扫兴的播客首集的中途——该播客由易怒的联合主持人 Alex Hanna 和 Emily Bender 主持,他们乐此不疲地用“最锋利的针”刺向硅谷一些最被吹捧的神圣不可侵犯的事物中——他们提出了一个荒谬的建议。当时,他们正在大声朗读 Google 工程副总裁 Blaise Agüera y Arcas 在 Medium 上发表的一篇长达 12,500 字的文章,题为《机器能学会如何表现吗?》。Agüera y Arcas 认为,人工智能能够以某种与人类相似的方式理解概念——比如道德价值观这样的概念,从而暗示机器或许能够被教导如何表现。
来源:MIT TR
然而,Hanna 和 Bender 并不买账。他们决定将“AI”一词替换为“数学魔法”——就是大量且复杂的数学运算。
这个不敬的表达旨在戳破他们认为存在于引述句中的夸张和拟人化描述。很快,身为分布式人工智能研究机构的研究主任及社会学家的 Hanna,以及华盛顿大学计算语言学家、因批评科技行业夸大其词而在网络上声名鹊起的 Bender,就在 Agüera y Arcas 想要传达的信息与其选择听取的内容之间划开了一道鸿沟。
Agüera y Arcas 问道:“AI、其创造者及使用者应如何在道德上承担责任?”
Bender 则反问:“数学魔法应如何在道德上承担责任?”
她指出:“这里存在分类错误。”Hanna 和 Bender 不只是反对 Agüera y Arcas 的观点,他们认为这种说法毫无意义。“我们能否停止使用‘一个人工智能’或‘人工智能们’这样的表述,好像它们是世界上的个体一样?”Bender 说。
这听起来仿佛他们在讨论完全不同的事物,但实际上并非如此。双方讨论的都是当前人工智能热潮背后的技术——大型语言模型。只是关于人工智能的讨论方式比以往任何时候都更加两极分化。同年 5 月,OpenAI 的 CEO Sam Altman 在预告其公司旗舰模型 GPT-4 的最新更新时,在推特上写道:“对我来说,这感觉就像魔法。”
从数学到魔法之间,存在着一条漫长的道路。
人工智能拥有信徒,他们对技术当前的力量和不可避免的未来进步抱有信仰般的信念。他们宣称,通用人工智能已近在眼前,超级智能紧随其后。同时,也有异见者对此嗤之以鼻,认为这些都是神秘主义的胡言乱语。
流行的、充满话题性的叙述受到一系列大人物的影响,从 Sundar Pichai 和 Satya Nadella 这样的大型科技公司首席营销官,到 Elon Musk 和 Altman 这样的行业边缘玩家,再到 Geoffrey Hinton 这样的明星计算机科学家。有时,这些鼓吹者和悲观论者是同一批人,告诉我们这项技术好到令人担忧的地步。
随着人工智能的炒作不断膨胀,一个直言不讳的反炒作阵营也应运而生,时刻准备着击破那些雄心勃勃、往往过于离谱的声明。在这个方向上努力的,包括 Hanna 和 Bender 在内的一大群研究者,还有诸如前谷歌员工、有影响力的计算机科学家 Timnit Gebru 和纽约大学认知科学家 Gary Marcus 这样的行业批评者。他们每个人都有众多追随者,在评论中争吵不休。
简而言之,人工智能已经成为所有人眼中无所不能的存在,将领域分割成一个个粉丝群体。不同阵营之间的交流似乎常常驴唇不对马嘴,而且并不总是出于善意。
也许你觉得这一切都很愚蠢或烦人。但鉴于这些技术的力量和复杂性——它们已被用于决定我们的保险费用、信息检索方式、工作方式等等——至少就我们正在讨论的内容达成共识已经刻不容缓。
然而,在我与处于这项技术前沿的人们的诸多对话中,没有人直接回答他们究竟在构建什么。(旁注:本文主要聚焦于美国和欧洲的人工智能辩论,很大程度上是因为许多资金最充裕、最先进的 AI 实验室都位于这些地区。当然,其他国家也在进行重要的研究,尤其是中国,他们对人工智能有着各自不同的看法。)部分原因在于技术发展的速度,但科学本身也非常开放。如今的大型语言模型能够完成令人惊叹的事情,从解决高中数学问题到编写计算机代码,再到通过法律考试乃至创作诗歌。当人做这些事情时,我们认为这是智慧的标志。那么,当计算机做到这些时呢?表象上的智慧是否足够?
这些问题触及了我们所说的“人工智能”这一概念的核心,人们实际上已经为此争论了几十年。但随着能够以或令人惊悚,或令人着迷的真实模仿我们说话和写作方式的大型语言模型的兴起,围绕 AI 的讨论变得更加尖酸刻薄。
我们已经制造出了具有类人行为的机器,却没有摆脱想象机器背后存在类人思维的习惯。这导致对人工智能能力的过高评价;它将直觉反应固化为教条式的立场,并且加剧了技术乐观主义者与怀疑主义者之间更广泛的文化战争。
在这团不确定性的炖菜中,再加上大量的文化负担,从我敢打赌许多行业内人士成长过程中接触到的科幻小说,到更恶劣地影响我们思考未来的意识形态。鉴于这种令人陶醉的混合体,关于人工智能的争论不再仅仅是学术性的(或许从来都不是)。人工智能点燃了人们的激情,使得成年人互相指责。
来源:MIT TR
“目前这场辩论并不处于一个智力健康的状态,”Marcus 这样评价道。多年来,Marcus 一直在指出深度学习的缺陷和局限性,正是这项技术将人工智能推向主流,支撑着从大型语言模型到图像识别,再到自动驾驶汽车的一切应用。他在 2001 年出版的《代数思维》一书中提出,作为深度学习基础的神经网络本身无法独立进行推理。(我们暂时略过这一点,但稍后我会回来探讨像“推理”这样的词汇在一个句子中的重要性。)
Marcus 表示,他曾试图与 Hinton 就大型语言模型的实际能力展开一场恰当的辩论,而 Hinton 去年公开表达了对自己参与发明的这项技术的生存恐惧。“他就是不愿意这么做,”Marcus 说,“他叫我傻瓜。”(过去在与 Hinton 谈及 Marcus 时,我可以证实这一点。Hinton 去年曾告诉我:“ChatGPT 显然比他更了解神经网络。”)Marcus 在他撰写的一篇名为《深度学习正遭遇瓶颈》的文章后也招致了不满。Altman 在推特上回应称:“给我一个平庸深度学习怀疑论者的自信吧。”
与此同时,敲响警钟也让 Marcus 成为了一个个人品牌,并获得了与 Altman 并肩坐在美国参议院人工智能监督委员会面前作证的邀请。
而这正是所有这些争论比普通网络恶意更重要的原因。当然,这里涉及到巨大的自我和巨额的资金。但更重要的是,当行业领袖和有观点的科学家被国家元首和立法者召集,来解释这项技术是什么以及它能做什么(以及我们应该有多害怕)时,这些争议就显得尤为重要。当这项技术被嵌入到我们日常使用的软件中,从搜索引擎到文字处理应用程序,再到手机上的助手,人工智能不会消失。但如果我们不知道自己购买的是什么,谁又是那个受骗者呢?
Stephen Cave 和 Kanta Dihal 在 2023 年出版的论文集《构想 AI》中写道:“很难想象历史上还有其他技术能引起这样的辩论——一场关于它是否无处不在,或者根本不存在的辩论。对人工智能能有这样的辩论,证明了它的神话特质。”
最重要的是,人工智能是一种观念、一种理想,它受到世界观和科幻元素的塑造,就如同数学和计算机科学的塑造一样。当我们谈论人工智能时,弄清楚我们在谈论什么将澄清许多事情。我们可能在这些事情上无法达成一致,但就人工智能的本质达成共识将是讨论人工智能应该成为什么样子,至少是一个良好的开端。
那么,大家到底在争什么呢?
2022 年末,就在 OpenAI 发布 ChatGPT 之后不久,一个新的梗开始在网上流传,这个梗比任何其他方式都更能捕捉到这项技术的奇异之处。在多数版本中,一个名为“修格斯”的洛夫克拉夫特式怪物——全身触须和眼球——举起一个平淡无奇的笑脸表情符号,仿佛要掩饰其真实的本质。ChatGPT 在对话中的措辞表现出类似人类的亲和力,但在那友好的表面之下隐藏着难以理解的复杂性乃至恐怖之处。(正如 H.P. 洛夫克拉夫特在他的 1936 年中篇小说《疯狂山脉》中所写:“那是一个可怕得无法形容的东西,比任何地铁列车都要庞大——一团无定形的原生质泡状聚合物。”)
来源:ANTHRUPAD
这些争论核心在于,人工智能不仅是一个技术问题,它触及了我们对自身认知、创造力、道德责任,乃至我们对未来的希望和恐惧的根本理解。一方看到的是人工智能带来的无限潜能,是人类智慧的延伸,是解决复杂问题、提高生活质量的工具;另一方则担忧它可能带来的失业、隐私侵犯、社会不公,甚至是人类自主性和生存的威胁。ChatGPT 的出现,如同那个举起笑脸表情的修格斯,象征着人工智能技术在提供友好交互界面的同时,也隐藏着深刻的社会、伦理和哲学挑战。这场辩论,实质上是关于我们如何界定智能、何为人性,以及我们愿意让技术在我们的生活中扮演何种角色的深刻反思。
多年来,流行文化中人工智能最著名的参照物之一是《终结者》,Dihal 提到。但 OpenAI 通过免费上线 ChatGPT,让数百万人亲身经历了一种截然不同的东西。“人工智能一直是一个非常模糊的概念,可以无限扩展以包含各种想法,”她说。但 ChatGPT 让这些想法变得具体起来:“突然间,每个人都有了一个具体的参照物。”对于数百万人来说,人工智能的答案现在变成了:ChatGPT。
人工智能产业正大力推销这个微笑的面孔。想想《每日秀》最近如何通过行业领袖的言论来讽刺这种炒作。硅谷风投大佬 Marc Andreessen 说:“这有可能让生活变得更好……我觉得这简直就是个轻松得分的机会。”Altman 说:“我不想在这里听起来像个乌托邦式的技术狂人,但人工智能能带来的生活质量提升是非凡的。”Pichai 说:“人工智能是人类正在研究的最深远的技术。比火还要深远。”
Jon Stewart 讽刺道:“是啊,火,你吃瘪吧!”
但正如这个梗所示,ChatGPT 是一个友好的面具。在其背后,是一个名为 GPT-4 的怪物,这是一个基于庞大神经网络的大型语言模型,其摄入的文字量超过我们大多数人千辈子阅读的总量。在持续数月、耗资数千万美元的训练过程中,这类模型被赋予了填充来自数百万本书籍和互联网相当大部分内容中句子空白的任务。它们一遍又一遍地执行这个任务。从某种意义上说,它们被训练成超级自动补全机器。结果是生成了一个模型,它将世界上大部分书面信息转换成了一个统计表示,即哪些词最有可能跟随其他词出现,这一过程跨越了数十亿计的数值。
这确实是数学——大量的数学。没有人对此有异议。但问题在于,这只是数学吗,还是这种复杂的数学编码了能够类似人类推理或概念形成的算法?
许多对这个问题持肯定态度的人相信,我们即将解锁所谓的通用人工智能(AGI),这是一种假设中的未来技术,能在多种任务上达到人类水平。他们中的一些人甚至将目标瞄准了所谓的超级智能,即科幻小说中那种能远超人类表现的技术。这一群体认为 AGI 将极大地改变世界——但目的是什么?这是另一个紧张点。它可能解决世界上所有问题,也可能带来世界的末日。
来源:X
如今,AGI 出现在全球顶级 AI 实验室的使命宣言中。但这个词是在 2007 年作为一个小众尝试而创造出来的,旨在为当时以读取银行存款单上的手写内容或推荐下一本购书为主的领域注入一些活力。其初衷是重拾最初设想的人工智能,即能做类人事务的人工智能(更多内容即将揭晓)。
Google DeepMind 联合创始人 Shane Legg,也就是创造了这个术语的人,在去年告诉我,这其实更多是一种愿望:“我没有特别清晰的定义。”
AGI 成为了人工智能领域最具争议的想法。一些人将其炒作为下一个重大事件:AGI 就是人工智能,但你知道的,要好得多。其他人则声称这个术语太过模糊,以至于毫无意义。
“AGI 曾经是个忌讳的词,”OpenAI 前首席科学家 Ilya Sutskever 在辞职前告诉过我。
但大型语言模型,特别是 ChatGPT,改变了一切。AGI 从忌讳之词变成了营销梦想。
这就引出了我认为目前最具说明性的争议之一——这场争议设定了辩论双方以及其中的利害关系。
在机器中看见魔法
在 OpenAI 的大型语言模型 GPT-4 于 2023 年 3 月公开发布前几个月,公司与微软分享了一个预发布版本,微软希望利用这个新模型来改造其搜索引擎 Bing。
那时,Sebastian Bubeck 正在研究 LLMs(大型语言模型)的局限性,并对它们的能力持一定程度的怀疑态度。尤其是身为华盛顿州雷德蒙德微软研究院生成 AI 研究副总裁的 Bubeck,一直在尝试并未能成功让这项技术解决中学数学问题。比如:x - y = 0;x 和 y 各是多少?“我认为推理是一个瓶颈,一个障碍,”他说,“我原以为你必须做一些根本性不同的事情才能克服这个障碍。”
然后他接触到了 GPT-4。他做的第一件事就是尝试那些数学问题。“这个模型完美解决了问题,”他说,“坐在 2024 年的现在,当然 GPT-4 能解线性方程。但在当时,这太疯狂了。GPT-3 做不到这一点。”
但 Bubeck 真正的顿悟时刻来自于他推动 GPT-4 去做一些全新的事情。
关于中学数学问题,它们遍布互联网,GPT-4 可能只是记住了它们。“你如何研究一个可能已经看过人类所写一切的模型?”Bubeck 问道。他的答案是测试 GPT-4 解决一系列他和他的同事们认为是新颖的问题。
在与微软研究院的数学家 Ronen Eldan 一起尝试时,Bubeck 要求 GPT-4 以诗歌的形式给出证明存在无限多质数的数学证明。
以下是 GPT-4 回应的一段:“如果我们取 S 中未在 P 中的最小数/并称之为 p,我们可以将它加入我们的集合,你看不见吗?/但是这个过程可以无限重复。/因此,我们的集合 P 也必定是无限的,你会同意。”
很有趣,对吧?但 Bubeck 和 Eldan 认为这远远不止于此。“我们在那个办公室,”Bubeck 通过 Zoom 指着身后的房间说,“我们两个都从椅子上摔了下来。我们无法相信自己所看到的。这太有创意了,如此与众不同。”
微软团队还让 GPT-4 生成代码,在用 Latex(一种文字处理程序)绘制的独角兽卡通图片上添加一只角。Bubeck 认为这表明模型能够阅读现有的 Latex 代码,理解其描绘的内容,并识别角应该加在哪里。
“有很多例子,但其中一些是推理能力的铁证,”他说——推理能力是人类智能的关键构建块。
来源:Bubeck
Bubeck、Eldan 及微软的其他研究团队成员在一篇名为《人工通用智能的火花》的论文中阐述了他们的发现,文中提到:“我们相信,GPT-4 所展示的智能标志着计算机科学领域及之外的一次真正范式转变。”Bubeck 在网上分享该论文时,在推特上写道:“是时候面对现实了,#AGI 的火花已被点燃。”
这篇《火花》论文迅速变得臭名昭著,同时也成为 AI 支持者的试金石。Agüera y Arcas 与 Google 前研究总监、《人工智能:现代方法》一书的合著者 Peter Norvig 共同撰写了一篇文章,题为《人工通用智能已经到来》。该文章发表在洛杉矶智库 Berggruen 研究所支持的杂志 Noema 上,其中援引《火花》论文作为出发点,指出:“人工通用智能(AGI)对不同的人来说意味着许多不同的事物,但它的最重要部分已经被当前一代的先进大型语言模型实现。几十年后,它们会被公认为第一批真正的 AGI 实例。”
此后,围绕这一议题的炒作持续膨胀。当时在 OpenAI 专注于超级智能研究的 Leopold Aschenbrenner 去年告诉我:“过去几年里,AI 的发展速度异常迅速。我们不断打破各种基准测试记录,而且这种进步势头不减。但这只是个开始,我们将拥有超越人类的模型,比我们更聪明得多的模型。”(他声称因提出构建技术的安全性问题并“触怒了一些人”,于今年 4 月被 OpenAI 解雇,并随后在硅谷成立了投资基金。)
今年 6 月,Aschenbrenner 发布了一份长达 165 页的宣言,称 AI 将在“2025/2026 年”超过大学毕业生,并在本十年末实现真正意义上的超智能。然而,业内其他人对此嗤之以鼻。当 Aschenbrenner 在推特上发布图表,展示他预计 AI 在未来几年内如何继续保持近年来的快速进步速度时,科技投资者 Christian Keil 反驳道,按照同样的逻辑,他刚出生的儿子如果体重翻倍的速度保持不变,到 10 岁时将重达 7.5 万亿吨。
因此,“AGI 的火花”也成为了过度炒作的代名词,不足为奇。“我认为他们有点得意忘形了,”Marcus 在谈到微软团队时说,“他们像发现新大陆一样兴奋,‘嘿,我们发现了东西!这太神奇了!’但他们没有让科学界进行验证。”Bender 则将《火花》论文比喻为一部“粉丝小说”。
宣称 GPT-4 的行为显示出 AGI 迹象不仅具有挑衅性,而且作为在其产品中使用 GPT-4 的微软,显然有动机夸大这项技术的能力。“这份文件是伪装成研究的营销噱头,”一位科技公司的首席运营官在领英上如此评论。
一些人还批评该论文的方法论存在缺陷。其证据难以验证,因为这些证据源自与未向 OpenAI 和微软以外公开的 GPT-4 版本的互动。Bubeck 承认,公众版 GPT-4 设有限制模型能力的护栏,这使得其他研究人员无法重现他的实验。
一个团队尝试使用一种名为 Processing 的编程语言重新创建独角兽示例,GPT-4 同样能用此语言生成图像。他们发现,公众版 GPT-4 虽能生成一个过得去的独角兽图像,却不能将该图像旋转 90 度。这看似微小的区别,但在声称绘制独角兽的能力是 AGI 标志时,就显得至关重要。
《火花》论文中的关键点,包括独角兽的例子,是 Bubeck 及其同事认为这些都是创造性推理的真实案例。这意味着团队必须确保这些任务或非常类似的任务未包含在 OpenAI 用于训练其模型的庞大数据集中。否则,结果可能被解释为 GPT-4 重复其已见过的模式,而非创新性的表现。
来源:JUN IONEDA
Bubeck 坚持表示,他们只给模型设置那些在网上找不到的任务。用 Latex 绘制卡通独角兽无疑就是这样的一个任务。但互联网浩瀚无边,很快就有其他研究者指出,实际上确实存在专门讨论如何用 Latex 绘制动物的在线论坛。“仅供参考,我们当时知道这件事,”Bubeck 在 X 平台上回复道,“《火花》论文中的每一个查询都在互联网上进行了彻底的搜索。”
(但这并未阻止外界的指责:“我要求你停止做江湖骗子,”加州大学伯克利分校的计算机科学家 Ben Recht 在推特上回击,并指控 Bubeck“被当场抓包撒谎”。)
Bubeck 坚称这项工作是出于好意进行的,但他和他的合著者在论文中承认,他们的方法并不严格,只是基于笔记本观察而非无懈可击的实验。
即便如此,他并不后悔:“论文已经发表一年多,我还没有看到有人给我一个令人信服的论证,比如说,为何独角兽不是一个真实推理的例子。”
这并不是说他对这个重大问题能给出直接答案——尽管他的回答揭示了他希望给出的那种答案类型。“什么是 AI?”Bubeck 反问我,“我想跟你说明白,问题可以简单,但答案可能很复杂。”
“有很多简单的问题,我们至今仍不知道答案。而其中一些简单的问题,却是最深刻的,”他接着说,“我把这个问题放在同等重要的地位上,就像,生命起源于何?宇宙的起源是什么?我们从何而来?这类大大的问题。”
在机器中只见数学
Bender 成为 AI 推动者的首席对手之前,她曾作为两篇有影响力的论文的合著者在 AI 领域留下了自己的印记。(她喜欢指出,这两篇论文都经过了同行评审,与《火花》论文及许多备受关注的其他论文不同。)第一篇论文是与德国萨尔兰大学的计算语言学家 Alexander Koller 共同撰写,于 2020 年发表,名为“迈向自然语言理解(NLU)”。
“这一切对我来说开始于与计算语言学界的其他人争论,语言模型是否真正理解任何东西,”她说。(理解,如同推理一样,通常被认为是人类智能的基本组成部分。)
Bender 和 Koller 认为,仅在文本上训练的模型只会学习语言的形式,而不是其意义。他们认为,意义由两部分组成:词汇(可能是符号或声音)加上使用这些词汇的原因。人们出于多种原因使用语言,比如分享信息、讲笑话、调情、警告他人退后等。剥离了这一语境后,用于训练如 GPT-4 这样的大型语言模型(LLMs)的文本足以让它们模仿语言的模式,使得许多由 LLM 生成的句子看起来与人类写的句子一模一样。然而,它们背后没有真正的意义,没有灵光一闪。这是一种显著的统计学技巧,但却完全无意识。
他们通过一个思维实验来阐述自己的观点。想象两个说英语的人被困在相邻的荒岛上,有一条水下电缆让他们能够互相发送文字信息。现在设想一只对英语一无所知但擅长统计模式匹配的章鱼缠绕上了电缆,开始监听这些信息。章鱼变得非常擅长猜测哪些词会跟随其他词出现。它变得如此之好,以至于当它打断电缆并开始回应其中一个岛民的信息时,她相信自己仍在与邻居聊天。(如果你没注意到,这个故事中的章鱼就是一个聊天机器人。)
与章鱼交谈的人会在一段时间内被骗,但这能持续吗?章鱼能理解通过电缆传来的内容吗?
来源:JUN IONEDA
想象一下,现在岛民说她建造了一个椰子弹射器,并请章鱼也建造一个并告诉她它的想法。章鱼无法做到这一点。由于不了解消息中的词汇在现实世界中的指代,它无法遵循岛民的指示。也许它会猜测回复:“好的,酷主意!”岛民可能会认为这意味着与她对话的人理解了她的信息。但如果真是这样,她就是在没有意义的地方看到了意义。最后,想象岛民遭到熊的袭击,通过电缆发出求救信号。章鱼该如何处理这些词语呢?
Bender 和 Koller 认为,这就是大型语言模型如何学习以及为什么它们受限的原因。“这个思维实验表明,这条路不会引领我们走向一台能理解任何事物的机器,”Bender 说。“与章鱼的交易在于,我们给它提供了训练数据,即那两个人之间的对话,仅此而已。但是,当出现了出乎意料的情况时,它就无法应对,因为它没有理解。”
Bender 另一篇知名的论文《随机鹦鹉的危险》强调了一系列她和她的合著者认为制作大型语言模型的公司正在忽视的危害。这些危害包括制造模型的巨大计算成本及其对环境的影响;模型固化的种族主义、性别歧视和其他辱骂性语言;以及构建一个系统所带来的危险,该系统可能通过“随意拼接语言形式的序列……根据它们如何结合的概率信息,而不参考任何意义:一个随机鹦鹉”,从而欺骗人们。
谷歌高级管理层对该论文不满,由此引发的冲突导致 Bender 的两位合著者 Timnit Gebru 和 Margaret Mitchell 被迫离开公司,她们在那里领导着 AI 伦理团队。这也使得“随机鹦鹉”成为了大型语言模型的一个流行贬义词,并将 Bender 直接卷入了这场互骂的漩涡中。
对于 Bender 和许多志同道合的研究人员来说,底线是该领域已被烟雾和镜子所迷惑:“我认为他们被引导去想象能够自主思考的实体,这些实体可以为自己做出决定,并最终成为那种能够对其决定负责的东西。”
作为始终如一的语言学家,Bender 现在甚至不愿在不加引号的情况下使用“人工智能”这个词。“我认为它是一种让人产生幻想的概念,让人想象出能够自我决策并最终为这些决策承担责任的自主思考实体,”她告诉我。归根结底,对她而言,这是大型科技公司的一个流行语,分散了人们对诸多相关危害的注意力。“我现在置身事中,”她说。“我关心这些问题,而过度炒作正在妨碍进展。”
非凡的证据?
Agüera y Arcas 将像 Bender 这样的人称为“AI 否定者”,暗示他们永远不会接受他视为理所当然的观点。Bender 的立场是,非凡的主张需要非凡的证据,而我们目前还没有这样的证据。
但有人正在寻找这些证据,在他们找到明确无疑的证据——无论是思维的火花、随机鹦鹉还是介于两者之间的东西——之前,他们宁愿置身事外。这可以被称为观望阵营。
正如在布朗大学研究神经网络的 Ellie Pavlick 对我所说:“向某些人暗示人类智能可以通过这类机制重现,对他们来说是冒犯。”
她补充道,“人们对这个问题有着根深蒂固的信念——这几乎感觉像是宗教信仰。另一方面,有些人则有点上帝情结。因此,对他们来说,暗示他们就是做不到也是无礼的。”
Pavlick 最终持不可知论态度。她坚持自己是一名科学家,会遵循科学的任何导向。她对那些夸张的主张翻白眼,但她相信有一些令人兴奋的事情正在发生。“这就是我和 Bender 及 Koller 意见不同的地方,”她告诉我,“我认为实际上有一些火花——也许不是 AGI 级别的,但就像,里面有些东西是我们未曾预料到会发现的。”
问题在于,要找到对这些令人兴奋的事物及其为何令人兴奋的共识。在如此多的炒作之下,很容易变得愤世嫉俗。
当你听取像 Bubeck 这样的研究人员的意见时,你会发现他们似乎更为冷静。他认为内部争执忽视了他工作的细微差别。“同时持有不同的观点对我来说没有任何问题,”他说,“存在随机鹦鹉现象,也存在推理——这是一个范围,非常复杂。我们并没有所有的答案。”
“我们需要一套全新的词汇来描述正在发生的事情,”他说,“当我谈论大型语言模型中的推理时,人们会反驳,原因之一是它与人类的推理方式不同。但我认为我们无法不称之为推理,它确实是一种推理。”
尽管他的公司 Anthropic 是目前全球最炙手可热的 AI 实验室之一,且今年早些时候发布的 Claude 3——与 GPT-4 一样(甚至更多)获得了大量夸张赞誉的大型语言模型,但 Olah 在被问及如何看待 LLMs 时仍表现得相当谨慎。
“我觉得关于这些模型能力的很多讨论都非常部落化,”他说,“人们有先入为主的观念,而且任何一方的论证都没有充分的证据支撑。然后这就变成了基于氛围的讨论,我认为互联网上的这种基于氛围的争论往往会走向糟糕的方向。”
Olah 告诉我他有自己的直觉。“我的主观印象是,这些东西在追踪相当复杂的思想,”他说,“我们没有一个全面的故事来解释非常大的模型是如何工作的,但我认为我们所看到的很难与极端的‘随机鹦鹉’形象相调和。”
这就是他的极限:“我不想超越我们现有证据所能强烈推断出的内容。”
上个月,Anthropic 发布了一项研究的结果,研究人员给 Claude 3 做了相当于神经网络的 MRI。通过监测模型运行时哪些部分开启和关闭,他们识别出了在模型展示特定输入时激活的特定神经元模式。
例如,当模型接收到金门大桥的图像或与之相关的词汇时,似乎就会出现一种特定的模式。研究人员发现,如果他们增强模型中这一部分的作用,Claude 就会完全沉迷于这座著名的建筑。无论你问它什么问题,它的回答都会涉及这座桥——甚至在被要求描述自己时,它也会将自己与桥联系起来。有时它会注意到提及桥梁是不恰当的,但又忍不住会这样做。
来源:Claude
Anthropic 还报告了与尝试描述或展示抽象概念的输入相关的模式。“我们看到了与欺骗和诚实、谄媚、安全漏洞、偏见相关的特征,”Olah 说,“我们发现了与寻求权力、操纵和背叛相关的特征。”
这些结果让我们迄今为止最清晰地看到了大型语言模型的内部情况。这是对看似难以捉摸的人类特质的一种诱人一瞥。但它真正告诉我们什么呢?正如 Olah 所承认的,他们不知道模型如何处理这些模式。“这是一个相对有限的画面,分析起来相当困难,”他说。
即使 Olah 不愿意具体说明他认为像 Claude 3 这样的大型语言模型内部究竟发生了什么,显而易见的是,这个问题对他来说为什么重要。Anthropic 以其在 AI 安全方面的工作而闻名——确保未来强大的模型会按照我们希望的方式行动,而不是以我们不希望的方式(在行业术语中称为“对齐”)。弄清楚当今模型的工作原理,不仅是如果你想控制未来模型所必需的第一步;它也告诉你,首先你需要对末日情景担心多少。“如果你认为模型不会有很强的能力,”Olah 说,“那么它们可能也不会很危险。”
为何我们难以达成一致
在 2014 年 BBC 对她职业生涯回顾的一次采访中,现年 87 岁的有影响力的认知科学家 Margaret Boden 被问及她是否认为有任何限制会阻止计算机(或者她所谓的“锡罐子”)去做人类能做的事情。
“我当然不认为原则上存在这样的限制,”她说,“因为否认这一点就意味着人类的思维是靠魔法发生的,而我不相信它是靠魔法发生的。”
但她警告说,强大的计算机本身并不足以使我们达到这一目标:AI 领域还需要“有力的想法”——关于思维如何发生的全新理论,以及可能复制这一过程的新算法。“但这些东西非常、非常困难,我没有理由假设有一天我们能够回答所有这些问题。或许我们能;或许我们不能。”
博登回顾了当前繁荣期的早期阶段,但这种我们能否成功的摇摆不定反映了数十年来她和她的同僚们努力解决的难题,这些难题正是今天研究人员也在努力克服的。AI 作为一个雄心勃勃的目标始于大约 70 年前,而我们至今仍在争论哪些是可实现的,哪些不是,以及我们如何知道自己是否已经实现了目标。大部分——如果不是全部的话——这些争议归结为一点:我们尚未很好地理解什么是智能,或者如何识别它。这个领域充满了直觉,但没有人能确切地说出答案。
自从人们开始认真对待 AI 这一理念以来,我们就一直卡在这个问题上。甚至在此之前,当我们消费的故事开始在集体想象中深深植入类人机器的概念时,也是如此。这些争论的悠久历史意味着,今天的争论往往强化了自一开始就存在的分歧,使得人们更加难以找到共同点。
为了理解我们是如何走到这一步的,我们需要了解我们曾经走过的路。因此,让我们深入探究AI的起源故事——这也是一个为了资金而大肆宣传的故事。
人工智能宣传简史
计算机科学家 John McCarthy(约翰·麦卡锡) 在 1955 年为新罕布什尔州达特茅斯学院 (Dartmouth College)的一个暑期研究项目撰写资助申请时,被认为提出了“人工智能”这一术语。
从左到右:Oliver Selfridge, Nathaniel Rochester, Ray Solomonoff, Marvin Minsky, Peter Milner, John McCarthy, and Claude Shannon 坐在 1956 年达特茅斯会议的草坪上| 来源:COURTESY OF THE MINSKY FAMILY
计划是让 McCarthy 和他的几个研究员同伴——战后美国数学家和计算机科学家的精英群体,或如剑桥大学研究 AI 历史以及谷歌 DeepMind 伦理与政策的研究员 Harry Law 所称的“John McCarthy 和他的小伙伴们”——聚在一起两个月(没错,是两个月),在这个他们为自己设定的新研究挑战上取得重大进展。
McCarthy 和他的合著者写道:“该研究基于这样一个假设进行:学习的每一个方面或智力的任何其他特征原则都可以被如此精确地描述,以至于可以制造一台机器来模拟它。我们将尝试找出如何让机器使用语言、形成抽象概念、解决目前仅限于人类的问题,并自我改进。”
他们想让机器做到的这些事情——Bender 称之为“充满憧憬的梦想”——并没有太大改变。使用语言、形成概念和解决问题仍然是当今 AI 的定义性目标。傲慢也并未减少多少:“我们认为,如果精心挑选的一组科学家一起工作一个夏天,就能在这些问题中的一个或多个方面取得显著进展。”他们写道。当然,那个夏天已经延长到了七十年。至于这些问题实际上现在解决了多少,仍然是人们在网络上争论的话题。
然而,这段经典历史中常被忽略的是,人工智能差点就没有被称为“人工智能”。
不止一位 McCarthy 的同事讨厌他提出的这个术语。据历史学家 Pamela McCorduck (帕梅拉·麦考达克)2004 年的书《思考的机器》引用,达特茅斯会议参与者及首台跳棋电脑创造者 Arthur Samuel(亚瑟·塞缪尔) 说:“'人工'这个词让你觉得这里面有些虚假的东西。”数学家 Claude Shannon(克劳德·香农),达特茅斯提案的合著者,有时被誉为“信息时代之父”,更喜欢“自动机研究”这个术语。Herbert Simon(赫伯特·西蒙)和 Allen Newell(艾伦·纽厄尔),另外两位 AI 先驱,在之后的多年里仍称自己的工作为“复杂信息处理”。
事实上,“人工智能”只是可能概括达特茅斯小组汲取的杂乱思想的几个标签之一。历史学家 Jonnie Penn 当时已确认了一些可能的替代选项,包括“工程心理学”、“应用认识论”、“神经控制论”、“非数值计算”、“神经动力学”、“高级自动编程”和“假设性自动机”。这一系列名称揭示了他们新领域灵感来源的多样性,涵盖了生物学、神经科学、统计学等多个领域。另一位达特茅斯会议参与者 Marvin Minsky 曾将 AI 描述为一个“手提箱词”,因为它能承载许多不同的解释。
但 McCarthy 想要一个能捕捉到他愿景雄心壮志的名称。将这个新领域称为“人工智能”吸引了人们的注意——以及资金。别忘了:AI 既性感又酷。
除了术语,达特茅斯提案还确定了人工智能相互竞争的方法之间的分裂,这种分裂自此以后一直困扰着该领域——Law 称之为“AI 的核心紧张关系”。
来源:MIT TR
McCarthy 和他的同事们想用计算机代码描述“学习的每一个方面或其他任何智力特征”,以便机器模仿。换句话说,如果他们能弄清楚思维是如何工作的——推理的规则——并写下来,他们就可以编程让计算机遵循。这奠定了后来被称为基于规则或符号 AI(现在有时被称为 GOFAI,即“好老式的人工智能”)的基础。但提出硬编码规则来捕获实际、非琐碎问题的解决过程证明太难了。
另一条路径则偏爱神经网络,即试图以统计模式自行学习这些规则的计算机程序。达特茅斯提案几乎是以附带的方式提到它(分别提到“神经网络”和“神经网”)。尽管这个想法起初似乎不太有希望,但一些研究人员还是继续在符号 AI 的同时开发神经网络的版本。但它们真正起飞要等到几十年后——加上大量的计算能力和互联网上的大量数据。快进到今天,这种方法支撑了整个 AI 的繁荣。
这里的主要收获是,就像今天的研究人员一样,AI 的创新者们在基础概念上争执不休,并陷入了自我宣传的漩涡。就连 GOFAI 团队也饱受争吵之苦。年近九旬的哲学家及 AI 先驱 Aaron Sloman 回忆起他在 70 年代认识的“老朋友”明斯基和麦卡锡时,两人“强烈意见不合”:“Minsky 认为 McCarthy 关于逻辑的主张行不通,而 McCarthy 认为 Minsky 的机制无法做到逻辑所能做的。我和他们都相处得很好,但我当时在说,‘你们俩都没搞对。’”(斯洛曼仍然认为,没有人能解释人类推理中直觉与逻辑的运用,但这又是另一个话题!)
随着技术命运的起伏,“AI”一词也随之时兴和过时。在 70 年代初,英国政府发布了一份报告,认为 AI 梦想毫无进展,不值得资助,导致这两条研究路径实际上都被搁置了。所有那些炒作,实质上都未带来任何成果。研究项目被关闭,计算机科学家从他们的资助申请中抹去了“人工智能”一词。
当我在 2008 年完成计算机科学博士学位时,系里只有一个人在研究神经网络。Bender 也有类似的记忆:“在我上大学时,一个流传的笑话是,AI 是我们还没有弄清楚如何用计算机做的任何事。就像是,一旦你弄明白怎么做了,它就不再神奇,所以它就不再是 AI 了。”
但那种魔法——达特茅斯提案中概述的宏伟愿景——仍然生机勃勃,正如我们现在所见,它为 AGI(通用人工智能)梦想奠定了基础。
好行为与坏行为
1950 年,也就是 McCarthy 开始谈论人工智能的五年前,Alan Turing(艾伦·图灵) 发表了一篇论文,提出了一个问题:机器能思考吗?为了探讨这个问题,这位著名的数学家提出了一个假设测试,即后来闻名的图灵测试。测试设想了一个场景,其中一个人类和一台计算机位于屏幕后,而第二个人类通过打字向他们双方提问。如果提问者无法分辨哪些回答来自人类,哪些来自计算机,Turing 认为,可以说计算机也可以算是思考的。
与 McCarthy 团队不同,Turing 意识到思考是一个很难描述的事情。图灵测试是一种绕开这个问题的方法。“他基本上是在说:与其关注智能的本质,不如寻找它在世界中的表现形式。我要寻找它的影子,”Law 说。
1952 年,英国广播公司电台组织了一个专家小组进一步探讨 Turing 的观点。图灵在演播室里与他的两位曼彻斯特大学同事——数学教授 Maxwell Newman (麦克斯韦尔·纽曼)和神经外科教授 Geoffrey Jefferson(杰弗里·杰斐逊),以及剑桥大学的科学、伦理与宗教哲学家 Richard Braithwaite(理查德·布雷斯韦特)一同出席。
Braithwaite 开场说道:“思考通常被认为是人类,也许还包括其他高等动物的专长,这个问题可能看起来太荒谬了,不值得讨论。但当然,这完全取决于‘思考’中包含了什么。”
小组成员围绕 Turing 的问题展开讨论,但始终未能给出确切的定义。
当他们试图定义思考包含什么,其机制是什么时,标准一直在变动。“一旦我们能在大脑中看到因果关系的运作,我们就会认为那不是思考,而是一种缺乏想象力的苦力工作,”图灵说道。
问题在于:当一位小组成员提出某种可能被视为思考证据的行为——比如对新想法表示愤怒——另一位成员就会指出,计算机也可以被编程来做到这一点。
来源:MIT TR
正如 Newman 所说,编程让计算机打印出“我不喜欢这个新程序”是轻而易举的。但他承认,这不过是个把戏。
Jefferson 对此表示赞同:他想要的是一台因为不喜欢新程序而打印出“我不喜欢这个新程序”的计算机。换言之,对于 Jefferson 来说,行为本身是不够的,引发行为的过程才是关键。