目录

前言

什么是智能?

学习

推理

问题解决

知觉

语言

人工智能的方法和目标

符号主义与联结主义方法

通用人工智能 (AGI)、应用人工智能和认知模拟

艾伦·图灵(Alan Turing)和人工智能的开端

理论工作

图灵测试

人工智能的早期里程碑

第一个人工智能程序

进化计算

逻辑推理和解决问题的能力

英语对话

人工智能编程语言

微观世界程序

专家系统

知识和推理

石鲈

霉素

CYC项目

联结主义

创建人工神经网络

感知器

共轭动词

其他神经网络

新 AI

新基础

定位方法

21世纪的人工智能

机器学习

自动驾驶汽车

大型语言模型和自然语言处理

虚拟助手


前言

人工智能 (AI),数字计算机或计算机控制的机器人执行通常与智能生物相关的任务的能力。该术语经常用于开发具有人类智力过程特征的系统的项目,例如推理、发现意义、概括或从过去的经验中学习的能力。自 1940 年代数字计算机发展以来,已经证明可以对计算机进行编程以非常熟练地执行非常复杂的任务,例如发现数学定理的证明或下棋。尽管如此,尽管计算机处理速度和内存容量不断进步,但目前还没有程序可以在更广泛的领域或需要大量日常知识的任务中与人类的灵活性相匹配。另一方面,一些程序在执行某些特定任务时已经达到了人类专家和专业人员的性能水平,因此这种有限意义上的人工智能可以在医疗诊断、计算机搜索引擎、语音或手写识别以及聊天机器人等各种应用中发现。

什么是智能?

除了最简单的人类行为外,所有的行为都归因于智力,而即使是最复杂的昆虫行为通常也不被视为智力的标志。有什么区别?考虑挖掘机黄蜂Sphex ichneumoneus的行为。当雌性黄蜂带着食物回到她的洞穴时,她首先把它放在门槛上,检查洞穴内是否有入侵者,然后,如果海岸是晴朗的,她才会把食物带进去。如果黄蜂在里面时将食物从她的洞穴入口移开几英寸远,那么黄蜂本能行为的真正本质就会显露出来:一旦出现,她会重复整个过程,就像食物被移位一样。智力——在斯菲克斯的案例中明显缺乏——必须包括适应新环境的能力。

心理学家通常不仅通过一种特征来描述人类智力,而且通过许多不同能力的组合来描述人类智力。人工智能的研究主要集中在智能的以下组成部分:学习、推理、解决问题、感知和使用语言。

学习

有许多不同的学习形式应用于人工智能。最简单的方法是通过反复试验来学习。例如,一个用于解决合一国际象棋问题的简单计算机程序可能会随机尝试移动,直到找到配对。然后,程序可能会将解决方案与位置一起存储,以便下次计算机遇到相同的位置时,它会调用该解决方案。这种对单个项目和程序的简单记忆(称为死记硬背)在计算机上相对容易实现。更具挑战性的是实现所谓的泛化的问题。泛化涉及将过去的经验应用于类似的新情况。例如,一个通过死记硬背来学习常规英语动词的过去时态的程序将无法产生一个单词的过去时态,例如jump,除非它以前已经出现了jumped,而一个能够概括的程序可以学习“add ed”规则,从而根据类似动词的经验形成jump的过去时态。

推理

理性就是根据情况得出适当的推论。推论分为演绎推论或归纳推论。前者的一个例子是,“弗雷德必须在博物馆或咖啡馆里。他不在咖啡馆里;因此他在博物馆里“,而后者则说,”以前的此类事故是由仪器故障引起的;因此,这次事故是由仪器故障引起的。这些推理形式之间最显着的区别在于,在演绎的情况下,前提的真实性保证了结论的真实性,而在归纳性的情况下,前提的真实性为结论提供了支持,而没有给出绝对的保证。归纳推理在科学中很常见,在科学中,收集数据并开发试探性模型来描述和预测未来的行为,直到异常数据的出现迫使模型被修改。演绎推理在数学和逻辑学中很常见,其中无可辩驳的定理的复杂结构是由一小群基本公理和规则建立起来的。

在对计算机进行编程以得出推论方面已经取得了相当大的成功。然而,真正的推理不仅仅涉及推论:它涉及推论与特定任务或情况的解决方案相关的推论。这是人工智能面临的最棘手的问题之一。

问题解决

问题解决,特别是在人工智能中,可以被描述为通过一系列可能的行动进行系统搜索,以达到一些预定义的目标或解决方案。解决问题的方法分为特殊目的和一般目的。专用方法是为特定问题量身定制的,并且经常利用嵌入问题的情况的非常具体的特征。相比之下,通用方法适用于各种各样的问题。人工智能中使用的一种通用技术是手段-目的分析,即逐步或增量地减少当前状态和最终目标之间的差异。该程序从手段列表中选择动作(对于简单的机器人,这可能包括 PICKUP、PUTDOWN、MOVEFORWARD、MOVEBACK、MOVELEFT 和 MOVERIGHT),直到达到目标。

人工智能程序已经解决了许多不同的问题。一些例子是在棋盘游戏中找到获胜的一步(或一连串的动作),设计数学证明,以及在计算机生成的世界中操纵“虚拟对象”。

知觉

在感知中,通过各种感觉器官(真实的或人造的)对环境进行扫描,并将场景分解为各种空间关系中的独立对象。由于物体的观察角度、场景中照明的方向和强度以及物体与周围视野的对比程度,物体的外观可能会有所不同,因此分析变得复杂。

最早将感知和行动整合在一起的系统之一是FREDDY,这是一个固定的机器人,具有移动的电视眼和钳形手,于1966-73年期间在唐纳德·米奇(Donald Michie)的指导下在苏格兰爱丁堡大学建造。弗雷迪能够识别各种物体,并且可以被指示从随机堆的组件中组装简单的文物,例如玩具车。目前,人工感知已经足够先进,使光学传感器能够识别个人和自动驾驶汽车,以便在开阔的道路上以中等速度行驶。

语言

语言是按照惯例具有意义的符号系统。从这个意义上说,语言不必局限于口语。例如,交通标志形成了一种迷你语言,在一些国家,这是一个惯例问题,⚠意思是“前方危险”。语言的独特之处在于,语言单位按照惯例具有意义,而语言意义与所谓的自然意义有很大不同,例如“那些云意味着下雨”和“压力下降意味着阀门出现故障”等陈述。

与鸟叫声和交通标志相比,成熟的人类语言的一个重要特征是它们的生产力。一种富有成效的语言可以形成无限种类的句子。

像 ChatGPT 这样的大型语言模型可以用人类语言流利地回答问题和陈述。尽管这些模型实际上并不像人类那样理解语言,而只是选择比其他模型更有可能的单词,但它们已经达到了与正常人无法区分的语言的程度。那么,如果即使是一台使用像母语为母语的人一样的语言的计算机也不被承认理解,那么真正的理解涉及什么呢?对于这个难题,没有普遍商定的答案。

人工智能的方法和目标

符号主义与联结主义方法

人工智能研究遵循两种截然不同的方法,在某种程度上是相互竞争的,即符号(或“自上而下”)方法和连接主义(或“自下而上”)方法。自上而下的方法试图通过分析独立于大脑生物结构的认知来复制智能,即符号标签的处理。另一方面,自下而上的方法涉及模仿大脑结构创建人工神经网络,这就是联结主义的标签。

为了说明这些方法之间的区别,请考虑构建一个配备光学扫描仪的系统的任务,该系统可以识别字母表中的字母。自下而上的方法通常涉及通过逐个向人工神经网络呈现字母来训练人工神经网络,通过“调整”网络来逐步提高性能。(调整调整不同神经通路对不同刺激的反应性。相比之下,自上而下的方法通常涉及编写一个计算机程序,将每个字母与几何描述进行比较。简单地说,神经活动是自下而上方法的基础,而符号描述是自上而下方法的基础。

在《学习基础》(The Fundamentals of Learning,1932)一书中,纽约市哥伦比亚大学的心理学家爱德华·桑代克(Edward Thorndike)首次提出,人类的学习由大脑神经元之间连接的一些未知属性组成。 在《行为的组织》(1949)中,加拿大蒙特利尔麦吉尔大学的心理学家唐纳德·赫布(Donald Hebb)提出,学习具体涉及通过增加相关连接之间诱导神经元放电的概率(权重)来加强某些神经活动模式。加权连接的概念将在后面的“联结主义”一节中描述。

1957年,符号人工智能的两位积极倡导者——加利福尼亚州圣莫尼卡兰德公司的研究员艾伦·纽厄尔(Allen Newell)和宾夕法尼亚州匹兹堡卡内基梅隆大学的心理学家和计算机科学家赫伯特·西蒙(Herbert Simon)——总结了自上而下的方法,他们称之为物理符号系统假说。该假设指出,原则上,符号的处理结构足以在数字计算机中产生人工智能,而且,人类智能是相同类型的符号操作的结果。

在 1950 年代和 60 年代,自上而下和自下而上的方法同时进行,两者都取得了值得注意的成果,尽管有限。然而,在 1970 年代,自下而上的人工智能被忽视了,直到 1980 年代,这种方法才再次变得突出。如今,这两种方法都被遵循,并且都被认为面临困难。符号技术在简化的领域中起作用,但在面对现实世界时通常会崩溃;与此同时,自下而上的研究人员甚至无法复制最简单的生物的神经系统。秀丽隐杆线虫是一种经过大量研究的蠕虫,它有大约 300 个神经元,其相互连接的模式是完全已知的。然而,连接主义模型甚至无法模仿这种蠕虫。显然,联结主义理论的神经元是对真实事物的严重过度简化。

通用人工智能 (AGI)、应用人工智能和认知模拟

采用上述方法,人工智能研究试图实现三个目标之一:通用人工智能 (AGI)、应用人工智能或认知模拟。AGI(也称为强人工智能)旨在构建会思考的机器。AGI的最终目标是生产出一种整体智力与人类无法区分的机器。正如人工智能的早期里程碑部分所描述的那样,这一目标在1950年代和60年代引起了极大的兴趣,但这种乐观情绪已经让位于对所涉及的极端困难的理解。迄今为止,进展甚微。一些批评者怀疑,在可预见的未来,研究是否能产生一个具有蚂蚁整体智力能力的系统。事实上,在人工智能其他两个分支工作的一些研究人员认为AGI不值得追求。

应用人工智能,也称为高级信息处理,旨在产生商业上可行的“智能”系统,例如“专家”医疗诊断系统和股票交易系统。应用人工智能已经取得了相当大的成功,如专家系统部分所述。

在认知模拟中,计算机用于测试关于人类思维如何运作的理论,例如,关于人们如何识别人脸或回忆记忆的理论。认知模拟已经是神经科学和认知心理学的有力工具。

艾伦·图灵(Alan Turing)和人工智能的开端

理论工作

艾伦·图灵

艾伦·图灵,约1930年代。

人工智能领域最早的实质性工作是在20世纪中叶由英国逻辑学家和计算机先驱艾伦·马蒂森·图灵完成的。1935年,图灵描述了一种抽象的计算机,它由无限的内存和一个扫描仪组成,扫描仪在内存中来回移动,一个符号一个符号,读取它找到的东西并写入更多的符号。扫描仪的动作由指令程序决定,该指令程序也以符号的形式存储在存储器中。这是图灵的存储程序概念,其中隐含着机器在自己的程序上运行并因此修改或改进自己的程序的可能性。图灵的概念现在简称为通用图灵机。所有现代计算机本质上都是通用的图灵机。

二战期间,图灵是英国白金汉郡布莱切利公园政府代码和密码学校的首席密码分析师。直到 1945 年欧洲敌对行动停止之前,图灵才转向建造存储程序电子计算机的项目。尽管如此,在战争期间,他对机器智能问题进行了相当多的思考。图灵在布莱切利公园的一位同事唐纳德·米奇(Donald Michie,后来在爱丁堡大学创立了机器智能与感知系)后来回忆说,图灵经常讨论计算机如何从经验中学习,以及如何通过使用指导原则来解决新问题——这个过程现在被称为启发式问题解决。

图灵很可能是最早的公开演讲(伦敦,1947年)提到计算机智能,他说,“我们想要的是一台可以从经验中学习的机器”,并且“让机器改变自己的指令的可能性为此提供了机制。1948年,他在一份题为“智能机械”的报告中介绍了人工智能的许多核心概念。然而,图灵并没有发表这篇论文,他的许多想法后来被其他人重新发明。例如,图灵最初的想法之一是训练人工神经元网络来执行特定任务,这种方法在“连接主义”一节中描述。

在布莱切利公园,图灵通过引用国际象棋来说明他对机器智能的想法——国际象棋是具有挑战性和明确定义问题的有用来源,可以根据它来测试提出的解决问题的方法。原则上,下棋的计算机可以通过详尽地搜索所有可用的步数来下棋,但实际上这是不可能的,因为它需要检查天文数字的大量棋步。启发式方法对于指导更窄、更具辨别性的搜索是必要的。尽管图灵尝试设计国际象棋程序,但在没有计算机运行他的国际象棋程序的情况下,他不得不满足于理论。第一个真正的人工智能程序必须等待存储程序电子数字计算机的到来。

1945 年,图灵预言计算机有一天会下出非常好的国际象棋,而就在 50 多年后的 1997 年,由 IBM(国际商业机器公司)制造的国际象棋计算机“深蓝”在六场比赛中击败了卫冕世界冠军加里·卡斯帕罗夫。虽然图灵的预言成真了,但他对国际象棋编程将有助于理解人类思维方式的期望却没有实现。自图灵时代以来,计算机国际象棋的巨大进步归因于计算机工程的进步,而不是人工智能的进步:深蓝的 256 个并行处理器使其能够每秒检查 2 亿次可能的移动,并展望多达 14 回合的比赛。许多人同意麻省理工学院(MIT)的语言学家诺姆·乔姆斯基(Noam Chomsky)的观点,他认为计算机在国际象棋中击败特级大师就像推土机赢得奥运会举重比赛一样有趣。

图灵测试

1950年,图灵回避了关于智力定义的传统辩论,引入了一种计算机智能的实际测试,现在简称为图灵测试。图灵测试涉及三个参与者:一台计算机、一名人类审讯员和一名人类陪衬。审讯者试图通过向其他两个参与者提问来确定哪个是计算机。所有通信均通过键盘和显示屏进行。审讯者可以随心所欲地提出具有穿透力和范围广泛的问题,并允许计算机尽一切可能强制进行错误识别。(例如,计算机可能会在回答“你是计算机吗?”时回答“否”,并且可能会按照请求将一个大数字乘以另一个大数字,但长时间停顿和不正确的答案。箔纸必须帮助审讯人员做出正确的识别。许多不同的人扮演着审讯者和陪衬的角色,如果足够比例的审讯者无法将计算机与人类区分开来,那么(根据图灵测试的支持者)计算机被认为是一个智能的、有思想的实体。

1991年,美国慈善家休·勒布纳(Hugh Loebner)发起了一年一度的勒布纳奖竞赛,承诺向第一台通过图灵测试的计算机支付10万美元,并每年奖励2000美元。然而,没有一个人工智能程序接近通过未经稀释的图灵测试。2022 年底,大型语言模型 ChatGPT 的出现重新引发了关于图灵测试组件是否得到满足的讨论。Buzzfeed 数据科学家 Max Woolf 表示,ChatGPT 在 2022 年 12 月就通过了图灵测试,但一些专家声称 ChatGPT 没有通过真正的图灵测试,因为在正常使用中,ChatGPT 经常声明它是一种语言模型。

人工智能的早期里程碑

第一个人工智能程序

最早成功的人工智能程序是由克里斯托弗·斯特拉奇(Christopher Strachey)于1951年编写的,他后来担任牛津大学编程研究小组的主任。Strachey 的跳棋(草稿)程序在英国曼彻斯特大学的 Ferranti Mark I 计算机上运行。到 1952 年夏天,这个程序可以以合理的速度玩一整盘跳棋游戏。

1952 年发布了有关机器学习最早成功演示的信息。由剑桥大学的Anthony Oettinger撰写的《Shopper》在EDSAC计算机上运行。购物者的模拟世界是一个由八家商店组成的购物中心。当被指示购买商品时,购物者会搜索它,随机访问商店,直到找到该商品。在搜索时,购物者会记住每家商店中储存的一些商品(就像人类购物者一样)。下次购物者被派去购买相同的商品或它已经找到的其他商品时,它会立即转到正确的商店。正如介绍性部分“什么是智力?”中指出的那样,这种简单的学习形式被称为死记硬背。

第一个在美国运行的人工智能程序也是一个跳棋程序,由亚瑟·塞缪尔(Arthur Samuel)于1952年为IBM 701的原型编写。塞缪尔接管了斯特拉奇跳棋计划的基本要素,并在几年内大大扩展了它。1955 年,他增加了使程序能够从经验中学习的功能。塞缪尔包括死记硬背和泛化的机制,这些改进最终导致他的程序在 1962 年赢得了对阵前康涅狄格州跳棋冠军的一场比赛。

进化计算

塞缪尔的跳棋程序也因是进化计算的首批努力之一而引人注目。(他的程序“进化”了,将修改后的副本与他的程序的当前最佳版本进行对比,获胜者成为新的标准。进化计算通常涉及使用一些自动方法来生成和评估程序的连续“生成”,直到一个高度熟练的解决方案发展出来。

进化计算的主要支持者约翰·霍兰德(John Holland)也为IBM 701计算机的原型编写了测试软件。特别是,他帮助设计了一种神经网络“虚拟”老鼠,可以训练它穿过迷宫。这项工作使Holland相信自下而上方法的有效性。在继续为 IBM 提供咨询的同时,Holland 于 1952 年搬到密歇根大学攻读数学博士学位。然而,他很快就转向了一个新的计算机和信息处理跨学科项目(后来被称为通信科学),该项目由亚瑟·伯克斯(Arthur Burks)创建,他是ENIAC及其继任者EDVAC的建设者之一。在他1959年的论文中,霍兰德提出了一种新型计算机——多处理器计算机——将网络中的每个人工神经元分配给一个单独的处理器。(1985年,丹尼尔·希利斯(Daniel Hillis)解决了工程困难,制造了第一台这样的计算机,即拥有65,536个处理器的Thinking Machines Corporation超级计算机。

霍兰德毕业后加入了密歇根大学的教职员工,在接下来的四十年里,他将大部分研究引向了自动化进化计算的方法,这一过程现在被称为遗传算法。Holland实验室实施的系统包括国际象棋程序,单细胞生物有机体模型以及用于控制模拟天然气管道网络的分类器系统。然而,遗传算法不再局限于“学术”演示;在一个重要的实际应用中,遗传算法与犯罪证人合作,以生成罪犯的肖像。

逻辑推理和解决问题的能力

逻辑推理能力是智能的一个重要方面,一直是人工智能研究的重点。该领域的一个重要里程碑是兰德公司的Allen Newell和J. Clifford Shaw以及卡内基梅隆大学的Herbert Simon在1955-56年编写的定理证明程序。众所周知,《逻辑理论家》旨在证明《数学原理》(Principia Mathematica,1910-13)中的定理,这是英国哲学家兼数学家阿尔弗雷德·诺斯·怀特黑德(Alfred North Whitehead)和伯特兰·罗素(Bertrand Russell)的三卷本著作。在一个例子中,程序设计的证明比书中给出的证明更优雅。

Newell、Simon 和 Shaw 继续编写了一个更强大的程序,即一般问题求解器,或 GPS。GPS的第一个版本于1957年运行,该项目的工作持续了大约十年。GPS可以使用试错法解决各种令人印象深刻的难题。然而,对GPS和缺乏任何学习能力的类似程序的一个批评是,该程序的智能完全是二手的,来自程序员明确包含的任何信息。

英语对话

两个最著名的早期人工智能程序,伊丽莎和帕里,给人一种令人毛骨悚然的智能对话。(两者的细节于1966年首次发表。麻省理工学院人工智能实验室的约瑟夫·魏岑鲍姆(Joseph Weizenbaum)撰写的《伊丽莎》(Eliza)模拟了一位人类治疗师。由斯坦福大学精神病学家肯尼斯·科尔比(Kenneth Colby)撰写的《帕里》模拟了人类的偏执狂。精神科医生被要求决定他们是在与帕里交流还是与人类偏执狂交流,他们往往无法分辨。然而,帕里和伊丽莎都不能被合理地描述为聪明。帕里对对话的贡献是罐装的——由程序员预先构建并存储在计算机的内存中。伊丽莎也依赖罐头句子和简单的编程技巧。

人工智能编程语言

在逻辑理论家和GPS的工作过程中,Newell,Simon和Shaw开发了他们的信息处理语言(IPL),这是一种为AI编程量身定制的计算机语言。IPL 的核心是一个高度灵活的数据结构,他们称之为列表。列表只是数据项的有序序列。列表中的部分或全部项目本身可能是列表。这种方案导致了丰富的分支结构。

1960年,John McCarthy将IPL的元素与lambda演算(一种正式的数学逻辑系统)相结合,产生了编程语言LISP(列表处理器),几十年来,它一直是美国人工智能工作的主要语言,然后在21世纪被Python,Java和C++等语言所取代。(lambda 演算本身是普林斯顿大学逻辑学家阿朗佐·丘奇 (Alonzo Church) 于 1936 年发明的,当时他正在研究谓词逻辑的抽象 Entscheidungsproblem 或“决策问题”——图灵在发明通用图灵机时一直在研究这个问题。

逻辑编程语言 PROLOG (Programmation en Logique) 是由法国艾克斯-马赛大学的 Alain Colmerauer 构思的,该语言于 1973 年首次实施。PROLOG由爱丁堡大学人工智能小组成员、逻辑学家罗伯特·科瓦尔斯基(Robert Kowalski)进一步开发。这种语言利用了一种强大的定理证明技术,称为分辨率,由英国逻辑学家艾伦·罗宾逊于 1963 年在伊利诺伊州的美国原子能委员会阿贡国家实验室发明。PROLOG可以确定给定语句是否在逻辑上遵循其他给定语句。例如,给定“所有逻辑学家都是理性的”和“罗宾逊是逻辑学家”的陈述,PROLOG程序对“罗宾逊是理性的?PROLOG被广泛用于人工智能工作,特别是在欧洲和日本。

微观世界程序

为了应对现实世界令人眼花缭乱的复杂性,科学家们经常忽略不太相关的细节;例如,物理学家经常忽略模型中的摩擦力和弹性。1970年,麻省理工学院人工智能实验室的马文·明斯基(Marvin Minsky)和西摩·佩佩特(Seymour Papert)提出,同样,人工智能研究应该专注于开发能够在被称为微观世界的简单人工环境中实现智能行为的程序。许多研究都集中在所谓的积木世界,它由排列在平面上的各种形状和大小的彩色积木组成。

微观世界方法的早期成功是由麻省理工学院的特里·维诺格拉德(Terry Winograd)撰写的SHRDLU。(该计划的细节于1972年公布。SHRDLU控制着一个机器人手臂,该机械臂在散布着游乐块的平坦表面上操作。手臂和积木都是虚拟的。SHRDLU 会响应用自然英语输入的命令,例如“请你把两个红色方块和绿色立方体或金字塔堆叠起来。该程序还可以回答有关其自身行为的问题。尽管SHRDLU最初被誉为一项重大突破,但Winograd很快宣布该计划实际上是一条死胡同。该计划中开创的技术被证明不适合在更广泛、更有趣的世界中应用。此外,SHRDLU所表现出的理解方块微观世界的表象,以及关于它的英文陈述,实际上是一种错觉。SHRDLU不知道什么是绿色块。

沙基

Shakey是一种移动机器人,由加利福尼亚州门洛帕克的斯坦福研究所开发(1966-72)。该机器人配备了电视摄像机、测距仪和碰撞传感器,使小型计算机能够远程控制其动作。Shakey 可以执行一些基本动作,例如前进、转身和推动,尽管速度非常慢。对比鲜明的颜色,特别是每面墙上的深色踢脚线,有助于机器人区分不同的表面。(更多)

微观世界方法的另一个产品是Shakey,这是斯坦福研究所在1968-72年期间由伯特伦·拉斐尔(Bertram Raphael),尼尔斯·尼尔森(Nils Nilsson)等人开发的移动机器人。机器人占据了一个特制的微观世界,由墙壁、门口和一些简单形状的木块组成。每面墙都有一个精心粉刷的踢脚线,使机器人能够“看到”墙壁与地板的交汇处(这是微观世界方法的典型现实简化)。Shakey 有大约十几种基本能力,例如 TURN、PUSH 和 CLIMB-RAMP。批评者指出了Shakey环境的高度简化性质,并强调尽管有这些简化,但Shakey的运作速度非常缓慢。人类可以在几分钟内计划和执行的一系列行动需要 Shakey 几天的时间。

微观世界方法的最大成功是一种称为专家系统的程序,将在下一节中描述。

专家系统

专家系统占据了一种微观世界,例如,船舱及其货物的模型,它是独立的,相对简单的。对于这样的人工智能系统,我们尽一切努力整合专家(或专家组)所知道的有关某个狭窄领域的所有信息,因此一个好的专家系统通常可以胜过任何一个人类专家。有许多商业专家系统,包括医学诊断、化学分析、信贷授权、财务管理、企业规划、财务文件路由、石油和矿产勘探、基因工程、汽车设计与制造、相机镜头设计、计算机等程序为家用电脑用户提供安装设计、航班调度、货物放置和自动帮助服务。

知识和推理

专家系统的基本组件是知识库(KB)和推理引擎。要存储在知识库中的信息是通过采访相关领域的专家获得的。面试官或知识工程师将从专家那里获得的信息组织成一组规则,通常采用“如果-那么”结构。这种类型的规则称为生产规则。推理引擎使专家系统能够从知识库中的规则中得出推论。例如,如果知识库包含生产规则“if x, then y”和“if y, then z”,则推理引擎能够推断出“if x, then z”。然后,专家系统可能会询问其用户,“在我们正在考虑的情况下,x 是否为真?如果答案是肯定的,系统将继续推断 z。

一些专家系统使用模糊逻辑。在标准逻辑中,只有两个真值,true 和 false。这种绝对的精确性使得模糊的属性或情况难以描述。(确切地说,稀疏的头发什么时候会变成秃头?人类专家使用的规则通常包含模糊的表达式,因此专家系统的推理引擎采用模糊逻辑很有用。

石鲈

1965年,斯坦福大学的人工智能研究员爱德华·费根鲍姆(Edward Feigenbaum)和遗传学家约书亚·莱德伯格(Joshua Lederberg)开始研究启发式DENDRAL(后来简称为DENDRAL),这是一个化学分析专家系统。例如,要分析的物质可能是碳、氢和氮的复杂化合物。从从该物质获得的光谱数据开始,DENDRAL将假设该物质的分子结构。DENDRAL的性能可与化学家专家相媲美,该程序被用于工业界和学术界。

霉素

1972年,斯坦福大学开始研究治疗血液感染的专家系统MYCIN。MYCIN将尝试根据报告的症状和医学检查结果来诊断患者。该计划可以要求提供有关患者的进一步信息,并建议额外的实验室测试,以得出可能的诊断,然后推荐一个疗程。如果需要,MYCIN将解释导致其诊断和建议的原因。使用大约500个生产规则,MYCIN的运作能力与血液感染的人类专家大致相同,并且比全科医生更好。

然而,专家系统对其专业知识的局限性没有常识或理解。例如,如果MYCIN被告知一名受枪伤的患者正在流血致死,该程序将尝试诊断患者症状的细菌原因。专家系统还可以对荒谬的笔误采取行动,例如为体重和年龄数据被意外转换的患者开出明显不正确的药物剂量。

CYC项目

CYC 是符号 AI 的一个大型实验。该项目于 1984 年在微电子和计算机技术公司的主持下开始,该公司是一个由计算机、半导体和电子制造商组成的联盟。1995 年,CYC 项目总监 Douglas Lenat 将该项目分拆为位于德克萨斯州奥斯汀的 Cycorp, Inc.。Cycorp 最雄心勃勃的目标是构建一个包含人类常识知识很大一部分的知识库。数以百万计的常识性断言或规则被编码到 CYC 中。人们的期望是,这个“临界质量”将允许系统本身直接从普通散文中提取进一步的规则,并最终成为未来几代专家系统的基础。

只需编译一小部分常识性知识库,CYC就可以得出能够击败更简单系统的推论。例如,CYC可以从“加西亚正在完成马拉松比赛”这句话中推断出“加西亚是湿的”,方法是采用其规则,即跑马拉松需要高强度的运动,人们在高强度的运动下出汗,当有东西出汗时,它是湿的。在悬而未决的遗留问题中,有搜索和解决问题的问题,例如,如何自动搜索知识库以查找与给定问题相关的信息。人工智能研究人员将更新、搜索和以其他方式在实际时间内操纵大型符号结构的问题称为框架问题。一些符号人工智能的批评者认为,框架问题在很大程度上是无法解决的,因此坚持认为符号方法永远不会产生真正的智能系统。例如,CYC有可能在系统达到人类知识水平之前很久就屈服于框架问题。

联结主义

联结主义或类神经元计算,是在试图理解人脑如何在神经水平上工作,特别是人们如何学习和记忆而发展起来的。1943年,伊利诺伊大学的神经生理学家沃伦·麦卡洛克(Warren McCulloch)和芝加哥大学的数学家沃尔特·皮茨(Walter Pitts)发表了一篇关于神经网络和自动机的有影响力的论文,根据该论文,大脑中的每个神经元都是一个简单的数字处理器,大脑作为一个整体是计算机的一种形式.正如麦卡洛克后来所说,“我们认为我们正在做的事情(我认为我们相当成功)是将大脑视为图灵机。

创建人工神经网络

然而,直到 1954 年,麻省理工学院的贝尔蒙特·法利和韦斯利·克拉克才成功地运行了第一个人工神经网络——尽管计算机内存限制不超过 128 个神经元。他们能够训练他们的网络来识别简单的模式。此外,他们发现,在经过训练的网络中,多达10%的神经元的随机破坏不会影响网络的性能,这一特征让人想起大脑能够忍受手术、事故或疾病造成的有限损伤。

图片

人工神经网络的一部分

在图中所示的人工神经网络部分中,每个输入的权重或强度由其连接的相对大小表示。在此示例中,输出神经元 N 的放电阈值为 4。因此,N 是静态的,除非从 W、X、Y 和 Z 接收到的输入信号组合的权重超过 4。(更多)

图中描绘的简单神经网络说明了联结主义的中心思想。网络的五个神经元中有四个用于输入,第五个神经元(其他神经元都连接到神经元)用于输出。每个神经元要么放电(1),要么不放电(0)。每个通向输出神经元 N 的连接都有一个“权重”。所谓的 N 的总加权输入是通过将从放电的神经元引向 N 的所有连接的权重相加来计算的。例如,假设只有两个输入神经元 X 和 Y 在放电。由于从 X 到 N 的连接权重为 1.5,从 Y 到 N 的连接权重为 2,因此 N 的总加权输入为 3.5。如图所示,N 的触发阈值为 4。也就是说,如果 N 的总加权输入等于或超过 4,则 N 触发;否则,N 不会触发。因此,例如,如果唯一要触发的输入神经元是 X 和 Y,则 N 不会触发,但如果 X、Y 和 Z 都触发,则 N 会触发。

训练网络包括两个步骤。首先,外部代理输入一个模式并观察 N 的行为。二、代理按照规则调整连接权重:

  1. 如果实际输出为 0,期望输出为 1,则将每个连接的权重增加少量固定量,这些连接从正在放电的神经元中引出 N(从而使 N 更有可能在下次网络被赋予相同的模式时触发);

  2. 如果实际输出为 1,期望输出为 0,则从正在触发的神经元中减少导致输出神经元的每个连接的权重(从而降低输出神经元在下次将该模式作为输入时触发的可能性)。

外部代理(实际上是一个计算机程序)对训练样本中的每个模式进行两步过程,然后重复多次。在这些多次重复中,形成了一种连接权重模式,使网络能够正确响应每种模式。令人惊讶的是,学习过程完全是机械的,不需要人工干预或调整。连接权重以恒定量自动增加或减少,完全相同的学习过程适用于不同的任务。

感知器

1957年,纽约伊萨卡康奈尔大学康奈尔航空实验室的弗兰克·罗森布拉特(Frank Rosenblatt)开始研究人工神经网络,他称之为感知器。他通过对神经网络特性的实验研究(使用计算机模拟)和详细的数学分析,为人工智能领域做出了重大贡献。罗森布拉特是一位有魅力的传播者,美国很快就有许多研究小组研究感知器。罗森布拉特和他的追随者称他们的方法为联结主义者,以强调学习神经元之间连接的创建和修改的重要性。现代研究人员已经采用了这个术语。

Rosenblatt 的贡献之一是将 Farley 和 Clark 应用于仅两层网络的训练程序推广,以便该程序可以应用于多层网络。罗森布拉特用“反向传播纠错”来描述他的方法。该方法经过众多科学家的实质性改进和扩展,以及术语反向传播现在在联结主义中日常使用。

共轭动词

在加州大学圣地亚哥分校(University of California at San Diego)进行的一项著名的联结主义实验(发表于1986年)中,大卫·鲁梅尔哈特(David Rumelhart)和詹姆斯·麦克莱兰(James McClelland)训练了一个由920个人工神经元组成的网络,这些神经元排列在两层460个神经元中,以形成英语动词的过去时态。动词的词根形式——如come、look和sleep——被呈现给一层神经元,即输入层。一个监督计算机程序观察输出神经元层的实际响应与期望响应之间的差异(比如说,来了),然后按照上述程序机械地调整整个网络的连接,使网络朝着正确响应的方向略微推动。大约有400个不同的动词被一个接一个地呈现到网络上,并在每次呈现后调整连接。使用相同的动词重复整个过程约200次,之后网络可以正确地形成许多不熟悉的动词以及原始动词的过去时。例如,当第一次出现守卫时,网络响应守卫;哭泣,哭泣;用粘附,粘附;并用滴注,滴注(用双P完成)。这是涉及泛化的学习的一个突出例子。(不过,有时候,英语的特殊性对网络来说太过分了,它从蹲下形成,从形状中运输,从邮件中形成。

联结主义的另一个名称是并行分布式处理,它强调两个重要特征。首先,大量相对简单的处理器(神经元)并行运行。其次,神经网络以分布式方式存储信息,每个单独的连接都参与存储许多不同的信息项。例如,使过去时态网络能够从哭泣中哭泣的技术诀窍不是存储在网络中的一个特定位置,而是分布在训练过程中形成的整个连接权重模式中。人脑似乎也以分布式方式存储信息,联结主义研究有助于试图理解它是如何做到这一点的。

其他神经网络

关于类神经元计算的其他工作包括:

  • 视觉感知。网络可以从视觉数据中识别人脸和其他对象。例如,神经网络可以区分图片中的动物是猫还是狗。这样的网络还可以将一群人区分为单独的个体。

  • 语言处理。神经网络能够将手写和打字材料转换为电子文本。神经网络还可以将语音转换为印刷文本,并将印刷文本转换为语音。

  • 财务分析。神经网络越来越多地用于贷款风险评估、房地产估值、破产预测、股价预测和其他业务应用。

  • 医学。医疗应用包括检测肺结节和心律失常以及预测药物不良反应。

  • 电信。神经网络的电信应用包括电话交换网络的控制和卫星链路上的回声消除。

新 AI

新基础

1980 年代后半期,澳大利亚人罗德尼·布鲁克斯 (Rodney Brooks) 在麻省理工学院人工智能实验室开创了这种被称为新人工智能的方法。Nouvelle AI 与强 AI 保持距离,强调人类水平的表现,而倾向于相对温和的昆虫水平表现目标。在非常基本的层面上,新人工智能拒绝符号人工智能对构建现实内部模型的依赖,例如微观世界程序部分中描述的模型。新人工智能的从业者断言,真正的智能涉及在现实世界环境中发挥作用的能力。

新人工智能的一个中心思想是,由复杂行为表达的智能是从一些简单行为的相互作用中“出现”的。例如,一个机器人的简单行为包括避免碰撞和向移动物体移动,它似乎会跟踪该物体,每当它靠得太近时就会停下来。

机器人赫伯特

该机器人由罗德尼·布鲁克斯(Rodney Brooks)设计,并以人工智能先驱赫伯特·西蒙(Herbert Simon)的名字命名,

Nouvelle AI 回避了 CYC 项目一节中讨论的框架问题。新系统不包含其环境的复杂符号模型。取而代之的是,信息被“排除在外”,直到系统需要它。新系统不断地引用其传感器,而不是世界的内部模型:它在需要它的时候“读出”外部世界所需的任何信息。(正如布鲁克斯所坚持的那样,世界是它自己最好的模式——总是与时俱进,每个细节都完整无缺。

定位方法

传统的人工智能大体上试图构建无形的智能,其与世界的唯一互动是间接的(例如CYC)。另一方面,新人工智能试图在现实世界中构建具身智能——这种方法被称为定位方法。布鲁克斯赞许地引用了图灵在1948年和1950年给出的定位方法的简短草图。图灵写道,通过为机器配备“金钱可以买到的最好的感觉器官”,这台机器可能会通过一个“遵循儿童正常教学”的过程来学习“理解和说英语”。图灵将此与专注于抽象活动的人工智能方法(例如下棋)进行了对比。他主张这两种方法都应采用,但直到新人工智能出现之前,很少有人关注定位方法。

加州大学伯克利分校(University of California at Berkeley)的哲学家伯特·德雷福斯(Bert Dreyfus)的著作中也预料到了这种定位方法。从1960年代初开始,德雷福斯反对物理符号系统假说,认为智能行为不能完全被符号描述所捕捉。作为替代方案,德雷福斯提倡一种智能观点,强调需要一个可以移动的身体,直接与有形的物理对象互动。德雷福斯曾经受到人工智能倡导者的谩骂,现在被视为定位方法的先知。

新人工智能的批评者指出,它未能产生一个系统,表现出与真实昆虫中发现的复杂行为相似的东西。20世纪末的研究人员认为,他们的新系统很快就会有意识并拥有语言,这完全为时过早。

21世纪的人工智能

在21世纪初,更快的处理能力和更大的数据集(“大数据”)将人工智能从计算机科学部门带到了更广阔的世界。摩尔定律,即计算能力大约每 18 个月翻一番的观察结果,仍然适用。Eliza 的库存响应可以舒适地适应 50 KB;ChatGPT 核心的语言模型是在 45 TB 的文本上训练的。

机器学习

2006 年,随着“贪婪逐层预训练”技术的发明,神经网络承担附加层并因此处理更复杂问题的能力得到提高,其中发现单独训练神经网络的每一层比训练整个网络从输入到输出更容易。神经网络训练的这种改进导致了一种称为“深度学习”的机器学习,其中神经网络有四个或更多层,包括初始输入和最终输出。此外,这种网络能够在无监督的情况下学习,即在没有初始提示的情况下发现数据中的特征。

深度学习的成就之一是图像分类的进步,其中称为卷积神经网络 (CNN) 的专用神经网络根据许多不同类型对象的一组图像中发现的特征进行训练。然后,CNN能够获取输入图像,将其与训练集中图像中的特征进行比较,并将图像分类为猫或苹果。Kaim He和Microsoft Research的合作者就是一个这样的网络,它对图像的分类甚至比人类还要好。

深蓝击败国际象棋世界冠军加里·卡斯帕罗夫的成就被 DeepMind 的 AlphaGo 超越,后者掌握了围棋,这是一种比国际象棋复杂得多的游戏。AlphaGo的神经网络从人类棋手那里学会了下围棋,并通过自己下棋。它在 2016 年以 4-1 击败了顶级围棋选手李世石。AlphaGo反过来又被AlphaGo Zero超越,AlphaGo Zero仅从围棋规则开始,最终以100-0击败了AlphaGo。一个更通用的神经网络,Alpha Zero,能够使用相同的技术来快速掌握国际象棋和将棋。

自动驾驶汽车

机器学习和人工智能是自动驾驶汽车系统的基础要素。通过机器学习,车辆可以训练从接收到的复杂数据中学习,以改进它们所操作的算法,并扩展它们在道路上行驶的能力。人工智能使这些车辆的系统能够决定如何操作,而无需针对每种潜在情况的具体说明。

为了使自动驾驶汽车安全有效,创建了人工模拟来测试其功能。为了创建这样的模拟,使用黑盒测试,而不是白盒验证。白盒测试,其中测试人员知道被测系统的内部结构,可以证明没有故障。黑盒方法要复杂得多,并且涉及采取更具对抗性的方法。在这种方法中,测试人员不知道系统的内部设计,而是针对外部设计和结构。这些方法试图找出系统中的弱点,以确保其符合高安全标准。

截至 2023 年,消费者无法购买全自动驾驶汽车。事实证明,克服某些障碍具有挑战性。例如,自动驾驶汽车需要绘制美国近400万英里公共道路的地图才能有效运行,这对制造商来说是一项艰巨的任务。此外,具有“自动驾驶”功能的最受欢迎的汽车,即特斯拉的汽车,也引起了安全问题,因为这些车辆甚至驶向迎面而来的交通和金属柱。人工智能还没有发展到汽车可以与其他驾驶员、骑自行车的人或行人进行复杂互动的地步。这种“常识”对于防止事故和创造安全的环境是必要的。

大型语言模型和自然语言处理

自然语言处理 (NLP) 涉及分析计算机如何像人类一样处理和解析语言。为此,NLP 模型必须使用计算语言学、统计学、机器学习和深度学习模型。早期的NLP模型是手工编码和基于规则的,但没有考虑到语言中的例外和细微差别。下一步是统计NLP,使用概率将某些含义的可能性分配给文本的不同部分。现代 NLP 系统使用深度学习模型和技术来帮助它们在处理信息时“学习”。

现代 NLP 的突出例子是语言模型,它使用 AI 和统计学在现有部分的基础上预测句子的最终形式。一种流行的语言模型是 GPT-3,由 OpenAI 于 2020 年 6 月发布。GPT-3 是最早的大型语言模型之一,可以解决高中水平的数学问题以及创建计算机程序。GPT-3 是 ChatGPT 软件的基础,于 2022 年 11 月发布。ChatGPT 几乎立即扰乱了学者、记者和其他人,因为他们担心无法将人类写作与 ChatGPT 生成的写作区分开来。基于概率的语言模型的一个问题是“幻觉”:该模型不是向用户传达它不知道什么,而是根据用户的提示用可能但事实不准确的文本进行响应。这个问题可能部分归因于将 ChatGPT 用作搜索引擎,而不是其作为文本生成器的预期角色。

使用 NLP 的机器的其他示例包括语音操作的 GPS 系统、客户服务聊天机器人和语言翻译程序。此外,企业使用 NLP 通过自动完成搜索查询和监控社交媒体来增强对消费者的理解和服务。

OpenAI 的 DALL-E、Stable Diffusion 和 Midjourney 等程序使用 NLP 根据文本提示创建图像,这些图像可以像“绿色块上的红色块”一样简单,也可以像“具有豪猪纹理的立方体”一样复杂。这些程序在具有数百万或数十亿个文本图像对的大型数据集上进行训练,即具有文本描述的图像。

NLP存在某些问题,特别是因为机器学习算法等经常表达其训练内容中隐含的偏见。例如,当被要求描述医生时,语言模型可能更有可能回答“他是医生”而不是“她是医生”,这表明固有的性别偏见。NLP 中的偏见可能会产生现实世界的后果。例如,在 2015 年,亚马逊的 NLP 简历筛选计划被发现歧视女性,因为在从员工那里收集的原始培训集中,女性的代表性不足。

虚拟助手

虚拟助手 (VA) 具有多种功能,包括帮助用户安排任务、拨打和接听电话以及指导用户上路。这些设备需要大量数据,并从用户输入中学习,以便更有效地预测用户需求和行为。市场上最受欢迎的 VA 是亚马逊的 Alexa、谷歌的 G-Assistant、Microsoft 的 Cortana 和苹果的 Siri。虚拟助手与聊天机器人和对话代理的不同之处在于它们更加个性化,可以适应个人用户的行为并从中学习,以随着时间的推移改善他们的服务。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐