硬件指南 » 教程 » 什么是图灵测试?你需要了解关于这项测试的一切,才能衡量一台机器的能力。
El 测试图灵 这是对机器智能行为的测试,以及它如何模拟人类智能。目前, 人工智能的崛起这项测试变得更加重要,因此在本文中我们将向您展示您需要了解的所有信息。
什么是图灵测试?
El 测试图灵 它是用来评估机器以类似人类智能的方式行事的能力的工具。该测试由艾伦·图灵提出。
En 评估过程 假设有两个人用自然语言进行对话,还有一台能够提供类似人类反应的机器。评估者会知道图灵测试的参与者之一是机器,但一开始并不知道是哪一台。
这些对话将以文本形式进行, 使用键盘和显示器,阻止机器使用文本转语音。也就是说,三个终端进行对话,其中一个人作为询问者,另一个人和计算机作为被询问者。如果在测试过程中,人类评估员在一段时间后(大约5分钟,成功率为70%)无法准确辨别机器是谁,则机器被认为通过了测试。
此外,必须考虑到 问题将属于主题范围 具体,此外还使用特定的格式和上下文进行测试。
所有这些都记录在一篇名为 计算机与智能 由图灵本人于1950年在曼彻斯特大学工作期间发表。在这篇研究论文中,作者提出了一个问题:机器能思考吗?然而,由于“思考”的定义有些复杂,因此问题被改为:是否存在能够模仿人类的机器?
自本文发表以来,图灵测试已被多次使用,尽管它也随着时间的推移受到了许多批评。然而,它目前是 人工智能并且由于人工智能的新发展,它在最近变得更有意义。
因此,图灵测试是一种研究方法 确定计算机是否具有与人类类似的思考能力.
测试的优势
图灵测试有一些 长处 可以测试机器智能,例如:
可处理性和简单性:它因其简洁性而受到重视,因为它提供了一种可应用于机器的测量方法,这与心灵哲学中对“智能”和“思想”的模糊定义不同。它为一个棘手的哲学问题提供了一个务实的解决方案。
各种主题:允许询问者向机器提出各种各样的智力任务。它可以涵盖各个领域的知识和技能,使其功能多样。机器必须使用自然语言、进行推理、掌握知识并进行学习。
情商和审美智力尽管图灵是一位数学家,但他的证明并不需要专业知识。相反,他的证明强调了人机交互中的同理心和审美敏感性。这表明图灵认为智能不仅限于逻辑和技术知识,还包括理解和回应情感和美学的能力。
友善的人工智能通过强调同理心和审美敏感性在人工智能中的重要性,图灵似乎直觉地意识到这些方面对于创造能够与人类恰当互动的“友好人工智能”的重要性。这一观点或许对创造安全且有益于人类的人工智能有所裨益。
测试的局限性
尽管图灵测试有其优势,但它并非万无一失,而且由于它是几十年前开发的,当时人工智能还没有达到今天的水平,因此它 存在严重的局限性:
人类智能与通用智能图灵测试评估机器是否像人类一样行事,但人类行为并不总是等同于智能。该测试考察的是一些未必智能的行为,例如犯错、撒谎或容易受到侮辱。此外,该测试也不评估高智能行为,例如解决难题或产生原创想法。有人认为,该测试无法衡量超越人类智能的智能。
真实智能 vs. 模拟智能:关注机器的外部行为,从而形成了行为主义的观点。批评者认为,机器无需真正“思考”或拥有思维,就能模拟人类行为。约翰·塞尔认为,外部行为无法确定机器是真正思考还是仅仅模拟思考。
审讯者的天真和拟人谬误测试很大程度上取决于审讯者的技能。审讯者可能会受到自身天真或态度的影响。此外,人类倾向于将人类的特性赋予非人类物体,这被称为“拟人谬误”。这可能导致机器仅仅因为表面上与人类相似就被认为具有思考能力。
人类识别错误:该测试经常导致研究人员将人类参与者误认为机器。这可能是由于研究人员寻找的是预期的人类反应而非典型的反应,从而导致错误的分类。
人工智能研究中的不相关性和不切实际性一些研究人员认为,试图通过图灵测试会分散人们对人工智能领域更富有成果的研究的注意力。他们认为,该测试并非当前的研究重点,而且有更简单的方法来评估人工智能程序,例如赋予它们特定的人工智能相关任务,而不是将它们与人类进行比较。
PCIe 5.1:这个新的高性能接口标准是什么?与 PCIe 5.0 相比,它有哪些改进?该 批评和挑战 图灵测试的问题涵盖了其衡量智力的能力、对外部行为的关注、提问者的影响以及测试与人工智能研究的相关性。这些考量引发了关于该测试在人工智能领域的实用性和适用性的争论。
例如,图灵测试多年来一直受到批评,特别是因为,从历史上看, 审讯的性质必须受到限制,以便计算机 展现出类似人类的智能。多年来,只有当提问者以需要“是”或“否”回答的方式提问,或者涉及非常狭窄的知识领域时,计算机才能获得高分。当问题是开放式的,需要对话式回答时,计算机程序不太可能成功欺骗提问者。这在当时的计算机中是可以接受的,但如今的机器已经发生了显著的进化,可以处理更多样化的话题,并做出更成熟的回答。甚至有些人工智能能够理解讽刺——这纯粹是人类的本能……
由于所有这些原因,对于许多专家来说,机器是否可以通过图灵测试的问题 已经变得完全无关紧要我们不应该关注如何让人们相信他们是在与人交谈而不是与程序交谈,而应该关注如何使人机交互更加直观和高效……
图灵测试的变体
根据原始图灵测试的假设,已经提出了一些类似的测试,这些测试包括 修改或变体 相同的。一些值得注意的例子是:
逆向图灵测试逆图灵测试涉及一台机器确定它是与人还是另一台计算机进行交互。
CAPTCHA:代表完全自动化的公共图灵测试,用于区分计算机和人类,是一种逆向图灵测试,其特点是扭曲字符等,以防止网站上的自动输入。
主题专家图灵测试或费根鲍姆测试:在 Edward Feigenbaum 提出的这个变体中,人们无法区分机器的响应和该领域专家给出的响应。
完全图灵测试:此变体在传统测试的基础上增加了额外要求。审讯员还会评估受试者的感知能力(计算机视觉)以及操控物体的能力(机器人技术)。
最低情报信号测试:由 Chris McKinstry 提出的测试,侧重于思考能力,使用二进制输入(真/假或“是/否”)。它用于收集有关人工智能程序性能的统计信息。
赫特奖:该测试旨在评估自然语言理解能力,被认为是一项相当于图灵测试的挑战。这项测试并非要求计算机向法官撒谎,而是基于信息理解。
基于压缩或 Kolmogorov 复杂度的其他测试:图灵测试的变体,将压缩问题纳入扩展测试。此外,还提到了算法智商(AI),它旨在将通用智能的理论测量转化为机器智能的实用测试。
艾伯特测试:该测试由电影评论家罗伯特·艾伯特于 2011 年提出,用于评估计算机合成的声音是否能够通过语调、语调变化和节奏引发笑声。
什么是 HFR(高帧率)以及它为何重要?图灵测试的这些变体针对人工智能和人机交互的不同方面,以适应原始图灵测试中未涉及的不同当前需求。
CAPTCHA 的特殊情况
Un CAPTCHA 这是一项检测机器或机器人是否是人类用户的测试。它们被用于各种互联网服务,例如调查、访问某些服务等。这可以或多或少有效地过滤访问这些服务的机器,甚至出于安全原因,还可以防止暴力攻击、防止自动化操作等。
验证码 这是图灵测试的现代应用这个术语最初是由剑桥梅隆大学的 Luis von Ahn、Manuel Blum 和 Nicholas J. Hopper 以及 IBM 的 John Langford 于 2000 年提出的。最初,它基本上是一组扭曲的图像,屏幕上会出现一组字符,只有人类才能识别并正确输入。
然而,程序和人工智能已经逐渐学会了解决这些类型的简单测试,这 迫使 CAPTCHA 不断进化 才能保持有效性。例如,一些最新的图灵测试类型如下:
基于文本这些视觉挑战的特点是字母数字字符扭曲,使得计算机视觉算法难以识别,但人类可以通过努力来破译它们。
根据数学计算:用户必须解答简单的数学题,通常会添加一些额外的文字,使问题的解释更加复杂。例如,8 - _ = 5,人类可以填写 3 或类似的数字。
文字游戏:用户必须重复一个单词或一系列单词,或者说出一种颜色。这些对于可视化和人工智能系统来说可能更加困难。
基于逻辑问题:常识或特定主题。它们可能需要特定的知识或技能。
视觉效果或图形验证码:用户必须点击包含特定元素的图像,例如交通标志、出租车、公交车、汽车等,但其有效性受到当前图像识别算法的威胁。此外,还有基于视频的验证码,可以嵌入到此类验证码中。
听觉:您可以听到一系列数字并将其写下来作为答案,这对视力有障碍的人很有用。
俏皮:它们变成了用户更感兴趣的游戏,例如解谜或旋转图像。换句话说,这就是 CAPTCHA 的游戏化。
基于行为分析- 某些版本(例如 reCAPTCHA v2 和 v3)遵循此策略,评估用户行为而不仅仅是对视觉或数学挑战的反应。
随着人工智能的发展和算法能够学习解决这些验证码,必须继续发明新的方法来进一步区分机器人和人类。
图灵测试的历史
几个世纪以来,机器是否能够思考的问题一直被置于哲学的语境中。最早提出这个问题的人之一是 哲学家勒内·笛卡尔因为他早在《方法论》(1637年)一书中就预见到了这一点。其他哲学家多年来也一直在思考这个问题。
然而, 机器智能 直到很久以后,人工智能才在英国成为研究焦点,并在技术层面上得到研究。艾伦·图灵本人也是其中之一,他于1941年开始研究这一课题,并在多年后确定计算智能可以通过测试来验证。
多年后,其他研究人员继续研究图灵提出的问题,甚至开发了软件来执行这些图灵测试,并将其付诸实践。 多次实验 展示计算机器的智能或非智能。
阿兰·图灵是谁?
艾伦·M·图灵是一位数学家、密码分析家和计算机科学的先驱。 英国科学家,生于 1912 年至 1954 年之间。他对科学技术的贡献在许多领域产生了持久的影响。
事务内存:它是什么以及这种并发控制机制如何工作图灵 23 年 1912 月 XNUMX 日出生于伦敦英国。他在剑桥大学国王学院学习数学,成绩优异。图灵以其在逻辑和数学方面的成就而闻名。1936年,他发表了著名的文章“关于可计算数,应用于Entscheidungsproblem”其中他提出了通用机器的概念,现在被称为“图灵机”。这一概念被认为是现代计算机的基本先驱。
在 第二次世界大战图灵曾在英国情报中心布莱切利园工作,在破译德军使用的恩尼格玛密码机的过程中发挥了关键作用。他的工作为盟军在二战中的胜利做出了重大贡献。
战后,图灵继续致力于第一台现代计算机的开发,例如,他参与了 ACE机器(自动计算引擎), 中的一个 第一台数字计算机.
他的生活并不轻松,1952 年,图灵因他的 同性恋当时,这在英国是非法的。他接受了激素治疗。这段经历对他的生活和健康造成了严重后果。
艾伦·图灵自杀 由于这些治疗,他于7年1954月41日去世,享年2009岁。他被发现死于柴郡威姆斯洛的家中,死于氰化物中毒,当时他咬了一口毒苹果。苹果公司采用了这个符号作为其标志。此外,英国政府和王室一直拒绝为鼓励这种行为道歉,直到2013年首相戈登·格罗恩正式道歉。多年后,在XNUMX年,女王伊丽莎白二世终于在死后赦免了自己。
现在我们只剩下 艾伦·图灵的遗产 在计算机科学和人工智能领域,这一点毋庸置疑。“图灵机”是计算理论中的一个基本概念。此外,他在密码学和密码破译方面的工作也具有重大的历史意义。
人工智能的当前用途
最初的图灵测试可以应用于新的计算机和人工智能系统,然而,或许存在更适合新需求的变体。例如, 勒布纳奖 自1990年以来,该奖项每年颁发给最像人类的计算机程序,由评审团投票选出。该奖项遵循图灵测试的标准规则。批评该奖项重要性的人士往往淡化其重要性,认为它更多的是为了宣传,而非真正测试机器是否具备思考能力。
因此,许多评论家和专家目前将针对现有系统进行的图灵测试实验分为正确和不正确两类。例如:
不可接受: un 雷丁大学举办的比赛 60年图灵逝世2014周年之际,一个名为尤金·古斯特曼(Eugene Goostman)的聊天机器人模拟一名13岁男孩,通过了图灵测试,比人类评委高出33%。这所谓的“首次通过”招致了广泛批评,有人认为评委数量不足,其他机器在过去的测试中表现更好,而且由于测试只需五分钟,因此无效。
可接受的: 2018年又进行了一次媒体实验。 Google Duplex 他成功地在7.000名观众面前安排了与一位理发师的电话预约。接待员完全没有意识到她正在与一台电脑通话。一些人认为这通过了现代图灵测试,尽管它并不依赖于艾伦·图灵设计的测试实际格式。
有人认为 GPT-3 或 GPT-4OpenAI 创建的自然语言处理模型,在实际测试中比我们现有的任何技术都更有可能通过测试。然而,即使它拥有先进的文本生成能力,许多人仍对这种人工智能提出批评,因为它可能会被诱导回答毫无意义的问题,因此在图灵测试中难以通过。事实上,有些文本很容易被识别为人工智能编写,而有些文本则完全无法被识别……
尽管 关于相关性的辩论 尽管图灵测试的今天及其实验的有效性,该测试仍然广泛应用于新的人工智能系统,以检查它们的先进程度。