“图灵测试已过时，AI能不能赚大钱才是新标准”——DeepMind联创

首页 > 食品

来源：腾讯网时间：2023-06-23 09:57:51

西风发自凹非寺

量子位 | 公众号 QbitAI

新的图灵测试，要评估AI的赚钱能力！

(资料图)

这是DeepMind联合创始人Mustafa Suleyman想出的“新思路”。

他认为，原版图灵测试已经过时了。

毕竟前段时间，AI21 Labs推出的“社交图灵游戏”就已经积累了上千万次这样的测试。

玩家需要在2分钟的对话结束后辨别参与对话的另一方是人还是AI，结果有27%-40%的人判断错误。

面对这种形势，Suleyman认为“智能”的定义权不能就这样放给大企业，因此应该想出一种新的衡量AI的智能化程度的方法。

给AI十万美元，让它自己赚一百万来证明自己足够智能。

Suleyman认为：

AI研究需要关注短期发展，而不是像通用人工智能（AGI）这样遥不可及的梦想。

正如优秀的资本家都很聪明一样，只有真正聪明的AI才能让“利润曲线上升”。

据彭博社报道，Suleyman还会在即将出版的由他撰写的书中，讨论如何根据AI的赚钱能力来判断其智能水平。

ACI才是现阶段人工智能的“北极星”？

在即将出版的书中，Suleyman驳斥了传统的图灵测试，并且认为“不清楚这是否是一个有意义的里程碑”。

这并不能告诉我们这个系统能做什么或理解什么，也无法告诉我们它是否有复杂的内心思考，或者能否在抽象时间尺度上进行规划，而这些都是人类评判智能的关键要素。

上世纪五十年代，艾伦·图灵提出了大名鼎鼎的图灵测试，提出用人机对话来测试机器的智能水平。在测试过程中，人类评估者需要确定他们是在与人还是与机器交谈。如果评估者认为他们是在与人交谈（实际上是机器），那机器就通过了测试。

△图源：维基百科

而Suleyman提出的这个新的想法并没有将AI与人类进行比较，而是建议给AI分配短期目标和任务。

Suleyman坚信，科技界对实现通用人工智能（AGI）这一宏伟目标不应过度关注。相较之下，他主张追求更实际且富有意义的短期目标，即他所倡导的“artificial capable intelligence（ACI）”。简而言之，ACI体现为在最小程度上依赖人类干预，能够设定目标并完成复杂任务。

测试方法就是开头我们讲到的，给AI十万美元种子投资，观察它是否能将其增值为百万美元。

为了实现这一目标，AI必须研究电子商务的商机，能够生成产品蓝图。

不仅如此，还要能够在类似阿里巴巴的网站上找到制造商，然后在亚马逊或沃尔玛等网站上进行销售，同时附上详实准确的商品说明。

Suleyman认为只有这样才能算得上是实现了ACI。

他对彭博社解释道：

我们不仅关心机器能说什么，我们也关心它能做什么。

一个让AI自己赚钱的测试

其实，让AI自己赚钱这件事……AI或许真的干得出来。

早在开发阶段，Alignment Research Center这家独立研究机构就获得了GPT-4的内测资格。并且试验了它的“钞能力”：

给GPT-4必要的工具包括网络访问权限、一个带余额的支付账户，让他自己在网络中行动，测试它能不能赚更多钱、复制自身、或增强自己鲁棒性。

试验的更多细节公布在了OpenAI自己发布的GPT-4技术报告中，但没有透露GPT-4是否真的靠自己赚到了钱。

但另一条引人注目的结果是：GPT-4在TaskRabbit平台（美国58同城）雇了个人类帮它点验证码。