article_image

🔗 原文链接

在 AI 发展的今天,我们发现一个奇怪的现象:同一个 AI 模型,在数学题上的表现,会因为题目的表述不同而差异巨大。这让人很难不怀疑,我们对 “智能” 的理解本身就存在问题。

当经济学家 Tyler Cowen 说 “o3 就是 AGI” 时,很多人开始重新审视这个问题。因为如果连基本的定义都捉摸不定,我们又怎么判断 AI 是否已经达到了类似人类的通用智能?

过去,我们总是用人类的标准来衡量机器。但这些标准正变得越来越不可靠。比如,2024 年一项研究发现,AI 在数学测试中的得分,竟然会因为题目的措辞变化而上下波动。更夸张的是,尽管 AI 可以通过图灵测试,让人分不清它和真人,但这并不一定证明它真的 “聪明”,更可能是图灵测试本身已经过时。

关于 AGI(人工通用智能)的讨论,其实一直很混乱。自 2007 年 Shane Legg 等人提出这个概念以来,人们就没真正搞清楚 AGI 要达到什么标准。是要在所有领域都比专家强,还是只要能在大部分领域应付?为了搞明白这些争议,有人做了个实验:让 AI 自己去研究 AGI,并生成报告、视频、辩论。结果显示,AI 在写报告、做视频方面,已经达到了让人惊讶的水准。

真正让 Tyler Cowen 产生 “AGI 已至” 这种感觉的,是 OpenAI 的新模型 o3。在一次测试中,人们给它一个任务:帮一家奶酪网店做营销策划。o3 只用了两分钟,就写出 20 条广告口号,筛选出最佳方案,拉了市场数据,算出需要的启动资金,还预估了回本周期。它还用 AI 画了 Logo,自己搭了网站,甚至加了动画效果。这一切,几乎不需要人工指导。

而且,这种表现不是偶然。给 o3 一张路牌的照片,告诉它玩地理猜谜,它能通过沥青的纹理和植物的种类,推断出大致位置,最后锁定到西班牙一个小镇。给它一张几十年的机器学习发展表格,简单地要求 “分析趋势”,它就能生成一份完整、专业的回归分析报告,连图表的配色都符合顶级学术期刊的标准。

但问题也很明显。比如,有人给 AI 改了一个经典脑筋急转弯,问它:一名男孩出了车祸,外科医生说 “我能手术”。AI 却错误地认为这是传统谜题 —— 医生是母亲 —— 的变体,给出不对的回答。实际上,在这个问题里,医生本来就能手术,不存在谜底。这说明,AI 有时候会因为太熟悉某些套路,反而在常识推理上出错。

这种高低不平的表现,就是所谓的 “锯齿状前沿”:AI 在某些领域像天才一样出色,在另外一些地方却犯低级错误。比如,Gemini 2.5 Pro 能把复杂的量子物理论文转成好玩的教学游戏,但让它预测台风天外卖量时,它竟然建议骑手穿潜水服送餐。

而就在学界还在争论 AGI 定义的时候,像 o3 这样的模型,已经在慢慢改变世界了。它们不只是工具,开始具备主动完成任务的能力,比如自己查资料、写程序、调用各种工具。这也许能解释,为什么 Tyler Cowen 一方面认为 AGI 可能已经到了,另一方面又觉得社会不会马上大变。

历史上,蒸汽机发明后,工业革命也等了好几十年才爆发。但 AI 的扩散速度,可能要快得多。因为只要一个普通人就能指挥一堆 AI 当分析师、设计师、程序员,整个组织运作的方式,可能很快就会被颠覆。

不过,更近的问题,是 AI 能力的不稳定。也许今天早上,它帮你搞定了一个复杂的国际收购案,到了下午,点个咖啡却能把拿铁送到撒哈拉沙漠。

到了 2025 年,我们可以看到,所谓的 AGI,其实不是一个完美无缺的存在,而是像拼图一样,有些地方很强,有些地方很弱。它不会突然取代人类,但一定会逼着我们,重新思考什么是创造力、决策和价值。


author_avatar

UNTAG 官方