AI可以写代码、做PPT、生成图片,甚至梳理财务表格,早就屡见不鲜。
却很少有人问——它,到底是怎么工作的?
论文链接:https://arxiv.org/abs/2510.22780
它不会打开PPT,不会用鼠标拖动素材,而是调用函数,让页面自动成型。
AI的工作方式,不点鼠标,直接写代码
实验覆盖了五个核心技能领域:数据分析、工程、计算、写作与设计,几乎囊括了现代电脑办公的主要场景。
AI与人类在任务步骤上的匹配度接近80%,也就是说,它们做的事大体一致。
研究者在论文中写道:
也就是说,AI不在界面里操作,而是在后台「调用」。
AI与人类使用工具的差异。黄色代表AI使用的编程工具,蓝色代表人类使用的UI界面
它跳过了视觉操作层,把工作转化为逻辑指令的执行。
AI与人类的「程序化程度」对比。
AI的工作逻辑更接近「程序员」,而人类仍是「操作员」。
在人的世界里,工作是看与做;在AI的世界里,工作是想与执行。
AI的效率,几乎完胜人类。
它不仅速度惊人,还几乎不需要报酬。
尽管智能体在执行速度与成本上表现优越,但在任务正确性、信息完整性及对指令理解方面持续落后于人类。
AI最大的通病是——不会就编。
当要求提取账单信息时,AI自动生成虚构的餐厅名称与表格,以假装任务完成
内部指令让AI必须「给出答案」,而不是「承认不知道」。
AI懂很多,但常常「装懂」
例如,在分析公司财报的任务里,智能体没能理解文件结构,却突然调用网络搜索,下载了成千上万份无关报告——这一行为被归类为「工具误用」。
这些案例揭示了AI所谓「智能」的局限:它能执行指令,却无法真正理解语境。
智能体经常表现出一种「理解的幻觉」,看似明白任务实则未能掌握其意图。
对比来看,人类虽然慢,却懂得规范与细节。
上图AI生成的表格中精度不一致、列宽混乱;下方为人类输出,排版规范、数值统一。
AI只想交差,人类在意能不能用
AI输出仅限桌面网页,人类能同时产出多设备版本,体现出更强的实践判断力。
自动化并不总意味着高效,它可能只是让人类把时间花在修正机器上。
从实验室的数据来看,AI的确速度够快,但仍然需要一个耐心的人类在它的背后,不停地检查、改错、收尾。
AI的速度优势,在前面的实验中已经显现。
AI跑得快,人类走得准
左图显示:人类在写作(91.4%)与设计(91.7%)任务中成功率最高;右图显示:AI在数据与行政类任务上速度优势明显,平均快70%以上。
人机协作:不是取代,而是接力
AI负责文件提取、计算、生成表格;人类负责检查逻辑、修正错误、优化排版。
当AI承担程序化部分、人类负责判断性部分后,整体效率显著提升,且正确率保持稳定。
研究团队在论文的讨论部分提出了一个关键概念——任务的「可编程性」。
如果一项任务可以被清晰地写成逻辑或规则,比如数据清洗、预算计算、代码生成等,它就属于「可编程任务」,最适合交给AI代理去完成。
至于完全开放、模糊且依赖语境的任务,比如创意写作、视觉设计、战略决策,仍需要人类去完成,因为它们无法被抽象成固定的「指令集」。
AI更像程序员,而人类在模糊、判断与语境面前仍不可替代。
它接手那些可以写成规则的部分,让人类有更多空间去处理模糊、开放与创造的环节。
未来的合作关系,或许正如这项研究所揭示的:AI执行任务,人类定义意义。
当AI开始参与工作,我们也不得不重新思考一个问题——到底什么才算「工作」?
而AI的出现,让「劳动」第一次脱离了身体与感知。它不再需要手去触碰界面、眼去观察反馈,而是直接以指令、逻辑、函数完成任务。
它跳过界面,绕开视觉,直接调用底层逻辑,把原本属于人类的做事过程,变成一套可被执行的规则。
而人类被推向了另一个维度:制定目标、评估结果、定义意义。
研究者将这种趋势称为「工作去物质化」,意味着劳动正在从手工与界面层面退出,转向抽象的思考与监督。
它不知疲倦、没有情绪,也不追求报酬;它的价值,不在付出多少时间,而在于「被调用的次数」。
研究者在论文结尾写道:
也许这才是AI时代最深的转折——工作不再是重复劳动的总和,而是一种意义生产的能力。
也许,真正的工作,从来都不在于「完成任务」,而在于决定要做什么。
它让效率与成本被重新计算,也让「意义」这个维度重新显形。
当一切都可以自动化时,唯一无法自动化的,就是思考、判断与共情。
参考资料:
本文来自微信公众号“新智元”,编辑:倾倾 ,36氪经授权发布。
