Michael Truell让Cursor中的GPT-5.2连续运行了整整一周。
结果?
AI完全从零构建出一个全新浏览器。
HTML解析、CSS布局、文本渲染、还有一个自研的Javascript虚拟机——全是AI自己写的。
一个模型究竟能跑多久
对话长度有限,上下文有限,任务复杂度有限。
这已经是很大的进步,但大多数情况下,任务仍然以分钟计算,最多几小时。
但没有人尝试过让一个模型连续跑一周。
Cursor团队让GPT-5.2持续运行了整整一周,不是断断续续,而是连续工作。
一个模型究竟能运行多久?
只要基础设施稳定,只要任务足够明确,AI就能持续工作——不眠不休,不吃不喝,7×24小时全年无休。
但实际上,不同模型的「耐力」差异巨大。
早期的GPT-3.5只有4K token上下文,意味着对话稍长就会失忆。
但上下文长度只是理论值——真正考验的是模型在长任务中能否保持一致性、专注度和执行力。
在Cursor这篇官方博客中,团队在实验中发现了关键差异:
- GPT-5.2 能长时间自主工作,遵循指令精准,保持专注不偏离;
- Claude Opus 4.5 倾向尽早结束,走捷径,频繁把控制权交还给用户;
- GPT-5.1-Codex 虽专为编码训练,但规划能力不如GPT-5.2,所以容易中断。
而GPT-5.2像个老练的高级工程师,交代清楚任务就埋头干到底。
不止浏览器。
数据都很夸张,AI自己不停地写了55万行代码、120万行代码和160万行代码。(话说,Excel代码比Windows还多点,因吹斯汀)
一个模型在一周内写300万行代码,注意是不停的写,没有人类干预!
Cursor团队透露了他们的秘密武器:多智能体系统(Multi-Agent System)。
Agent会持有锁太久,或者干脆忘记释放锁。二十个Agent的速度下降到相当于两三个Agent的有效吞吐量。
最终有效的方案是分层架构:
- 规划者(Planners):持续探索代码库,创建任务,进行高层决策
- 执行者(Workers):专注于完成具体任务,不关心全局,提交后继续下一个
- 评审(Agent):判断每轮迭代是否合格,决定是否进入下一阶段
但区别在于——这是成百上千个Agent同时工作。
这意味着AI已经学会了人类团队需要多年才能磨合出的协作默契。
如果听到「不就是个显示网页的软件吗」这种评价,所有做过浏览器内核的工程师大概都会苦笑。
为了让你对这300万行代码有个概念,我们需要看一眼谷歌的Chromium(Chrome的开源母体)。
它不仅仅是一个软件,本质上已经是一个「伪装成应用程序的操作系统」。
首先是CSS的「混沌理论」。
CSS标准里充满了各种历史遗留的怪癖、层叠规则(Cascade)和复杂的继承逻辑。
其次是「虚拟机里的虚拟机」。
现代网页跑的Javascript代码需要内存管理、垃圾回收(GC)和安全沙箱。
最要命的是,它选了Rust。
人类工程师在写业务逻辑时,往往要花一半的时间和编译器「吵架」,处理借用检查(BorrowChecker)和生命周期问题。
能在七天内把这些硬骨头啃下来,并且让它们协同工作,这已经不是简单的「写得快」了,这意味机器开始具备了顶级的架构掌控力。
但这则新闻真正的炸点,其实不在于浏览器本身,而在于那个「Uninterrupted」(无中断)。
在此之前,我们熟悉的AI编程工具(比如早期的Copilot)的情况是:你写个函数头,它补全五行代码;你发个指令,它生成一个脚本。
一旦任务稍微复杂一点,比如「重构这个模块」,它们往往会顾头不顾尾,改了这头坏了那头,最后还得人来擦屁股。
这300万行代码分布在数千个文件里。
当渲染引擎和JS虚拟机打架时,它必须能回溯几万行代码去寻找Bug的源头。
但它没有停下来报错等待人类投喂答案,而是自己读取错误日志,自己调试,自己重构,然后继续前行。
现在,这条护城河被填平了。
以前我们指挥AI做「任务」,比如「写个贪吃蛇」;
沉默的螺旋
当算力可以转化为极其复杂的工程实施能力时,软件开发的边际成本将趋近于零。
它不眠不休,不急不躁,以每秒数千字符的速度构建着数字世界的基石。
只有当工具开始独自在深夜里解决问题时,我们才明白,它不再只是工具,而是我们的同行者。
用5行代码逼疯硅谷的澳洲放羊大叔,其实只做了一件事情,就是让AI不达目标不能停止。
就像今天Cursor CEO搞的这个极限压力测试一样,目标就是造一个Chrome、造一个Windows、开发一个Excel,只要没完成目标,AI就要一直运行下去。 回到最开始那个问题:
物理上的答案是无穷。只要你有足够的算力、稳定的基础设施、清晰的任务定义,AI可以无限运行下去。
传统软件开发的主要成本是人力和时间。
现在,AI可以在一周内完成原本需要数月的工作。
他还有一个想法:用多少token能够重写一套Windows级别的操作系统?成本如何?
于是,软件经济学就被彻底颠覆。比如,软件按照授权付费的方式恐怕要消失了。
从前,代码是人类一行一行敲出来的产物。
一个模型能跑多久?
参考资料:
https://x.com/leerob/status/2011565729838166269
本文来自微信公众号“新智元”,编辑:定慧 艾伦,36氪经授权发布。
