CBA
chrome7(GPT-5.2连肝7天,300万行代码造出Chrome级浏览器)

Michael Truell让Cursor中的GPT-5.2连续运行了整整一周

结果?

AI完全从零构建出一个全新浏览器。

GPT-5.2连肝7天,300万行代码造出Chrome级浏览器nerror="javascript:errorimg.call(this);">

HTML解析、CSS布局、文本渲染、还有一个自研的Javascript虚拟机——全是AI自己写的。

一个模型究竟能跑多久

对话长度有限,上下文有限,任务复杂度有限。

这已经是很大的进步,但大多数情况下,任务仍然以分钟计算,最多几小时。

但没有人尝试过让一个模型连续跑一周。

Cursor团队让GPT-5.2持续运行了整整一周,不是断断续续,而是连续工作

GPT-5.2连肝7天,300万行代码造出Chrome级浏览器nerror="javascript:errorimg.call(this);">

一个模型究竟能运行多久?

只要基础设施稳定,只要任务足够明确,AI就能持续工作——不眠不休,不吃不喝,7×24小时全年无休。

但实际上,不同模型的「耐力」差异巨大。

早期的GPT-3.5只有4K token上下文,意味着对话稍长就会失忆。

但上下文长度只是理论值——真正考验的是模型在长任务中能否保持一致性、专注度和执行力

在Cursor这篇官方博客中,团队在实验中发现了关键差异:

  • GPT-5.2 能长时间自主工作,遵循指令精准,保持专注不偏离;
  • Claude Opus 4.5 倾向尽早结束,走捷径,频繁把控制权交还给用户;
  • GPT-5.1-Codex 虽专为编码训练,但规划能力不如GPT-5.2,所以容易中断。

GPT-5.2像个老练的高级工程师,交代清楚任务就埋头干到底。

不止浏览器。

数据都很夸张,AI自己不停地写了55万行代码、120万行代码和160万行代码。(话说,Excel代码比Windows还多点,因吹斯汀)

GPT-5.2连肝7天,300万行代码造出Chrome级浏览器nerror="javascript:errorimg.call(this);">

一个模型在一周内写300万行代码,注意是不停的写,没有人类干预!

Cursor团队透露了他们的秘密武器:多智能体系统(Multi-Agent System)

GPT-5.2连肝7天,300万行代码造出Chrome级浏览器nerror="javascript:errorimg.call(this);">

Agent会持有锁太久,或者干脆忘记释放锁。二十个Agent的速度下降到相当于两三个Agent的有效吞吐量。

GPT-5.2连肝7天,300万行代码造出Chrome级浏览器nerror="javascript:errorimg.call(this);">

最终有效的方案是分层架构

  • 规划者(Planners):持续探索代码库,创建任务,进行高层决策
  • 执行者(Workers):专注于完成具体任务,不关心全局,提交后继续下一个
  • 评审(Agent):判断每轮迭代是否合格,决定是否进入下一阶段

但区别在于——这是成百上千个Agent同时工作

这意味着AI已经学会了人类团队需要多年才能磨合出的协作默契。

如果听到「不就是个显示网页的软件吗」这种评价,所有做过浏览器内核的工程师大概都会苦笑。

为了让你对这300万行代码有个概念,我们需要看一眼谷歌的Chromium(Chrome的开源母体)。

它不仅仅是一个软件,本质上已经是一个「伪装成应用程序的操作系统」。

首先是CSS的「混沌理论」。

CSS标准里充满了各种历史遗留的怪癖、层叠规则(Cascade)和复杂的继承逻辑。

其次是「虚拟机里的虚拟机」。

现代网页跑的Javascript代码需要内存管理、垃圾回收(GC)和安全沙箱。

最要命的是,它选了Rust。

人类工程师在写业务逻辑时,往往要花一半的时间和编译器「吵架」,处理借用检查(BorrowChecker)和生命周期问题。

能在七天内把这些硬骨头啃下来,并且让它们协同工作,这已经不是简单的「写得快」了,这意味机器开始具备了顶级的架构掌控力。

但这则新闻真正的炸点,其实不在于浏览器本身,而在于那个「Uninterrupted」(无中断)

在此之前,我们熟悉的AI编程工具(比如早期的Copilot)的情况是:你写个函数头,它补全五行代码;你发个指令,它生成一个脚本。

一旦任务稍微复杂一点,比如「重构这个模块」,它们往往会顾头不顾尾,改了这头坏了那头,最后还得人来擦屁股。

这300万行代码分布在数千个文件里。

当渲染引擎和JS虚拟机打架时,它必须能回溯几万行代码去寻找Bug的源头。

但它没有停下来报错等待人类投喂答案,而是自己读取错误日志,自己调试,自己重构,然后继续前行。

现在,这条护城河被填平了。

以前我们指挥AI做「任务」,比如「写个贪吃蛇」;

沉默的螺旋

当算力可以转化为极其复杂的工程实施能力时,软件开发的边际成本将趋近于零。

它不眠不休,不急不躁,以每秒数千字符的速度构建着数字世界的基石。

只有当工具开始独自在深夜里解决问题时,我们才明白,它不再只是工具,而是我们的同行者。

用5行代码逼疯硅谷的澳洲放羊大叔,其实只做了一件事情,就是让AI不达目标不能停止。

就像今天Cursor CEO搞的这个极限压力测试一样,目标就是造一个Chrome、造一个Windows、开发一个Excel,只要没完成目标,AI就要一直运行下去。 回到最开始那个问题:

物理上的答案是无穷。只要你有足够的算力、稳定的基础设施、清晰的任务定义,AI可以无限运行下去。

传统软件开发的主要成本是人力和时间

现在,AI可以在一周内完成原本需要数月的工作。

他还有一个想法:用多少token能够重写一套Windows级别的操作系统?成本如何?

GPT-5.2连肝7天,300万行代码造出Chrome级浏览器nerror="javascript:errorimg.call(this);">

于是,软件经济学就被彻底颠覆。比如,软件按照授权付费的方式恐怕要消失了。

从前,代码是人类一行一行敲出来的产物。

一个模型能跑多久?

参考资料:

https://x.com/leerob/status/2011565729838166269

本文来自微信公众号“新智元”,编辑:定慧 艾伦,36氪经授权发布。


顶一下()     踩一下()

热门推荐

发表评论
0评