YC 的 CEO 兼职 60 天写了 60 万行代码,他把方法开源了

Andrej Karpathy 三月份在一个播客上说了句话,我听完之后愣了好一会儿。

「我大概从去年十二月开始就没怎么自己敲过代码了。」

Karpathy 啊。前 OpenAI 联合创始人,前特斯拉 AI 总监,现在自己做 AI 教育公司。这个级别的人说自己不写代码了,而且语气特别平静,就好像在说今天天气不错。

然后没过几天,我刷到了另一个人的数据。

Garry Tan,Y Combinator 的 CEO。对,就是那个全球最出名的创业加速器的掌门人。他在 GitHub 上开源了一套叫 gstack 的工具,README 里贴了一组数字。

60 天,60 万行生产代码。35% 是测试。每天 1 到 2 万行。

而且他是兼职写的。白天要全职运营 YC,管理几千家创业公司。

他的一周 retro 截图显示,140,751 行新增,362 次提交,净增大约 11.5 万行代码。就一周。

我第一次看到这组数据的时候,第一反应是不信。

一个人,兼职,一周 11 万行?

我自己也天天用 Claude Code,状态最好的时候一天撑死了几千行。60 万行是什么概念,很多中型公司一个季度都写不了这么多。

但是你去翻他的 GitHub 贡献图,2026 年 1,237 次贡献。然后他自己贴了一张 2013 年的对比图,那年他在 YC 内部做 Bookface,全职工程师,772 次贡献。同一个人,同样的 24 小时,差了十年,贡献数反而翻了快一倍。

他旁边写了一句话,「Same person. Different era. The difference is the tooling.」

同一个人。不同的时代。差距在于工具。

我看完之后坐了好一会儿。然后花了一整天把 gstack 的文档和源码扒了一遍。

看完之后我得说,这玩意确实有点东西。

gstack 是一套 Claude Code 的 Skills 工具集。23 个 Skills,外加 8 个强力工具。它做的事情用一句话概括就是,把 Claude Code 变成一个虚拟工程团队。

你自己是 CEO。然后你有一堆角色给你打工。

有帮你做产品审视的,叫 /office-hours,模仿的是 YC 著名的 Office Hours 传统。不是那种「你的目标用户是谁」的废话问答,而是六个灵魂拷问,直接挑战你的产品前提。你说你要做日历简报 App,它告诉你不,你描述的痛点明明需要一个私人参谋 AI。它会逼你重新审视自己到底在做什么。

有从 CEO 视角审视产品范围的 /plan-ceo-review,有从工程经理视角锁定架构的 /plan-eng-review,有从设计师视角审查 AI 审美的 /plan-design-review。有资深工程师做代码审查的 /review,有 QA Lead 打开真实浏览器做测试的 /qa,有首席安全官跑 OWASP 和 STRIDE 审计的 /cso,还有发布工程师一键上线的 /ship。

每个角色各司其职。

但 gstack 真正让我觉得牛逼的,不是某个具体的 Skill 有多好用。而是它的上下游衔接设计。

它定义了一个 Sprint 流程。Think,Plan,Build,Review,Test,Ship,Reflect。每一个环节都有对应的 Skill,而且上一个 Skill 的输出会自动变成下一个 Skill 的输入。

gstack Sprint 工作流:Think→Plan→Build→Review→Test→Ship→Reflect 七步闭环

你跑完 /office-hours,它会生成一份设计文档。

你跑 /plan-ceo-review,它会自动读取那份设计文档来做产品评审。

你跑 /plan-eng-review,它会基于前面两步的结果来锁定架构,画 ASCII 架构图,列测试矩阵,把隐藏的假设全部逼到台面上。

然后 /qa 会自动拿到测试计划来跑测试。/review 会基于代码变更来做审查。/ship 会验证所有修复都到位了再发布。

整个链条是串起来的。任何一个环节都不会空转。

上下游自动衔接:上游输出自动变成下游输入

我跟你说,这个设计才是 gstack 的灵魂。

我们平时用 Claude Code,不管是写代码还是做别的,最大的问题是什么?是你每次都要从零开始给 AI 上下文。你让 AI 帮你做一个功能,你得先告诉它你的项目是什么、架构是什么、之前做过什么。你让它帮你 review 代码,你得告诉它你的代码规范是什么、哪些地方需要特别注意。

每一次,都是一次全新的对话。AI 对你项目的理解永远停留在你说出来的那几句话里。

gstack 解决的就是这个问题。

它不是给你一个更聪明的 AI,而是给 AI 一套流程。流程本身就是上下文。你不需要每次都从头解释你在做什么,因为上一个 Skill 已经帮你写好了。

这个感觉就像什么,就像你从一个人闷头写代码,变成了一个人管理一个团队。

一个人 = 一个团队:6个虚拟角色环绕中心CEO

你不需要自己去做每一件事。你只需要在关键节点做决策。

举个例子。你想做一个日历简报 App。你先跑 /office-hours,它像 YC 的合伙人一样问你六个问题,然后告诉你,你说的不是日历简报,你需要的是一个私人参谋 AI。它帮你重新定义问题,生成设计文档。

然后你跑 /plan-ceo-review,它读取设计文档,从 CEO 的角度审视范围。四个模式,扩张、选择性扩张、保持范围、缩减,它告诉你哪个最合理。

再跑 /plan-eng-review,工程经理视角,架构图、数据流、状态机、错误路径、测试矩阵,全给你画好。逼你把所有隐藏假设摆在台面上。

然后你退出计划模式,Claude 开始写代码。Garry 说他自己的体验是大概 8 分钟,2400 行代码,11 个文件。

然后跑 /review,自动修两个问题,再让你确认一个竞态条件。跑 /qa,打开真实浏览器,点击各种流程,发现一个 bug,自动修复,生成回归测试。跑 /ship,测试从 42 个涨到 51 个,PR 自动创建。

从头到尾,你在做的不是写代码。你在做的是,审查,决策,确认。

跟一个真正的 CEO 做的事一模一样。

说到这个,我想多聊聊这种「一个人管理一个团队」的感觉。

我自己用 Claude Code 也有一段时间了,之前也写过几篇文章分享使用经验。我之前的体感是,Claude Code 就像一个特别强的实习生,什么都能干,但你得盯着,得手把手教。有时候写出来的代码真的很惊艳,有时候又蠢到让你怀疑它是不是偷偷换了个模型。

gstack 改变的是这个关系。

装上 gstack 之后,你不是在教一个实习生做事了。你是在管理一个有流程有分工的团队。CEO 做产品决策,工程经理做架构,设计师做审美,QA 做测试,安全官做审计。你作为真正的人类,只需要在关键节点签字。

这让我想起管理学里一个经典概念叫「管理幅度」。说的是一个管理者最多能管多少人。传统说法是 7 到 10 个人。但如果是 AI 呢?

AI 不需要你照顾情绪,不需要你做一对一沟通,不需要你处理人际冲突。你唯一需要做的就是做决策。

Garry 说他现在同时跑 10 到 15 个并行的 Sprint。每个 Sprint 是一个独立的 Claude Code 会话,每个在自己的工作空间里干活,互不干扰。一个在做 /office-hours,另一个在做 /review,第三个在写代码,第四个在跑 /qa。他说 10 到 15 个是目前的实际上限。

10-15个并行 Sprint:每个会话独立工作空间互不干扰

10 到 15 个并行 Sprint。

你想想看,一个传统创业公司,产品经理、设计师、前端、后端、QA、运维,一个功能从需求到上线,多少人,多少天。

现在一个人,一周,搞定。

顺着上面的再聊聊几个我觉得特别有意思的 Skill。

/design-shotgun 这个东西我真的第一次看到就觉得,这才对嘛。你描述你想要什么,它用 GPT Image 生成 4 到 6 个设计变体,然后在浏览器里打开一个对比面板,所有方案并排展示。你选喜欢的,给反馈,比如「留白多一点」「标题再大点」「渐变太丑了」。然后它基于你的反馈生成新一轮。

几轮下来,它开始记住你的审美偏好,偏向你喜欢的东西。

AI 做设计最大的问题不是它做不好,是它不知道你想要什么。你用文字描述审美,怎么描述都描述不准。但给你看六个方案让你挑,你一眼就知道哪个好。

/design-shotgun 就是把设计从「文字描述」变成了「视觉选择」。

然后是 /design-html,它能把设计稿直接变成可发布的 HTML。不是那种看起来挺好一调整窗口大小就崩的 AI HTML,是用了 Pretext 做计算布局的,文字会真的重排,高度会真的跟着内容走。30KB,零依赖。它还能自动检测你用的什么框架,React、Svelte、Vue 都能输出对应的格式。这个输出是真的能上线的,不是 demo。

/cso,首席安全官。这个我之前一直觉得是噱头,直到我跑了一次。OWASP Top 10 加 STRIDE 威胁模型,17 个误报排除规则,8 分以上置信度门槛,每个发现都带具体的利用场景。说真的,比我自己手动做安全审查靠谱多了。我之前写代码从来不考虑安全问题,不是说我不在乎,是我真的不太懂。/cso 至少帮我兜住了这个下限。

还有 /qa。这个可能是 gstack 里最能拉开差距的一个。

它不是跑自动化测试脚本那种 QA。它是打开一个真实的 Chromium 浏览器,像真人一样点击你的页面,走完各种流程,发现 bug 直接修,修完生成回归测试,然后再验证一遍。

Garry 说 /qa 是他最大的一个解锁。让他从 6 个并行 worker 涨到了 12 个。因为以前他得自己手动测试每个页面,现在 AI 自己打开浏览器自己测。

他原话是这么说的,Claude Code 在终端里突然蹦出一句「I SEE THE ISSUE」,然后自己修了,生成回归测试,验证修复。这种体验彻底改变了他的工作方式。

回到这块,可能有人会问,这么多 Skill,实际用的时候到底怎么串起来?

我梳理了一下,主流的使用方式大概有这么几种。

第一种,也是最推荐的,是走完整的 Sprint 流程。适合从零开始做一个新功能或者新项目。你先跑 /office-hours 把需求想清楚,然后跑 /autoplan,这个 Skill 会自动串联 CEO 评审、设计评审、工程评审,一口气跑完,只把需要你拍板的「品味决策」拎出来让你选。选完之后 Claude 开始写代码,写完跑 /review,跑 /qa,跑 /ship。一条龙。你全程只做了几道选择题,代码已经上线了。

这是 gstack 最完整也最省心的用法。Garry 自己说的,「Stop there. You’ll know if this is for you.」跑完这一轮你就知道自己适不适合这个工作方式。

第二种是「只做评审」。你已经有代码了,可能是自己写的也可能是别的 AI 生成的,你想让它帮你把把关。直接跑 /review,它会像资深工程师一样帮你找生产级别的 bug,能自动修的直接修了,拿不准的标记出来问你。如果你对安全有要求,再跑一个 /cso,一套安全审计就出来了。这种用法适合接手别人的代码、上线前做最终审查、或者对自己 AI 生成的代码不放心的时候。

第三种是「设计探索」。你不写代码,你只是想看看一个产品应该长什么样。跑 /design-shotgun 生成几个方案,挑喜欢的迭代几轮,满意了跑 /design-html 出生产级页面。整个过程中你可能一行代码都没碰,但出来的东西已经可以上线了。

第四种是「并行作战」。这是进阶用法。你有多个项目同时在推进,每个项目跑一个独立的 Claude Code 会话。一个在做产品评审,另一个在写代码,第三个在跑 QA,第四个在做安全审计。你的角色就变成了调度员,定期检查每个 Sprint 的状态,做关键决策,剩下的让流程自己跑。Garry 说他日常就是这种模式,10 到 15 个并行。

第五种比较轻量,就是「拿来测试」。你有一个已经部署好的网站或者 staging 环境,跑 /qa https://你的网址,它会打开真实浏览器帮你测,找到 bug 直接修,修完生成回归测试。如果你只想看报告不想让它改代码,跑 /qa-only 就行。

说真的,大多数人从第一种开始就够了。跑一两个完整 Sprint 下来,你就知道自己哪个环节最需要 AI 帮忙,然后再根据自己的节奏调整。

五种主流使用方式:从轻量测试到并行作战

你可能注意到了,我说了这么多,一直在聊「工作流」和「角色分工」,没花太多笔墨在具体的代码生成质量上。

这是故意的。

因为我觉得 gstack 最大的贡献不是让 AI 写的代码更好。代码质量这件事,随着模型的迭代,所有工具都会越来越好,今天 Claude 写得好,明天 Gemini 可能更好。gstack 解决的是另一个层面的问题。

它解决的是「一个人怎么规模化地使用 AI」。

怎么说呢。你一个人用 AI 写一个小工具,不需要 gstack,直接跟 Claude 聊就行。但你要同时推进五六个项目,每个项目都有需求梳理、架构设计、代码审查、测试、安全审计、发布这些环节,你自己一个个来,光是上下文切换就够你喝一壶的。

gstack 给了你一套流程。每个环节的输入输出都标准化了。你只需要在决策点出现的时候做选择。

这不是 AI 辅助编程。这是 AI 辅助管理。

还有一件事我觉得挺重要的。gstack 不只是 Claude Code 独占的。它支持 8 种 AI 编码工具,OpenAI 的 Codex CLI、Cursor、Factory Droid、Slate、Kiro、OpenCode 都能用。安装的时候自动检测你装了哪些。

这一点挺聪明。因为说真的,谁也不想被一个工具锁死。

安装也极其简单。一行命令,30 秒搞定。完全免费,MIT 开源协议,没有付费版,没有 waitlist。

Garry 在 README 里写了一句话,「I open sourced how I build software」。我把我的软件构建方式开源了。

这话听着挺朴素的。但想想看,YC 的 CEO,管着几千家创业公司的人,把自己的工作方式毫无保留地分享出来了。不管你觉得 gstack 好用不好用,这个姿态本身就挺让人尊敬的。

我看完 gstack 的所有文档之后,脑子里一直转着一个问题。

如果 Garry Tan 2013 年就有 gstack,他能做出什么。

如果 2013 年的一个全职工程师用今天的工具能跑出这样的产出,那今天一个有想法的独立开发者,用上同样的工具,能做到什么程度。

我自己的感受是,我们可能正站在一个特别有趣的时间点上。

以前一个人想做一件事,受限于自己的能力、时间、精力。你不可能同时是产品经理、设计师、工程师、QA、安全专家、运维。你只能选一个角色,剩下的要么找合伙人,要么外包,要么干脆不做。

现在,这些角色 AI 都能帮你兜住下限。你不需要在每个领域都是专家,你只需要有判断力,知道什么是好的什么是差的,然后在关键节点做决策。

说到底,AI 时代最值钱的能力不是写代码,不是做设计,不是任何一项具体技能。

是判断力。

是你能不能在一堆方案里挑出最好的那个。是你能不能在产品方向上做对选择。是你能不能在代码审查时看出那个别人都看不出来的坑。

gstack 把这种判断力的价值放大了。以前你的判断力只能通过你自己的双手来变现,你看出一个问题,你得自己动手修。现在你的判断力可以通过一个虚拟团队来变现,你看出一个问题,告诉 AI,它帮你修。

这个杠杆率是完全不同的数量级。

Peter Steinberger 用 AI Agent 一个人做出了 OpenClaw,24.7 万 GitHub Star。Garry Tan 兼职 60 天写了 60 万行代码。Karpathy 说他已经不怎么写代码了。

这些人不是在炫耀。他们是在展示一种新的可能性。

一个人,加上对的工具,就是一支队伍。

这不是什么鸡汤。这是 2026 年正在发生的事。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~
谢谢你看我的文章,我们,下次再见。