Mr.Ai

Created2026-04-12

Hermes Agent 不完全指南，一个会自己长脑子的 AI Agent上周五晚上，我在终端里敲了一行命令。 hermes claw migrate --dry-run 回车之后我就愣住了。它检测到了我的 ~/.openclaw 目录。SOUL.md、MEMORY.md、所有自定义 Skills、API Keys，一个不落地列了出来。甚至还标注了哪些能完美迁移，哪些需要手动调。我当时脑子里就一个想法，这是来抢人的。 Hermes Agent 是 Nous Research 做的开源 AI Agent。说真的，我之前对 Nous Research 的印象还停留在他们开源的那几个大语言模型上，没想到他们悄悄憋了个大招。 GitHub 上线 42 天，将近 4 万 Star。200 多个贡献者。这个数据放在 AI Agent 赛道里，不只是火了，是爆炸级的。但 Star 数这东西你也知道，很多时候就是大家先 Star 了再说，真正用的人没几个。我自己是抱着「看看又是个啥」的心态开始翻它的文档的。翻完之后我得说，这玩意确实有点东西。它最大的卖点不是支持 15 个模型提供商，不是能 ...

Anthropic 发布最强模型 Claude Mythos，但不让你用

Created2026-04-08

Anthropic 发布最强模型 Claude Mythos，但不让你用今天 Anthropic 做了一件前所未有的事：发布了一个模型，然后宣布不给你用。 Claude Mythos Preview，跑分数据断崖式领先，USAMO 数学证明从 42% 飙到 97.6%，SWE-bench Verified 代码修复冲到 93.9%——但对普通用户、开发者、企业客户来说，这个模型不存在。不上 claude.ai，不开 API。它只做一件事：找漏洞。跑分炸裂，但你可以忽略先快速过一遍数据。Mythos 对比 Anthropic 上一代旗舰 Opus 4.6：基准测试 Opus 4.6 Mythos Preview SWE-bench Verified 80.8% 93.9% SWE-bench Pro 53.4% 77.8% USAMO 2026（数学证明） 42.3% 97.6% GraphWalks BFS（超长上下文） 38.7% 80.0% Terminal-Bench 2.0 65.4% 82.0% USAMO 从四成直接拉到接近满分，这个 ...

YC 的 CEO 兼职 60 天写了 60 万行代码，他把方法开源了

Created2026-04-08

YC 的 CEO 兼职 60 天写了 60 万行代码，他把方法开源了Andrej Karpathy 三月份在一个播客上说了句话，我听完之后愣了好一会儿。「我大概从去年十二月开始就没怎么自己敲过代码了。」 Karpathy 啊。前 OpenAI 联合创始人，前特斯拉 AI 总监，现在自己做 AI 教育公司。这个级别的人说自己不写代码了，而且语气特别平静，就好像在说今天天气不错。然后没过几天，我刷到了另一个人的数据。 Garry Tan，Y Combinator 的 CEO。对，就是那个全球最出名的创业加速器的掌门人。他在 GitHub 上开源了一套叫 gstack 的工具，README 里贴了一组数字。 60 天，60 万行生产代码。35% 是测试。每天 1 到 2 万行。而且他是兼职写的。白天要全职运营 YC，管理几千家创业公司。他的一周 retro 截图显示，140,751 行新增，362 次提交，净增大约 11.5 万行代码。就一周。我第一次看到这组数据的时候，第一反应是不信。一个人，兼职，一周 11 万行？我自己也天天用 Claude Code，状态最好的时候一天撑 ...

我文章里那些好看的信息图，都是这一个免费工具画的

Created2026-04-08

我文章里那些好看的信息图，都是这一个免费工具画的最近有朋友问我，你文章里那些信息图是怎么画的，配色统一风格统一，看着像一个人做的。我当时回了一句，确实是一个「人」做的，只不过这个人是 AI。然后对方来了兴趣，追问用的什么工具。我想了想，觉得这个东西可能不止他一个人好奇，干脆写篇文章聊聊。先说个背景。我写文章有个习惯，每篇都会配信息图。不是随便找张网图凑数的那种，是根据文章内容专门做的。环形流程图、金字塔对比、中心辐射图、管线流程图，根据内容的结构来选合适的布局。之前推荐 gstack 的那篇，5 张信息图。推荐 Skills 的那篇，好几张。还有其他几篇文章，加起来前前后后画了几十张了。坦率的讲，这个量级如果是人工做，要么得请一个设计师，要么得花大量时间自己学设计软件。我一个写代码的，让我用 Figma 画信息图，画出来大概长这样，文字挤在一起，配色辣眼睛，排版全靠缘分。但我用 AI 来画，画出来的效果你们也看到了。风格统一，配色舒服，信息层次清晰。关键不是我有什么隐藏天赋。关键是工具选对了。我用的这个工具叫 baoyu-skills。它是一个开源的 Claude ...

当 AI 开始扮演你的同事、前任和老板

Created2026-04-06

当 AI 开始扮演你的同事、前任和老板最近 Skills 生态里冒出了一类很有意思的东西——关系型 Skills。不是让 AI 帮你写代码、做 PPT、搜资料，而是让 AI 扮演你生活中的某个角色。同事、老板、前任、你自己，甚至乔布斯和马斯克。GitHub 上相关的项目一个接一个冒出来，多语言 README、数千 Star。这个话题已经出圈了。不是只有技术社区在讨论——「同事.skill 爆火，AI 正在吃掉职场经验？」「同事被炼化成了 Token，AI 能否偷走职场经验？」「当同事、老板、前任都被做成 Skill：人类正在被重新定价」……知乎热榜「同事.skill爆火」240 万热度，17 个回答、几十篇专栏文章。机器之心写了「疯狂的Skill」专题，新浪科技跟进报道，连心理学话题区都在讨论伦理问题。一个 GitHub 上的开源项目，能在几天之内引发这么广泛的讨论，本身就说明它触动了什么。乍一看是玩梗。但细看之后你会发现，这波东西背后藏着一个比技术本身更值得聊的话题。它们都在做什么？同事.skill — 把离职同事变成 AIGitHub：https://github.co ...

用 Claude 自动化了一整天工作流，我总结出这些

Created2026-04-06

用 Claude 自动化了一整天工作流，我总结出这些最近看到一个视频，SEO 创业者 Julian Goldie 做了一个一小时的 Claude 大师课，现场演示了用 Claude 构建落地页、自动化 SEO 内容、创建小程序、管理社交媒体——全程不写一行代码。说实话，一开始我觉得这种标题又是一个”AI 万能论”的营销视频。但看完之后，我发现他演示的几个工作流设计思路确实有东西——不是 Claude 能做什么，而是怎么把 Claude 的能力编排成可复用的系统。这篇文章不是视频的整理稿。我挑了他演示中最有价值的几个思路，结合我自己这段时间用 Claude 的体感，以及社区里的一些最佳实践，重新组织了一下。一、Projects：不是”项目”，是你的自动化机器人Claude 里面有个功能叫 Projects，很多人可能完全没注意过。它藏在侧边栏里，点进去才能看到。 Julian 现场演示了他的 Projects 列表——SEO 写作、推文创作、直播准备、YouTube 标题生成，每个都是一个独立的自动化工作流。一个 Project 本质上是一个定制的 Claude 实例，包含三个 ...

Harness Engineering：两周内从博客到行业共识的新工程学科

Created2026-03-31

Harness Engineering：两周内从博客到行业共识的新工程学科引言2026 年 2 月 5 日，Mitchell Hashimoto（HashiCorp 创始人、Ghostty 终端作者）发了一篇博客，标题很朴素——“My AI Adoption Journey”。文中第五步，他写了这么一段话： “I don’t know if there is a broad industry-accepted term for this yet, but I’ve grown to calling this harness engineering. It is the idea that anytime you find an agent makes a mistake, you take the time to engineer a solution such that the agent never makes that mistake again.” 两周后，OpenAI、Anthropic、Martin Fowler、Ethan Mollick、LangChain 全部跟进 ...

这 8 个 Skills，装了就回不去了

Created2026-03-31

这 8 个 Skills，装了就回不去了前言最近 Skills 这个话题很火，社区里有不少推荐必装 Skills 的文章，反响不错，评论区也有不少讨论。我看完之后，一方面觉得确实有不少好用的，另一方面也觉得可以从我自己的使用角度补充几个。所以这篇文章的结构是这样的：前 6 个来自社区热门推荐，我加上自己的实际体感；后 2 个是我自己在用的，觉得值得单独拿出来说说的。在开始之前，先说一个我自己的判断标准：好的 Skill 不是让 AI “能做某件事”，而是让 AI “做某件事的下限大幅提高”。没有 Skill，AI 也能生成 Word、也能写前端页面、也能搜网页。但出来的东西质量波动很大，运气好还行，运气不好就是一坨。Skill 的价值在于把这个下限兜住——给 AI 一套经过验证的操作手册，让它不用每次从零摸索。明确了这一点，我们开始。一、Frontend Design 链接：https://github.com/anthropics/skills/tree/main/skills/frontend-design Anthropic 官方出品，Claude 插件网站排名 ...

深入 Agentic CLI 架构：用 Claude Code 拆解它自己的七层设计

Created2026-03-28

深入 Agentic CLI 架构：用 Claude Code 拆解它自己的七层设计引言很多人以为 AI 编码工具就是”套壳调 API”——拿到用户输入，发给大模型，把回复打印到终端。十行代码就能搞定。但如果你真的尝试从零构建一个能操作文件系统、执行终端命令、管理多轮对话的 Agentic CLI，你会发现：调 API 确实是十行代码的事，剩下的九千九百九十行才是真正的工程。于是我做了一件可能有点奇怪的事：用 Claude Code 来拆解 Claude Code 自己。这种”拆解者就是被拆解的对象”的视角，能暴露出很多从外部看不到的工程细节。 1. 六层单向依赖：架构的骨架一个 Agentic CLI 可以被拆成六层，依赖关系严格单向——上层依赖下层，反过来不行：层级职责 Core 引擎层 Agent Loop、SSE 流式客户端、上下文管理、compact 压缩 Tools 工具层 21 个内置工具 + MCP 外部工具客户端 UI 渲染层终端流式文本输出、进度指示、颜色主题 Plugins 插件层运行时注入工具和生命周期 hook S ...

从"推理思维"到"智能体思维"

Created2026-03-26

从”推理思维”到”智能体思维” 作者：林俊阳（Junyang Lin），通义千问 Qwen 团队原文发布于 2026-03-26 核心论点我们正在从”训练模型”的时代，过渡到”训练智能体”的时代，再到”训练系统”的时代。思维的形态正在从孤立的长链推理（reasoning thinking），转向在与环境交互中持续行动的智能体思维（agentic thinking）。 1. o1 和 R1 的真正启示 OpenAI 的 o1 证明了”思考”可以作为一种一等能力来训练和展示；DeepSeek-R1 证明推理式后训练可以在原始实验室之外被复现和规模化核心教训：要在语言模型中规模化 RL，需要确定性的、稳定的、可扩展的反馈信号。数学、代码、逻辑等可验证领域成为核心，因为其奖励信号远强于通用偏好监督推理模型的涌现既是建模故事，也是基础设施故事 —— 需要大规模 rollout、高吞吐验证、稳定的策略更新和高效采样第一次大转变：从扩展预训练到扩展推理后训练 2. “合并思考与指令模式”远比想象中困难 Qwen3 尝试将思考模式与指令模式统一（hybrid thinking mode ...