范凯说 AI · 周日晚聊第17期：双轮驱动时代，普通人如何让试错飞轮转起来

开场

大家好，这里是《范凯说 AI · 周日晚聊》，我是范凯。今天是第 17 期，意味着 2026 年已经过了 17 周了。

这一周 AI 行业非常热闹，感觉一周就像过了一个月，发生了非常多的故事。今天要跟大家聊几个重要的新闻：GPT-5.5 发布，跟 Claude Opus 4.7 正面对决；SpaceX 宣布和 Cursor 达成合作，要么 600 亿美元收购，要么 100 亿分手费；还有 DeepSeek V4 在两天前刚发布。

第一部分：本周 AI 新闻

新闻一：GPT-5.5 对战 Claude Opus 4.7，模型战争进入正面对决

GPT-5.5 有几个关键信息。第一，它是 GPT-4.5 以来第一个完全重新训练的基础模型，不是打补丁，是从头来过。第二，支持 100 万 token 的超长上下文。第三，同一天 OpenAI 还发布了 ChatGPT Image 2.0，图像生成升级版，支持 4K 分辨率，文字渲染终于支持中文、日文、韩文了。一天发两个产品，时机很微妙——就在 Anthropic 发布 Opus 4.7 之后的一周。

评测数据来看，两个模型各有擅长：长任务工具使用 GPT-5.5 领先，代码工程 Opus 4.7 领先，前沿数学 GPT-5.5 领先很多。从基础能力上两者差不多，但智能体方面 Claude Opus 应该还是领先的。

Opus 4.7 值得单独说一下。它不是 Opus 4.6 的升级版本，而是 Anthropic 尚未公开的最强模型 Mythos 的一个阉割版本，所以某些方面表现不如 Opus 4.6。我自己目前还是主要用 Opus 4.6 和 GPT-5.5，国内几乎没有专门用过 Opus 4.7。

图像生成方面，ChatGPT Image 2.0 在社交媒体上出现了很多以假乱真的图，挺有趣的。这块目前头部有 GPT Image、Gemini Imagen 和 Midjourney，OpenAI 在积极补短板。

我的判断： 两家公司的竞争维度已经悄悄变了。以前比的是谁的模型跑分高，现在更重要的是谁的生态更完整。OpenAI 一天发两个产品，是在同一时间点往两个方向覆盖，目的是让用户没有理由离开自己的生态。

新闻二：SpaceX + Cursor，600 亿押注编程智能体

SpaceX 和 Cursor 达成了一份合作协议：到今年年底，SpaceX 要么以 600 亿美元收购 Cursor，要么支付 100 亿美元分手费。这是一个到年底到期的购买选项，不是已经收购了。Cursor 目前估值约 90 亿美元，SpaceX 给出了 6 倍以上的溢价。

为什么 SpaceX 愿意出这个价格？答案很讽刺：SpaceX 自己的工程师不爱用 Grok，而偏好用 Claude 和 Cursor。这对马斯克来说是个很难堪的信号。SpaceX 已经完成了把 xAI 并入的整合，Grok 是自家资产，但自家工程师不买单。

这件事有个更大的意义。现在来看，三家巨头在做同一件事：

Anthropic：Claude 模型 + Claude Code（编程 Agent）
OpenAI：GPT-5.5 + Codex（编程 Agent）
SpaceX/xAI：Grok 模型 + Cursor（如果收购成功）

三家都在形成同一个飞轮——一个强模型，配一个编程 Agent，两个轮子同时转。谁缺了编程 Agent 这个轮子，就没办法参与这场竞争。这是整个行业达成的共识，不是巧合。

我的判断： 目前 Anthropic 遥遥领先，因为他们最早开始做这件事。OpenAI 奋起直追，Grok + Cursor 在试图形成第三个飞轮。而 Google 很危险——Google DeepMind 团队自己都在用 Claude Code，公司强迫大家用 Gemini CLI，大家都不愿意用，这是个很危险的信号。

新闻三：DeepSeek V4，两天前刚发布的热乎消息

DeepSeek V4 是两天前发布的 Preview 版本。V4-Pro 有 1.6 万亿总参数，激活参数 490 亿，支持 100 万 token 超长上下文；V4-Flash 是轻量版，2840 亿总参数，激活 130 亿，速度更快。全部 Apache 2.0 开源。

有个效率数据很惊人：V4-Pro 的推理算力消耗只有上一代 V3.2 的 27%，内存使用只有 10%。用更少的资源跑出接近或更强的效果，这是 DeepSeek 一贯的风格。

我自己没有花时间评测 DeepSeek V4，现在主要用的是 Claude Opus 4.6 和 GPT-5.5，国内模型用得很少。从社区的评测来看，V4 比 V3 有进步，但距离顶级闭源模型还有一些差距，主打的还是性价比路线。

对因为访问限制用不上海外模型的用户来说，DeepSeek V4 是一个值得关注的国产替代方案——开源、能力强、国内访问稳定，这三点加在一起很有竞争力。

延伸：双轮驱动的底层逻辑——从罗福莉访谈说起

本周看了张小珺对小米大模型负责人罗福莉长达三个半小时的访谈，她之前是 DeepSeek V2、V3 的核心研发人员，去年下半年跳槽到小米，现在主导了 MIMO V2——一万亿参数的 MOE 专家模型。我用两倍速看了 20 分钟，然后让 AI 把三个半小时的文字稿都整理了，光文字稿就看了一个半小时，看到深夜两点多，非常有料。

从这个访谈里，我得到了两个非常重要的洞察：

第一，智能体极大加速了 AI 行业的发展。 过去计划半年才能完成的模型工作，现在可能一个月就完成了——前沿模型的开发周期被提速了 3 到 5 倍。这种前沿模型反过来又推动智能体能力更强，智能体更强又让新模型迭代更快，形成了模型和智能体的双轮驱动。这种加速可能是 5 到 10 倍。照这个速度，AGI 可能 2 到 3 年就有可能实现。

第二，AI 模型的训练方向根本性地变了。 从 2022 年底 ChatGPT 出来，过去三年 AI 模型的目标都是更好地跟人对话。但从 2025 年年底开始，整个方向变了——现在所有模型训练的重心，是更好地支持智能体。上下文窗口从 1M 扩到以后可能 1000 万 token，都是为智能体服务的。这意味着 26-28 年是一个全新的智能体元年。

对应到行业格局：谁的模型为智能体做了训练，谁就在正确的道路上。

国际： Anthropic 最领先（最早做编程智能体飞轮），OpenAI 紧追，Grok + Cursor 在试图形成第三个飞轮。Google 很危险——如果不在智能体上发力，一年之后很有可能被甩开。不过 Google 有个两手准备：既是 Anthropic 的大股东，也是 SpaceX 的大股东，这是落于不败之地的重要原因。Meta 还没摸到头脑。

国内： Deepseek、智谱 GLM、Kimi、Minimax（三小）加上小米，这几家是在正确路线上的。而腾讯、字节、阿里三家大厂的模型，训练目标是配合自己的业务（抖音、社交、电商），并没有 all in 智能体方向。我的判断是：如果编程智能体的飞轮真的是决定性的，这三家大厂在模型层可能两年内会全面落后——这是我的一个"暴论"，大家可以关注这个判断。

第二部分：个人感想——把大脑的一部分外包给 AI

今天时间有限，简单说开头，下周详细展开。

过去不到两周，我写了整整 26 个 Skill。几个最重要的实践：

第一件：知识库 Markdown 化。 把过去在印象笔记、语雀、网易有道笔记里积累的 2000 多篇笔记，整理到 900 多篇 Markdown 文件，分门别类建立关联，全部放在 Obsidian 里交给 AI 管理。写了 4 个 Skill：保存、导入、建关联、健康检查——按照 Andrej Karpathy 那套理论来写的。

第二件：CRM 联系人管理。 把 300 多个联系人整理成 Markdown 文档，每个人前面是 YAML 格式的固定信息，后面不断追加联系记录。整完之后，我跟 AI 说今天跟谁见面、聊了什么，它马上能找出这个联系人的历史记录，还能把相关联系人建立关联关系。

这两件事做完之后，最明显的感受是：AI 开始真正了解我了。以前每次让 AI 帮我做事，要花很长时间解释背景；现在不需要了，我直接说任务，它知道该怎么做。我把自己的大脑"Markdown 化"了——把知识变成了 AI 能组织和理解的文档。

第三件：Coach Skill。 前天早上发现自己有非常严重的拖延症，花了半个小时写了一个叫 Coach 的教练技能。这个技能会加载我过去写好的时间管理、拖延症、两分钟奇迹法等方法论，每天早上问我今天的状态和计划，帮我排优先级、全程跟进督促。

结果：我用了三天，治愈了自己 20 年治不好的拖延症。不是 AI 突然变聪明了，而是因为它现在真的了解我的处境，用我认同的方法来推我。就像请了私教——有人每天贴身督促你，效果完全不同。

这些实践让我越来越清晰地看到一件事：当你把知识 Markdown 化、把能力 Skill 化之后，AI 会在三个层面同时加速你：

学习加速：知识库沉淀了你的积累，遇到新问题 AI 直接整合，学习效率至少快 5 倍
决策加速：AI 了解你的背景、目标、历史判断，很多以前要纠结好几天的事，现在一个下午就能清晰
执行加速：帮你写作、创作视频、做数据分析、爬取数据……各种事情 Skill 流水线，效率以前根本无法比较

三层叠加，如果每个环节快 10 倍，叠加起来就是 100 到 1000 倍。

人的一生本质是试错——你不知道哪条路对，只能有想法、去做、看结果、调整、再来。过去一年能试几次，现在试错速度快 1000 倍，相当于并行跑了 100 条人生，找到最成功路径的概率完全不是一个量级。这是 AI 时代个人竞争的底层逻辑。

同样的逻辑映射到行业层面，就是今天讲的三条新闻——GPT-5.5、SpaceX Cursor、DeepSeek V4——所有的竞争，最后都是飞轮转速的竞争。Anthropic 的飞轮是 Claude Code 带来开发者消耗 Token → 营收 → 更强模型 → 更多开发者。个人的飞轮，道理是一样的。

用户答疑精选

Q：Claude Code 和 Codex 怎么互补使用？为什么觉得 CC 比 Codex 难用？
A：它们代表两种不同的哲学。Codex 适合交一个大活——任务写明白，让它跑一两个小时给你结果，省心省力。Claude Code 更像瑞士军刀，适合随时处理各种事情：写作、创作视频、连接 Stripe 查账单、指挥 Chrome 爬数据……响应快，适合喜欢自己随时鼓捣的人。我自己是用 Claude Code 干活，干完让 Codex 做 Code Review，再把 Review 结果交给 Claude Code 逐一修复。

Q：哪个智能体组合性价比最高？
A：能解决访问问题且预算 OK 的话，推荐同时用：① Claude Code + Claude 模型，代表现在最顶尖的生产力；② GPT-5.5 + Codex，能做到 Claude Code 做不好的一些事。两个组合同时用，是目前性价比最高的方式。

Q：Openclaw 小龙虾和 Hermes 爱马仕用哪个？
A：两个都装了。Openclaw 功能更多更完善，生态更好；Hermes 结构更简单。如果选不出来，闭眼选 Openclaw 就行。出了问题让 Codex 帮你修复就好了，这都不是个事。

Q：Skill 在不同智能体之间通用吗？
A：通用的。我所有 Skill 放在 Workspace 知识库目录下，Claude Code、Codex、open-code、Openclaw、Hermes 全部共用同一套。这个知识库在笔记本和 Mac 工作站之间同步，不管在哪台电脑，所有智能体都能用同一套 Skill。只写一处，到处都有。

Q：你用什么知识库工具？
A：Obsidian，自己构建的 Markdown 文件体系。

Q：微信聊天记录怎么处理？
A：做了一个微信导出 Skill，能一键把过去 15 年的微信聊天记录解密导出，包括 5000 多个联系人和 1000 多个对话 session。用智能体连上这个数据库，随时查询过去和任何人聊了什么，还支持增量导出。这个 Skill 因为涉及隐私不方便公开分享。

Q：AI 智能体越来越强，未来商业软件还有存在的意义吗？
A：我认为未来可能 80% 的软件需求会被"智能体 + Skill"解决，而且更高度个性化——很多我之前想做的软件，现在直接用 Skill 实现了。但对于非常通用的需求、执行速度要求高、需要确定性逻辑的场景，还是值得做成商业软件。好的路径是：先用智能体 + Skill 快速跑 MVP 原型，市场验证之后再变成独立软件，这个流程很顺。

本期金句

试错的速度，决定了成功的概率。别人过完一个人生，你已经并行跑了 1000 条。
知识 Markdown 化 + 能力 Skill 化，这是打造专属 AI 管家最核心的两件事。
学习快 10 倍、决策快 10 倍、执行快 10 倍——三层叠加，才是真正的竞争优势。
AI 放大的永远是你已经有的东西——你的经验和知识，才是真正的核心资产。
从你最痛的一个工作流开始，写你的第一个 Skill——50 分的先跑起来，再慢慢迭代。
这一周，模型在加速，Agent 在加速，连国内都在加速。你的飞轮，有没有在转？