范凯说 AI · 周日晚聊 第17期:双轮驱动时代,普通人如何让试错飞轮转起来
开场
大家好,这里是《范凯说 AI · 周日晚聊》,我是范凯。今天是第 17 期,意味着 2026 年已经过了 17 周了。
这一周 AI 行业非常热闹,感觉一周就像过了一个月,发生了非常多的故事。今天要跟大家聊几个重要的新闻:GPT-5.5 发布,跟 Claude Opus 4.7 正面对决;SpaceX 宣布和 Cursor 达成合作,要么 600 亿美元收购,要么 100 亿分手费;还有 DeepSeek V4 在两天前刚发布。
第一部分:本周 AI 新闻
新闻一:GPT-5.5 对战 Claude Opus 4.7,模型战争进入正面对决
GPT-5.5 有几个关键信息。第一,它是 GPT-4.5 以来第一个完全重新训练的基础模型,不是打补丁,是从头来过。第二,支持 100 万 token 的超长上下文。第三,同一天 OpenAI 还发布了 ChatGPT Image 2.0,图像生成升级版,支持 4K 分辨率,文字渲染终于支持中文、日文、韩文了。一天发两个产品,时机很微妙——就在 Anthropic 发布 Opus 4.7 之后的一周。
评测数据来看,两个模型各有擅长:长任务工具使用 GPT-5.5 领先,代码工程 Opus 4.7 领先,前沿数学 GPT-5.5 领先很多。从基础能力上两者差不多,但智能体方面 Claude Opus 应该还是领先的。
Opus 4.7 值得单独说一下。它不是 Opus 4.6 的升级版本,而是 Anthropic 尚未公开的最强模型 Mythos 的一个阉割版本,所以某些方面表现不如 Opus 4.6。我自己目前还是主要用 Opus 4.6 和 GPT-5.5,国内几乎没有专门用过 Opus 4.7。
图像生成方面,ChatGPT Image 2.0 在社交媒体上出现了很多以假乱真的图,挺有趣的。这块目前头部有 GPT Image、Gemini Imagen 和 Midjourney,OpenAI 在积极补短板。
我的判断: 两家公司的竞争维度已经悄悄变了。以前比的是谁的模型跑分高,现在更重要的是谁的生态更完整。OpenAI 一天发两个产品,是在同一时间点往两个方向覆盖,目的是让用户没有理由离开自己的生态。
新闻二:SpaceX + Cursor,600 亿押注编程智能体
SpaceX 和 Cursor 达成了一份合作协议:到今年年底,SpaceX 要么以 600 亿美元收购 Cursor,要么支付 100 亿美元分手费。这是一个到年底到期的购买选项,不是已经收购了。Cursor 目前估值约 90 亿美元,SpaceX 给出了 6 倍以上的溢价。
为什么 SpaceX 愿意出这个价格?答案很讽刺:SpaceX 自己的工程师不爱用 Grok,而偏好用 Claude 和 Cursor。这对马斯克来说是个很难堪的信号。SpaceX 已经完成了把 xAI 并入的整合,Grok 是自家资产,但自家工程师不买单。
这件事有个更大的意义。现在来看,三家巨头在做同一件事:
- Anthropic:Claude 模型 + Claude Code(编程 Agent)
- OpenAI:GPT-5.5 + Codex(编程 Agent)
- SpaceX/xAI:Grok 模型 + Cursor(如果收购成功)
三家都在形成同一个飞轮——一个强模型,配一个编程 Agent,两个轮子同时转。谁缺了编程 Agent 这个轮子,就没办法参与这场竞争。这是整个行业达成的共识,不是巧合。
我的判断: 目前 Anthropic 遥遥领先,因为他们最早开始做这件事。OpenAI 奋起直追,Grok + Cursor 在试图形成第三个飞轮。而 Google 很危险——Google DeepMind 团队自己都在用 Claude Code,公司强迫大家用 Gemini CLI,大家都不愿意用,这是个很危险的信号。
新闻三:DeepSeek V4,两天前刚发布的热乎消息
DeepSeek V4 是两天前发布的 Preview 版本。V4-Pro 有 1.6 万亿总参数,激活参数 490 亿,支持 100 万 token 超长上下文;V4-Flash 是轻量版,2840 亿总参数,激活 130 亿,速度更快。全部 Apache 2.0 开源。
有个效率数据很惊人:V4-Pro 的推理算力消耗只有上一代 V3.2 的 27%,内存使用只有 10%。用更少的资源跑出接近或更强的效果,这是 DeepSeek 一贯的风格。
我自己没有花时间评测 DeepSeek V4,现在主要用的是 Claude Opus 4.6 和 GPT-5.5,国内模型用得很少。从社区的评测来看,V4 比 V3 有进步,但距离顶级闭源模型还有一些差距,主打的还是性价比路线。
对因为访问限制用不上海外模型的用户来说,DeepSeek V4 是一个值得关注的国产替代方案——开源、能力强、国内访问稳定,这三点加在一起很有竞争力。
延伸:双轮驱动的底层逻辑——从罗福莉访谈说起
本周看了张小珺对小米大模型负责人罗福莉长达三个半小时的访谈,她之前是 DeepSeek V2、V3 的核心研发人员,去年下半年跳槽到小米,现在主导了 MIMO V2——一万亿参数的 MOE 专家模型。我用两倍速看了 20 分钟,然后让 AI 把三个半小时的文字稿都整理了,光文字稿就看了一个半小时,看到深夜两点多,非常有料。
从这个访谈里,我得到了两个非常重要的洞察:
第一,智能体极大加速了 AI 行业的发展。 过去计划半年才能完成的模型工作,现在可能一个月就完成了——前沿模型的开发周期被提速了 3 到 5 倍。这种前沿模型反过来又推动智能体能力更强,智能体更强又让新模型迭代更快,形成了模型和智能体的双轮驱动。这种加速可能是 5 到 10 倍。照这个速度,AGI 可能 2 到 3 年就有可能实现。
第二,AI 模型的训练方向根本性地变了。 从 2022 年底 ChatGPT 出来,过去三年 AI 模型的目标都是更好地跟人对话。但从 2025 年年底开始,整个方向变了——现在所有模型训练的重心,是更好地支持智能体。上下文窗口从 1M 扩到以后可能 1000 万 token,都是为智能体服务的。这意味着 26-28 年是一个全新的智能体元年。
对应到行业格局:谁的模型为智能体做了训练,谁就在正确的道路上。
国际: Anthropic 最领先(最早做编程智能体飞轮),OpenAI 紧追,Grok + Cursor 在试图形成第三个飞轮。Google 很危险——如果不在智能体上发力,一年之后很有可能被甩开。不过 Google 有个两手准备:既是 Anthropic 的大股东,也是 SpaceX 的大股东,这是落于不败之地的重要原因。Meta 还没摸到头脑。
国内: Deepseek、智谱 GLM、Kimi、Minimax(三小)加上小米,这几家是在正确路线上的。而腾讯、字节、阿里三家大厂的模型,训练目标是配合自己的业务(抖音、社交、电商),并没有 all in 智能体方向。我的判断是:如果编程智能体的飞轮真的是决定性的,这三家大厂在模型层可能两年内会全面落后——这是我的一个"暴论",大家可以关注这个判断。
第二部分:个人感想——把大脑的一部分外包给 AI
今天时间有限,简单说开头,下周详细展开。
过去不到两周,我写了整整 26 个 Skill。几个最重要的实践:
第一件:知识库 Markdown 化。 把过去在印象笔记、语雀、网易有道笔记里积累的 2000 多篇笔记,整理到 900 多篇 Markdown 文件,分门别类建立关联,全部放在 Obsidian 里交给 AI 管理。写了 4 个 Skill:保存、导入、建关联、健康检查——按照 Andrej Karpathy 那套理论来写的。
第二件:CRM 联系人管理。 把 300 多个联系人整理成 Markdown 文档,每个人前面是 YAML 格式的固定信息,后面不断追加联系记录。整完之后,我跟 AI 说今天跟谁见面、聊了什么,它马上能找出这个联系人的历史记录,还能把相关联系人建立关联关系。
这两件事做完之后,最明显的感受是:AI 开始真正了解我了。以前每次让 AI 帮我做事,要花很长时间解释背景;现在不需要了,我直接说任务,它知道该怎么做。我把自己的大脑"Markdown 化"了——把知识变成了 AI 能组织和理解的文档。
第三件:Coach Skill。 前天早上发现自己有非常严重的拖延症,花了半个小时写了一个叫 Coach 的教练技能。这个技能会加载我过去写好的时间管理、拖延症、两分钟奇迹法等方法论,每天早上问我今天的状态和计划,帮我排优先级、全程跟进督促。
结果:我用了三天,治愈了自己 20 年治不好的拖延症。不是 AI 突然变聪明了,而是因为它现在真的了解我的处境,用我认同的方法来推我。就像请了私教——有人每天贴身督促你,效果完全不同。
这些实践让我越来越清晰地看到一件事:当你把知识 Markdown 化、把能力 Skill 化之后,AI 会在三个层面同时加速你:
- 学习加速:知识库沉淀了你的积累,遇到新问题 AI 直接整合,学习效率至少快 5 倍
- 决策加速:AI 了解你的背景、目标、历史判断,很多以前要纠结好几天的事,现在一个下午就能清晰
- 执行加速:帮你写作、创作视频、做数据分析、爬取数据……各种事情 Skill 流水线,效率以前根本无法比较
三层叠加,如果每个环节快 10 倍,叠加起来就是 100 到 1000 倍。
人的一生本质是试错——你不知道哪条路对,只能有想法、去做、看结果、调整、再来。过去一年能试几次,现在试错速度快 1000 倍,相当于并行跑了 100 条人生,找到最成功路径的概率完全不是一个量级。这是 AI 时代个人竞争的底层逻辑。
同样的逻辑映射到行业层面,就是今天讲的三条新闻——GPT-5.5、SpaceX Cursor、DeepSeek V4——所有的竞争,最后都是飞轮转速的竞争。Anthropic 的飞轮是 Claude Code 带来开发者消耗 Token → 营收 → 更强模型 → 更多开发者。个人的飞轮,道理是一样的。
用户答疑精选
Q:Claude Code 和 Codex 怎么互补使用?为什么觉得 CC 比 Codex 难用?
A:它们代表两种不同的哲学。Codex 适合交一个大活——任务写明白,让它跑一两个小时给你结果,省心省力。Claude Code 更像瑞士军刀,适合随时处理各种事情:写作、创作视频、连接 Stripe 查账单、指挥 Chrome 爬数据……响应快,适合喜欢自己随时鼓捣的人。我自己是用 Claude Code 干活,干完让 Codex 做 Code Review,再把 Review 结果交给 Claude Code 逐一修复。
Q:哪个智能体组合性价比最高?
A:能解决访问问题且预算 OK 的话,推荐同时用:① Claude Code + Claude 模型,代表现在最顶尖的生产力;② GPT-5.5 + Codex,能做到 Claude Code 做不好的一些事。两个组合同时用,是目前性价比最高的方式。
Q:Openclaw 小龙虾和 Hermes 爱马仕用哪个?
A:两个都装了。Openclaw 功能更多更完善,生态更好;Hermes 结构更简单。如果选不出来,闭眼选 Openclaw 就行。出了问题让 Codex 帮你修复就好了,这都不是个事。
Q:Skill 在不同智能体之间通用吗?
A:通用的。我所有 Skill 放在 Workspace 知识库目录下,Claude Code、Codex、open-code、Openclaw、Hermes 全部共用同一套。这个知识库在笔记本和 Mac 工作站之间同步,不管在哪台电脑,所有智能体都能用同一套 Skill。只写一处,到处都有。
Q:你用什么知识库工具?
A:Obsidian,自己构建的 Markdown 文件体系。
Q:微信聊天记录怎么处理?
A:做了一个微信导出 Skill,能一键把过去 15 年的微信聊天记录解密导出,包括 5000 多个联系人和 1000 多个对话 session。用智能体连上这个数据库,随时查询过去和任何人聊了什么,还支持增量导出。这个 Skill 因为涉及隐私不方便公开分享。
Q:AI 智能体越来越强,未来商业软件还有存在的意义吗?
A:我认为未来可能 80% 的软件需求会被"智能体 + Skill"解决,而且更高度个性化——很多我之前想做的软件,现在直接用 Skill 实现了。但对于非常通用的需求、执行速度要求高、需要确定性逻辑的场景,还是值得做成商业软件。好的路径是:先用智能体 + Skill 快速跑 MVP 原型,市场验证之后再变成独立软件,这个流程很顺。
本期金句
- 试错的速度,决定了成功的概率。别人过完一个人生,你已经并行跑了 1000 条。
- 知识 Markdown 化 + 能力 Skill 化,这是打造专属 AI 管家最核心的两件事。
- 学习快 10 倍、决策快 10 倍、执行快 10 倍——三层叠加,才是真正的竞争优势。
- AI 放大的永远是你已经有的东西——你的经验和知识,才是真正的核心资产。
- 从你最痛的一个工作流开始,写你的第一个 Skill——50 分的先跑起来,再慢慢迭代。
- 这一周,模型在加速,Agent 在加速,连国内都在加速。你的飞轮,有没有在转?