OpenAI Codex 模型清单 2026：Plus/Pro 用户能用哪些？GPT-5.4 实测

如果你正在搜索"Codex 能用什么模型""ChatGPT Plus 的 Codex 和 Pro 有什么区别"——你要的不是官方发布会的华丽 PPT，而是一个用过这些模型的人告诉你：每个模型到底能干什么、不能干什么、值不值得花钱。

我从 2025 年 Codex 内测就开始用，到现在切过 4 个模型版本。这篇文章把 Codex 里的每一个模型掰开讲。

一、2026 年 Codex 里有哪些模型？一张表搞清楚

截至 2026 年 3 月，Codex 里可用的模型如下（按发布时间倒序）：

模型	发布时间	定位	上下文窗口	谁能用
GPT-5.4	2026.3.5	统一旗舰（推理+编码+Agent）	100 万 token	Plus / Team / Pro / Enterprise
GPT-5.3 Codex	2026.2.5	纯编码专精	192K	Plus / Pro
GPT-5.3 Codex-Spark	2026.2.12	超快编码（Cerebras 芯片）	128K	Pro 专属（研究预览）
GPT-5.2 Codex	2025.12.18	Agent 编码	128K	Legacy（仍可选）
GPT-4o / 4.1	2024-2025	旧版通用	128K	Legacy 模式可选

重点：2026 年 3 月后，GPT-5.4 是 Codex 的默认模型。它把 GPT-5.3 Codex 的编码能力、GPT-5.2 的推理能力和全新的计算机操控能力合并到了一个模型里。你不再需要纠结"用推理模型还是编码模型"——5.4 都包了。

二、每个模型到底能干什么？逐个拆解

GPT-5.4：编码界的"瑞士军刀"

GPT-5.4 是我用过的最全能的编码模型，没有之一。它不是简单的"5.3 + 5.2"叠加——它是一个重新设计的统一架构。

核心能力拆解：

100 万 token 上下文：API 版本支持 922,000 输入 + 128,000 输出。实测下来，喂一个 5 万行的 monorepo 进去，它不会"失忆"。之前 5.3 Codex 在 192K 窗口里处理大型项目时经常丢函数引用，5.4 基本不会。
原生计算机操控：这是 5.4 最大的突破。它能直接在 Codex sandbox 里打开浏览器、操作 GUI 应用、填表格。在 OSWorld-Verified 基准测试中得分 75%，超过了人类专家基线（72.4%）。
错误率降低 33%：相比 5.2，单条声明的事实错误减少 33%，完整回复含错减少 18%。实际体验：之前 5.2 写的代码大概每 10 次有 2-3 次需要手动改，5.4 降到了 1 次左右。
预先规划推理（Upfront Planning）：在 Codex 里给它一个复杂任务，它会先生成一个推理计划，你可以在它开始执行前调整方向。这一个功能就省了我大量的"重跑"时间。
Tool Search：API 里的新功能——模型能动态发现和调用工具，不需要你提前定义所有工具。对 Agent 工作流来说是质的飞跃。

跑分数据（不是我编的）：

基准测试	GPT-5.4 得分	GPT-5.3 Codex 得分	说明
SWE-bench Pro	57.7%	57%	真实 GitHub Issue 修复能力
OSWorld-Verified	75%	N/A	计算机操控（人类 72.4%）
GDPval（44 职业）	83%	N/A	超过人类专业水平的比例
BigLaw Bench	91%	N/A	法律文件处理准确率
Terminal-Bench 2.0	待测	42.7%	终端操作能力

GPT-5.3 Codex：纯粹的代码机器

如果 5.4 是瑞士军刀，那 5.3 Codex 就是一把专业手术刀——只做一件事：写代码，但写得极好。

它在发布时（2026 年 2 月）是第一个在 SWE-bench Pro 上达到 57% 的模型。它的优势：

交互式 Agent 编码：在写代码过程中你可以实时介入，不用等它跑完再看结果
多语言支持：Python、TypeScript、Go、Rust、Java——哪个都能写，不像某些模型只擅长 Python
前端生成：能从一句 prompt 直接生成生产级网页。我用它做过一个完整的 Dashboard，HTML + CSS + JS 一次出，基本不用改
漏洞检测：内置了安全检测能力，EVMbench 上拿了 72.2%

现在还需要单独用 5.3 Codex 吗？ 老实说，自从 5.4 出来之后，我大部分时间都用 5.4 了。但如果你的任务是纯代码不涉及推理和工具调用，5.3 Codex 的响应速度更快，token 消耗更少。

Codex-Spark：速度怪物

这是个用 Cerebras 芯片加速的版本——响应速度几乎是即时的。但有两个限制：

Pro 专属：只有 $200/月的 Pro 用户才能用
研究预览：功能还不完整，不支持所有 Codex 特性

如果你是每天高强度用 Codex 的专业开发者，Spark 的即时反馈确实能改变工作流。但对大多数人来说，5.4 的速度已经够用了。

三、Plus vs Pro：到底差在哪？

这是很多人最关心的问题。直接上对比表：

能力	ChatGPT Plus（$20/月）	ChatGPT Pro（$200/月）
GPT-5.4 Thinking	✅ 有，但有限额	✅ 无限
GPT-5.4 Pro 模式	❌ 无	✅ 无限
GPT-5.3 Codex	✅ 可用	✅ 无限
Codex-Spark	❌ 无	✅ 研究预览
Codex 沙盒并发	有限并发	高并发
消息限额	~160 条/3 小时	无限
原生计算机操控	✅ API/Codex 中可用	✅ 完全可用
100 万上下文	✅ API 中可用	✅ 完全可用

我的建议：

个人开发者 / 中小项目：Plus 完全够用。5.4 Thinking 的编码能力已经非常强了，160 条/3 小时的消息限额对大多数人来说够用。
全职 AI 编程 / 需要 Spark：上 Pro。Spark 的即时响应在高频次迭代场景下能省大量时间，Pro 模式的深度推理在复杂架构设计上也明显更好。
预算有限、想先试水：ChatGPT Plus 30天共享版可以低成本体验 5.4 Thinking 和 Codex 的全部编码能力。

四、Codex 实际能干什么？5 个真实场景

场景 1：修一个跨 10 个文件的 Bug

这是 Codex 最擅长的事。在 Codex 里描述 Bug 现象，它会：

自动克隆你的仓库到隔离沙盒
定位相关文件（跨 10 个文件也没问题）
生成修复代码
自动跑你的测试套件验证
生成 Pull Request

实测数据：税务申报公司 Mainstay 用 GPT-5.4 处理了约 3 万个税务门户，首次尝试成功率 95%，速度比之前模型快 3 倍，token 消耗减少 70%。

场景 2：从 Prompt 生成完整功能

# 在 Codex 里输入：
给这个 Next.js 项目添加一个用户收藏功能：
- 在商品页添加收藏按钮
- 创建 /user/favorites 页面显示收藏列表
- 支持取消收藏
- 使用现有的 Prisma schema 和认证系统

GPT-5.4 会自动：读你的 schema.prisma、理解现有的认证中间件、创建数据库迁移、写组件代码、写 API 路由——全自动，你只需要 review PR。

场景 3：代码库问答

# 在 Codex 里问：
这个项目的支付流程是怎么走的？
从用户点击"支付"按钮到订单完成，经过了哪些文件和函数？

得益于 100 万 token 上下文，5.4 能吃掉整个代码库然后理出完整的调用链。之前 5.2 在大型项目上经常中途"断片"。

场景 4：安全审计

GPT-5.3 Codex 内置了漏洞检测能力（EVMbench 72.2%），在 Codex sandbox 里可以让它扫描你的代码，找出 SQL 注入、XSS、权限绕过等问题，并给出修复建议。

场景 5：多任务并行

Codex 的隔离沙盒架构允许你同时开多个任务——一个在修 Bug，一个在加新功能，一个在写测试。每个任务在独立的环境里运行，互不干扰。这对团队协作来说是巨大的效率提升。

五、踩过的坑：Codex 不是万能的

用了半年多，说几个真实的坑：

前端设计不如 Claude：如果你让 Codex 做 UI 设计，它写的 CSS 比 Claude Opus 4.5 差一截。5.4 在前端方面有进步，但 Opus 在"审美"上确实更好。
需要持续管理：Codex 不是"丢个 prompt 就不管了"。复杂任务需要你在关键节点介入检查，否则它可能沿着错误方向一路跑下去。
消息限额会撞：Plus 用户的 160 条/3 小时的限额，高强度编码时经常撞到。遇到这种情况要么等 3 小时，要么升 Pro。
中文代码注释质量：5.4 的英文注释很棒，但中文注释有时候会生硬。建议写 prompt 时用英文，最后再统一翻译注释。

六、选哪个订阅方案？

你的情况	推荐方案	每月花费
想体验 Codex + GPT-5.4 编码	ChatGPT Plus 30天	低成本试水
日常开发 + 个人项目	ChatGPT Plus 独享	$20/月
配合 IDE 使用 GPT-5.4	Cursor Pro+	$60/月
全职 AI 编程 + 需要 Spark	ChatGPT Pro $200	$200/月

一句话：2026 年的 Codex 已经不是"代码补全工具"了——它是一个能读懂你整个代码库、自己修 Bug、自己跑测试、自己提 PR 的 AI 工程师。GPT-5.4 + Codex 这个组合，是目前市面上最接近"自主编程"的方案。比它更快的没它全能，比它更全能的没它快。

最后更新：2026 年 3 月 11 日。基于实际使用 Codex 半年以上的经验撰写。产品价格和功能以 OpenAI 官网为准。

📖 延伸阅读

💡 本文提到的产品，DGT Store 均有提供

安全支付 · 即时发货 · 专业客服

立即购买 ChatGPT Plus 订阅

Codex 能用哪些模型？ChatGPT Plus 用户的 AI 编程模型清单与实测能力拆解