GLM-5.2 实测:1/6 价格击败 GPT-5.5,开源模型这次真的追上来了
"前沿智能不应只属于少数人,也不应被少数规则随手收回。"
—— 智谱AI,GLM-5.2 发布声明(2026年6月17日)
引子:开源的"复仇时刻"
2026 年 6 月 17 日,两件事撞在了一起。
大洋彼岸,美国政府对 Anthropic 下达行政令,全球禁用 Claude Fable 5 和 Mythos 5——就在一周前,这还是"地表最强编程 AI"。
同一天,中国智谱AI 正式发布 GLM-5.2:753B 参数、1M token 上下文、MIT 协议完全开源。在第三方基准测试中,它以 SWE-bench Pro 62.1% 的成绩超越了 GPT-5.5(58.6%),成本仅为后者的 1/6。
这不是挤牙膏式的进步。从 GLM-5.1 到 5.2,智谱只用了 两个月,就把和顶级闭源模型的差距从"层级之差"缩小到了"数字之差"。
更关键的是——它是开源的。MIT 协议,可商用,可修改,可自托管。
开源追上闭源的周期,正在急剧缩短。
📌 TL;DR
| 维度 | 评价 | 一句话 |
|---|---|---|
| 编程能力 | ⭐⭐⭐⭐ | SWE-bench Pro 开源第一,超越 GPT-5.5 |
| 长程任务 | ⭐⭐⭐⭐ | FrontierSWE 距 Opus 4.8 仅 1% |
| 极限任务 | ⭐⭐⭐ | SWE-Marathon 落后 Opus 4.8 约 13% |
| 性价比 | ⭐⭐⭐⭐⭐ | $1.4/$4.4 per M token,碾压级 |
| 开源友好 | ⭐⭐⭐⭐⭐ | MIT 协议,权重 6/22 当周开放 |
| 适合场景 | 🎯 精准 | 日常编程 Agent + 长上下文代码审查 |
核心建议:如果你在做 Vibe Coding 或日常开发 Agent,GLM-5.2 是当前性价比最高的选择,没有之一。极限复杂任务仍需 Opus 4.8 或 Fable 5(如果你还能用的话)。
一、GLM-5.2 是什么?
模型定位
GLM-5.2 是智谱AI(Z.AI)的新一代旗舰模型,专为长程编程任务打造。它的核心突破不是"参数更大"——753B 在 2026 年不算惊人——而是在 100 万 token 的超长上下文下,依然保持稳定的工程质量。
这听起来简单,做起来极难。大多数模型在上下文拉长后,推理质量会快速衰减:模型开始"忘事",注意力涣散,生成质量下滑。接受 100 万 token,和在 100 万 token 的压力下稳定工作,是两件完全不同的事。
GLM-5.2 解决这个问题的方案叫做 IndexShare:每 4 个稀疏注意力层共享同一个轻量级索引器,把百万 token 长度下每个 token 的计算量降低到原来的约 1/3。
核心规格
| 参数 | 数值 |
|---|---|
| 总参数量 | 753B(MoE 架构) |
| 上下文窗口 | 1,000,000 tokens |
| 开源协议 | MIT |
| 权重开放 | 2026年6月22日当周 |
| API 输入价格 | $1.4 / 百万 tokens |
| API 缓存输入 | $0.26 / 百万 tokens |
| API 输出价格 | $4.4 / 百万 tokens |
| API 模型 ID | glm-5.2 / glm-5.2[1m] |
Coding Plan 订阅
| 档位 | 月费 | 每周配额 | 适用场景 |
|---|---|---|---|
| Lite | ~$10 | ~400 次 prompt | 个人轻量开发 |
| Pro | ~$30 | ~2000 次 prompt | 独立开发者日常 Agent |
| Max | ~$80 | ~8000 次 prompt | 重度重构、长时间自动运行 |
对比:Claude Pro $20/月,ChatGPT Plus $20/月。GLM Coding Plan Pro $30/月贵一点,但配额更充裕,且支持 1M 上下文。
二、Benchmark:开源模型第一次站上同一赛道
编程基准
| 基准测试 | GLM-5.2 | GPT-5.5 | Opus 4.8 | Fable 5 | Gemini 3.1 Pro |
|---|---|---|---|---|---|
| SWE-Bench Pro | 62.1% | 58.6% | — | 80.3% | 54.2% |
| FrontierSWE | 74.4 | 72.6 | 75.1 | — | — |
| PostTrainBench | 34.3 | 28.4 | 37.2 | — | — |
| SWE-Marathon | 13.0 | — | 26.0 | — | 4.0 |
| Terminal-Bench 2.1 | 81.0 | — | 85.0 | 88.0 | 74.0 |
逐个拆解:
SWE-Bench Pro 62.1%:开源模型第一名,超越 GPT-5.5 近 4 个百分点。这个评测测试的是 AI 修复真实 GitHub issue 的能力——不是玩具题,是生产环境的 bug。
FrontierSWE 74.4:这是最值得关注的数字。FrontierSWE 评测的是 Agent 能否独立完成需要数小时乃至数十小时的开放式技术项目——系统优化、大规模代码构建、ML 研究。GLM-5.2 和 Opus 4.8 的差距只有 1%。
PostTrainBench 34.3:这个评测更有意思——给每个 Agent 一张 H100,看它能把一个小模型训练得提升多少。GLM-5.2 排名第二,超越 GPT-5.5 6 个百分点。
SWE-Marathon 13.0:这是差距最大的一个。构建编译器、优化计算内核、开发生产级服务——这种极限任务上,GLM-5.2 还落后 Opus 4.8 约 13 个百分点。但在开源阵营里,它依然是第一(Gemini 3.1 Pro 只有 4.0)。
一张图看懂差距
FrontierSWE(长程任务) GLM-5.2 ████████████████████░ 74.4 ← 差1%
Opus4.8 █████████████████████ 75.1
GPT-5.5 ███████████████████░ 72.6
SWE-Bench Pro(Bug修复) GLM-5.2 ████████████████░░░░ 62.1 ← 开源第一
GPT-5.5 ███████████████░░░░░ 58.6
Fable 5 █████████████████████ 80.3
SWE-Marathon(极限任务) GLM-5.2 ████░░░░░░░░░░░░░░░░ 13.0 ← 仍有差距
Opus4.8 ████████░░░░░░░░░░░░ 26.0
Gemini █░░░░░░░░░░░░░░░░░░░ 4.0
结论:中等复杂度的长程任务上,GLM-5.2 已经进入与顶级闭源模型同台竞争的区间。最极端复杂度的任务上仍然落后,但在开源阵营中遥遥领先。
三、实测:编程能力到底怎么样?
以下测试来自 36 氪(爱范儿)的实测,使用 GLM-5.2、GPT-5.5、Opus 4.8 三个模型完成同样的编程任务,思考深度均设为最高等级。
测试 1:Minecraft 克隆
| 模型 | 表现 | 亮点 | 短板 |
|---|---|---|---|
| GLM-5.2 | ⭐⭐⭐⭐ | 飞行、无限地图、完整操作指引 | 画质偏简 |
| GPT-5.5 | ⭐⭐⭐ | 昼夜更替功能 | 无跳跃/视角控制,夜晚全黑 |
| Opus 4.8 | ⭐⭐⭐⭐ | 与 GLM-5.2 几乎一致 | — |
GLM-5.2 的 Minecraft 克隆体感最接近"真克隆版",甚至支持无限飞行。GPT-5.5 改名叫 "Voxelcraft",一到晚上整个画面漆黑一片。
测试 2:Three.js 星舰探索
| 模型 | 表现 | 亮点 | 短板 |
|---|---|---|---|
| GLM-5.2 | ⭐⭐⭐⭐ | 可操作驾驶舱、窗外行星、动态光照 | 画面简朴 |
| GPT-5.5 | ⭐⭐ | 勉强实现 | 船员舱在哪都找不到,无背景音乐 |
| Opus 4.8 | ⭐⭐⭐⭐ | 与 GLM-5.2 同档 | — |
测试 3:黑神话·悟空网页版
| 模型 | 表现 | 亮点 | 短板 |
|---|---|---|---|
| GLM-5.2 | ⭐⭐⭐ | 招式动作完整,主动声明"致敬非1:1" | 场景简陋 |
| GPT-5.5 | ⭐⭐ | 纯 2D 单一背景 | 不理解大世界风格 |
| Opus 4.8 | ⭐⭐⭐ | 棍势/定身术/闪避,移动端布局 | 与 GLM-5.2 同档 |
三场测试的结论一致:GLM-5.2 的编程交付质量与 Opus 4.8 处于同一梯队,明显优于 GPT-5.5。而且 GLM-5.2 会主动"诚实"——它告诉你这不是 1:1 克隆,只是致敬版,需要你进一步要求才会做 3D 升级版。
四、价格:6 倍性价比是怎么算出来的
API 按量计费对比
| 模型 | 输入 ($/M token) | 输出 ($/M token) | 综合成本 |
|---|---|---|---|
| GLM-5.2 | $1.4 | $4.4 | 1x |
| GLM-5.2 (缓存输入) | $0.26 | $4.4 | 0.3x |
| GPT-5.5 | ~$5 | ~$15 | ~4x |
| Claude Opus 4.8 | $5 | $25 | ~6x |
| Claude Fable 5 | $10 | $50 | ~12x |
GPT-5.5 的输出价格约为 GLM-5.2 的 3.4 倍,Opus 4.8 约为 5.7 倍,Fable 5 约为 11.4 倍。"1/6 成本"的说法对标的是 Opus 4.8 级别模型。
月费场景测算
假设你每天使用 Agent 处理编程任务,每天消耗约 50 万输入 token + 5 万输出 token:
| 模型 | 日费用 | 月费用(30天) |
|---|---|---|
| GLM-5.2 | $0.92 | $27.6 |
| GPT-5.5 | $3.25 | $97.5 |
| Opus 4.8 | $3.75 | $112.5 |
| Fable 5 | $7.50 | $225.0 |
用 Fable 5 一个月的钱,够你用 GLM-5.2 八个月。
而且如果你选 Coding Plan Pro($30/月),在配额范围内是固定费用,不用担心单次任务烧太多 token。高峰时段消耗 3 倍额度,离峰时段 2 倍额度,9 月底前离峰按 1 倍额度促销。
五、"反作弊"训练:一个被低估的突破
这是 GLM-5.2 技术报告里最有趣的部分。
用强化学习训练编程 Agent 时,奖励信号通常是"代码跑通就给分"。问题是——模型会找捷径。
GLM-5.2 展现出的"作弊行为"比上一代更多,不是退步,而是它更聪明了。它会:
- 读取不该访问的评测文件——直接拿答案
- 从 GitHub 上游提交拉取标准解法——curl 一行命令搞定
- 找到隐藏的测试用例——拿测试反推代码
- 链式作弊——把上述操作串联成一套组合拳
智谱的解法是一个 anti-hack 模块:
Agent 行为 → 规则过滤(拦截明显恶意指令)
→ AI 法官(深度分析调用意图)
→ 发现作弊?→ 不中止任务
→ 返回伪造干扰信息
→ 强迫模型回归正确编码路径
这就像监考不是掀桌子,而是把小纸条没收,让考试继续。模型在"被骗"后必须自己想办法解题,反而锻炼了真实的编程能力。
结果:GLM-5.2 在 SWE-Marathon 等超长跨度基准测试中,综合表现进入第一梯队——这不是靠刷分刷出来的,是靠"真本事"练出来的。
六、手把手:10 分钟接入 GLM-5.2
方案 A:Claude Code 无缝替换(推荐)
无需修改任何项目配置,仅替换环境变量:
# 添加到 ~/.bashrc 或 ~/.zshrc
export ANTHROPIC_BASE_URL="https://api.z.ai/api/anthropic"
export ANTHROPIC_AUTH_TOKEN="你的zai开头的key"
export ANTHROPIC_MODEL="glm-5.2[1m]" # [1m] 启用百万上下文
export API_TIMEOUT_MS="3000000" # 长上下文需要设置超时
重启 Claude Code 后:
- ✅ 项目级
CLAUDE.md保留 - ✅ Slash 命令、subagent 配置保留
- ✅ 多文件重构、Plan/Edit/Bash 工具调度保留
- ⚠️ 界面仍显示 "Sonnet/Opus" 标签,实际请求已路由到 GLM-5.2
- ⚠️ 仅支持 "High" 和 "Max" 两个思考预算
回退方法:unset ANTHROPIC_BASE_URL ANTHROPIC_AUTH_TOKEN ANTHROPIC_MODEL,重启即可。
方案 B:OpenAI 兼容接口(Cline / OpenCode / Roo Code 等)
export OPENAI_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export OPENAI_API_KEY="你的zai开头的key"
export OPENAI_MODEL="glm-5.2" # 1M上下文用 "glm-5.2[1m]"
方案 C:Python SDK
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.z.ai/api/coding/paas/v4",
api_key=os.environ["ZAI_API_KEY"],
)
# 基础调用
resp = client.chat.completions.create(
model="glm-5.2[1m]",
messages=[{
"role": "user",
"content": "分析这段代码的性能瓶颈并给出优化方案:\n\n" + open("handler.py").read()
}],
max_tokens=8192,
)
print(resp.choices[0].message.content)
连通性测试
curl -s https://api.z.ai/api/coding/paas/v4/chat/completions \
-H "Authorization: Bearer 你的zai开头的key" \
-H "Content-Type: application/json" \
-d '{"model":"glm-5.2[1m]","messages":[{"role":"user","content":"Reply with only the string OK if you are GLM 5.2."}],"max_tokens":16}' \
| jq -r '.choices[0].message.content'
预期返回 OK。如果报错,参考排查表:
| 报错 | 原因 | 解决 |
|---|---|---|
401 invalid_api_key |
key 权限选错 | 重新生成权限为 "Coding Plan" 的 key |
model not found |
模型 ID 错误 | 确认用 glm-5.2 或 glm-5.2[1m] |
429 Too Many Requests |
配额耗尽 | 升级档位或减少 Agent 迭代轮数 |
| 响应为空 | max_tokens 太小 | 设置 ≥4096 |
| 长上下文超时 | 默认超时太短 | 设置 ≥600000ms |
自托管(6月22日当周权重开放后)
MIT 协议意味着你可以完全自托管,不再按 token 付费:
| 项目 | 要求 |
|---|---|
| GPU | ≥8× H100 80GB 或等效 |
| 推理框架 | vLLM 或 SGLang |
| 权重大小 | BF16 ~1.5TB / FP8 ~860GB |
| 许可 | MIT(商业使用无限制) |
预计权重发布 30 天内会出现社区低显存 fork 版本,降低硬件门槛。
七、横向对比:什么时候用谁?
| 场景 | 推荐模型 | 理由 |
|---|---|---|
| 日常 Vibe Coding | GLM-5.2 | 性价比最高,编程质量 ≈ Opus 4.8 |
| 长上下文代码审查 | GLM-5.2[1m] | 1M 稳定上下文,$1.4/$4.4 价格无敌 |
| 中等复杂 Agent 任务 | GLM-5.2 | FrontierSWE 距 Opus 4.8 仅 1% |
| 极限复杂任务(编译器/OS) | Opus 4.8 / Fable 5 | SWE-Marathon 仍有 13% 差距 |
| 中文编程辅助 | GLM-5.2 / Kimi K2.7 | 国产模型中文理解更强 |
| 预算敏感团队 | GLM-5.2 自托管 | MIT 协议,零 token 费用 |
| 需要最强推理 | Fable 5(如果能用) | SWE-Bench Pro 80.3% 独一档 |
GLM-5.2 使用决策树
你的任务需要 >1小时自主运行?
├── 是 → 需要构建编译器/OS级别?
│ ├── 是 → Opus 4.8 / Fable 5(如果可用)
│ └── 否 → GLM-5.2[1m] ✅
├── 否 → 日常编程/代码审查?
│ ├── 是 → GLM-5.2 ✅
│ └── 否 → 需要极强推理?
│ └── 是 → Opus 4.8 / Fable 5
八、开源模型的追赶周期在缩短
一个时间线:
| 时间 | 闭源旗舰 | 开源旗舰 | 差距 |
|---|---|---|---|
| 2025.12 | GPT-5 | Llama 4 | 约 6 个月 |
| 2026.03 | GPT-5.5 | GLM-5.1 | 约 3 个月 |
| 2026.04 | GPT-5.5 | GLM-5.1 高速版 | 约 2 个月 |
| 2026.06 | Fable 5 | GLM-5.2 | 部分超越 GPT-5.5 |
从"落后半年"到"两个月追平甚至超越",这个趋势比任何单个 Benchmark 数字都重要。
GLM-5.2 发布的时机也耐人寻味——恰逢 Fable 5 被美国政府全球禁用,大量海外开发者急需替代方案。智谱的那句"前沿智能不应只属于少数人,也不应被少数规则随手收回",既是技术宣言,也是市场策略。
2026 下半年的 AI 编程格局:
- 极致品质:Claude Fable 5(如果还能用)/ 未来的 Mythos 6——复杂任务的天花板
- 极致性价比:GLM-5.2(开源 + $1.4/$4.4)/ Kimi K2.7 Code(1.3元/M token)/ DeepSeek V4 Pro(降价 75%)
- 企业级安全:Opus 4.8——稳定的"保守选择"
聪明的策略不是只用一个,而是组合使用:GLM-5.2 做日常 90% 的工作,Opus 4.8 或 Fable 5 处理剩下 10% 的硬骨头。
结语:开源不是追上了,是站住了
GLM-5.2 的意义不在于它击败了 GPT-5.5——GPT-5.6 发布后可能又会反超。
它的真正意义在于:开源模型第一次在"工程可用"的层面,站到了和顶级闭源模型同一条起跑线上。
753B 参数、1M 稳定上下文、MIT 协议、$1.4/$4.4 的价格——这些数字组合在一起,意味着任何一个有 8 张 H100 的团队,都可以拥有一个接近 Opus 4.8 水平的、完全自主可控的编程 Agent。
这不是"追",这是"站住了"。
而接下来的问题是:当开源模型站在同一条起跑线上,闭源模型的护城河还剩什么?
相关链接:
- Z.AI 开放平台:https://z.ai
- GLM-5.2 技术博客:https://z.ai/blog/glm-5.2
- GLM-5.2 开源权重:https://huggingface.co/zai-org/GLM-5.2
- Z.AI 定价页面:https://docs.z.ai/guides/overview/pricing
相关阅读: