Claude Fable 5 深度实测:2小时写出完整Obsidian插件,但$50/百万token到底值不值?
"它仿佛是一个经验老道的程序员,对着实习生写的代码一顿分析。"
—— 某开发者使用 Fable 5 后的真实评价
引子:一个 $9650 亿的赌注
2026 年 6 月 9 日深夜,Anthropic 扔出了一颗深水炸弹。
两款 Mythos 级模型——Claude Fable 5 和 Claude Mythos 5 同时发布。这不仅是 Anthropic 把"神话级"能力首次对公众开放,更是一个清晰的信号:这家估值冲到 $9650 亿、刚刚提交 IPO 申请的 AI 公司,赌的就是"不计成本地把 AI 做到极致"。
但问题来了——Fable 5 到底多强?值不值那 $50/百万 token 的输出价格?和 GPT-5.5、Kimi K2.7 比优势在哪?以及最重要的:普通开发者,什么时候该用它、什么时候不该?
带着这些问题,我做了 4 个维度的深度实测。先说结论,再讲细节。
📌 TL;DR
| 维度 | 评价 | 一句话 |
|---|---|---|
| 编程能力 | ⭐⭐⭐⭐⭐ | 当前最强,2h 完成完整插件开发 |
| Token 消耗 | ⚠️⚠️⚠️ | 极其恐怖,简单任务也不手软 |
| 性价比 | ⭐⭐ | $50/M output,日常用它=烧钱 |
| 安全限制 | 🛡️🛡️🛡️ | 漏洞/攻击类直接拒绝 |
| 适合场景 | 🎯 精准 | 复杂长任务 > 日常问答 |
核心建议:别把 Fable 5 当日常工具。它是一把「牛刀」——只有真正需要杀牛的复杂任务,才值得祭出来。
一、Claude Fable 5 是什么?
模型定位
Claude Fable 5 是 Anthropic 的新旗舰,也是首个向公众开放的 Mythos 级模型。在此之前,Mythos 是 Anthropic 内部等级最高的模型代号,从未对外发布。
值得注意:Fable 5 和 Mythos 5 是同一个模型。区别在于:
- Fable 5:加了安全护栏,通过 API 和 Claude 应用公开可用
- Mythos 5:移除安全护栏的"原版",仅通过 Project Glasswing 项目提供给少数基础设施供应商和经审查的网络安全研究员
简单说:你拿到的 Fable 5,是一个被"封印"了的神话。
核心规格
| 参数 | 数值 |
|---|---|
| 上下文窗口 | 1,000,000 tokens |
| 最大输出 | 128,000 tokens/次 |
| API ID | claude-fable-5 |
| 输入价格 | $10 / 百万 tokens |
| 输出价格 | $50 / 百万 tokens |
| 免费期 | 6月9日-22日(付费订阅用户可用) |
价格为 Claude Opus 4.8 的 整整 2 倍。
可用平台
- Claude API(
claude-fable-5) - Amazon Bedrock
- Azure AI
- Snowflake
- GitHub Copilot
- Claude 应用(Web/Desktop)
二、基准测试:碾压级领先
先上硬数据。以下是第三方独立测试结果:
| 基准测试 | Fable 5 | Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-Bench Pro | 80.3% | 69.2% | 58.6% | 54.2% |
| Terminal-Bench 2.1 | 88.0% | — | 83.4% | — |
| FrontierCode Diamond | 29.3% | ~14% | — | — |
| Humanity's Last Exam (无工具) | 59.0% | — | 52.2% | — |
| Humanity's Last Exam (带工具) | 64.5% | — | — | — |
有几个数字值得特别关注:
SWE-Bench Pro 80.3%:比 Opus 4.8 高 11 个百分点,比 GPT-5.5 高 近 22 个百分点。这不是挤牙膏,是拉开了一个代差。
Terminal-Bench 88.0%:这个评测 AI 在终端环境下的操作能力——敲命令、修配置、部署服务。Fable 5 在这方面是独一档。
FrontierCode Diamond 29.3%:这个超难编程基准里,Fable 5 的得分是 Opus 4.8 的 两倍。
⚠️ 注意:SWE-Bench Pro 的分数不是每位开发者都能复现的。它评测的是在理想 prompt 和工具链配置下的上限。实际使用体验取决于你如何调 prompt。
三、实测场景一:编程——真的能"独立干活"
任务:开发一个 Obsidian 插件
这是社区里流传最广的实测案例。开发者苍何把 Fable 5 接入自己的项目,让它开发一个集成 Claude Code / Codex / OpenCode 多 CLI 的 Obsidian 插件。
结果:Fable 5 在约 2 小时内几乎一次性完成了插件开发——包括:
- 检测本地安装的 AI 编程 CLI
- 自动同步配置到 Obsidian
- 支持自定义第三方模型
- 在 Obsidian 内实现 All-in-one 的 AI 编程体验
"几乎一次完成"意味着什么?意味着你不需要反复改 prompt、不需要纠错、不需要手动补代码。它自己理解需求、设计方案、写出代码、甚至处理了边缘情况。
任务:WeSight 项目 Bug 修复
同一个开发者让 Fable 5 分析 WeSight 引擎的代码。Fable 5 不但定位了功能性 Bug,还指出了 UI 交互层面的设计问题。作者评价:
"仿佛是一个经验老道的程序员,对着实习生写的代码,一顿分析。"
Agent 能力:社区疯传的极限测试
除了这两项直接测试,社区还流传着 Fable 5 的极限 Agent 表现:
- 50 分钟通关《精灵宝可梦火红》:完全自主探索游戏世界
- 一个 prompt 复刻"Minecraft"场景:从 3D 渲染到物理碰撞全搞定
- 自主搭建 Windows 操作系统:构建完整的 OS 引导和交互系统
这些案例虽然来自社区,未经完全验证,但指向同一个趋势:AI 编程已经从"辅助"进入了"主力"阶段。
四、实测场景二:速度与 Token 消耗——烧钱机器
TPS 表现
Fable 5 的速度说实话没有惊艳到。对比数据:
| 模型 | 大致 TPS | 体感 |
|---|---|---|
| GLM-5.1-highspeed | 300-400 tsp | 极快 |
| Kimi K2.7 Code (6倍速) | ~200 tsp | 很快 |
| GPT-5.5 | ~80-120 tsp | 正常 |
| Claude Fable 5 | ~40-60 tsp | 偏慢 |
速度不是 Fable 5 的长项。它的设计哲学是"给你最好的答案,而不是最快的答案"。
Token 消耗:最容易被忽略的坑
这才是真实的痛点。
实测数据显示,让 Fable 5 做一件"找 Bug + 给修改建议"这样的中等任务,几分钟就能烧掉 $50 的 Claude Pro 月度额度。作者苍何吐槽:
"几个简单任务,Token 就哗哗的用。分析项目改了几个 Bug,5 小时额度直接干完了。"
来算一笔账:
| 场景 | 预估消耗 | 约合费用 |
|---|---|---|
| 简单问答(500 token 输出) | ~500 tokens | ~$0.025 |
| 代码审查(5000 token 输出) | ~5000 tokens | ~$0.25 |
| 完整功能开发(50000 token 输出) | ~50000 tokens | ~$2.50 |
| 复杂 Agent 任务(200000 token 输出) | ~200000 tokens | ~$10.00 |
看起来不贵?那是因为你忘了上下文消费。Fable 5 的 1M 上下文窗口是双刃剑——它能处理超长对话,但每次调用都会把整段上下文重新计算一遍。一个 200K token 上下文 + 5000 token 输出的调用,实际算下来是:
200,000 × $10/1M + 5,000 × $50/1M = $2.00 + $0.25 = $2.25
而你一天调用 10 次?那就是 $22.5 / 天,月费轻松破 $500。
五、实测场景三:写作与安全——惊喜与限制并存
写作质量
如果你之前用 Claude 4.x 系列(Sonnet/Opus)写过文章,可能会觉得 4.7/4.8 的写作"有点干"。Fable 5 在这方面回归了——社区评测认为:
"写作比 4.7、4.8 要好不少,有 4.6 那味了。"
Claude 4.6 曾是公认的"文笔最好的 Claude"。Fable 5 在保持了编程能力突破的同时,找回了那部分被牺牲掉的文学性。
安全限制
Fable 5 的安全策略是 Anthropic 有史以来最严格的:
- 敏感查询重路由:网络安全攻击、生化武器、模型蒸馏等查询会被拦截,重定向到更安全的 Opus 4.8 处理
- 漏洞探测被拒:实测中,试图让 Fable 5 找项目漏洞的请求被直接拒绝
- 30 天数据保留:API 流量强制保留 30 天,不用于训练但会存档
- 红队测试:超过 1000 小时的红队测试 + 漏洞赏金,未发现通用越狱
这在实测中是个双刃剑。如果你是写安全工具的开发者,Fable 5 可能直接拒绝帮你。但如果你是企业场景,这意味着 Anthropic 替你扛住了一部分合规风险。
六、横向对比:什么时候用谁?
| 场景 | 推荐模型 | 理由 |
|---|---|---|
| 日常代码问答 | Claude Opus 4.8 / GPT-5.5 | Fable 5 太贵,性价比低 |
| 复杂 Bug 调试 | Claude Fable 5 | 推理深度独一档 |
| 完整功能/插件开发 | Claude Fable 5 | 自主性最强,能独立干活 |
| 高吞吐 Agent 循环 | Gemini 3.5 Flash | 便宜 + 快,适合循环调用 |
| 中文编程辅助 | Kimi K2.7 Code | 6倍速 + 1.3元/M token,超值 |
| 长文档写作 | Claude Fable 5 | 1M 上下文 + 写作质量回归 |
| 安全/漏洞场景 | Opus 4.8 / 其他 | Fable 5 会直接拒绝 |
| 预算敏感的项目 | DeepSeek V4 Pro | 降价 75%,极致性价比 |
Fable 5 使用决策树
你的任务需要长时间自主运行(>1小时)?
├── 是 → 用 Fable 5 ✅
├── 否 → Opus 4.8 搞不定?
│ ├── 是 → 用 Fable 5 ✅
│ └── 否 → 用 Opus 4.8 / GPT-5.5 💰
七、手把手:用 Fable 5 API 跑你的第一个任务
环境准备
pip install anthropic
基础调用
from anthropic import Anthropic
client = Anthropic() # 需要设置 ANTHROPIC_API_KEY 环境变量
response = client.messages.create(
model="claude-fable-5",
max_tokens=8192,
messages=[
{
"role": "user",
"content": "分析这个项目中可能存在哪些性能瓶颈,并给出优化方案。"
}
]
)
print(response.content[0].text)
实际使用技巧
-
用 system prompt 约束开销
"请尽量简洁地回答问题,避免冗长的解释。如在500字内能说明,就不要写5000字。" -
控制 max_tokens
# 简单任务设低点 max_tokens=1024 # 问答 max_tokens=8192 # 中等任务 max_tokens=32768 # 复杂开发 -
分段处理长上下文
# ❌ 不好:把整个仓库塞进去 response = client.messages.create( model="claude-fable-5", messages=[{"role": "user", "content": f"这是整个项目代码:{entire_repo}"}] ) # ✅ 好:给关键文件 + 明确问题 response = client.messages.create( model="claude-fable-5", messages=[{ "role": "user", "content": "我上传了 src/ 下 3 个核心文件,请只看 user_auth.py 的登录流程优化(关注 token 刷新逻辑)。" }] ) -
利用 prompt caching(如果支持) 重复的上下文部分可以缓存,大幅降低输入费用。把静态内容(如系统指令、代码库上下文)放在消息列表前面。
八、Anthropic 的野心与 AI 编程的未来
Fable 5 发布后不到一周,Anthropic 提交了 IPO 申请,估值 $9650 亿。
这个数字放在 AI 圈是天花板级别的——比 OpenAI 最新估值高了近 2 倍。Anthropic 凭什么?
回头看 Fable 5 的产品逻辑就很清楚:
- 不卷低价:$10/$50 的价格直接告诉市场——"我们不做性价比,我们做最强的那个"
- 安全是护城河:Mythos 5 只给少数人用,Fable 5 的敏感查询被自动拦截。"我们有最强的模型,但我们选择不让它乱跑"——这是最能说服监管者的叙事
- AI 编程是主战场:SWE-Bench Pro 80.3% 不是偶然。Anthropic 把 Agent 编码作为 Fable 5 的核心卖点,赌的就是企业愿意为"能干活"的 AI 付高价
对开发者来说,这意味着什么?
2026 下半年,AI 编程工具会继续两极分化:
- 一侧是「极致品质」:Claude Fable 5、未来的 Mythos 6——为复杂任务买单
- 一侧是「极致性价比」:Kimi K2.7 Code(1.3元/M token)、DeepSeek V4 Pro(降价 75%)——日常开发必备
聪明的策略不是只用一个,而是组合使用。
结语:一把牛刀,别拿去切豆腐
Fable 5 是目前最强的编程 AI,不用怀疑。
但它也是最贵的之一。如果你每天用它回答"这段代码哪里写错了"这种问题,那就像开着法拉利送外卖——很酷,但毫无意义。
Fable 5 的正确用法:
- 用它做 Opus 4.8 搞不定的任务
- 用它做需要自主运行数小时的 Agent 工作流
- 用它写完整的功能模块,而不是改一行代码
日常开发:Kimi K2.7 Code(中文友好 + 6倍速)+ DeepSeek V4 Pro(极致便宜)足够了。
"AI 离'神'只差最后一步,连 Anthropic 自己都不敢迈。"
但在它迈出那一步之前,先想好:你打算让它帮你做什么?
本文提及的链接:
- Anthropic API:https://console.anthropic.com
- Claude 应用:https://claude.ai
- Anthropic 官方博客:https://www.anthropic.com/research
相关阅读: