Claude Fable 5 深度实测：2小时写出完整Obsidian插件，但$50/百万token到底值不值？

"它仿佛是一个经验老道的程序员，对着实习生写的代码一顿分析。"

—— 某开发者使用 Fable 5 后的真实评价

引子：一个 $9650 亿的赌注

2026 年 6 月 9 日深夜，Anthropic 扔出了一颗深水炸弹。

两款 Mythos 级模型——Claude Fable 5 和 Claude Mythos 5 同时发布。这不仅是 Anthropic 把"神话级"能力首次对公众开放，更是一个清晰的信号：这家估值冲到 $9650 亿、刚刚提交 IPO 申请的 AI 公司，赌的就是"不计成本地把 AI 做到极致"。

但问题来了——Fable 5 到底多强？值不值那 $50/百万 token 的输出价格？和 GPT-5.5、Kimi K2.7 比优势在哪？以及最重要的：普通开发者，什么时候该用它、什么时候不该？

带着这些问题，我做了 4 个维度的深度实测。先说结论，再讲细节。

📌 TL;DR

维度	评价	一句话
编程能力	⭐⭐⭐⭐⭐	当前最强，2h 完成完整插件开发
Token 消耗	⚠️⚠️⚠️	极其恐怖，简单任务也不手软
性价比	⭐⭐	$50/M output，日常用它=烧钱
安全限制	🛡️🛡️🛡️	漏洞/攻击类直接拒绝
适合场景	🎯 精准	复杂长任务 > 日常问答

核心建议：别把 Fable 5 当日常工具。它是一把「牛刀」——只有真正需要杀牛的复杂任务，才值得祭出来。

一、Claude Fable 5 是什么？

模型定位

Claude Fable 5 是 Anthropic 的新旗舰，也是首个向公众开放的 Mythos 级模型。在此之前，Mythos 是 Anthropic 内部等级最高的模型代号，从未对外发布。

值得注意：Fable 5 和 Mythos 5 是同一个模型。区别在于：

Fable 5：加了安全护栏，通过 API 和 Claude 应用公开可用
Mythos 5：移除安全护栏的"原版"，仅通过 Project Glasswing 项目提供给少数基础设施供应商和经审查的网络安全研究员

简单说：你拿到的 Fable 5，是一个被"封印"了的神话。

核心规格

参数	数值
上下文窗口	1,000,000 tokens
最大输出	128,000 tokens/次
API ID	`claude-fable-5`
输入价格	$10 / 百万 tokens
输出价格	$50 / 百万 tokens
免费期	6月9日-22日（付费订阅用户可用）

价格为 Claude Opus 4.8 的 整整 2 倍。

可用平台

Claude API（claude-fable-5）
Amazon Bedrock
Azure AI
Snowflake
GitHub Copilot
Claude 应用（Web/Desktop）

二、基准测试：碾压级领先

先上硬数据。以下是第三方独立测试结果：

基准测试	Fable 5	Opus 4.8	GPT-5.5	Gemini 3.1 Pro
SWE-Bench Pro	80.3%	69.2%	58.6%	54.2%
Terminal-Bench 2.1	88.0%	—	83.4%	—
FrontierCode Diamond	29.3%	~14%	—	—
Humanity's Last Exam (无工具)	59.0%	—	52.2%	—
Humanity's Last Exam (带工具)	64.5%	—	—	—

有几个数字值得特别关注：

SWE-Bench Pro 80.3%：比 Opus 4.8 高 11 个百分点，比 GPT-5.5 高 近 22 个百分点。这不是挤牙膏，是拉开了一个代差。

Terminal-Bench 88.0%：这个评测 AI 在终端环境下的操作能力——敲命令、修配置、部署服务。Fable 5 在这方面是独一档。

FrontierCode Diamond 29.3%：这个超难编程基准里，Fable 5 的得分是 Opus 4.8 的两倍。

⚠️ 注意：SWE-Bench Pro 的分数不是每位开发者都能复现的。它评测的是在理想 prompt 和工具链配置下的上限。实际使用体验取决于你如何调 prompt。

三、实测场景一：编程——真的能"独立干活"

任务：开发一个 Obsidian 插件

这是社区里流传最广的实测案例。开发者苍何把 Fable 5 接入自己的项目，让它开发一个集成 Claude Code / Codex / OpenCode 多 CLI 的 Obsidian 插件。

结果：Fable 5 在约 2 小时内几乎一次性完成了插件开发——包括：

检测本地安装的 AI 编程 CLI
自动同步配置到 Obsidian
支持自定义第三方模型
在 Obsidian 内实现 All-in-one 的 AI 编程体验

"几乎一次完成"意味着什么？意味着你不需要反复改 prompt、不需要纠错、不需要手动补代码。它自己理解需求、设计方案、写出代码、甚至处理了边缘情况。

任务：WeSight 项目 Bug 修复

同一个开发者让 Fable 5 分析 WeSight 引擎的代码。Fable 5 不但定位了功能性 Bug，还指出了 UI 交互层面的设计问题。作者评价：

"仿佛是一个经验老道的程序员，对着实习生写的代码，一顿分析。"

Agent 能力：社区疯传的极限测试

除了这两项直接测试，社区还流传着 Fable 5 的极限 Agent 表现：

50 分钟通关《精灵宝可梦火红》：完全自主探索游戏世界
一个 prompt 复刻"Minecraft"场景：从 3D 渲染到物理碰撞全搞定
自主搭建 Windows 操作系统：构建完整的 OS 引导和交互系统

这些案例虽然来自社区，未经完全验证，但指向同一个趋势：AI 编程已经从"辅助"进入了"主力"阶段。

四、实测场景二：速度与 Token 消耗——烧钱机器

TPS 表现

Fable 5 的速度说实话没有惊艳到。对比数据：

模型	大致 TPS	体感
GLM-5.1-highspeed	300-400 tsp	极快
Kimi K2.7 Code (6倍速)	~200 tsp	很快
GPT-5.5	~80-120 tsp	正常
Claude Fable 5	~40-60 tsp	偏慢

速度不是 Fable 5 的长项。它的设计哲学是"给你最好的答案，而不是最快的答案"。

Token 消耗：最容易被忽略的坑

这才是真实的痛点。

实测数据显示，让 Fable 5 做一件"找 Bug + 给修改建议"这样的中等任务，几分钟就能烧掉 $50 的 Claude Pro 月度额度。作者苍何吐槽：

"几个简单任务，Token 就哗哗的用。分析项目改了几个 Bug，5 小时额度直接干完了。"

来算一笔账：

场景	预估消耗	约合费用
简单问答（500 token 输出）	~500 tokens	~$0.025
代码审查（5000 token 输出）	~5000 tokens	~$0.25
完整功能开发（50000 token 输出）	~50000 tokens	~$2.50
复杂 Agent 任务（200000 token 输出）	~200000 tokens	~$10.00

看起来不贵？那是因为你忘了上下文消费。Fable 5 的 1M 上下文窗口是双刃剑——它能处理超长对话，但每次调用都会把整段上下文重新计算一遍。一个 200K token 上下文 + 5000 token 输出的调用，实际算下来是：

200,000 × $10/1M + 5,000 × $50/1M = $2.00 + $0.25 = $2.25

而你一天调用 10 次？那就是 $22.5 / 天，月费轻松破 $500。

五、实测场景三：写作与安全——惊喜与限制并存

写作质量

如果你之前用 Claude 4.x 系列（Sonnet/Opus）写过文章，可能会觉得 4.7/4.8 的写作"有点干"。Fable 5 在这方面回归了——社区评测认为：

"写作比 4.7、4.8 要好不少，有 4.6 那味了。"

Claude 4.6 曾是公认的"文笔最好的 Claude"。Fable 5 在保持了编程能力突破的同时，找回了那部分被牺牲掉的文学性。

安全限制

Fable 5 的安全策略是 Anthropic 有史以来最严格的：

敏感查询重路由：网络安全攻击、生化武器、模型蒸馏等查询会被拦截，重定向到更安全的 Opus 4.8 处理
漏洞探测被拒：实测中，试图让 Fable 5 找项目漏洞的请求被直接拒绝
30 天数据保留：API 流量强制保留 30 天，不用于训练但会存档
红队测试：超过 1000 小时的红队测试 + 漏洞赏金，未发现通用越狱

这在实测中是个双刃剑。如果你是写安全工具的开发者，Fable 5 可能直接拒绝帮你。但如果你是企业场景，这意味着 Anthropic 替你扛住了一部分合规风险。

六、横向对比：什么时候用谁？

场景	推荐模型	理由
日常代码问答	Claude Opus 4.8 / GPT-5.5	Fable 5 太贵，性价比低
复杂 Bug 调试	Claude Fable 5	推理深度独一档
完整功能/插件开发	Claude Fable 5	自主性最强，能独立干活
高吞吐 Agent 循环	Gemini 3.5 Flash	便宜 + 快，适合循环调用
中文编程辅助	Kimi K2.7 Code	6倍速 + 1.3元/M token，超值
长文档写作	Claude Fable 5	1M 上下文 + 写作质量回归
安全/漏洞场景	Opus 4.8 / 其他	Fable 5 会直接拒绝
预算敏感的项目	DeepSeek V4 Pro	降价 75%，极致性价比

Fable 5 使用决策树

你的任务需要长时间自主运行（>1小时）？
├── 是 → 用 Fable 5 ✅
├── 否 → Opus 4.8 搞不定？
│   ├── 是 → 用 Fable 5 ✅
│   └── 否 → 用 Opus 4.8 / GPT-5.5 💰

七、手把手：用 Fable 5 API 跑你的第一个任务

环境准备

pip install anthropic

基础调用

from anthropic import Anthropic

client = Anthropic()  # 需要设置 ANTHROPIC_API_KEY 环境变量

response = client.messages.create(
    model="claude-fable-5",
    max_tokens=8192,
    messages=[
        {
            "role": "user",
            "content": "分析这个项目中可能存在哪些性能瓶颈，并给出优化方案。"
        }
    ]
)

print(response.content[0].text)

实际使用技巧

用 system prompt 约束开销

"请尽量简洁地回答问题，避免冗长的解释。如在500字内能说明，就不要写5000字。"

控制 max_tokens

# 简单任务设低点
max_tokens=1024   # 问答
max_tokens=8192   # 中等任务
max_tokens=32768  # 复杂开发

分段处理长上下文

# ❌ 不好：把整个仓库塞进去
response = client.messages.create(
    model="claude-fable-5",
    messages=[{"role": "user", "content": f"这是整个项目代码：{entire_repo}"}]
)

# ✅ 好：给关键文件 + 明确问题
response = client.messages.create(
    model="claude-fable-5",
    messages=[{
        "role": "user",
        "content": "我上传了 src/ 下 3 个核心文件，请只看 user_auth.py 的登录流程优化（关注 token 刷新逻辑）。"
    }]
)

利用 prompt caching（如果支持） 重复的上下文部分可以缓存，大幅降低输入费用。把静态内容（如系统指令、代码库上下文）放在消息列表前面。

八、Anthropic 的野心与 AI 编程的未来

Fable 5 发布后不到一周，Anthropic 提交了 IPO 申请，估值 $9650 亿。

这个数字放在 AI 圈是天花板级别的——比 OpenAI 最新估值高了近 2 倍。Anthropic 凭什么？

回头看 Fable 5 的产品逻辑就很清楚：

不卷低价：$10/$50 的价格直接告诉市场——"我们不做性价比，我们做最强的那个"
安全是护城河：Mythos 5 只给少数人用，Fable 5 的敏感查询被自动拦截。"我们有最强的模型，但我们选择不让它乱跑"——这是最能说服监管者的叙事
AI 编程是主战场：SWE-Bench Pro 80.3% 不是偶然。Anthropic 把 Agent 编码作为 Fable 5 的核心卖点，赌的就是企业愿意为"能干活"的 AI 付高价

对开发者来说，这意味着什么？

2026 下半年，AI 编程工具会继续两极分化：

一侧是「极致品质」：Claude Fable 5、未来的 Mythos 6——为复杂任务买单
一侧是「极致性价比」：Kimi K2.7 Code（1.3元/M token）、DeepSeek V4 Pro（降价 75%）——日常开发必备

聪明的策略不是只用一个，而是组合使用。

结语：一把牛刀，别拿去切豆腐

Fable 5 是目前最强的编程 AI，不用怀疑。

但它也是最贵的之一。如果你每天用它回答"这段代码哪里写错了"这种问题，那就像开着法拉利送外卖——很酷，但毫无意义。

Fable 5 的正确用法：

用它做 Opus 4.8 搞不定的任务
用它做需要自主运行数小时的 Agent 工作流
用它写完整的功能模块，而不是改一行代码

日常开发：Kimi K2.7 Code（中文友好 + 6倍速）+ DeepSeek V4 Pro（极致便宜）足够了。

"AI 离'神'只差最后一步，连 Anthropic 自己都不敢迈。"

但在它迈出那一步之前，先想好：你打算让它帮你做什么？

本文提及的链接：

Anthropic API：https://console.anthropic.com
Claude 应用：https://claude.ai
Anthropic 官方博客：https://www.anthropic.com/research

相关阅读：

Claude Fable 5 深度实测：2小时写出完整Obsidian插件，但$50/百万token到底值不值？

Claude Fable 5 深度实测：2小时写出完整Obsidian插件，但$50/百万token到底值不值？

引子：一个 $9650 亿的赌注

📌 TL;DR

一、Claude Fable 5 是什么？

模型定位

核心规格

可用平台

二、基准测试：碾压级领先

三、实测场景一：编程——真的能"独立干活"

任务：开发一个 Obsidian 插件

任务：WeSight 项目 Bug 修复

Agent 能力：社区疯传的极限测试

四、实测场景二：速度与 Token 消耗——烧钱机器

TPS 表现

Token 消耗：最容易被忽略的坑

五、实测场景三：写作与安全——惊喜与限制并存

写作质量

安全限制

六、横向对比：什么时候用谁？

Fable 5 使用决策树

七、手把手：用 Fable 5 API 跑你的第一个任务

环境准备

基础调用

实际使用技巧

八、Anthropic 的野心与 AI 编程的未来

结语：一把牛刀，别拿去切豆腐

相关文章

ElevenLabs 深度实测：$5亿ARR的语音AI帝国，为什么用户又爱又恨？

2026 年 6 月国产大模型免费 API 横评：智谱 GLM vs 豆包 vs DeepSeek vs 通义千问，谁才是开发者的真·免费午餐？

美团 LongCat 开源全家桶解读：6 大项目一口气看懂，数字人+多模态+数学证明+语音克隆+评测基准全有

订阅AI科技日报