关于 token 与大模型 API 费用的常见问题1,000 个 token 大约等于多少汉字?在 OpenAI(GPT 系列)和 Claude 这类对中文不太友好的分词器里,1,000 token 约等于 500–700 个汉字;在通义千问、文心一言、千帆这类按「1 汉字 ≈ 1 token」设计的国产分词器里,1,000 token 约等于 1,000 个汉字;DeepSeek、Kimi、豆包介于两者之间,约 700–900 汉字。换算英文则比较一致:1,000 token 约 750 个英文单词,或 4,000 个英文字符。中英混合文本要分别估算后相加。
为什么中文比英文贵那么多?因为主流的 BPE(Byte Pair Encoding)分词器是用大量英文语料训练的,英文常见单词被压缩成 1 个 token,而 UTF-8 下 1 个汉字占 3 个字节,未在词表里出现的汉字会被拆成多个 byte 级 token,1 字常见对应 1.5–2 token。结果是同样信息量的中英文文本,中文 token 数大约是英文的 1.5–2 倍,账单也就贵 1.5–2 倍。这也是国产大模型主推「1 汉字 = 1 token」的根本原因——既是技术选择,也是商业卖点。
输出 token 为什么比输入贵 3 到 5 倍?因为生成机制不一样。输入 token 可以一次性并行送进 GPU 计算(一次 forward pass 处理几千个 token 没问题),但输出 token 必须一个接一个生成,每生成 1 个就要重新跑一次推理,GPU 显存与计算开销大很多。所以 Claude Sonnet 4.6 输入 3 美元、输出 15 美元(5 倍);GPT-5.4 输入 2.5、输出 15(6 倍);DeepSeek V4 Flash 输入 0.14、输出 0.28(2 倍)。优化总账单时,砍输出长度(设 max_tokens、要求精简回答)的边际收益最大。
2026 年最便宜的中文大模型 API 是哪个?按 2026 年 6 月公开报价:豆包 Pro 32K 输入 0.0008 元、输出 0.002 元每千 token,是国内最便宜的主力模型之一;DeepSeek V4 Flash 输入 0.14 美元、输出 0.28 美元/百万 token;Kimi K2.5 输入 0.42、输出 2.2 美元;通义千问 Qwen-Turbo 输入 0.3 元、输出 0.6 元/百万 token;Qwen-Long 输入 0.5 元、输出 2 元(专攻长文本);智谱 GLM-4-Flash 主流额度免费,付费段价位也在国内最低梯队。如果只看「中文便宜 + 质量够用」,豆包 Pro 与 DeepSeek V4 Flash 通常是开发者首选。
怎么精确数 token?有没有不调 API 就能算的方法?三条路。第一,用 OpenAI 的 tiktoken(pip install tiktoken;encoding = tiktoken.get_encoding('o200k_base'); len(encoding.encode(text))),新版 GPT 系(含 GPT-5.4、GPT-5.5)统一用 o200k_base 编码。第二,把文本粘进上方的在线 token 计算器,立刻看到 token 数和各模型的费用估算,不用写代码。第三,用 1 汉字 ≈ 1.5 token(GPT 系)或 1 汉字 ≈ 1 token(国产模型)的经验公式心算,误差通常在 ±10% 以内。生产环境最准确的还是 API 返回的 usage 字段(input_tokens、output_tokens、cached_tokens 都有),所有主流模型都返回。
上下文窗口和 token 限制是一回事吗?不是。上下文窗口(context window)指模型一次最多能「看」的总 token 数(输入 + 输出),是模型架构上限;token 限制有时还指 API 层的 max_tokens 参数(你愿意为输出付多少 token 的钱)。2026 年常见模型上下文:GPT-5.4 与 GPT-5.5 系 1M,Claude Fable 5、Opus 4.8 与 Sonnet 4.6 都是 1M(200K 之后切换到更高费率),Grok 4.3 1M,Gemini 2.5 Pro 1M,DeepSeek V4 128K,Qwen3-Max 1M,Kimi K2.6 256K,Llama 4 Scout 10M。注意:「窗口大」不等于「实际效果好」,模型在 32K 之后召回与推理能力都会衰减,超过 200K 还要承担更贵的长上下文费率。
prompt 缓存到底能省多少?RAG、客服、Code Copilot 这类应用 80%+ 的输入是重复的(system prompt + 知识库片段 + 对话历史),缓存命中后这部分按基础输入价的约 10%–25% 计费——OpenAI GPT-5.4/5.5 系与 Anthropic、DeepSeek V4 都按 10% 计费,Kimi 约 16.9%。例如一个每天处理 50 次查询、每次需检索 20,000 token RAG 上下文的应用,开 1 小时缓存能从原来约 3 美元/天降到 0.5 美元,节省约 82%。Anthropic 写入缓存有 25% 溢价(一次写入要被读回 2 次以上才划算),OpenAI 与 DeepSeek 自动管理无溢价。建议把不变的内容放 prompt 开头,变量放结尾,最大化前缀命中率。
为什么对话刚到第 10 轮,就花掉 5 万 token?因为大模型 API 是无状态的(stateless),每轮对话都要把完整历史重新发一遍。假设每轮 user + assistant 合计 1,500 token,第 10 轮要发的输入是 1 + 2 + 3 + ... + 9 ≈ 45 倍单轮内容,再加上 system prompt 重复发送,总输入轻松破 5 万 token。优化思路:1) 开 prompt 缓存把历史压成低价缓存;2) 用滑动窗口或对话压缩(每 10 轮做一次摘要)替代原文堆叠;3) 必要时切到带原生上下文压缩的客户端(部分 Claude 客户端会自动总结长历史)。
图片和文件输入也要算 token 吗?要。多模态模型把图片切成 tile 后转换成 token:GPT-5.4 等支持视觉的 OpenAI 模型处理一张 1024×1024 高清图约 765 token(按 tile 切分计费);Claude 多模态按「宽 × 高 / 750」估算,一张 1024×1024 约 1,400 token;Gemini 2.5 视觉 token 由分辨率决定;智谱 GLM-4V 一张图约 1,047 token。PDF、Word、Excel 通常先被解析成纯文本再分词,按文本计费,所以一份 10 页中文 PDF 报告(约 5,000 字)大约 7,500–10,000 token。视觉密集型应用(OCR、UI 截图分析)最容易爆账单,建议提前在测试集上量过 token 再上线。
Token 计算器收费吗?数据会不会被收集?本计算器完全免费,不需要登录或注册,文本只在浏览器本地估算 token 数,不会发送到任何 LLM API,因此不会有 prompt 泄露的风险,也不会消耗任何模型的 token 配额。模型单价数据来自 OpenAI、Anthropic、Google、阿里云、DeepSeek、月之暗面、智谱、字节跳动等厂商 2026 年公开报价,每月跟随官方调价更新。结果仅作预算估算参考,最终实际账单以各家 API 控制台 usage 字段为准(含缓存命中、Batch 折扣、长上下文溢价等修正)。