术语表：模型、Token、上下文窗口与速率限制

一次看懂常见术语，避免沟通时的理解偏差。

入门更新：2026-03-06术语 / token / 上下文

Token

Token 是模型处理文本的基本单位。不同语言的 Token 切分不同，因此同样字数的中文与英文 Token 数可能不一致。

你在使用 API 时，输入与输出通常分别计费，并共同占用上下文窗口。

上下文窗口表示一次请求中模型可同时“看到”的输入与输出总量。

当对话变长时，你可能需要做摘要、裁剪历史、或把资料改为文件/检索式的引用。

速率限制通常按“每分钟请求数、每分钟 Token 数”等维度限制。

在产品与 API 场景下，你需要用队列、重试与退避策略避免突发流量带来的失败。

参考链接

下一步建议

如果你需要权威口径，请优先查看官方文档与状态页；如果你在使用过程中遇到不稳定输出，建议回到提示词基础与自检清单。