术语表:模型、Token、上下文窗口与速率限制

一次看懂常见术语,避免沟通时的理解偏差。

入门更新:2026-03-06术语 / token / 上下文

Token

Token 是模型处理文本的基本单位。不同语言的 Token 切分不同,因此同样字数的中文与英文 Token 数可能不一致。

你在使用 API 时,输入与输出通常分别计费,并共同占用上下文窗口。

上下文窗口

上下文窗口表示一次请求中模型可同时“看到”的输入与输出总量。

当对话变长时,你可能需要做摘要、裁剪历史、或把资料改为文件/检索式的引用。

速率限制

速率限制通常按“每分钟请求数、每分钟 Token 数”等维度限制。

在产品与 API 场景下,你需要用队列、重试与退避策略避免突发流量带来的失败。

下一步建议
如果你需要权威口径,请优先查看官方文档与状态页;如果你在使用过程中遇到不稳定输出,建议回到提示词基础与自检清单。