速率限制

为保障平台服务稳定性、模型资源的公平使用，以及整体服务质量，智谱开放平台对 API 调用实施 速率限制（Rate Limits）机制。下面对速率限制的触发场景、常见错误码及应对方式进行详细说明。

通用 API 用户： 可通过速率限制查看您的账户目前各模型可调用的速率；GLM Coding Plan 用户： 速率（并发数）限制与您的套餐等级相关，平台会根据资源进行动态调整，低峰期享有更高速率，基本原则 Max> Pro > Lite。

一、什么是速率限制？

速率限制 是指平台在一定时间窗口内，对单个账户或调用方的 API 并发请求数等进行限制。在智谱开放平台中，速率限制主要体现在：

并发请求数限制
不同模型设有独立的并发限制
不同用户权益等级、不同套餐对应不同的 并发限制
高峰期的动态限流与平台级保护策略

二、为什么需要速率限制？

速率限制是业界大模型 API 的通用做法，其核心目的包括： 1. 保障平台整体稳定性 ：防止瞬时高并发请求对模型服务造成冲击；通过设置速率限制，可以最大程度帮助用户保持稳定的体验。 2. 确保用户间的公平使用 ：避免个别账户在高并发场景下占用过多资源，影响其他用户的正常调用。 3. 防范异常流量或误用行为 ：包括程序异常、无限重试、非预期高频调用等情况。

三、智谱开放平台速率限制机制说明

1. 按用户权益等级 & 模型维度划分的并发限制

如果您是 API 用户，智谱开放平台对不同模型设置了不同的并发数上限。（可通过速率限制查看您的账户目前各模型可调用的速率）：

通用模型
图像 / 视频生成模型
向量模型
实时音视频模型
……

同时，速率限制量级和您的用户权益等级相关，（可通过用户权益查看自己的积分与用户权益等级。）

⚠️ 并发数指的是：同一时刻正在处理中的请求数量。

2. 按 GLM Coding Plan 套餐等级划分的并发限制

如果您是 GLM Coding Plan 套餐用户，速率限制与您订阅的 套餐等级相关。不同套餐用户，默认可用的模型并发上限不同，每个项目开发可使用 Subagent 等方式并发模型调用，我们的推荐使用项目数量如下（查看我的套餐等级）：

Lite ： 建议同时进行单个项目的开发
Pro ： 建议同时进行 1-2 个项目的开发
Max ：建议同时进行 2+ 个项目的开发

套餐用户在低峰期将享有更高的并发权益（动态提升），能够支撑更高数量的项目开发。

3. 高峰期的限流策略

在业务高峰期（如工作日白天、活动期间、每天下午15:00-18:00）：

若某一账户在短时间内发起大量并发请求
超出该账户在对应模型上的并发上限

平台将基于 账户维度 对请求进行限流处理，而非模型永久不可用。

4. 平台级服务过载说明

除账户自身速率限制外，平台在以下情况下可能触发 平台级保护机制：

某一模型在短时间内整体访问量激增
底层算力资源处于高负载状态
平台进行系统维护、扩容或异常恢复

此类情况属于 平台服务过载，与单一账户的调用行为无直接关系。

四、相关错误码

1. 错误码 1302：触发用户速率限制

错误含义

您的账户已达到速率限制，请您控制请求频率

典型原因

当前模型的并发请求数已达到账户上限
短时间内请求过于密集

建议处理方式

降低并发请求数量
增加请求队列或排队机制
在必要时提升账户权益等级，提升并发额度（如何提升用户权益等级）（此条不适用 GLM Coding Plan）

2. 错误码 1305：平台服务过载

错误含义

该模型当前访问量过大，请您稍后再试

典型原因

模型在当前时段整体访问压力较高
平台触发了全局保护或临时限流

建议处理方式

稍后重试请求
增加重试间隔，避免立即高频重试
在业务允许的情况下进行降级或延迟处理

五、如何合理应对速率限制？

我们建议开发者在系统设计中提前考虑以下策略：

1. 控制并发与请求频率

使用请求队列或并发池
避免瞬时“洪峰式”请求
避免固定间隔的高频重试

2. 异步请求或批处理 API

非实时场景可通过批处理方式或异步请求降低并发压力（Batch API、异步请求）

六、如何申请提升速率限制？

GLM Coding Plan 用户按订阅套餐等级统一并发，暂不支持申请调整。

若您使用的是通用 API，且业务确实需要更高并发能力，可通过控制台提交申请：

进入【速率限制调整申请】
填写以下信息：
- 需要调整的模型
- 期望增加的并发数量
- 实际使用场景与业务说明

平台将在 10 个工作日内完成审核，审核结果将通过注册手机号或站内通知告知。

API 指引

模型 API

工具 API

Agent API

文件 API

批处理 API

知识库 API

实时 API

一、什么是速率限制？

二、为什么需要速率限制？

三、智谱开放平台速率限制机制说明

1. 按用户权益等级 & 模型维度划分的并发限制

2. 按 GLM Coding Plan 套餐等级划分的并发限制

3. 高峰期的限流策略

4. 平台级服务过载说明

四、相关错误码

1. 错误码 1302：触发用户速率限制

2. 错误码 1305：平台服务过载

五、如何合理应对速率限制？

1. 控制并发与请求频率

2. 异步请求或批处理 API

六、如何申请提升速率限制？

​一、什么是速率限制？

​二、为什么需要速率限制？

​三、智谱开放平台速率限制机制说明

​1. 按用户权益等级 & 模型维度划分的并发限制

​2. 按 GLM Coding Plan 套餐等级划分的并发限制

​3. 高峰期的限流策略

​4. 平台级服务过载说明

​四、相关错误码

​1. 错误码 1302：触发用户速率限制

​2. 错误码 1305：平台服务过载

​五、如何合理应对速率限制？

​1. 控制并发与请求频率

​2. 异步请求或批处理 API

​六、如何申请提升速率限制？

一、什么是速率限制？

二、为什么需要速率限制？

三、智谱开放平台速率限制机制说明

1. 按用户权益等级 & 模型维度划分的并发限制

2. 按 GLM Coding Plan 套餐等级划分的并发限制

3. 高峰期的限流策略

4. 平台级服务过载说明

四、相关错误码

1. 错误码 1302：触发用户速率限制

2. 错误码 1305：平台服务过载

五、如何合理应对速率限制？

1. 控制并发与请求频率

2. 异步请求或批处理 API

六、如何申请提升速率限制？