一、什么是速率限制?
速率限制 是指平台在一定时间窗口内,对单个账户或调用方的 API 并发请求数等进行限制。 在智谱 AI 开放平台中,速率限制主要体现在:- 并发请求数限制
- 不同模型设有独立的并发限制
- 不同用户权益等级、不同套餐对应不同的 并发限制
- 高峰期的动态限流与平台级保护策略
二、为什么需要速率限制?
速率限制是业界大模型 API 的通用做法,其核心目的包括: 1. 保障平台整体稳定性 : 防止瞬时高并发请求对模型服务造成冲击;通过设置速率限制,可以最大程度帮助用户保持稳定的体验。 2. 确保用户间的公平使用 : 避免个别账户在高并发场景下占用过多资源,影响其他用户的正常调用。 3. 防范异常流量或误用行为 : 包括程序异常、无限重试、非预期高频调用等情况。三、智谱开放平台速率限制机制说明
1. 按用户权益等级 & 模型维度划分的并发限制
如果您是 API 用户,智谱 AI 开放平台对不同模型设置了不同的并发数上限。 (可通过 速率限制 查看您的账户目前各模型可调用的速率):- 通用模型
- 图像 / 视频生成模型
- 向量模型
- 实时音视频模型
- ……
⚠️ 并发数指的是:同一时刻正在处理中的请求数量。
2. 按 GLM Coding Plan 套餐等级划分的并发限制
如果您是 GLM Coding Plan 套餐用户,速率限制与您订阅的 套餐 等级相关。不同套餐用户,默认可用的模型并发上限不同,每个项目开发可使用 Subagent 等方式并发模型调用,我们的推荐使用项目数量如下(查看我的套餐等级):- Lite : 建议同时进行单个项目的开发
- Pro : 建议同时进行 1-2 个项目的开发
- Max :建议同时进行 2+ 个项目的开发
套餐用户在低峰期将享有更高的并发权益(动态提升),能够支撑更高数量的项目开发。
3. 高峰期的限流策略
在业务高峰期(如工作日白天、活动期间、每天下午15:00-18:00):- 若某一账户在短时间内发起大量并发请求
- 超出该账户在对应模型上的并发上限
4. 平台级服务过载说明
除账户自身速率限制外,平台在以下情况下可能触发 平台级保护机制:- 某一模型在短时间内整体访问量激增
- 底层算力资源处于高负载状态
- 平台进行系统维护、扩容或异常恢复
四、相关错误码
1. 错误码 1302:触发用户速率限制
错误含义您的账户已达到速率限制,请您控制请求频率
- 当前模型的并发请求数已达到账户上限
- 短时间内请求过于密集
- 降低并发请求数量
- 增加请求队列或排队机制
- 在必要时提升账户权益等级,提升并发额度(如何提升用户权益等级)(此条不适用 GLM Coding Plan)
2. 错误码 1305:平台服务过载
错误含义该模型当前访问量过大,请您稍后再试
- 模型在当前时段整体访问压力较高
- 平台触发了全局保护或临时限流
- 稍后重试请求
- 增加重试间隔,避免立即高频重试
- 在业务允许的情况下进行降级或延迟处理
五、如何合理应对速率限制?
我们建议开发者在系统设计中提前考虑以下策略:1. 控制并发与请求频率
- 使用请求队列或并发池
- 避免瞬时“洪峰式”请求
- 避免固定间隔的高频重试
2. 异步请求或批处理 API
六、如何申请提升速率限制?
若您使用的是通用 API,且业务确实需要更高并发能力,可通过控制台提交申请:- 进入【速率限制调整申请】
- 填写以下信息:
- 需要调整的模型
- 期望增加的并发数量
- 实际使用场景与业务说明