限速规则
免费模型限速固定;收费模型根据账户用量级别进行分层限速。同一用量级别下,模型类别不同、模型参数量不同,速率峰值不同。
免费模型限速
- 调用免费,产生的API 调用消耗不计入账户费用账单。
- 用户注册后即可使用国内免费模型。注册用户在实名认证后可使用免费国际先进模型。
- 免费模型的限速固定。对于部分模型,平台同时提供免费版和收费版。免费版按照原名称命名;收费版会在名称前加上“Pro/”以示区分。例如,Qwen2-7B-Instruct的免费版命名为“Qwen/Qwen2-7B-Instruct”,收费版则命名为“Pro/Qwen/Qwen2-7B-Instruct”。
收费模型限速
- 按照用量付费。API 调用消耗计入账户费用账单。
- 根据账户用量级别进行分层限速。速率峰值随着用量级别提升而增大。
- 同一用量级别下,模型类别不同、模型参数量大小不同,速率峰值不同。
用量级别
- 月消费金额:用户当月调用 API 推理消费总金额、Playground消费金额和购买升级包消费金额的总和。
- 用量级别设定:根据账户最近三个月(当前月份与前两个月)中月消费金额的最高值来定级。新用户注册后初始用量级别为L0。
- 升级权益:月消费金额达到更高级别标准时,账户自动提升至相应用量级别。升级立即生效,并提供更宽松的速率限制。
- 级别查看:您可以在“账户管理-速率限制”中查看您组织当前的用量级别和限制速率详情。
用量级别 | L0 | L1 | L2 | L3 | L4 | L5 |
---|---|---|---|---|---|---|
资质 | ¥0≦最近三个月中最高月消费金额<¥50 | ¥50≦最近三个月中最高月消费金额<¥200 | ¥200≦最近三个月中最高月消费金额<¥2000 | ¥2000≦最近三个月中最高月消费金额<¥5000 | ¥5000≦最近三个月中最高月消费金额<¥10000 | ¥10000≦最近三个月中最高月消费金额 |
模型类别与参数
根据模型参数量大小划分成以下四种。同一用量级别下,所使用的模型参数量越大,其速率峰值越小。规则如下:
模型参数量 | L0~L5 |
---|---|
0-10B(不含) | RPM=1K~10K TPM=80K~5000K; |
10-50B(不含) | RPM=1K~10K TPM=40K~2000K; |
50-200B(不含) | RPM=1K~10K TPM=20000~1000K; |
200B以上 | RPM=1K~10K TPM=10K~500K; |
注意事项:
- 每个模型单独限速,一个模型速率达峰不影响其他模型正常使用。
- 被限速了该怎么办?
如果超出速率调用限制,用户的API请求将会因为限速控制而失败。用户需要等待一段时间待满足限速条件后方能再次调用。对应的 HTTP 错误信息为:
HTTP/1.1 429
Too Many Requests
Content Type: text/html
Request was rejected due to rate limiting. If you want more, please contact [email protected]
详细报错信息与处理请参考速率处理代码逻辑
Updated 8 days ago