限速概述
什么是速率限制
速率限制是指用户API在指定时间内访问 SiliconCloud 平台服务次数的限制。
为什么做速率限制
速率限制是 API 的常见做法,它们的实施有几个不同的原因:
- 保障资源的公平性及合理利用:确保资源公平使用。 防止某些用户过多请求,影响其他用户的正常使用体验。
- 防止请求过载:提高服务可靠性。帮助管理平台总体负载,避免因请求激增而导致服务器出现性能问题。
- 安全防护:防止恶意性攻击,导致平台过载甚至服务中断。
预置服务限速指标
目前速率限制以四种指标衡量:
- RPM( requests per minute ,指一个账户一分钟内最多发起的请求数)、 TPM( tokens per minute 指一个账户一分钟内最多消耗的token数)
- IPM( images per minute,指一个账户一分钟内最多生成的图片数)、IPD( images per day,指一个账户一天内最多生成的图片数) 。
模型名称 | 限速指标 | 升级时间 | 当前限速 |
---|---|---|---|
文本生成模型(Chat) | RPM、TPM | 2024 年 8 月 1 日 | 当前: · RPM=1000~10000 · TPM=50000~5000000 |
向量模型(Embedding) | RPM、TPM | - | 当前: · RPM:2000 · TPM:500000 |
重排序模型(Reranker) | RPM、TPM | - | 当前: · RPM:2000 · TPM:500000 |
图像生成模型(Image) | IPM、IPD | 2024 年 9 月 23 日 | 当前: · 免费模型 IPM=2 IPD=400 · 收费模型暂无限制 |
多模态模型(Multimodal Models) | 待定 | - | - |
速率限制可能会因在任一选项(RPM/TPM/IPM/IPD)中达峰而触发,取决于哪个先发生。例如,在RPM限制为20,TPM限制为200K时,一分钟内,账户向 ChatCompletions 发送了 20 个请求,每个请求有 100 个 Token ,限制即触发,即使账户在这些 20 个请求中没有发满 200K 个 Token 。
注意事项:
- 速率限制是在用户账户级别定义的,而不是密钥( API key) 维度。
Updated 8 days ago