测速方法论

我们如何定义和测量大模型速度,以及为什么这套方法是公平、可复现的。

为什么并发同测

所有启用的模型用同一个 Prompt、在同一时刻并发发起,而不是一个接一个跑。 这样每个模型面对的网络环境、时段、提示词完全一致,排除了先后顺序带来的系统性偏差。

首 Token 时延 TTFT

从请求发出到收到第一个 token(思考或正文均算)的毫秒数。 计时基准取服务端在收到每个增量(delta)时盖的时间戳, 而非浏览器本地时钟——这样浏览器渲染或解析卡顿不会污染测量结果。

思考 / 输出速度(tokens per second)

对会思考的模型,思考阶段与正文阶段分别独立计时:各取该阶段首末增量的活跃窗口,思考时长不含「思考结束→正文开始」的空隙,输出时长不含最后一个 token 之后等待 usage 收尾的时间。

token 口径优先采用厂商官方 usage 返回的总数;厂商未返回时用统一字符估算,并在结束后按官方总量整体校准,使峰值与曲线读数与官方口径一致。

峰值速度

以 2 秒滑动窗口计算瞬时 tokens/s 的最大值,并按官方 token 总量校准后取峰值。反映模型在解码阶段的吞吐上限。

数据来源与隐私

排行榜数据来自用户在竞速场跑完后自愿匿名共享,仅上报速度指标,不含任何 Prompt 内容与 API Key。同一模型的不同接入点(厂商域名)分开统计,互不混淆。数据每 5 分钟更新。

局限与公平性

速度受网络、时段、厂商负载影响,单次结果有波动,排行榜以中位数降低偶发抖动的影响,但仍仅供参考、不构成绝对结论。项目开源、可自行复现,我们不接受任何以排名位置为对价的合作。

查看速度排行榜去竞速场实测