首 Token 时延（TTFT）是怎么测的？

从请求发出到收到第一个 token（思考或正文均可）的时间。计时基准取服务端在收到每个 delta 时盖的时间戳，避免浏览器渲染卡顿污染测量。

输出速度（tokens/s）用什么口径？

优先采用厂商官方 usage 返回的 token 总数；缺失时用统一估算并按官方总量校准。速度按「首 token 到末 token」的活跃窗口计算，不含收尾等待时间。

所有模型用同一个 Prompt、同一时刻并发发起，使用完全相同的计时与 token 口径。项目开源、可自行复现。速度受网络、时段、厂商负载影响，仅供参考。

我们如何定义和测量大模型速度，以及为什么这套方法是公平、可复现的。

所有启用的模型用同一个 Prompt、在同一时刻并发发起，而不是一个接一个跑。这样每个模型面对的网络环境、时段、提示词完全一致，排除了先后顺序带来的系统性偏差。

从请求发出到收到第一个 token（思考或正文均算）的毫秒数。计时基准取服务端在收到每个增量（delta）时盖的时间戳，而非浏览器本地时钟——这样浏览器渲染或解析卡顿不会污染测量结果。

对会思考的模型，思考阶段与正文阶段分别独立计时：各取该阶段首末增量的活跃窗口，思考时长不含「思考结束→正文开始」的空隙，输出时长不含最后一个 token 之后等待 usage 收尾的时间。

token 口径优先采用厂商官方 usage 返回的总数；厂商未返回时用统一字符估算，并在结束后按官方总量整体校准，使峰值与曲线读数与官方口径一致。

以 2 秒滑动窗口计算瞬时 tokens/s 的最大值，并按官方 token 总量校准后取峰值。反映模型在解码阶段的吞吐上限。

排行榜数据来自用户在竞速场跑完后自愿匿名共享，仅上报速度指标，不含任何 Prompt 内容与 API Key。同一模型的不同接入点（厂商域名）分开统计，互不混淆。数据每 5 分钟更新。

速度受网络、时段、厂商负载影响，单次结果有波动，排行榜以中位数降低偶发抖动的影响，但仍仅供参考、不构成绝对结论。项目开源、可自行复现，我们不接受任何以排名位置为对价的合作。