Evaluation Templates
选择一个固定任务,用你当前配置的模型直接跑一轮;结果会保存到本机历史,并归档到对应模板。
用 5000 字输出任务拉开解码速度差异,适合看输出 TPS、峰值速度和截断风险。
极短任务更容易观察首响延迟,适合聊天、Agent、实时交互场景。
经典逻辑题,观察模型是否能给出可执行步骤,而不是只给结论。
短数学题,容易暴露优惠券顺序、单位和分步计算问题。
要求直接输出完整代码,观察代码完整性、可运行性和无解释遵循度。
检查模型是否能识别重复元素丢失等细节 bug,并给出合理修复。
高约束格式题,适合看模型是否会夹带解释或破坏 JSON。
5 个短知识点混合,快速观察知识覆盖和简洁回答能力。
观察创作风格、约束长度和分点表达,适合内容生产场景。
要求输出纯 SVG,测试视觉结构描述、代码完整性和渲染可用性。
需要用户替换正文,适合测长输入理解、信息抽取和结构化输出。