测评方法 · 算法体系与评分量表

01 · 核心范式 · 二指标一定位

从作答到能力，再到定位。

测评的本质不是"算总分"，而是用一套潜变量模型，把每个学生的逐题作答反演为潜在能力 θ，再把能力换算成可跨卷比较的量表分、百分位与升学定位。两个核心指标——能力高低与能力结构—— 加一个群体定位，构成"二指标一定位"。

① 作答数据

逐题得分 / 客观题选项

双向细目表（Q 矩阵）

→

② 算法估计

IRT 估计能力 θ + 误差 SEM

CDM 估计知识点掌握概率

→

③ 报告产出

量表分 · 95%CI · PR · 等级

维度雷达 · 诊断 · 行动建议

为什么不能只看总分：同样 75 分，在均分 66 的科目里约处群体前 30%，在均分 41 的难卷里却可能是前 2%。 IRT 用题目难度/区分度校正后的能力值，才让"分数"在不同试卷、不同年份之间真正可比。

02 · 算法体系 · 十二种方法各司其职

一套国际成熟方法的工程化组合。

YANZ 不依赖单一模型，而是按"测什么、答什么、要回答什么问题"选用合适方法。以下方法均为心理计量与统计学的成熟范式，可复现、可解释。

CTT

经典测验理论

难度 P、校正点二列区分度、上下 27% 区分度 D、Cronbach α 信度——题目与试卷质量的基础体检。

→ 题目筛查 · 试卷信度

IRT · 2PL/3PL

项目反应理论

用潜在能力 θ 解释作答；区分度 a、难度 b（客观题加猜测 c）。同分不同能力可被区分，跨卷可比。

→ 能力量表分 · 95%CI · 百分位

MIRT

多维项目反应理论

估计"函数与导数 / 几何 / 电磁学"等细分维度上的潜在能力，画出能力结构雷达。

→ 学科能力结构画像

CDM · DINA/GDINA

认知诊断模型

借助双向细目表（题目×知识点的 Q 矩阵），把答题模式反演为每个知识点的掌握概率，实现"真达标"判定而非"分数达标"。

→ 知识点掌握矩阵 · 四级判定

GRM

等级反应模型

处理主观题多级评分，刻画"高阶思维（分析/论证/探究）"与"低阶思维（识记/理解）"的能力结构。

→ 主观题诊断 · PBL 能力基线

IRT 垂直等值

跨次考试等值

用锚题把不同年级、不同难度的试卷放到同一能力量尺，使历次成绩可直接比较。

→ 个人成长轨迹 · 动态达标线

LGCM

潜在增长曲线模型

估计每个学生的"起点"与"增长斜率"，预测发展轨迹与升学出口，生成增值证明。

→ 升学潜力预测 · 个性化达标线

HLM

多层线性模型

建模"学生∈班级∈教师"的嵌套结构，剥离生源差异，得到教师的"教学净效应"及置信区间。

→ 教师增值评价基线

XGBoost

梯度提升预测

用高一/高二多维特征预测高三各层次上线概率，锁定临界生，并输出可解释的特征重要度。

→ 临界生预警 · 上线概率

E 值矩阵

EA×EB 班级分型

整体效能 EA × 均衡效能 EB 的四象限自动分型（尖子带动 / 均衡稳健 / 潜力均衡 / 亟待提升）。

→ 班级学情诊断 · 差异化管理

矩阵分解 + 协同过滤

个性化推荐

分解"学生×试题"得分矩阵识别隐式偏好，按错题标签推送最相似变式题。

→ 错题本 · 变式题推荐

异常检测

诚信与质量保障

Isolation Forest 结合选项一致性与得分波动，识别"刷达标 / 虚假达标"，触发二次复核。

→ 防作弊 · 数据质量

03 · 评分量表 · 能力等级

把能力 θ 翻译成看得懂的等级。

能力量表分 = 500 + 100 × θ（θ 为标准化潜在能力，群体均值 0、标准差 1），并给出 95% 置信区间与百分位 PR。在此之上，YANZ 提供两套互补的等级语言：

一 · 统一能力等级（1 / 2 / 3 / 4 / 5 / 5+ / 5++）

这是个人报告与校级报告共用的同一套能力语言——按全省排位百分位 PR 映射到升学录取线，给个体一个"够得着"的目标参照（符合"不排名、不公布"，仅个人可见）：

1 不上线

2 民办专科

3 公办专科

4 本科线

5 重本线

5+ 211/985

5++ 前千名

个人报告给出本人落在哪一档；校级报告把全校学生按同一套 1–5++ 等级做人数分布与升学出口预测——两份报告等级口径完全一致。

二 · 等级 → 自主权限（学力通行证达标认证）

「学力通行证」的自主权限按能力等级分级开放；达标判定不仅看总分：须各核心知识点掌握概率（CDM）达阈值方可认证——这是制度的诚信基石。

1–2 级

未上本科

夯实基础，达标前不开放自主权限。

3 级

专科段

限额开放自主申请，红色预警学科强制基础任务。

4–5 级

本科–重本

开放常规自主申请与变式拓展。

5+ 及以上

211/985+

高自主权限 + 探究 / 竞赛拓展。

04 · 算法是旧的，结论是新的

方法成熟，
但参数来自真实数据。

上述算法均为国际通行范式；真正稀缺的是训练与标定它们的真实数据。YANZ 的参数来自 9 次全省联考、137 所学校、18/19/20 三个完整年级、连续 4 次追踪的个体逐题作答—— 题目难度/区分度、知识点 Q 矩阵、增长协方差、上线概率阈值，全部由真实作答标定，并经三届回溯验证（上线率预测误差 ±2% 以内）。

把贵校的起点数据代入这套已验证的框架，算出的就是贵校独有的预测与诊断。方法的可复现说明与真实指标见研究院 · 真实数据实证；报告样张见报告样张。

同样的分数，不同的含义。