从作答到能力,再到定位。
测评的本质不是"算总分",而是用一套潜变量模型,把每个学生的逐题作答反演为潜在能力 θ, 再把能力换算成可跨卷比较的量表分、百分位与升学定位。两个核心指标——能力高低与能力结构—— 加一个群体定位,构成"二指标一定位"。
一套国际成熟方法的工程化组合。
YANZ 不依赖单一模型,而是按"测什么、答什么、要回答什么问题"选用合适方法。以下方法均为心理计量与统计学的成熟范式,可复现、可解释。
经典测验理论
难度 P、校正点二列区分度、上下 27% 区分度 D、Cronbach α 信度——题目与试卷质量的基础体检。
项目反应理论
用潜在能力 θ 解释作答;区分度 a、难度 b(客观题加猜测 c)。同分不同能力可被区分,跨卷可比。
多维项目反应理论
估计"函数与导数 / 几何 / 电磁学"等细分维度上的潜在能力,画出能力结构雷达。
认知诊断模型
借助双向细目表(题目×知识点的 Q 矩阵),把答题模式反演为每个知识点的掌握概率,实现"真达标"判定而非"分数达标"。
等级反应模型
处理主观题多级评分,刻画"高阶思维(分析/论证/探究)"与"低阶思维(识记/理解)"的能力结构。
跨次考试等值
用锚题把不同年级、不同难度的试卷放到同一能力量尺,使历次成绩可直接比较。
潜在增长曲线模型
估计每个学生的"起点"与"增长斜率",预测发展轨迹与升学出口,生成增值证明。
多层线性模型
建模"学生∈班级∈教师"的嵌套结构,剥离生源差异,得到教师的"教学净效应"及置信区间。
梯度提升预测
用高一/高二多维特征预测高三各层次上线概率,锁定临界生,并输出可解释的特征重要度。
EA×EB 班级分型
整体效能 EA × 均衡效能 EB 的四象限自动分型(尖子带动 / 均衡稳健 / 潜力均衡 / 亟待提升)。
个性化推荐
分解"学生×试题"得分矩阵识别隐式偏好,按错题标签推送最相似变式题。
诚信与质量保障
Isolation Forest 结合选项一致性与得分波动,识别"刷达标 / 虚假达标",触发二次复核。
把能力 θ 翻译成看得懂的等级。
能力量表分 = 500 + 100 × θ(θ 为标准化潜在能力,群体均值 0、标准差 1),并给出 95% 置信区间与百分位 PR。 在此之上,YANZ 提供两套互补的等级语言:
一 · 统一能力等级(1 / 2 / 3 / 4 / 5 / 5+ / 5++)
这是个人报告与校级报告共用的同一套能力语言——按全省排位百分位 PR 映射到升学录取线,给个体一个"够得着"的目标参照(符合"不排名、不公布",仅个人可见):
个人报告给出本人落在哪一档;校级报告把全校学生按同一套 1–5++ 等级做人数分布与升学出口预测——两份报告等级口径完全一致。
二 · 等级 → 自主权限(学力通行证达标认证)
「学力通行证」的自主权限按能力等级分级开放;达标判定不仅看总分:须各核心知识点掌握概率(CDM)达阈值方可认证——这是制度的诚信基石。
方法成熟,
但参数来自真实数据。
上述算法均为国际通行范式;真正稀缺的是训练与标定它们的真实数据。YANZ 的参数来自 9 次全省联考、137 所学校、18/19/20 三个完整年级、连续 4 次追踪的个体逐题作答—— 题目难度/区分度、知识点 Q 矩阵、增长协方差、上线概率阈值,全部由真实作答标定,并经三届回溯验证(上线率预测误差 ±2% 以内)。