研值 YANZ 测评平台全年龄段 · 多维度测评
测评方法 · ALGORITHMS & SCORING

同样的分数,
不同的含义

原始分数只说"考了多少";YANZ 的算法体系回答"意味着什么、下一步怎么走"。 所有报告——学生个性化报告与校级决策支持报告——都由这套经真实联考大数据标定、验证的算法自动生成。

01 · 核心范式 · 二指标一定位

作答能力,再到定位

测评的本质不是"算总分",而是用一套潜变量模型,把每个学生的逐题作答反演为潜在能力 θ, 再把能力换算成可跨卷比较的量表分、百分位与升学定位。两个核心指标——能力高低能力结构—— 加一个群体定位,构成"二指标一定位"。

① 作答数据
逐题得分 / 客观题选项
双向细目表(Q 矩阵)
② 算法估计
IRT 估计能力 θ + 误差 SEM
CDM 估计知识点掌握概率
③ 报告产出
量表分 · 95%CI · PR · 等级
维度雷达 · 诊断 · 行动建议
为什么不能只看总分:同样 75 分,在均分 66 的科目里约处群体前 30%,在均分 41 的难卷里却可能是前 2%。 IRT 用题目难度/区分度校正后的能力值,才让"分数"在不同试卷、不同年份之间真正可比。
02 · 算法体系 · 十二种方法各司其职

一套国际成熟方法的工程化组合。

YANZ 不依赖单一模型,而是按"测什么、答什么、要回答什么问题"选用合适方法。以下方法均为心理计量与统计学的成熟范式,可复现、可解释。

CTT

经典测验理论

难度 P、校正点二列区分度、上下 27% 区分度 D、Cronbach α 信度——题目与试卷质量的基础体检。

→ 题目筛查 · 试卷信度
IRT · 2PL/3PL

项目反应理论

用潜在能力 θ 解释作答;区分度 a、难度 b(客观题加猜测 c)。同分不同能力可被区分,跨卷可比。

→ 能力量表分 · 95%CI · 百分位
MIRT

多维项目反应理论

估计"函数与导数 / 几何 / 电磁学"等细分维度上的潜在能力,画出能力结构雷达。

→ 学科能力结构画像
CDM · DINA/GDINA

认知诊断模型

借助双向细目表(题目×知识点的 Q 矩阵),把答题模式反演为每个知识点的掌握概率,实现"真达标"判定而非"分数达标"。

→ 知识点掌握矩阵 · 四级判定
GRM

等级反应模型

处理主观题多级评分,刻画"高阶思维(分析/论证/探究)"与"低阶思维(识记/理解)"的能力结构。

→ 主观题诊断 · PBL 能力基线
IRT 垂直等值

跨次考试等值

用锚题把不同年级、不同难度的试卷放到同一能力量尺,使历次成绩可直接比较。

→ 个人成长轨迹 · 动态达标线
LGCM

潜在增长曲线模型

估计每个学生的"起点"与"增长斜率",预测发展轨迹与升学出口,生成增值证明。

→ 升学潜力预测 · 个性化达标线
HLM

多层线性模型

建模"学生∈班级∈教师"的嵌套结构,剥离生源差异,得到教师的"教学净效应"及置信区间。

→ 教师增值评价基线
XGBoost

梯度提升预测

用高一/高二多维特征预测高三各层次上线概率,锁定临界生,并输出可解释的特征重要度。

→ 临界生预警 · 上线概率
E 值矩阵

EA×EB 班级分型

整体效能 EA × 均衡效能 EB 的四象限自动分型(尖子带动 / 均衡稳健 / 潜力均衡 / 亟待提升)。

→ 班级学情诊断 · 差异化管理
矩阵分解 + 协同过滤

个性化推荐

分解"学生×试题"得分矩阵识别隐式偏好,按错题标签推送最相似变式题。

→ 错题本 · 变式题推荐
异常检测

诚信与质量保障

Isolation Forest 结合选项一致性与得分波动,识别"刷达标 / 虚假达标",触发二次复核。

→ 防作弊 · 数据质量
03 · 评分量表 · 能力等级

把能力 θ 翻译成看得懂的等级

能力量表分 = 500 + 100 × θ(θ 为标准化潜在能力,群体均值 0、标准差 1),并给出 95% 置信区间与百分位 PR。 在此之上,YANZ 提供两套互补的等级语言:

一 · 统一能力等级(1 / 2 / 3 / 4 / 5 / 5+ / 5++)

这是个人报告与校级报告共用的同一套能力语言——按全省排位百分位 PR 映射到升学录取线,给个体一个"够得着"的目标参照(符合"不排名、不公布",仅个人可见):

1 不上线
2 民办专科
3 公办专科
4 本科线
5 重本线
5+ 211/985
5++ 前千名

个人报告给出本人落在哪一档;校级报告把全校学生按同一套 1–5++ 等级做人数分布与升学出口预测——两份报告等级口径完全一致

二 · 等级 → 自主权限(学力通行证达标认证)

「学力通行证」的自主权限按能力等级分级开放;达标判定不仅看总分:须各核心知识点掌握概率(CDM)达阈值方可认证——这是制度的诚信基石。

1–2 级
未上本科
夯实基础,达标前不开放自主权限。
3 级
专科段
限额开放自主申请,红色预警学科强制基础任务。
4–5 级
本科–重本
开放常规自主申请与变式拓展。
5+ 及以上
211/985+
高自主权限 + 探究 / 竞赛拓展。
04 · 算法是旧的,结论是新的

方法成熟,
参数来自真实数据

上述算法均为国际通行范式;真正稀缺的是训练与标定它们的真实数据。YANZ 的参数来自 9 次全省联考、137 所学校、18/19/20 三个完整年级、连续 4 次追踪的个体逐题作答—— 题目难度/区分度、知识点 Q 矩阵、增长协方差、上线概率阈值,全部由真实作答标定,并经三届回溯验证(上线率预测误差 ±2% 以内)。

把贵校的起点数据代入这套已验证的框架,算出的就是贵校独有的预测与诊断。 方法的可复现说明与真实指标见 研究院 · 真实数据实证; 报告样张见 报告样张