本页内容
1. 项目反应理论(IRT 2PL / 3PL)
在直接累加得分的计分方式下,每道题对总分的贡献是均等的——一道选择题的 5 分等于另一道选择题的 5 分。 但实际上不同题目的难度 b 与区分度 a 存在差异, 一道难度较高、区分度较大的题对识别高潜学生所携带的信息显著高于一道难度中等、区分度较低的题。 项目反应理论(Item Response Theory,IRT)将每道题的 (a, b) 参数与每位学生的能力 θ 联合估计, 可以给出在所有题目作答下信息量最大化的能力点估计。
2PL 模型的核心概率方程:
P(答对) = 1 / [1 + exp(−1.7 · a · (θ − b))]2. DINA 认知诊断模型
IRT 输出的是单维能力 θ,可以判断"高 / 低",但难以指出学生具体强在哪个知识点、弱在哪个知识点。 DINA(Deterministic Inputs, Noisy "And" gate)模型假设每道题考查若干"属性"(考点), 由 Q-matrix(题目 × 考点)标记题目与考点的对应关系, 再用 EM 算法联合估计每位学生在每个属性上的掌握概率。
掌握概率定义为:
P(掌握考点 k | 作答) ∈ [0, 1]报告中可对每个考点输出掌握概率,例如:函数 0.83、立体几何 0.41、概率统计 0.67…… 这样的结果有助于学生、家长与培养计划导师明确后续学习的方向,而不仅是知道"得了多少分"。
3. 多维 Rubric 评分与多评分者一致性(QWK)
SHARP 的主观题(创新设计、项目实操、学科面试、协作工作坊、研究报告盲审、答辩) 需要避免"凭印象给总分"。项目管理办公室采用多维 Rubric 将评分拆分为若干独立维度, 每个维度由 2-3 位评阅专家独立打分, 再用 Quadratic Weighted Kappa(QWK,Cohen, 1968) 计算评分者一致性。 QWK ≥ 0.7 视为通过;不足时触发第三人复评。
QWK 计算公式:
QWK = 1 − Σ wij Oij / Σ wij Eij其中 Oij 为两位评分者打分矩阵中第 (i, j) 格的观测频数, Eij 为在两位评分者打分独立的假设下的期望频数, wij = (i − j)² / (K − 1)² 是序数差距的二次惩罚权重。
4. 分层 Bayesian 综合 · 专家偏置校正
不同专家在打分上常存在"宽松-严苛"的系统性偏差。 若仅采用"按专家平均分加减"的事后调整,会使不同专家所评的学生之间不可比较。 分层 Bayesian 模型(Hierarchical Bayes)通过同时引入学生能力、专家偏置与题目难度参数, 联合估计学生的真实能力。
Score(学生 s, 专家 e, 题 q) = μ + αs + βe + γq + ε其中 αs 为学生真实能力(待估计),βe 为专家偏置(待校正),γq 为题目难度。 采用 MCMC 采样得到每位学生 αs 的后验分布,用其后验均值作为最终能力估计。
5. IRT 等值化 · 跨年度可比性
SHARP-Basic 为年度考试,每年题目不同,相同分数在不同年度可能对应不同的能力水平。 若仅按年度独立排名,会使"2027 年的前 20%"与"2028 年的前 20%"在能力上不直接可比。 IRT 等值化(IRT Equating)通过保留锚题(每年 20%-30% 与往年重复的题目), 将不同年度学生的能力 θ 校准到同一量表上。
6. 多维雷达画像
"脱颖而出计划"强调以能力画像而非单一总分来呈现学生情况。 每一级 SHARP 报告的核心可视化均为多维雷达图, 使学生、家长与培养计划导师能够直观地看到能力的分布与高低。
- SHARP-Pre:三维(数理逻辑 / 科学素养 / 创新意识)
- SHARP-Basic:四维模块雷达 + 数学组 10 维考点雷达 + 创新思维 5 维雷达
- SHARP-Junior:项目实操 3 维 + 面试 4 维 + 工作坊 4 维
- SHARP-Senior:研究报告 3 维(学术规范 / 创新性 / 研究深度)+ 答辩 3 维
7. 学科组百分等级
若将所有学生不分方向地混合排名,物理、化学方向的学生与人文、经济方向的学生会被迫直接比较。 SHARP 按学科组分别排名(数学 / 物理 / 化学 / 生物 / 计算机 / 工程等), 每组取前 20% 入围 SHARP-Junior,以确保各方向均有人才被识别与培养。
8. LLM 辅助主观题评分(试点)
SHARP-Basic 为全省统一考试。 考虑到创新思维主观题的体量较大,项目管理办公室在SHARP-Basic 创新思维测试这一环节 试点采用大语言模型(LLM)辅助评分流程: 第一轮由 LLM 按 Rubric 评分,第二轮由人工抽样复评 20%, 要求 LLM 与人工评分的 QWK ≥ 0.7 时方可采用 LLM 分。
主要参考文献
- Lord, F. M., & Wright, B. D. (1980). Applications of Item Response Theory to Practical Testing Problems. Lawrence Erlbaum.
- Junker, B. W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory. Applied Psychological Measurement, 25(3), 258-272.
- Cohen, J. (1968). Weighted kappa: Nominal scale agreement with provision for scaled disagreement or partial credit. Psychological Bulletin, 70(4), 213-220.
- Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). Chapman & Hall/CRC.
- Kolen, M. J., & Brennan, R. L. (2014). Test Equating, Scaling, and Linking: Methods and Practices (3rd ed.). Springer.