评分方法 · 广东省"脱颖而出计划" SHARP 测评

本页内容

项目反应理论（IRT 2PL / 3PL）
DINA 认知诊断模型
多维 Rubric 评分与多评分者一致性（QWK）
分层 Bayesian 综合 · 专家偏置校正
IRT 等值化 · 跨年度可比性
多维雷达画像
学科组百分等级
LLM 辅助主观题评分（试点）
主要参考文献

用于 SHARP-Pre / Basic 客观题

1. 项目反应理论（IRT 2PL / 3PL）

在直接累加得分的计分方式下，每道题对总分的贡献是均等的——一道选择题的 5 分等于另一道选择题的 5 分。但实际上不同题目的难度 b 与区分度 a 存在差异，一道难度较高、区分度较大的题对识别高潜学生所携带的信息显著高于一道难度中等、区分度较低的题。项目反应理论（Item Response Theory，IRT）将每道题的 (a, b) 参数与每位学生的能力 θ 联合估计，可以给出在所有题目作答下信息量最大化的能力点估计。

2PL 模型的核心概率方程：

P(答对) = 1 / [1 + exp(−1.7 · a · (θ − b))]

本测评的应用：SHARP-Basic 的"语言与逻辑"与"数学与科学"两个模块采用 2PL 模型；含猜测成分的多选题（多个正确选项）采用 3PL（额外引入猜测参数 c）。参数校准采用 JMLE（联合极大似然估计），学生能力点估计采用 EAP（Expected A Posteriori）。

用于 SHARP-Basic 模块细分诊断

2. DINA 认知诊断模型

IRT 输出的是单维能力 θ，可以判断"高 / 低"，但难以指出学生具体强在哪个知识点、弱在哪个知识点。 DINA（Deterministic Inputs, Noisy "And" gate）模型假设每道题考查若干"属性"（考点），由 Q-matrix（题目 × 考点）标记题目与考点的对应关系，再用 EM 算法联合估计每位学生在每个属性上的掌握概率。

掌握概率定义为：

P(掌握考点 k | 作答) ∈ [0, 1]

报告中可对每个考点输出掌握概率，例如：函数 0.83、立体几何 0.41、概率统计 0.67…… 这样的结果有助于学生、家长与培养计划导师明确后续学习的方向，而不仅是知道"得了多少分"。

本测评的应用：SHARP-Basic 数学模块按 10 个属性标记 Q-matrix （数列 / 函数 / 导数 / 几何 / 概率 / 数论 / 组合 / 不等式 / 逻辑 / 建模），创新思维模块按 5 个属性（新颖性 / 可行性 / 逻辑性 / 跨学科 / 工程实现）。报告中以"10 维数学考点掌握度雷达 + 5 维创新思维掌握度"呈现。

用于 SHARP-Basic 创新思维 / Junior 全部环节 / Senior 答辩

3. 多维 Rubric 评分与多评分者一致性（QWK）

SHARP 的主观题（创新设计、项目实操、学科面试、协作工作坊、研究报告盲审、答辩）需要避免"凭印象给总分"。项目管理办公室采用多维 Rubric 将评分拆分为若干独立维度，每个维度由 2-3 位评阅专家独立打分，再用 Quadratic Weighted Kappa（QWK，Cohen, 1968） 计算评分者一致性。 QWK ≥ 0.7 视为通过；不足时触发第三人复评。

QWK 计算公式：

QWK = 1 − Σ w_ij O_ij / Σ w_ij E_ij

其中 O_ij 为两位评分者打分矩阵中第 (i, j) 格的观测频数， E_ij 为在两位评分者打分独立的假设下的期望频数， w_ij = (i − j)² / (K − 1)² 是序数差距的二次惩罚权重。

本测评的应用：SHARP-Junior 项目式实操按"创新论证 40% / 实验执行 40% / 汇报思辨 20%"；学科面试按"概念深度 40 / 推理 30 / 表达 20 / 热情 10"；协作工作坊按"贡献 30 / 倾听 30 / 推动力 20 / 抗压 20"。所有 Rubric 维度均独立打分并进行 QWK 一致性校验。

用于 SHARP-Junior 综合 / Senior 综合

4. 分层 Bayesian 综合 · 专家偏置校正

不同专家在打分上常存在"宽松-严苛"的系统性偏差。若仅采用"按专家平均分加减"的事后调整，会使不同专家所评的学生之间不可比较。分层 Bayesian 模型（Hierarchical Bayes）通过同时引入学生能力、专家偏置与题目难度参数，联合估计学生的真实能力。

Score(学生 s, 专家 e, 题 q) = μ + α_s + β_e + γ_q + ε

其中 α_s 为学生真实能力（待估计），β_e 为专家偏置（待校正），γ_q 为题目难度。采用 MCMC 采样得到每位学生 α_s 的后验分布，用其后验均值作为最终能力估计。

本测评的应用：SHARP-Junior 的三大环节由不同专家组评分， SHARP-Senior 的盲审专家分别来自不同高校。 Bayesian 综合校正后的能力估计，才能保证不同专家组、不同评审场次之间的可比性。

用于 SHARP 跨年度可比性

5. IRT 等值化 · 跨年度可比性

SHARP-Basic 为年度考试，每年题目不同，相同分数在不同年度可能对应不同的能力水平。若仅按年度独立排名，会使"2027 年的前 20%"与"2028 年的前 20%"在能力上不直接可比。 IRT 等值化（IRT Equating）通过保留锚题（每年 20%-30% 与往年重复的题目），将不同年度学生的能力 θ 校准到同一量表上。

本测评的应用：SHARP-Basic 每年保留约 30 道锚题，将不同年度的能力 θ 估计等值化到统一量表，使得"2027 年某学生 θ = 1.5"与"2028 年某学生 θ = 1.5"在能力含义上等价。这是培养计划进行连续性追踪与跨年纵向比较的基础。

用于 SHARP-Pre / Basic / Junior 报告输出

6. 多维雷达画像

"脱颖而出计划"强调以能力画像而非单一总分来呈现学生情况。每一级 SHARP 报告的核心可视化均为多维雷达图，使学生、家长与培养计划导师能够直观地看到能力的分布与高低。

SHARP-Pre：三维（数理逻辑 / 科学素养 / 创新意识）
SHARP-Basic：四维模块雷达 + 数学组 10 维考点雷达 + 创新思维 5 维雷达
SHARP-Junior：项目实操 3 维 + 面试 4 维 + 工作坊 4 维
SHARP-Senior：研究报告 3 维（学术规范 / 创新性 / 研究深度）+ 答辩 3 维

本测评的应用：每张雷达图均以 SVG 形式生成，可同时嵌入 PDF 报告与在线展示，并支持与学生所在学科组均值进行对照。

用于 SHARP-Basic 复试线确定

7. 学科组百分等级

若将所有学生不分方向地混合排名，物理、化学方向的学生与人文、经济方向的学生会被迫直接比较。 SHARP 按学科组分别排名（数学 / 物理 / 化学 / 生物 / 计算机 / 工程等），每组取前 20% 入围 SHARP-Junior，以确保各方向均有人才被识别与培养。

本测评的应用：学生在 SHARP-Basic 报名时选定 1 个主修学科组， SHARP-Junior 复试按学科组别准备题目与专家。项目管理办公室自动按学科组计算百分等级、学科组排序与入围 / 不入围结论。

SHARP-Basic 阅卷流程的试点环节

8. LLM 辅助主观题评分（试点）

SHARP-Basic 为全省统一考试。考虑到创新思维主观题的体量较大，项目管理办公室在SHARP-Basic 创新思维测试这一环节试点采用大语言模型（LLM）辅助评分流程：第一轮由 LLM 按 Rubric 评分，第二轮由人工抽样复评 20%，要求 LLM 与人工评分的 QWK ≥ 0.7 时方可采用 LLM 分。

本测评的应用：SHARP-Basic 创新思维测试采用 LLM 第一轮 + 人工抽样校验。 SHARP-Junior 与 SHARP-Senior 涉及高利害选拔与认证， 全部由人工评分，LLM 不参与评分判定。

主要参考文献

Lord, F. M., & Wright, B. D. (1980). Applications of Item Response Theory to Practical Testing Problems. Lawrence Erlbaum.
Junker, B. W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory. Applied Psychological Measurement, 25(3), 258-272.
Cohen, J. (1968). Weighted kappa: Nominal scale agreement with provision for scaled disagreement or partial credit. Psychological Bulletin, 70(4), 213-220.
Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). Chapman & Hall/CRC.
Kolen, M. J., & Brennan, R. L. (2014). Test Equating, Scaling, and Linking: Methods and Practices (3rd ed.). Springer.

报告样张可参阅报告样张页；各级测评结构请参阅体系详情页。

评分方法说明