测评技术 · 二指标一定位 · 研究院

01 概述 · OVERVIEW

常规数据处理的三个盲区。

把卷面分赋分、求平均分、画雷达图——这是常规处理。但研究院在 9 次全省联考、137 所学校的数据收集中发现，常规处理无法回答：

无法判断"4 选 2"选科组合是否合理；
无法得出各学科发展是否均衡；
难以预估学生成绩在全省中的位置。

针对这三个盲区，研究院创新性地提出三套指标体系：

Q值

学科贡献率

选科组合是否合理

E值

学科均衡率

各科发展是否均衡

定位

全省定位参数

在全省的位置

★ 真实数据实证 · EVIDENCE

不是示意图，
是真实作答数据跑出来的。

本节所有指标均由真实联考作答数据计算得出（学校已脱敏）。研究院数据资产累计覆盖 9 次全省联考 · 137 所学校 · 18/19/20 三个完整年级 · 连续 4 次追踪；本节取其中 已完成逐题深度标定的批次：39 套学科卷、785 道题（高一 / 高二 / 高三，含 2026 年 5 月最新高一），逐题还原每名学生的每一道作答。

2,019万

逐题作答记录

20,185,594 条
每生每题入库

95万

作答科次

单次联考最多
76 校同场

785

道题精校

39 套学科卷
9 学科

9 次

全省联考

18/19/20 三届
2019–2026

① 试卷信度 α（38 个学科测验实测）

全部 38 个学科测验信度 α 中位 0.69，范围 0.13 – 0.85。规律稳定：数学 / 英语 / 理化生偏高（多在 0.75–0.85），文综（尤其地理、历史）偏低——已据此定位需改进的命题板块。下表为 2020.6 与 2026.5 高一全量实测 α（部分批次高一不含语数英）：

学科	语文	数学	英语	物理	化学	生物	政治	历史	地理
20.6 高一 α	—	—	—	.75	.78	.82	.75	.64	.37
20.6 高二 α	.65	.85	.83	.77	.73	.77	.65	.63	.33
26.5 高一 α	.62	.80	.82	—	.63	.62	.51	.31	.26

② 题目难度与区分度（785 道题全量）

指标	分布
难度 P（均 0.58）	易（≥0.7）279 道 · 中 317 道 · 难（≤0.4）189 道
区分度（均 0.27）	良好（>0.3）311 道 · 偏低（<0.2）264 道 · 负向 21 道（建议重做）

③ 校级 EA·EB·QA·QB·上线率（高一，脱敏排名）

学校	均分/750	上线率	EA	EB	QA	QB
示例校 A	625.3	98.6%	1.00	0.62	2.4%	11.9%
示例校 B	603.9	98.8%	0.82	1.00	0.3%	4.7%
示例校 C	569.7	98.1%	0.54	0.66	0.0%	1.7%
示例校 D	568.6	99.4%	0.53	0.54	0.4%	3.3%

校 B 均分低于 A，但 EB=1.00（各科最均衡）；校 A 整体最强（EA=1.00）却 EB 偏低，存在尖子带动、弱科拖累的分化——这正是 EA/EB 双指标的价值。

④ 认知诊断（DINA 实测掌握率）　高一生物四项能力：理解 73% · 解决问题 88% · 实验探究 49% · 创新能力 39%（最弱）；高二语文六项：表达应用 99% · 分析综合 82% · 理解 75% · 鉴赏 76% · 探究 68% · 识记 52%（最弱）。诊断直接定位"学了但不会用 / 会做但说不清"的薄弱能力维度。

方法与可复现　难度=均分/满分；区分度=校正点二列相关 + 上下 27% 分组 D 指数；信度=Cronbach α（二分题等价 KR-20）；能力维度=DINA 模型（EM 估计 slip/guess）。原子题求和与全卷总分一致性校验 100% 通过。

02 Q值 · 学科贡献率

选科组合，选得对不对？

在精准赋分的前提下，对达到不同等级的学生做数量分析，构建 QA 与 QB 两个比率：

QA：达到 A 等（等级分 ≥ 83）的学生比例——越高，说明该选科组合越有利于冲高；
QB：达到 B 等以上（等级分 ≥ 71）的学生比例——越高，说明临界生越多，可通过教学调整助其 B → A。

怎么用　若某校 QA 高于同层次学校，说明其选科组合更有优势；若 QB 高而 QA 偏低，则应关注 A/B 临界生，调整教学以提升冲 A 比例。多次数据收集形成 Q值时间序列，可观察走势是否稳健。

03 E值 · 学科均衡率

整体强不强、各科匀不匀？

E值在同层次学校之间比较，包含两个分量：

EA：衡量学校的整体优秀程度，越高越优秀；
EB：衡量各科成绩之间的均衡程度，越高越均衡。EB 低即存在偏科，需结合标准差系数定位弱势学科。

EA（整体）	EB（均衡）	解读
> 0.5	> 0.7	整体优秀，且各科高度均衡
> 0.5	0.5–0.7	整体优秀，较均衡，少量弱势科目
> 0.5	< 0.3	整体优秀，但偏科明显，弱势科目较多
< 0.5	> 0.7	整体一般，但各科均衡
< 0.5	0.5–0.7	整体一般，较均衡
< 0.5	< 0.3	整体一般，且偏科明显

典型情形（脱敏示例）　某校连续三次数据收集中 EA 稳定偏高、EB 却持续走低—— 说明整体水平不错，但优势学科越来越强、弱势学科越落越远，分化加深，需对弱科定向补强。另一校 EA、EB 同步上升——优势学科保持、弱势学科追赶，是最健康的成长曲线。

04 全省定位参数 · POSITIONING

在全省，到底排在哪？

基于历次全省数据，融合全省同届考生情况、招生计划变化趋势、各校往年高考实际、历年录取比例常模与办学水平常模，多方法统计后划定各层次分数线与单科分数线：

层次	大致对应	用途
甲层次	过往高优线	顶尖与重点段定位
乙层次	过往本科线	本科达线判断
丙层次	过往专科线	基本盘与补强对象

配套统计各群体在三层次的占比与总上线率，并给出单科分数线，使个体与群体、总分与单科的定位都一目了然。

05 命题质量监控 · ITEM ANALYSIS

数据可信的前提：
题目本身要"称职"。

指标再好，也依赖输入数据真实有效。每场考试后对每一学科试卷做命题质量分析，用三条曲线校验：

指标	含义	理想区间	判读
信度	测量结果的一致性与稳定性	> 0.90 优秀 0.80–0.90 良好	< 0.70 偏低，命题须调整
难度	平均得分率（值越大越容易）	≈ 0.45–0.65 合理	过高过易、过低过难均需修正
区分度	区分高、低能力学生的能力	> 0.40 优秀 0.30–0.40 良好	< 0.25 较差，题目须重做

命题工艺上坚持全部原创（题目须在主流题库与搜索引擎查不到，杜绝旧题"穿衣戴帽"），命题前必先编制双向细目表，回稿后网上查重核对，不合格打回重做；阅卷采用网上 / 手机阅卷，主观题双评取均、评分细则确定唯一。详见测评方法 · 双向细目表。

06 精准赋分 · SCALED SCORE

一切诊断的起点：精准赋分。

广东"3+1+2"模式下，政、地、化、生选两科须等级赋分后计入总分。研究院依托大样本与历史成绩数据库，按等比例转换法则给出精准赋分（误差更小）：

等级	人数比例	赋分区间
A	≈ 17%	100 – 83
B	≈ 33%	82 – 71
C	≈ 33%	70 – 59
D	≈ 15%	58 – 41
E	≈ 2%	40 – 30

(t₀ − t₁) / (t₂ − t₁) = (s₀ − s₁) / (s₂ − s₁) s₁ / s₂：该等级所对应卷面分区间的下限 / 上限；t₁ / t₂：该等级赋分区间的下限 / 上限； s₀ / t₀：该考生的卷面分 / 等级分。
等比例线性转换，保持考生在群体中的排序不变。

07 课题成果与展望 · OUTCOMES

已结集白皮书，
仍在持续迭代。

第一阶段成果（「二指标一定位」）已结集为《新高考测评技术与创新》课题白皮书。第二阶段以 「三年一贯」形式深入，研究方向包括：

学校教育资源供给与高中质量提升的关系
学科核心素养的教学策略与评价方式
新高考政策下选科组合的实施现状
基于学校的成绩校准指标体系（进行中）

这套方法论同时支撑面向学生的研值 YANZ 能力画像与面向学校的教学诊断报告。返回研究院概况，或查看报告样张。

原始分数告诉你"考了多少"，测评技术告诉你"意味着什么"。

常规数据处理的三个盲区。

不是示意图，是真实作答数据跑出来的。

① 试卷信度 α（38 个学科测验实测）

② 题目难度与区分度（785 道题全量）

③ 校级 EA·EB·QA·QB·上线率（高一，脱敏排名）

选科组合，选得对不对？

整体强不强、各科匀不匀？

在全省，到底排在哪？

数据可信的前提：题目本身要"称职"。

一切诊断的起点：精准赋分。

已结集白皮书，仍在持续迭代。

原始分数告诉你"考了多少"，
测评技术告诉你"意味着什么"。

不是示意图，
是真实作答数据跑出来的。

数据可信的前提：
题目本身要"称职"。

已结集白皮书，
仍在持续迭代。