常规数据处理的三个盲区。
把卷面分赋分、求平均分、画雷达图——这是常规处理。但研究院在 7 次全省数据收集中发现,常规处理无法回答:
- 无法判断"4 选 2"选科组合是否合理;
- 无法得出各学科发展是否均衡;
- 难以预估学生成绩在全省中的位置。
针对这三个盲区,研究院创新性地提出三套指标体系:
不是示意图,
是真实作答数据跑出来的。
本节所有指标均由一次区域联考真实作答数据计算得出(学校已脱敏):覆盖高一、高二两个年级、9 学科、18 套试卷, 逐题还原每名学生的每一道作答。
高二 3,759
已校验入库
2 年级
同层次可比
① 试卷信度 α(实测)
18 套试卷信度区间 0.54 – 0.89,中位 0.77,9 套 ≥ 0.80。规律与测评研究院课题一致:数学/英语/化学偏高,语文/历史/地理偏低。
| 学科 | 语文 | 数学 | 英语 | 物理 | 化学 | 生物 | 政治 | 历史 | 地理 |
|---|---|---|---|---|---|---|---|---|---|
| 高一 α | .64 | .85 | .89 | .73 | .86 | .81 | .65 | .59 | .54 |
| 高二 α | .67 | .83 | .84 | .83 | .85 | .83 | .67 | .66 | .63 |
② 题目难度与区分度(541 道题)
| 指标 | 分布 |
|---|---|
| 难度 P(均 0.56) | 易(≥0.7)175 道 · 中 213 道 · 难(≤0.4)153 道 |
| 区分度(均 0.30) | 良好(>0.3)274 道 · 偏低(<0.2)160 道 · 负向 8 道(建议重做) |
③ 校级 EA·EB·QA·QB·上线率(高一,脱敏排名)
| 学校 | 均分/750 | 上线率 | EA | EB | QA | QB |
|---|---|---|---|---|---|---|
| 示例校 A | 625.3 | 98.6% | 1.00 | 0.62 | 2.4% | 11.9% |
| 示例校 B | 603.9 | 98.8% | 0.82 | 1.00 | 0.3% | 4.7% |
| 示例校 C | 569.7 | 98.1% | 0.54 | 0.66 | 0.0% | 1.7% |
| 示例校 D | 568.6 | 99.4% | 0.53 | 0.54 | 0.4% | 3.3% |
校 B 均分低于 A,但 EB=1.00(各科最均衡);校 A 整体最强(EA=1.00)却 EB 偏低,存在尖子带动、弱科拖累的分化——这正是 EA/EB 双指标的价值。
选科组合,选得对不对?
在精准赋分的前提下,对达到不同等级的学生做数量分析,构建 QA 与 QB 两个比率:
- QA:达到 A 等(等级分 ≥ 83)的学生比例——越高,说明该选科组合越有利于冲高;
- QB:达到 B 等以上(等级分 ≥ 71)的学生比例——越高,说明临界生越多,可通过教学调整助其 B → A。
整体强不强、各科匀不匀?
E值在同层次学校之间比较,包含两个分量:
- EA:衡量学校的整体优秀程度,越高越优秀;
- EB:衡量各科成绩之间的均衡程度,越高越均衡。EB 低即存在偏科,需结合标准差系数定位弱势学科。
| EA(整体) | EB(均衡) | 解读 |
|---|---|---|
| > 0.5 | > 0.7 | 整体优秀,且各科高度均衡 |
| > 0.5 | 0.5–0.7 | 整体优秀,较均衡,少量弱势科目 |
| > 0.5 | < 0.3 | 整体优秀,但偏科明显,弱势科目较多 |
| < 0.5 | > 0.7 | 整体一般,但各科均衡 |
| < 0.5 | 0.5–0.7 | 整体一般,较均衡 |
| < 0.5 | < 0.3 | 整体一般,且偏科明显 |
在全省,到底排在哪?
基于历次全省数据,融合全省同届考生情况、招生计划变化趋势、各校往年高考实际、历年录取比例常模与办学水平常模, 多方法统计后划定各层次分数线与单科分数线:
| 层次 | 大致对应 | 用途 |
|---|---|---|
| 甲层次 | 过往高优线 | 顶尖与重点段定位 |
| 乙层次 | 过往本科线 | 本科达线判断 |
| 丙层次 | 过往专科线 | 基本盘与补强对象 |
配套统计各群体在三层次的占比与总上线率,并给出单科分数线,使个体与群体、总分与单科的定位都一目了然。
数据可信的前提:
题目本身要"称职"。
指标再好,也依赖输入数据真实有效。每场考试后对每一学科试卷做命题质量分析,用三条曲线校验:
| 指标 | 含义 | 理想区间 | 判读 |
|---|---|---|---|
| 信度 | 测量结果的一致性与稳定性 | > 0.90 优秀 0.80–0.90 良好 | < 0.70 偏低,命题须调整 |
| 难度 | 平均得分率(值越大越容易) | ≈ 0.45–0.65 合理 | 过高过易、过低过难均需修正 |
| 区分度 | 区分高、低能力学生的能力 | > 0.40 优秀 0.30–0.40 良好 | < 0.25 较差,题目须重做 |
命题工艺上坚持全部原创(题目须在主流题库与搜索引擎查不到,杜绝旧题"穿衣戴帽"), 命题前必先编制双向细目表,回稿后网上查重核对,不合格打回重做;阅卷采用网上 / 手机阅卷, 主观题双评取均、评分细则确定唯一。详见 测评方法 · 双向细目表。
一切诊断的起点:精准赋分。
广东"3+1+2"模式下,政、地、化、生选两科须等级赋分后计入总分。 研究院依托大样本与历史成绩数据库,按等比例转换法则给出精准赋分(误差更小):
| 等级 | 人数比例 | 赋分区间 |
|---|---|---|
| A | ≈ 17% | 100 – 83 |
| B | ≈ 33% | 82 – 71 |
| C | ≈ 33% | 70 – 59 |
| D | ≈ 15% | 58 – 41 |
| E | ≈ 2% | 40 – 30 |
等比例线性转换,保持考生在群体中的排序不变。
已结集白皮书,
仍在持续迭代。
第一阶段成果(「二指标一定位」)已结集为《新高考测评技术与创新》课题白皮书。第二阶段以 「三年一贯」形式深入,研究方向包括:
- 学校教育资源供给与高中质量提升的关系
- 学科核心素养的教学策略与评价方式
- 新高考政策下选科组合的实施现状
- 基于学校的成绩校准指标体系(进行中)