高考学生学业能力诊断报告系统 Project Proposal · 2026
YANEZ · 教育评价方案

面向高考学生的学业能力
个人化诊断报告

本方案以香港 OUP(牛津大学出版社)Student Assessment Report 为参考体例, 结合 项目反应理论(IRT)认知诊断模型(DINA), 为参加全国高考的学生生成一份覆盖九大学科、可量化、可追踪、可执行的个人化诊断报告。 本页阐述报告能做成什么样、所依赖的算法、需要您提供的资料以及各科样张。

9大学科覆盖
8类算法模块
5类必备资料
3份样张已就绪

报告能做成什么样

参考的 OUP 样张以英语单科四个维度展现学生能力, 其核心价值不在"打了多少分",而在于通过「实际表现 vs 预期表现」的对比, 揭示学生在每一道题上的"超常发挥"与"失常失分",并把失分对应到具体的考点。 在 YANEZ 版本中,我们沿用其 9 节结构,并按高考特点做了三项扩展。

每份报告固定包含的 9 个章节

节次 章节名称 主要内容
总体表现与各维度等级总分与各维度(Level 0 – 5)等级条形,雷达式概览
客观题逐题表现P/O 网格 · 实际 vs 预期 · 超常题绿底、失常题红底
分模块逐题表现按模块(阅读 / 完形 / 解答 等)拆分的题级清单
主观题分维度评分作文 / 解答题按 Rubric 分维度给分(如语法、句法、组织、表达)
维度合成与权重各维度得分、占比、学校均值对比
校内百分位段0–25% / 25–50% / 50–75% / 75–100% 四档定位
主观题分维度反馈每个维度的人工/算法反馈与改进建议
建议优先提升的考点由错题映射到考点,按掌握概率从低到高排序
各题考点逐题清单每题 Q.D./Norm/结果/考查考点 完整列表

YANEZ 版本相比 OUP 原版的扩展

  • 九科覆盖——从单一英语扩展到高考全部九大学科,且对每科的题型差异做了报告版式适配(如数学的解答题、语文的古诗文与作文);
  • 认知诊断(DINA)——在 OUP 仅用 IRT 推预期表现的基础上,叠加 DINA 模型,输出每个考点的掌握概率,而不仅是"题对/题错";
  • 学习路径推荐——由错题 → 失分考点 → 考点依赖关系,自动给出"建议优先复习的 5 个考点 + 学习顺序"。OUP 版本无此章节。
定位差异:OUP 报告是"学习成果记录"——告诉学生考了多少分。 YANEZ 版本是"学习路径建议"——还要告诉学生哪些考点要先补、按什么顺序补、补到什么程度可以拿到目标分

底层算法体系

OUP 样张表面是"打分 + 反馈",拆解后实质是 心理测量学(Psychometrics)+ 教育数据挖掘(EDM)+ 认知诊断(CDA)三套体系的组合。 下表汇总本系统将复用、并在 OUP 基础上扩展的 8 个算法模块。

核心算法

IRT 2PL / 3PL 项目反应理论

从作答矩阵反推每位学生的能力 θ 与每道题的难度 b、区分度 a。报告里"预期答对概率"由此推算。

核心算法

预期 vs 实际表现

由 IRT 概率二值化得到"预期通过",与"实际通过"逐题对比。超常题给绿底、失常题给红底——OUP 报告的标志性输出。

核心算法

难度自动分级 易 / 中 / 难

以全体正确率为基础(≥75% 易 · 50–75% 中 · <50% 难),同时与 IRT b 参数对齐。

核心算法

能力等级 Level 0 – 5

将连续能力 θ 经分段切分映射到六档(很弱 → 优秀),与 OUP 五星条形对齐。

YANEZ 扩展

DINA 认知诊断

给定 Q-matrix(题目×考点),输出每位学生对每个考点的掌握概率。比 OUP 报告多出"考点级"诊断。

YANEZ 扩展

百分位带 / 校际对比

把学生总分置于校内四档百分位;高考特化版可叠加全省百分位。

YANEZ 扩展

主观题 Rubric 评分

作文 / 解答题按多维 Rubric 分项;起步用人工评分,后期可引入 LLM 辅助评分(与人工 QWK ≥ 0.7)。

差异化

个性化学习路径

由错题 → 考点掌握概率 → 考点依赖图,输出"建议优先复习的 5 个考点 + 学习顺序"。OUP 报告无此模块。

算法校准回收检验(合成数据)

在 300 名合成学生 × 50 题的端到端回收实验中,YANEZ 算法核心的参数回收质量如下, 属于教育测量领域的工业级可接受水平:

0.87
区分度 a 与真值相关
0.99
难度 b 与真值相关
0.97
能力 θ 与真值相关
≥ 95%
分数预测拟合度

YANEZ 需要您提供的资料

为完成系统冷启动与首份学生报告样张,请按以下清单准备资料。 必备项缺一不可; 推荐项决定报告精度与个性化深度; 加分项决定本产品相对市面同类产品的差异化优势。

A. 题库数据

必备

题目正文与正确答案

题干、选项(如适用)、参考答案、评分细则(主观题)。可接受 Word / PDF / 扫描件,由数据管线统一结构化。

3,000 – 10,000
道题
必备

学科 / 题型 / 分值

九大学科任一;题型如单选、多选、填空、解答、作文;满分分值(含主观题各维度满分)。

每题
1 条记录
必备

考点标签(知识点映射)

每题对应的考纲考点,可多标签。若暂无,YANEZ 教研可按种子考点树先打初版,再由学科组迭代精修。

200 – 500
节点 / 科

B. 学生作答数据

必备

学生 × 题目 作答矩阵

匿名学生编号、题目 ID、得分、满分。无需姓名;保留学校、班级、省份等分组字段,用于校际对比。

建议
≥ 100 万条
必备

每题最少作答学生数

同一道题至少有 500 名以上学生作答,才能稳定校准 IRT 区分度与难度参数;3PL 模型需 1,000+。

500 – 2,000
人 / 题

C. 考纲与知识点体系

必备

九大学科官方考纲

教育部《普通高等学校招生全国统一考试考试大纲》对应版本,或各省自主命题卷的考试说明。

每科
1 套

D. 主观题样本

E. 学生背景与历史成绩

加分

历次模考成绩、平时作业

用于时间序列分析,给出"按当前轨迹高考预测分数"与"达到目标分需补足的考点"。

尽量完整
加分

学校层次与目标院校

用于做"院校匹配推荐"。可以让报告末尾给出按当前能力可冲刺的院校梯度。

可选
关于"我已经有数以千计、万计的试卷": 在 IRT 体系下,数据量已经足够支持工业级模型,甚至可以做多省、多年、多版本的联合校准与自适应测验(CAT)。 首要瓶颈不在题量,而在(1) 学生作答数据是否已结构化(2) 每题作答学生数是否达到 500+。 这两项决定了 IRT 校准的稳定性。

各科报告样板

下面九张卡片对应高考九大学科,每张说明该科报告所使用的版式、章节适配、主观题评分方式。 已就绪样张可直接点击查看;其他学科结构已设计完成,因排版细节差异稍大,将按需出张。

Sample No. 01 · 客观 + 作文

英语

客观题(语言形式与意义 20 题 + 阅读 30 题)按 P/O 网格逐题展示;作文按 Grammar / Syntax / Text / Organisation 四维 Rubric 评分。

Sample No. 02 · 客观 + 解答题

数学

选择/填空按 P/O 网格;解答题(含立体几何、解析几何、数列、概率统计)按步骤分项给分,每步对应考点。

Sample No. 03 · 主观题为主

语文

现代文阅读、文言文翻译、古诗鉴赏均按"信、达、雅"三维度评分;作文按审题、结构、语言、材料、文体五维度评分。

Sample No. 04 · 客观 + 解答 + 实验

物理

选择题按 P/O 网格;解答题按步骤给分;实验题独立成块,按"实验设计 / 数据处理 / 误差分析"三维评分。

Sample No. 05 · 客观 + 解答 + 实验

化学

客观题逐题;有机推断、实验设计独立成块;化学方程式书写有专项错误归因。

Sample No. 06 · 客观 + 解答 + 实验

生物

遗传题逐步给分;实验设计独立成块;学科特色"图表分析能力"作为附加维度。

Sample No. 07 · 客观 + 主观

政治

客观题按考点(经济/政治/文化/哲学)分块;主观题按"政治术语规范 / 材料运用 / 逻辑层次"评分。

Sample No. 08 · 客观 + 主观

历史

选择题按时期(古代史/近现代史/世界史)分块;主观题按"史料运用 / 历史思维 / 论证能力"三维评分。

Sample No. 09 · 客观 + 主观 + 图表

地理

选择题按"自然 / 人文 / 区域"分块;主观题按"原理运用 / 空间思维 / 表达规范"评分;含图表阅读专项诊断。

分阶段实施路径

因您已确认全科同步推进,且数据以纸质扫描件起步,第一阶段的工程重点在 数据结构化管线 + 单科算法跑通,后续两阶段为多学科扩展与高考特化能力。

Phase 01

最小可行版本 · 单科跑通

建议工期:1 – 2 周
  • 扫描件 OCR + 题目识别
  • 英语学科 IRT 校准与样张
  • 中文 PDF 报告定稿
  • 合成数据回收检验
Phase 02

完整版 · 九科覆盖

建议工期:4 – 6 周
  • 九科考点树精修(教研合作)
  • 数学公式 OCR(pix2tex)
  • DINA 认知诊断上线
  • 校际百分位 + 班级横评
Phase 03

高考特化 · 预测推荐

建议工期:4 – 8 周
  • 多卷别等值化(IRT Equating)
  • 高考分数时间序列预测
  • 院校匹配推荐
  • 自适应测验(CAT)原型

需 YANEZ 决策的事项

算法已就绪,但以下选项需教研与产品团队拍板,直接影响第一阶段的实施范围与工期。

1. 首份样张以哪一科为基准?

已默认英语(与 OUP 报告同形态,便于以参考样张 1 : 1 对标审阅);如需切换,建议选数学(IRT 校准效果稳定且含主观题代表性)。

2. 数据现状是「纸质扫描件 / Word 文档 / 已结构化数据库」中的哪一种?

已确认以纸质扫描件为主,因此第一阶段工程量含 OCR 管线;如后期出现 Word/Excel 数据源,可走快速通道,节省 5 – 7 个工作日。

3. 主观题(作文 / 解答题)的评分由谁出?

建议起步阶段沿用教师人工评分,将人工分数作为训练标签;第二阶段末期接入 LLM 辅助评分。

4. 报告输出形式:单一 PDF / 个性化 PDF + 在线查看 / 与家长 App 集成?

建议第一阶段先做 PDF 样张定稿,第二阶段做静态网页版(每位学生一个不可枚举 URL),第三阶段再评估 App 集成。