一报告能做成什么样
参考的 OUP 样张以英语单科四个维度展现学生能力, 其核心价值不在"打了多少分",而在于通过「实际表现 vs 预期表现」的对比, 揭示学生在每一道题上的"超常发挥"与"失常失分",并把失分对应到具体的考点。 在 YANEZ 版本中,我们沿用其 9 节结构,并按高考特点做了三项扩展。
每份报告固定包含的 9 个章节
| 节次 | 章节名称 | 主要内容 |
|---|---|---|
| 一 | 总体表现与各维度等级 | 总分与各维度(Level 0 – 5)等级条形,雷达式概览 |
| 二 | 客观题逐题表现 | P/O 网格 · 实际 vs 预期 · 超常题绿底、失常题红底 |
| 三 | 分模块逐题表现 | 按模块(阅读 / 完形 / 解答 等)拆分的题级清单 |
| 四 | 主观题分维度评分 | 作文 / 解答题按 Rubric 分维度给分(如语法、句法、组织、表达) |
| 五 | 维度合成与权重 | 各维度得分、占比、学校均值对比 |
| 六 | 校内百分位段 | 0–25% / 25–50% / 50–75% / 75–100% 四档定位 |
| 七 | 主观题分维度反馈 | 每个维度的人工/算法反馈与改进建议 |
| 八 | 建议优先提升的考点 | 由错题映射到考点,按掌握概率从低到高排序 |
| 九 | 各题考点逐题清单 | 每题 Q.D./Norm/结果/考查考点 完整列表 |
YANEZ 版本相比 OUP 原版的扩展
- 九科覆盖——从单一英语扩展到高考全部九大学科,且对每科的题型差异做了报告版式适配(如数学的解答题、语文的古诗文与作文);
- 认知诊断(DINA)——在 OUP 仅用 IRT 推预期表现的基础上,叠加 DINA 模型,输出每个考点的掌握概率,而不仅是"题对/题错";
- 学习路径推荐——由错题 → 失分考点 → 考点依赖关系,自动给出"建议优先复习的 5 个考点 + 学习顺序"。OUP 版本无此章节。
二底层算法体系
OUP 样张表面是"打分 + 反馈",拆解后实质是 心理测量学(Psychometrics)+ 教育数据挖掘(EDM)+ 认知诊断(CDA)三套体系的组合。 下表汇总本系统将复用、并在 OUP 基础上扩展的 8 个算法模块。
IRT 2PL / 3PL 项目反应理论
从作答矩阵反推每位学生的能力 θ 与每道题的难度 b、区分度 a。报告里"预期答对概率"由此推算。
预期 vs 实际表现
由 IRT 概率二值化得到"预期通过",与"实际通过"逐题对比。超常题给绿底、失常题给红底——OUP 报告的标志性输出。
难度自动分级 易 / 中 / 难
以全体正确率为基础(≥75% 易 · 50–75% 中 · <50% 难),同时与 IRT b 参数对齐。
能力等级 Level 0 – 5
将连续能力 θ 经分段切分映射到六档(很弱 → 优秀),与 OUP 五星条形对齐。
DINA 认知诊断
给定 Q-matrix(题目×考点),输出每位学生对每个考点的掌握概率。比 OUP 报告多出"考点级"诊断。
百分位带 / 校际对比
把学生总分置于校内四档百分位;高考特化版可叠加全省百分位。
主观题 Rubric 评分
作文 / 解答题按多维 Rubric 分项;起步用人工评分,后期可引入 LLM 辅助评分(与人工 QWK ≥ 0.7)。
个性化学习路径
由错题 → 考点掌握概率 → 考点依赖图,输出"建议优先复习的 5 个考点 + 学习顺序"。OUP 报告无此模块。
算法校准回收检验(合成数据)
在 300 名合成学生 × 50 题的端到端回收实验中,YANEZ 算法核心的参数回收质量如下, 属于教育测量领域的工业级可接受水平:
三YANEZ 需要您提供的资料
为完成系统冷启动与首份学生报告样张,请按以下清单准备资料。 必备项缺一不可; 推荐项决定报告精度与个性化深度; 加分项决定本产品相对市面同类产品的差异化优势。
A. 题库数据
题目正文与正确答案
题干、选项(如适用)、参考答案、评分细则(主观题)。可接受 Word / PDF / 扫描件,由数据管线统一结构化。
道题
学科 / 题型 / 分值
九大学科任一;题型如单选、多选、填空、解答、作文;满分分值(含主观题各维度满分)。
1 条记录
考点标签(知识点映射)
每题对应的考纲考点,可多标签。若暂无,YANEZ 教研可按种子考点树先打初版,再由学科组迭代精修。
节点 / 科
题源与年份
如"2024 全国甲卷"、"2025 深圳一模"、年份与适用省份/卷别。用于多卷别等值化与时序对比。
1 条
B. 学生作答数据
学生 × 题目 作答矩阵
匿名学生编号、题目 ID、得分、满分。无需姓名;保留学校、班级、省份等分组字段,用于校际对比。
≥ 100 万条
每题最少作答学生数
同一道题至少有 500 名以上学生作答,才能稳定校准 IRT 区分度与难度参数;3PL 模型需 1,000+。
人 / 题
作答用时
每题用时(秒级粒度)。结合用时可识别"蒙猜"、"卡壳"、"超时"等行为,提升报告颗粒度。
C. 考纲与知识点体系
九大学科官方考纲
教育部《普通高等学校招生全国统一考试考试大纲》对应版本,或各省自主命题卷的考试说明。
1 套
知识点前置依赖关系
如"导数应用 ← 导数的概念 ← 函数极限"。用于在错题归因后自动生成"复习路径"。
1 张依赖图
D. 主观题样本
各分数段范文 / 标准解答
每个分数段(如 0–10、10–20、20–30、30–40、40–50、50–60 分)至少 50 篇;用于训练自动评分与生成个性化反馈。
≥ 300 篇
多评分者一致性数据
同一份作答由 2 位及以上老师独立评分;用于训练机器评分模型并计算 QWK(Quadratic Weighted Kappa)一致性。
份
E. 学生背景与历史成绩
历次模考成绩、平时作业
用于时间序列分析,给出"按当前轨迹高考预测分数"与"达到目标分需补足的考点"。
学校层次与目标院校
用于做"院校匹配推荐"。可以让报告末尾给出按当前能力可冲刺的院校梯度。
四各科报告样板
下面九张卡片对应高考九大学科,每张说明该科报告所使用的版式、章节适配、主观题评分方式。 已就绪样张可直接点击查看;其他学科结构已设计完成,因排版细节差异稍大,将按需出张。
英语
客观题(语言形式与意义 20 题 + 阅读 30 题)按 P/O 网格逐题展示;作文按 Grammar / Syntax / Text / Organisation 四维 Rubric 评分。
数学
选择/填空按 P/O 网格;解答题(含立体几何、解析几何、数列、概率统计)按步骤分项给分,每步对应考点。
语文
现代文阅读、文言文翻译、古诗鉴赏均按"信、达、雅"三维度评分;作文按审题、结构、语言、材料、文体五维度评分。
物理
选择题按 P/O 网格;解答题按步骤给分;实验题独立成块,按"实验设计 / 数据处理 / 误差分析"三维评分。
化学
客观题逐题;有机推断、实验设计独立成块;化学方程式书写有专项错误归因。
生物
遗传题逐步给分;实验设计独立成块;学科特色"图表分析能力"作为附加维度。
政治
客观题按考点(经济/政治/文化/哲学)分块;主观题按"政治术语规范 / 材料运用 / 逻辑层次"评分。
历史
选择题按时期(古代史/近现代史/世界史)分块;主观题按"史料运用 / 历史思维 / 论证能力"三维评分。
地理
选择题按"自然 / 人文 / 区域"分块;主观题按"原理运用 / 空间思维 / 表达规范"评分;含图表阅读专项诊断。
五分阶段实施路径
因您已确认全科同步推进,且数据以纸质扫描件起步,第一阶段的工程重点在 数据结构化管线 + 单科算法跑通,后续两阶段为多学科扩展与高考特化能力。
最小可行版本 · 单科跑通
- 扫描件 OCR + 题目识别
- 英语学科 IRT 校准与样张
- 中文 PDF 报告定稿
- 合成数据回收检验
完整版 · 九科覆盖
- 九科考点树精修(教研合作)
- 数学公式 OCR(pix2tex)
- DINA 认知诊断上线
- 校际百分位 + 班级横评
高考特化 · 预测推荐
- 多卷别等值化(IRT Equating)
- 高考分数时间序列预测
- 院校匹配推荐
- 自适应测验(CAT)原型
六需 YANEZ 决策的事项
算法已就绪,但以下选项需教研与产品团队拍板,直接影响第一阶段的实施范围与工期。
1. 首份样张以哪一科为基准?
答已默认英语(与 OUP 报告同形态,便于以参考样张 1 : 1 对标审阅);如需切换,建议选数学(IRT 校准效果稳定且含主观题代表性)。
2. 数据现状是「纸质扫描件 / Word 文档 / 已结构化数据库」中的哪一种?
答已确认以纸质扫描件为主,因此第一阶段工程量含 OCR 管线;如后期出现 Word/Excel 数据源,可走快速通道,节省 5 – 7 个工作日。
3. 主观题(作文 / 解答题)的评分由谁出?
答建议起步阶段沿用教师人工评分,将人工分数作为训练标签;第二阶段末期接入 LLM 辅助评分。
4. 报告输出形式:单一 PDF / 个性化 PDF + 在线查看 / 与家长 App 集成?
答建议第一阶段先做 PDF 样张定稿,第二阶段做静态网页版(每位学生一个不可枚举 URL),第三阶段再评估 App 集成。