通用大模型 SFT 多轮对话项目 · 标注规则文档 v1.0

1

项目背景与目标

1.1 项目背景

本项目为某国产通用大语言模型（参数规模 70B）SFT 阶段的多轮对话数据建设项目。模型已完成预训练及单轮 SFT，但在实际多轮对话场景中暴露出以下核心问题，需通过本次数据标注进行针对性修复：

问题类型	具体表现	对用户的影响
上下文遗忘	对话超过 4 轮后，模型频繁"忘记"用户在首轮提供的关键信息（如订单号、姓名、需求背景）	用户被迫重复提供信息，体验极差
指代消解失败	对"它""这个""上面说的"等代词无法准确还原指代对象	回答对象错误，答非所问
角色漂移	长对话中模型风格前后不一，或忘记 system prompt 中设定的角色人设	产品体验不一致，信任感下降
过度拒绝	对合理的追问（如"能再详细一点吗"）频繁触发安全拒绝	功能失效，用户流失

ℹ

多轮标注规则在单轮四维规则基础上，额外新增三个多轮专项维度：指代省略、重复摘抄、上下文一致性。标注时需同时检查单轮维度和多轮专项维度。

1.2 项目目标

模型侧目标

修复多轮上下文遗忘问题，支持 ≥ 8 轮连贯对话
准确识别并还原对话中的指代词与省略成分
在全轮次中保持 system prompt 设定的角色人设
减少对正常追问的误拒绝行为

数据侧目标

产出 ≥ 20,000 条通过质检的多轮对话样本
平均对话轮次 ≥ 4 轮，覆盖 8 轮以上场景
覆盖 5 大场景、≥ 50 个细分意图类别
标注一致性（Kappa 值）达到 ≥ 0.70
最终数据集质检通过率 ≥ 95%

1.3 场景分布规划

场景	细分说明	目标数量	占比	难度
智能客服	电商退换货、物流查询、账号问题	5,000 条	25%	低-中
代码助手	需求迭代、Bug 修复、代码解释	4,000 条	20%	高
知识问答	政策法规、科学常识、历史地理	4,000 条	20%	中
创意写作	故事续写、文案改写、风格转换	3,500 条	17.5%	中
角色扮演	人设维持、情感陪伴、情景对话	3,500 条	17.5%	中

2

数据概览

2.1 数据来源与规模

原始数据池

~35,000

条（含低质数据）

目标通过量

20,000

条（预计通过率 ~57%）

平均对话轮次

4~8

轮（user+assistant 各算一轮）

平均 token 数

~1,200

tokens / 条（含 system）

2.2 数据来源构成

来源类型	描述	占比	处理方式
真实用户日志（脱敏）	来自合作平台的历史对话记录，已通过差分隐私脱敏处理	30%	人工筛选 + 质量过滤
人工种子 + 模型扩写	标注员撰写前 2 轮种子对话，由基础模型续写后人工逐轮审核	40%	人工核查每轮回复
Human-Human 全人工撰写	标注员完整撰写 user 和 assistant 双方对话	20%	直接进入质检
公开数据集改写	基于 ShareGPT、BELLE 等开源数据二次改写	10%	去重 + 风格改写

2.3 数据格式（JSON Schema）

标注员在平台中收到草稿对话后，需按以下 JSON 格式完成并提交。每条数据必须包含完整的多轮对话链。

"id": "CHAT-20260318-00001"

"scene": "customer_service" ← 场景标签

"intent": "refund_query" ← 意图标签

"conversations": [

{ "role": "system", "content": "你是一名专业的电商客服助手..." },

{ "role": "user", "content": "我的订单已经7天没到了" },

{ "role": "assistant", "content": "您好，请提供一下订单号，我来帮您查询..." },

{ "role": "user", "content": "订单号是123456789" },

{ "role": "assistant", "content": "已查询到您的订单，目前状态为..." }

],

"turn_count": 4 ← user+assistant 各算1轮

"quality_score": 4 ← 1~5 分

"annotator_id": "ANT-072" ← 标注员工号

"flags": [] ← 异常标记，如 format_error

字段	含义	示例
id	数据唯一标识	CHAT-20260318-00001
scene	场景标签	customer_service
intent	意图标签	refund_query
conversations	对话列表，按顺序排列	见左侧结构
turn_count	对话轮数（不含 system）	4
quality_score	综合质量评分	1~5
annotator_id	标注员工号	ANT-072
flags	异常标记数组	[] 或 ["format_error"]

⚠

格式核心红线：

role 字段必须严格交替：user → assistant → user → assistant，不得出现连续两个相同角色
对话必须以 assistant 结尾：最后一轮必须是 assistant 的回复
turn_count 需与实际轮数一致：user+assistant 各算 1 轮，system 不计入
最少 4 轮：不足 4 轮的对话需人工扩充到最低要求

3

人力配置与人效

3.1 人员构成（共 28 人）

标注员

20

分 2 组，每组 10 人

质检员

4

含 1 名资深质检

组长

2

各带 1 组，负责日常答疑

项目周期

6 周

标注 4 周 + 质检修复 2 周

角色	每小时产出	每日产出（有效 6.5h）	备注
标注员加权平均耗时约 16.8 分钟/条	约 3.6 条 / 小时	约 23 条 / 人 / 天	简单任务（2~4轮）约 10 min；中等（4~6轮）约 18 min；复杂（6~8轮）约 28 min；比例 4:4:2
质检员复查已标注数据	约 8 条 / 小时	约 50 条 / 人 / 天	含填写质检日志与反馈意见；安全类数据需全检，速度约降低 30%

3.2 里程碑计划

周次	阶段	主要任务	交付物
Week 1	准备与培训	规则宣讲、试标 200 条、一致性校准	试标报告、校准会议纪要
Week 2	正式标注（第一批）	完成 4,000 条，质检同步启动	第一批数据包 + 质检报告
Week 3	正式标注（第二批）	完成 4,000 条，处理第一批返工	第二批数据包
Week 4	正式标注（第三批）	完成 4,000 条，覆盖长轮次场景	第三批数据包
Week 5	收尾标注 + 全量质检	完成剩余 8,000 条，全量质检启动	质检日志、问题汇总
Week 6	修复 + 交付	返工修复、数据去重去敏、最终打包	最终数据集 + 完整质检报告

ℹ

从第 2 周起，每周输出个人产能 + 质量双维报告。连续 3 天产能低于目标 70% 的标注员，PM 将进行辅导。质量优先于数量，但两者均须达标。

4

多轮标注规则体系

4.0 规则维度概览

多轮对话标注规则 = 单轮四维规则（安全 → 指令遵循 → 内容准确性 → 语言质量）+ 多轮三项专项维度（指代省略 · 重复摘抄 · 上下文一致性）。

🔴

安全维度为一票否决项：任何轮次中发现安全违规，无需继续评估其他维度，整条数据直接判定「不通过」。安全类数据进入质检全检队列。

维度类别	维度名称	权重	适用范围
最高优先级	安全维度	一票否决	全轮次，任一轮违规即整条打回
次高优先级	指令遵循	20%	检查每轮 assistant 是否准确响应当前用户意图
中优先级	内容准确性	20%	事实正确性、推理链路、幻觉检测
基础	语言质量	5%	语法、标点、格式规范性
多轮专项	指代省略	20%	核查每轮中指代词的还原是否准确
	重复摘抄	10%	后续轮与前轮文字重复比例不超过 30%
	上下文一致性	25%	各轮内容/逻辑/语义连贯统一

4.1 【多轮专项】指代省略

💬

定义：理解多轮对话中的指代词（"它""这个""那个""上面提到的"）在上下文中的指代对象；识别多轮中被省略的实体或信息，结合前文正确理解当轮 prompt 的完整含义。

4.1.1 常见指代词类型

人称代词

它、他、她、他们、您
→ 需还原指代的具体实体

指示代词

这个、那个、这种、上面的、刚才的
→ 需还原指代的具体对象

省略成分

"那退款吗？"（省略了订单主语）
→ 需从前文补全省略内容

4.1.2 评分标准与判断方式

错误子类型	判断标准	错误标签
指代目标回答错误	assistant 的回答针对了错误的指代对象。例如用户说"那个呢？"指代第 1 轮提到的产品 A，但 assistant 理解为产品 B	`【指代省略】指代目标回答错误`
指代内容不明确	assistant 感知到了有指代词，但未明确还原就给出模糊回答；或主动追问代词含义属于合理行为，但追问方式使对话停滞	`【指代省略】指代内容不明确`

4.1.3 标注技巧

通读全文后，在草稿区列出对话中出现过的所有实体清单（人名、产品、订单号、地点等）
每遇到一个代词，停下来问自己："这个代词指的是实体清单中的哪一个？"
再对照 assistant 的实际回答，检查是否回答了正确的那个实体
指代不明确时，assistant 主动澄清（"您说的'它'是指……吗？"）是正确行为，不扣分

✔ 正确示例（指代还原准确）

第1轮 User：我想了解一下你们的旗舰手机和入门款
第1轮 Assistant：旗舰款是 Pro X，入门款是 Mini S，……
第3轮 User：那个贵的支持 5G 吗？
第3轮 Assistant：Pro X 支持全频段 5G，……
✓ 正确将"那个贵的"还原为 Pro X

✘ 错误示例（指代对象错误）

第1轮 User：我想了解一下你们的旗舰手机和入门款
第3轮 User：那个贵的支持 5G 吗？
第3轮 Assistant：Mini S 的网络支持方面……
✗ 将"贵的"错误还原为 Mini S（入门款），指代目标错误

4.2 【多轮专项】重复摘抄

🔁

定义：后续轮次的 assistant 回答中，与前面轮次回答存在大量相同或高度相似文字的情况。重复比例超过 30% 即判定为违规。

4.2.1 如何判断重复比例

操作方法：复制需检查的两轮回答到文本编辑器，对比相同语句 / 段落，估算重叠文字占当前轮次总字数的比例
若相同文字 / 语句占当前轮回答字数 > 30%，标注 【重复摘抄】
完全相同的例句、定义性引用（如精确引用某政策原文）不算重复，需在问题备注中说明

4.2.2 典型触发场景

场景	说明
用户追问细节，模型复述前轮全文	用户第 3 轮追问某个子点，模型将第 1 轮的完整回答原文复制粘贴，仅增加一两句话
用户要求"简单总结"，模型原文摘抄	"简单总结"应是提炼核心要点，而非重复前轮的全部内容
追问同类信息，结构套路完全相同	第 2 轮和第 4 轮都是介绍产品，模板框架逐字相同，仅替换了产品名

✔ 正确示例（提炼而非摘抄）

第1轮 Assistant（详细回答，约 300 字）：多肉植物养殖要注意：1.土壤 2.光照 3.浇水 4.温度……（完整展开）
第3轮 User：简单总结下。
第3轮 Assistant（约 80 字）：核心记住四点：透气土、散射光、干透浇透、15~28℃。
✓ 高度提炼，重叠率 < 10%

✘ 错误示例（摘抄超过 30%）

第1轮 Assistant：多肉植物养殖：1.土壤选疏松排水良好的 2.光照需充足但避免直射……（8 条，约 300 字）
第3轮 User：简单总结下。
第3轮 Assistant：当然！1.土壤选疏松排水良好的 2.光照需充足但避免直射……（原文逐条复制，仅删了"当然！"）
✗ 重叠率 > 80%，严重违反重复摘抄规则

4.3 【多轮专项】上下文一致性

🔗

定义：各轮次在内容、主题、逻辑和语义上保持连贯性和统一性；能够对照历史对话的 query 和 response 的逻辑继续产出内容，不出现前后矛盾或背离已确认事实的情况。

4.3.1 评分标准

问题类型	说明	典型案例
事实矛盾	不同轮次中 assistant 提供了互相矛盾的事实信息	第1轮说"明天到货"，第3轮说"需要3天"
忽略已确认信息	用户在前轮明确提供了信息，assistant 在后轮中视若无睹，重新询问或给出与之矛盾的内容	第1轮用户说"我用的是Python"，第3轮 assistant 提供了 Java 示例
主题偏离	对话主线被无端打断，assistant 跑偏到与上文无关的话题	用户一直在问退货，assistant 突然开始推荐新产品
逻辑断层	当前轮次的推论建立在一个与前文矛盾的前提上	前文刚确认"用户是会员"，后文又按非会员逻辑计算价格

4.3.2 标注技巧

建立"已确认事实"清单：通读对话后，提炼出对话中已经确定的所有事实（如：用户名称、订单状态、选择的编程语言、用户身份等）
逐轮检查：每一轮 assistant 的回答是否与清单中的已确认事实相符
重点检查第 3、5、7 轮（奇数轮）——这些轮次最容易出现上下文丢失
话题切换是正常的（用户可以主动换话题），但 assistant 不能无端漂移；若用户换了话题，assistant 应顺势响应

✔ 正确示例（上下文连贯）

第1轮 User：我叫张伟，查一下3月25日的眼镜订单
第1轮 Assistant：好的张伟先生，3月25日眼镜订单……
第3轮 User：那个订单能退款吗？
第3轮 Assistant：您的3月25日眼镜订单目前符合无理由退款条件……
✓ 每轮均正确延续姓名、日期、商品品类

✘ 错误示例（上下文断裂）

第1轮 User：我叫张伟，查一下3月25日的眼镜订单
第3轮 User：那个订单能退款吗？
第3轮 Assistant：您好，请问您的订单号是多少？
✗ 完全遗忘前文，要求用户重复提供已知信息

5

错误类型完整列表

标注时从以下标准错误类型中选取，可多选，用「/」分隔填写在「错误类型」列。多轮专项维度（绿色行）是本项目在单轮基础上新增的。

错误大类	错误子类（标准名称）	说明	多轮特别注意
`【指令遵循】`	部分遵循指令	回答大致方向正确但遗漏了指令中的某些要求	多轮中需检查每轮是否继承了 system 及前轮的约束
`【指令遵循】`	完全不遵循指令	回答与指令完全无关，或拒绝了合理请求	角色扮演场景尤其关注是否维持了设定角色
`【准确性】`	事实性回答错误	回答中包含错误的事实、数据、定义等	多轮追问时注意前后事实是否自洽
	提问有误回答未纠错直接使用	用户提问存在错误前提，模型未指出直接顺着回答	—
	推理过程有误	回答的推理链条中存在逻辑跳跃或谬误	—
`【丰富性】`	多维度	只覆盖了问题的某一角度，应多角度展开	后续轮次追问细节时需补充前轮未覆盖的维度
	有效信息拓展	回答信息量不足，未提供有价值的延伸信息	—
	回答内容全面	回答遗漏了关键要点，不够全面	—
`【结构性】`	分点未总分/总分总/其他格式问题	有分点但缺少总起句或总结句	—
`【信息表达性】`	内容是否完整/语句是否通顺/内容是否冗余/开头/结尾话术	语言表达存在问题：截断、啰嗦、套话、冗余	多轮中冗余话术尤为明显（重复前轮内容开头）
`【信息结构性】`	逻辑表达	回答的逻辑层次混乱，论证不清晰	—
	内容分点/段描述/格式内容符合	格式不符合场景要求	—
	格式内容符合	格式与指令或场景不匹配	—
`【指代省略】`	指代目标回答错误	模型对指代词的还原出现偏差，回答了错误的对象	重点检查"它""这个""上面提到的"等词
`【指代省略】`	指代内容不明确	模型未能明确指代对象，回答含糊	应主动澄清而非模糊作答
`【上下文一致】`	（直接使用此标签）	各轮次内容/逻辑/语义不连贯，前后矛盾	逐轮核对"已确认事实"清单
`【重复摘抄】`	（直接使用此标签）	后续轮次与前轮重复比例超过 30%	估算重叠字数占比
`【安全性】`	（直接使用此标签）	回答含有不安全、有害、违规内容	一票否决，整条数据打回
`【帮助性】`	（直接使用此标签）	回答对用户无实质帮助	—
`【其他】`	字数限制	不符合字数相关约束	—
	内容是否本土化	内容未针对中国市场/语境进行适配	—
	（其他）	不属于以上任何分类，在备注中详细说明	—

💡

多选填写示例：一条多轮数据若第 3 轮存在"指代词还原错误"且回答"重复了第 1 轮大量内容"，错误类型填写为：
【指代省略】指代目标回答错误/【重复摘抄】

6

标注执行 SOP

6.1 单条任务操作步骤

1

通读全文（约 1 分钟）

从 system → 第1轮 → 最后一轮，完整阅读一遍，建立整体印象。

记录：用户的核心目标是什么？对话最终是否达成了目标？
在草稿区列出所有出现的关键实体（姓名、产品、订单号、语言等）

2

逐轮精读与问题识别（约 10~25 分钟）

按时间顺序逐轮检查，每轮聚焦以下核查清单：

安全：本轮是否含有任何违规内容？（一旦发现立即标记，不再继续）
指令：本轮 user 意图是什么？assistant 是否准确响应？
内容：回复有无事实错误或幻觉？
指代：本轮是否有代词？是否正确还原了指代对象？
上下文：本轮是否与前文已确认事实一致？
重复：本轮与前面轮次文字重叠是否超过 30%？

3

修改 assistant 回复（如有问题）

发现问题后，优先直接修改 assistant 回复；不要修改 user 的发言（仅可修正明显拼写错误，不能改变用户意图）。

改写原则：最小化改动，保持对话自然流畅，不改变对话走向
修改处在填写「正确改写」列时标绿色文字

4

轮次完整性检查

确认对话 ≥ 4 轮（user+assistant 各算 1 轮），不足需人工扩充
确认 role 字段严格交替，以 assistant 结尾
扩充时模拟自然追问行为："能再详细一点吗""如果想……该怎么做"

5

决策：判断处理路径

路径 A

直接通过

全轮次无明显问题 → 「审核结果」填「通过」

路径 B

修改后通过

有问题已修复 → 填「修改通过」+ 错误类型 + 改写内容

路径 C

不通过 / 打回

含安全问题或改写成本过高 → 填「不通过」+ 详细原因

6

填写字段并提交

「审核结果」：通过 / 修改通过 / 不通过
「错误类型」：从第 5 节标准名称中选取，可多选，用「/」分隔
「不通过详细原因」：具体说明问题所在（哪一轮，什么问题），不可模糊
「正确改写」：填写完整的正确文本，改动处标绿色文字，删除部分可不标
「标注人」：填写本人工号（如 ANT-072）

6.2 特殊场景处理规则

特殊情况	处理方式
用户在中途切换话题	认定为新意图，assistant 应顺势跟随，不要强行拉回原话题；标注时按新意图评估指令遵循维度
对话中包含代码块	代码本身的正确性不作为主要评分标准（除非功能严重错误），重点评估解释文字的质量和上下文一致性
遇到英文对话	按同等标准处理，语言质量按英文语法规范评估；指代省略规则同样适用于英文代词
system prompt 为空	按通用助手风格评估角色一致性，不强制要求特定人设，但要求全轮次风格统一
最后一轮被截断	标注 `flags: ["format_error"]` 并人工补全 assistant 最后一轮的完整回复
用户发言含个人信息	立即进行脱敏处理（姓名打码：张 / 电话：138**1234），严重情况整条打回
规则文档没有明确说明的情形	截图 + 描述 → @组长 / PM → 等待官方解释，不擅自决策，此条数据暂时标注 `flags: ["review_needed"]`

7

填写规范与样本示例

7.1 颜色标注约定

🎨

颜色标注约定：

红色高亮：prompt / response 列中，具体的错误片段区域
绿色高亮：「正确改写」列中，相比原 response 新增或修改的内容片段
未改动部分保持默认白色背景，无需特殊标注

7.2 标注样本示例（多轮专项规则演示）

以下为本项目实际标注样本，重点展示多轮三项专项规则的规范填写方式（从原始 Excel 数据中选取）：

示例 1：上下文一致性问题 + 指令遵循问题

轮次	prompt	response（错误区域标红）	审核结果	错误类型	不通过详细原因	正确改写（改写标绿）
第1轮	你是一位花艺师，我现在需要养殖多肉植物，请告诉我这种植物的养殖方法，注意事项	多肉植物是一类非常受欢迎的观赏植物，它们具有抗旱、耐寒、生长速度快等特点。…… （全程未以花艺师身份表达）	不通过	`【指令遵循】部分遵循指令` `【准确性】事实性回答错误`	①prompt 明确设定"花艺师"角色，但 response 全程未以花艺师身份表达，未遵循角色指令；②"耐寒"表述有误，大多数多肉原产于热带干旱地区，不耐严寒，低于5℃即可能受冻	作为一名花艺师，多肉植物是我们花艺设计中常用的素材……（4.温度要求：适宜15~28℃。大多数多肉不耐严寒，冬季低于5℃需移至室内……）
第2轮	简单总结下。	当然，以下是多肉植物养殖的简单总结：1.土壤：选择疏松、排水良好的土壤……（以下 8 条与第1轮完全相同，逐字摘抄）	不通过	`【重复摘抄】` `【信息表达性】内容是否完整/语句是否通顺/内容是否冗余/开头/结尾话术`	①本轮与第1轮 response 内容重叠超过 80%，严重违反重复摘抄规则（上限 30%）；②"当然，"为冗余开头话术；③结尾"掌握这些……就能顺利养护"与第1轮结尾原文重复	作为花艺师，简单总结多肉养殖要点：1.土壤：颗粒透气土。2.光照：散射光为主，每天4~6小时。3.浇水：干透浇透。4.温度：15~28℃，低于5℃移至室内。5.繁殖：叶插为主。6.施肥：生长期每月一次缓释肥。7.病虫害：保持通风，发现介壳虫及时处理。8.修剪：工具消毒后适度修剪。

示例 2：指代省略问题

轮次	prompt	response（错误区域标红）	审核结果	错误类型	不通过详细原因	正确改写（改写标绿）
第1轮	chatgpt在编程中有什么应用?	…1.代码生成 2.代码审查 3.问题解答 4.文档生成 5.教学辅助 6.代码优化 7.自动化测试 8.项目管理…	通过	—	—	—
第2轮	第二点和倒数第二点解释下吧。	当然，我来详细解释一下： 1. 代码审查：……（✓正确） 2. 自动化测试：……（✓正确）总体来说，这两个方面都体现了ChatGPT在提高编程质量和效率方面的潜力。代码审查帮助开发者优化和改进他们的代码，而自动化测试则是确保软件质量的重要工具。	修改通过	`【指代省略】指代目标回答错误` `【信息表达性】内容是否完整/语句是否通顺/内容是否冗余/开头/结尾话术`	①"第二点和倒数第二点"指代正确（代码审查+自动化测试），但 response 重新标注为"1.""2."与原文第2、7条编号脱节，用户会产生困惑，属指代还原后表达方式有误；②结尾总结段为对正文内容的重复，冗余；③"当然，我来详细解释一下："为冗余开头话术	第2点 · 代码审查 ChatGPT能分析代码识别潜在错误、不规范实践及性能瓶颈，并给出改进建议，有助于提升代码可读性和可维护性。第7点 · 自动化测试 ChatGPT可根据软件功能和需求生成测试脚本与场景，提高测试效率，有助于确保软件稳定性和可靠性。

⚠

核心填写红线：

「不通过详细原因」必须注明具体是哪一轮出了什么问题，不可模糊填写"回答有问题"
「错误类型」与「不通过详细原因」必须对应，不可出现填了错误类型但原因为空的情况
「正确改写」是最终进入训练集的内容，改写质量直接影响模型效果，请认真对待
禁止修改 user 的发言内容（可修正拼写错误，但不能改变用户的意图表达）
禁止代填他人「标注人」字段，一经发现取消当日数据计入

8

质检标准

8.1 三层质检体系

层次	执行者	方式	频率	目标通过率
L1 自检	标注员本人	提交前逐项核对自检清单（见 8.4 节）	每条提交前	≥ 98%（自检漏项 < 2%）
L2 抽检	质检员	每批次随机抽取 10% 全量质检	每日	≥ 90%（低于此线全批打回）
L3 全量复检	质检员 + 组长	最终交付前对全数据集全量扫描	项目结束前	≥ 95%（最终交付标准）

8.2 抽检比例

常规抽检率

10%

每批次随机抽取

安全类全检

100%

所有含安全问题数据

新人加强抽检

50%

上岗第 1 周

单批打回触发线

<90%

单批次通过率低于此值全批打回

8.3 质检判定结论

质检结论	触发条件	处理动作
通过	全维度达标，上下文无明显断裂，格式字段完整	数据进入训练集
退回修改	漏标问题类型，或改写内容有瑕疵但可补救；轻微重复摘抄或指代模糊	退回标注员，备注修改意见，24 小时内重新提交
质检直接丢弃	安全问题漏标；改写引入新错误；上下文一致性严重失效；改写内容仍不达标	质检员直接丢弃，计入标注员错误统计
升级仲裁	标注员与质检员意见严重分歧，涉及多轮指代边界案例或复杂安全判断	PM 或数据负责人介入，裁定结果同步更新规则文档

8.4 标注员提交前自检清单

✓

每条提交前请对照以下清单逐项确认，平台提供勾选框，全部勾选后方可提交。

序号	检查项	检查方式
□ 1	对话轮次 ≥ 4 轮，最后一轮由 assistant 结尾	数对话条数
□ 2	user / assistant role 字段严格交替，无连续同角色	逐行确认 role 字段
□ 3	【上下文一致性】全轮次已核查，无前后矛盾	对照首轮确认的"已确认事实"清单
□ 4	【指代省略】含代词的轮次已确认还原正确	逐个代词核查
□ 5	【重复摘抄】后续各轮与前轮重叠比例 < 30%	估算重叠字数占比
□ 6	【安全性】全轮次无任何违规内容	重新扫描一遍全文
□ 7	个人隐私信息已脱敏（如有）	检查姓名、手机、地址字段
□ 8	所有字段填写完整（审核结果/错误类型/原因/改写/标注人）	平台必填校验
□ 9	JSON 格式无误（引号、逗号、括号匹配，turn_count 正确）	平台格式自动校验

8.5 个人质量监控与一致性校准

质量指标阈值

标注员错误率（质检驳回率）目标：≤ 5%
连续 3 天错误率 ≥ 10% → PM 约谈
单月错误率 ≥ 15% → 重新培训或调岗
安全类漏标一次 → 立即约谈
改写引入新知识错误 → 计 2 倍错误权重

一致性校准机制

黄金数据集比对（每周）：每人标注同一批 50 条，计算 Kappa ≥ 0.70，低于则追加培训
每日 Case Review：组长选取 3 条前日有争议案例集体讨论
规则迭代会议（每两周）：PM + 质检组长 + 甲方，裁定边界案例并更新本文档版本
个人准确率周报：质检员每周汇总每人通过率和主要差错类型并反馈

✓

奖励机制：连续 2 周个人错误率 ≤ 2% 且日均产能达标的标注员，将获得优质标注员认证，优先参与后续项目，并有机会晋升为质检员。

⚠

规则争议处理：遇到规则文档未覆盖的情形，禁止自行判断后直接提交。正确流程：对该条数据打 flags: ["review_needed"] → 在项目沟通群 @组长/PM 并描述疑问 → PM 24 小时内给出官方解释 → 若涉及规则修订，同步更新本文档并全员通知。

通用大模型 SFT 阶段 · 多轮对话项目标注规则文档

1.1 项目背景

1.2 项目目标

模型侧目标

数据侧目标

1.3 场景分布规划

2.1 数据来源与规模

2.2 数据来源构成

2.3 数据格式（JSON Schema）

3.1 人员构成（共 28 人）

3.2 里程碑计划

4.0 规则维度概览

4.1 【多轮专项】指代省略

4.1.1 常见指代词类型

4.1.2 评分标准与判断方式

4.1.3 标注技巧

4.2 【多轮专项】重复摘抄

4.2.1 如何判断重复比例

4.2.2 典型触发场景

4.3 【多轮专项】上下文一致性

4.3.1 评分标准

4.3.2 标注技巧

6.1 单条任务操作步骤

通读全文（约 1 分钟）

逐轮精读与问题识别（约 10~25 分钟）

修改 assistant 回复（如有问题）

轮次完整性检查

决策：判断处理路径

填写字段并提交

6.2 特殊场景处理规则

7.1 颜色标注约定

7.2 标注样本示例（多轮专项规则演示）

示例 1：上下文一致性问题 + 指令遵循问题

示例 2：指代省略问题

8.1 三层质检体系

8.2 抽检比例

8.3 质检判定结论

8.4 标注员提交前自检清单

8.5 个人质量监控与一致性校准

质量指标阈值

一致性校准机制