立浩热线
13602311801
使用模型进行初筛:使用 Qwen2-Instruct 模型进行高质量数据过滤,从大量原始数据中筛选出初步符合质量要求的数据,利用模型的语言理解和分析能力,判断数据的质量和相关性。
引入专业数据:引入 Qwen2.5-Math 和 Qwen2.5-Coder 的数据,针对数学、编程等专业领域的数据进行筛选和整合,确保模型在这些专业领域能够学习到高质量的知识和技能。
生成合成数据:使用 Qwen2-72B-Instruct 和 Qwen2-Math-72B-Instruct 模型生成高质量合成数据,通过模型生成的方式丰富数据的多样性和复杂性,同时对生成的数据进行筛选和审核,确保其质量和准确性。
优化数据混合:优化数据混合比例,平衡不同领域的数据,通过合理的采样策略,对不同领域、不同类型的数据进行调整,避免某些领域的数据过多或过少,影响模型的学习效果。
质量控制:在离线强化学习阶段,构建高质量的训练样本,使用人类和自动 review 方法进行质量控制。自动 review 可以利用算法和模型对数据进行多维度的评估和检查,人类审查则可以从更主观和专业的角度对数据进行判断和筛选。
多维度评估:使用多维度评估标准,包括真实性、有用性、简洁性、相关性、无害性和去偏见等,对数据进行全面的评估和筛选,确保数据符合模型训练的要求和目标。