立浩热线
13602311801
Qwen2.5-Max 模型的训练数据收集和处理方式如下:
数据收集
多渠道收集
公共网络文档:从大量的网页中抓取新闻资讯、博客文章、论坛帖子等各类文本内容,这些数据能够反映出网络上广泛的信息和人们的日常交流情况。
百科全书:涵盖了各个领域的专业知识,如百度百科、维基百科等,为模型提供了系统、准确的知识体系。
书籍:包括各种类型的书籍,如文学作品、学术著作、技术手册等,丰富了模型的语言表达和知识储备。
代码库:收集开源代码库、代码托管平台上的代码,如 GitHub 等,使模型能够学习不同编程语言的语法、结构和编程逻辑。
多语言数据:以中英为主,同时支持 30 种语言,广泛收集不同语言的文本数据,如翻译文档、多语言新闻等,提升模型的多语言处理能力。
人工标注数据:针对一些特定任务和领域,人工标注的数据能够提供更准确、高质量的样本,用于监督学习和模型评估。
数据处理
语言识别与去重
语言识别:使用语言识别工具和算法,对收集到的文本数据进行语言分类,确保不同语言的数据能够被正确处理和分析。
去重:采用精确匹配和模糊匹配的方法,去除数据中的重复内容,减少冗余信息,提高数据的质量和模型的训练效率。
低质数据过滤
规则过滤:制定一系列规则,如文本长度过短、包含大量乱码或特殊字符、内容不完整等,将不符合要求的低质量数据过滤掉。
机器学习方法:利用机器学习算法,如文本分类模型,对数据进行质量评估,将被判定为低质量的数据筛选出来。
数据质量评估与优化
模型评分:使用 Qwen2-Instruct 模型等对数据进行多维度质量评估,从语言表达、语义完整性、知识准确性等方面对数据进行打分,挑选出高质量的数据。
人工审查:安排专业人员对数据进行人工审查,确保数据符合伦理标准,不存在有害、虚假或误导性的信息。
数据混合优化
分布调整:通过降采样和上采样的方法,对不同领域、不同类型的数据进行调整,使数据分布更加平衡,避免某些领域的数据过多或过少,影响模型的学习效果。
引入合成数据:使用 Qwen2-72B-Instruct 和 Qwen2-Math-72B-Instruct 生成高质量合成数据,并通过奖励模型进行过滤,进一步丰富数据的多样性和复杂性。
分词处理
采用 BBPE 方法:使用基于字节的字节对编码(Byte-level Byte Pair Encoding, BBPE)的分词方法,将文本切割成以 Token 为单位的序列,能够在保持语义表达能力的同时,有效减少未登录词的出现,并提升模型对词汇变体的处理能力。