用户头像
CMMLU 开源数据集怎么用?助力 AI 研究与垂类模型中文性能优化指南

? 一文搞懂 CMMLU 开源数据集:从入门到实战的 AI 研究利器


在 AI 研究领域,数据就是模型的 “燃料”,而 CMMLU(Chinese Multi-task Language Understanding)开源数据集凭借其丰富的中文专业知识储备,成为优化垂类模型的重要资源。它到底是什么?怎么用?今天就来详细拆解。

? 什么是 CMMLU 数据集?


CMMLU 是由 MBZUAI、上海交通大学和微软亚洲研究院联合推出的中文多任务基准数据集。它涵盖了 67 个主题,从自然科学到人文社科,从基础常识到专业领域,比如中国饮食文化、民族学、驾驶规则等具有中国特色的内容都包含在内。数据集包含 11,528 个问题,每个问题都是带 4 个选项的多项选择题,仅有一个正确答案,结构清晰,非常适合用于评估大模型在中文语境下的知识储备和推理能力。

CMMLU 的独特之处在于它专门针对中文环境设计,很多问题的答案和语境都具有中国特色,这是其他国际数据集无法替代的。比如 “中国传统节日的习俗”“中国法律条文的具体应用” 等问题,能让模型更好地理解和适应中国的语言文化背景。

? 如何获取 CMMLU 数据集?


获取 CMMLU 数据集非常方便。你可以直接访问其 GitHub 仓库(https://github.com/haonan-li/CMMLU),里面提供了详细的数据集文件,包括各个学科的 CSV 文件。此外,阿里云的计算巢平台也提供了 CMMLU 数据集服务,用户不仅可以直接使用,还能反馈自己的需求,方便定制化使用。

需要注意的是,CMMLU 遵循 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License 协议,这意味着你可以自由使用、修改和分享数据集,但不能用于商业目的。

?️ 数据预处理:让数据更 “干净”


拿到 CMMLU 数据集后,第一步就是数据预处理。这一步的目的是去除噪声、统一格式,让数据更适合模型训练。具体步骤如下:

  1. 数据清洗:检查数据中是否有重复、缺失值或格式不一致的情况。比如,有些问题可能存在错别字,或者选项顺序混乱,需要手动修正。对于 CMMLU 中的专业术语,要确保其准确性,避免因术语错误影响模型的学习效果。

  2. 文本分词:中文分词是自然语言处理的基础。你可以使用 jieba、THULAC 等工具对文本进行分词,将句子拆分成词语序列。例如,“中国传统节日” 可以分词为 “中国 / 传统 / 节日”。

  3. 去除停用词:停用词如 “的”“了”“在” 等对模型的语义理解帮助不大,可以将其过滤掉,减少数据量,提高训练效率。

  4. 数据标注:CMMLU 的问题已经标注了正确答案,但为了更好地进行模型评估,你可以进一步标注问题的难度等级、学科类别等信息,方便后续分析。


? 模型训练:让模型 “吃透” 专业知识


预处理完成后,就可以开始模型训练了。CMMLU 适用于多种模型架构,以下是一些常见的训练方法:

  1. 微调(Fine-tuning):以 BERT、ChatGLM 等预训练模型为基础,在 CMMLU 数据集上进行微调。通过调整模型的参数,让其更好地适应中文专业知识的推理任务。例如,度小满的 “轩辕 70B” 金融大模型就是在 CMMLU 上进行微调,大幅提升了金融领域的知识理解能力。

  2. 提示学习(Prompt Learning):通过设计特定的提示模板,引导模型关注问题的关键信息。比如,对于法律问题,可以设计提示 “根据中国法律,以下哪种行为属于侵权?”,让模型更准确地提取法律条文知识。

  3. 数据增强:为了增加数据的多样性,可以使用回译、同义词替换等方法对文本进行扩充。例如,将 “驾驶机动车时需要系安全带” 回译为英文再译回中文,生成不同的表达方式。


在训练过程中,要注意调整超参数,如学习率、批次大小等。腾讯混元团队在训练模型时,通过调整学习率和权重衰减值,显著提升了模型的稳定性和性能。

? 模型优化:提升性能的关键策略


要让模型在 CMMLU 上表现更出色,还需要一些优化策略:

  1. 学科均衡训练:CMMLU 涵盖多个学科,不同学科的难度和数据量可能存在差异。可以对数据量较少的学科进行过采样,或者对数据量较多的学科进行欠采样,确保模型在各个学科上都能均衡发展。

  2. 多任务学习:将 CMMLU 与其他中文数据集结合,进行多任务学习。例如,同时训练模型进行文本分类、问答等任务,提升模型的综合能力。

  3. 知识蒸馏:将复杂的大模型知识迁移到轻量级模型上,既能保持性能,又能提高推理速度。猎户星空的 Orion-14B 模型通过知识蒸馏和量化技术,在千元级显卡上也能流畅运行。

  4. 强化学习(RLHF):通过人类反馈强化学习,让模型生成更符合人类偏好的回答。夸克大模型在医疗领域的应用中,就通过 RLHF 降低了幻觉率,提升了回答的准确性。


? 应用场景:CMMLU 的实战价值


CMMLU 在多个领域都有广泛的应用价值:

  1. 金融领域:度小满的 “轩辕 70B” 金融大模型在 CMMLU 上的表现位居榜首,能够准确理解金融知识,为金融从业人员提供专业的问答和分析支持。

  2. 医疗领域:夸克健康助手通过 CMMLU 评测,提升了医学知识推理能力,能够准确诊断疾病、提供治疗建议,甚至在实际病例中与医院检查结果一致。

  3. 法律领域:CMMLU 包含 “法律与道德基础” 等学科,模型可以通过学习这些内容,辅助法律条文理解、案例分析等任务。

  4. 通用领域:CMMLU 的多学科覆盖使其适用于通用大模型的评估和优化。例如,vivo 自研大模型在 CMMLU 上的表现远超同级别模型,提升了其在人文、社科等领域的综合能力。


? 总结


CMMLU 开源数据集是优化中文垂类模型的重要资源,它的多学科覆盖、专业知识储备和中国特色内容,为 AI 研究提供了强大的支持。通过合理的数据预处理、模型训练和优化策略,CMMLU 能够帮助研究者提升模型的性能,推动 AI 技术在各个领域的应用。

如果你也想让自己的模型在中文专业知识理解上更上一层楼,不妨试试 CMMLU 数据集。记得访问其 GitHub 仓库获取数据,结合实际需求进行训练和优化。相信在 CMMLU 的助力下,你的模型一定能在中文 AI 研究中取得更好的成绩!

【该文章由dudu123.com嘟嘟 ai 导航整理,嘟嘟 AI 导航汇集全网优质网址资源和最新优质 AI 工具】

作者头像

AI Insight

专栏作者

专注于AI技术前沿动态,为您带来最新的AIGC资讯和深度分析。

155 篇文章 2337 关注者