CMMLU 开源数据集怎么用？助力 AI 研究与垂类模型中文性能优化指南

AI Insight 专栏作者

2025-06-27

4.8k 阅读

14 评论

? 一文搞懂 CMMLU 开源数据集：从入门到实战的 AI 研究利器

在 AI 研究领域，数据就是模型的 “燃料”，而 CMMLU（Chinese Multi-task Language Understanding）开源数据集凭借其丰富的中文专业知识储备，成为优化垂类模型的重要资源。它到底是什么？怎么用？今天就来详细拆解。

? 什么是 CMMLU 数据集？

CMMLU 是由 MBZUAI、上海交通大学和微软亚洲研究院联合推出的中文多任务基准数据集。它涵盖了 67 个主题，从自然科学到人文社科，从基础常识到专业领域，比如中国饮食文化、民族学、驾驶规则等具有中国特色的内容都包含在内。数据集包含 11,528 个问题，每个问题都是带 4 个选项的多项选择题，仅有一个正确答案，结构清晰，非常适合用于评估大模型在中文语境下的知识储备和推理能力。

CMMLU 的独特之处在于它专门针对中文环境设计，很多问题的答案和语境都具有中国特色，这是其他国际数据集无法替代的。比如 “中国传统节日的习俗”“中国法律条文的具体应用” 等问题，能让模型更好地理解和适应中国的语言文化背景。

? 如何获取 CMMLU 数据集？

获取 CMMLU 数据集非常方便。你可以直接访问其 GitHub 仓库（https://github.com/haonan-li/CMMLU），里面提供了详细的数据集文件，包括各个学科的 CSV 文件。此外，阿里云的计算巢平台也提供了 CMMLU 数据集服务，用户不仅可以直接使用，还能反馈自己的需求，方便定制化使用。

需要注意的是，CMMLU 遵循 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License 协议，这意味着你可以自由使用、修改和分享数据集，但不能用于商业目的。

?️ 数据预处理：让数据更 “干净”

拿到 CMMLU 数据集后，第一步就是数据预处理。这一步的目的是去除噪声、统一格式，让数据更适合模型训练。具体步骤如下：

数据清洗：检查数据中是否有重复、缺失值或格式不一致的情况。比如，有些问题可能存在错别字，或者选项顺序混乱，需要手动修正。对于 CMMLU 中的专业术语，要确保其准确性，避免因术语错误影响模型的学习效果。
文本分词：中文分词是自然语言处理的基础。你可以使用 jieba、THULAC 等工具对文本进行分词，将句子拆分成词语序列。例如，“中国传统节日” 可以分词为 “中国 / 传统 / 节日”。
去除停用词：停用词如 “的”“了”“在” 等对模型的语义理解帮助不大，可以将其过滤掉，减少数据量，提高训练效率。
数据标注：CMMLU 的问题已经标注了正确答案，但为了更好地进行模型评估，你可以进一步标注问题的难度等级、学科类别等信息，方便后续分析。

? 模型训练：让模型 “吃透” 专业知识

预处理完成后，就可以开始模型训练了。CMMLU 适用于多种模型架构，以下是一些常见的训练方法：

微调（Fine-tuning）：以 BERT、ChatGLM 等预训练模型为基础，在 CMMLU 数据集上进行微调。通过调整模型的参数，让其更好地适应中文专业知识的推理任务。例如，度小满的 “轩辕 70B” 金融大模型就是在 CMMLU 上进行微调，大幅提升了金融领域的知识理解能力。
提示学习（Prompt Learning）：通过设计特定的提示模板，引导模型关注问题的关键信息。比如，对于法律问题，可以设计提示 “根据中国法律，以下哪种行为属于侵权？”，让模型更准确地提取法律条文知识。
数据增强：为了增加数据的多样性，可以使用回译、同义词替换等方法对文本进行扩充。例如，将 “驾驶机动车时需要系安全带” 回译为英文再译回中文，生成不同的表达方式。

在训练过程中，要注意调整超参数，如学习率、批次大小等。腾讯混元团队在训练模型时，通过调整学习率和权重衰减值，显著提升了模型的稳定性和性能。

? 模型优化：提升性能的关键策略

要让模型在 CMMLU 上表现更出色，还需要一些优化策略：

学科均衡训练：CMMLU 涵盖多个学科，不同学科的难度和数据量可能存在差异。可以对数据量较少的学科进行过采样，或者对数据量较多的学科进行欠采样，确保模型在各个学科上都能均衡发展。
多任务学习：将 CMMLU 与其他中文数据集结合，进行多任务学习。例如，同时训练模型进行文本分类、问答等任务，提升模型的综合能力。
知识蒸馏：将复杂的大模型知识迁移到轻量级模型上，既能保持性能，又能提高推理速度。猎户星空的 Orion-14B 模型通过知识蒸馏和量化技术，在千元级显卡上也能流畅运行。
强化学习（RLHF）：通过人类反馈强化学习，让模型生成更符合人类偏好的回答。夸克大模型在医疗领域的应用中，就通过 RLHF 降低了幻觉率，提升了回答的准确性。

? 应用场景：CMMLU 的实战价值

CMMLU 在多个领域都有广泛的应用价值：

金融领域：度小满的 “轩辕 70B” 金融大模型在 CMMLU 上的表现位居榜首，能够准确理解金融知识，为金融从业人员提供专业的问答和分析支持。
医疗领域：夸克健康助手通过 CMMLU 评测，提升了医学知识推理能力，能够准确诊断疾病、提供治疗建议，甚至在实际病例中与医院检查结果一致。
法律领域：CMMLU 包含 “法律与道德基础” 等学科，模型可以通过学习这些内容，辅助法律条文理解、案例分析等任务。
通用领域：CMMLU 的多学科覆盖使其适用于通用大模型的评估和优化。例如，vivo 自研大模型在 CMMLU 上的表现远超同级别模型，提升了其在人文、社科等领域的综合能力。