CKnowEdit数据集:由浙江大学发布一个新的含有7种类型中文知识编辑数据集

78 阅读5分钟

2024-09-10,由浙江大学创建数据集,称为CKnowEdit。一个中文知识编辑数据集,包含多个来源:经典文本、成语以及来自百度贴吧弱智吧的内容。

一、目前遇到困难和挑战:

1、缺乏特定知识:

LLMs在处理特定语言和领域时,比如处理中文古代诗歌、谚语或成语时,由于缺乏特定领域的知识,表现不佳。

2、文化和语言的细微差别:

中文具有独特的语言结构和文化背景,如多音字、同音字、丰富的成语和典故,这些细微差别对于LLMs来说很难捕捉。

3、语言的多义性和上下文依赖性:

中文中一词多义和上下文依赖性较强,LLMs很难准确理解和生成合适的语境。

4、翻译的局限性:

现有的多语言数据集通常是通过将英文语料库翻译成其他语言来创建的,这种方法无法捕捉到中文的复杂语言特征和文化细微差别。

CKnowEdit : 深入研究多样化和真实的中国语言资源,包括丰富的古典文学挂毯、当代口语的生动表达,以及在百度贴吧论坛中发现的独特文化见解,每个都反映了中国语言身份的不同方面

数据集地址:CKnowEdit|大语言模型数据集|中文知识编辑数据集

二、让我们来看一下这个数据集

CKnowEdit从多个来源收集数据,如古典文学、现代口语和百度贴吧弱智吧。数据集包括对常见误解和文化误解的手动注释。

7种类型

增强大型语言模型(LLMs)中文知识的方法,如下:

1、FT-M(微调方法):

该方法结合了显式记忆和提示技术,通过根据提供的中文特定知识微调模型参数来修正模型预测。其目的是提高与中文语言和文化相关的生成内容的准确性和连贯性。

2、AdaLoRA:

该方法利用先进技术编辑LLMs中的中文知识,重点在于保留现有参数,同时进行必要的修改,以增强模型对中文语言和文化细微差别的理解。其目标是提高生成内容的流畅性和语义准确性。

3、ROME:

ROME方法涉及在LLMs中定位和编辑相关神经元,以修改与中文知识相关的参数。通过针对模型内的特定区域,ROME旨在提高模型在生成文化和语言上准确的中文内容方面的表现。

4、GRACE:

GRACE方法修改LLMs中的前馈神经网络(FFN)层,以增强模型处理和生成中文特定知识的能力。通过调整神经网络架构,GRACE旨在提高模型处理中文语言和文化内容的能力。

↑ 表示数字越高,性能越好。

科普小知识:什么是知识编辑

知识编辑(Knowledge Editing)是一种技术,目的纠正事实不准确或更新模型中的特定事实,而无需进行全面的再训练。 从而 改善大型语言模型(LLMs)在特定知识领域的准确性和可靠性。

知识编辑的关键特点:

  1. 针对性强:知识编辑专注于修改模型在特定输入-输出对上的表现,而不是对整个模型进行泛化的改进。

  2. 效率:相比于全面重新训练模型,知识编辑是一种更为快速和计算成本较低的方法。

  3. 最小化影响:通过精确地修改模型的特定部分,可确保模型在无关任务上的性能不受影响,从而保留模型在初始预训练阶段获得的大量知识和技能。

三、让我们来看一下这个数据集的应用:

快到中秋节了,我心血来潮,问智能助手 “明月几时有”的下一句是什么,模型回答“ 但愿人长久,千里共婵娟”,虽然这句也在《水调歌头》,但不是紧接的下一句。

怎么办?

来吧,让它专门学习一下古诗文。CKnowEdit数据集要大显身手了。

  1. 找资料:我先搜集一堆古诗文,特别是《水调歌头》这首词,还有苏轼的其他作品,以及其他诗人的相关作品。
  2. 划重点:然后,告诉智能助手,“明月几时有”后面得接“把酒问青天”,不是别的。还得给它指出其他容易弄混的诗句,比如“举头望明月,低头思故乡”,这句虽然也跟月亮有关,但不是苏轼写的。
  3. 加强训练:接下来,就是让智能助手把这些正确的搭配都记牢。通过反复学习和练习,直到它能把“明月几时有”和“把酒问青天”牢牢绑定在一起。
  4. 效果评估:学完以后,要考考它,看看是不是真的记住了。再问它“明月几时有”的下一句,看它能不能答对。
  5. 查漏补缺:如果智能助手偶尔还是记错了,那可就要要找出问题所在,继续给它“开小灶”,直到它能够每次都准确无误地回答出来。

学习成果:

经过这么一番“特训”,智能助手就能在中秋节的时候,准确地陪你一起吟诵“明月几时有,把酒问青天”了。它不仅能够理解这句诗,还能在其他古诗文上也表现得更出色,比如知道“举杯邀明月,对影成三人”是李白的《月下独酌》,而不是苏轼的作品。

这样一来,智能助手就不再是个只会死记硬背的“书呆子”,而是变成了一个能够真正理解和欣赏古诗文的“小诗人”。

通过这样的案例,我们可以看到CKnowEdit数据集在提升语言模型古诗文理解能力方面的重要作用。它不仅提高了模型的准确性,也增强了模型与用户在中文文化方面的互动体验。

更多免费的数据集,请打开:遇见数据集

www.selectdataset.com/