文言文/白话文互译数据集(17087条)收集 |智能体知识库 | AI大模型训练

155 阅读1分钟

最近又收集了一组关文言文/白话文互译数据集,虽然数据不多,但是对于AI时代,数据积累肯定是必不可少的环境,当我们需要做一些垂直类的智能体时,我们需要给AI一些对于某个行业的专业性的知识,这个时候就需要各种行业的数据集。所以为了以后可以用的上,那我们就慢慢收集呗。希望对你也有所帮助。

一、数据特点

1、双栏结构,简洁实用

第一栏为原文:来源广泛,包括诸子百家、史传文言、古诗文、古代政论、现代白话文优质语料等。

第二栏为译文及解析:融合现代白话翻译+关键词句解析+语境结构解析,内容清晰明了,利于模型理解。

2、数据丰富,内容专业

累计 17,087 条互译数据,内容横跨多个古文经典及现代汉语优质语料

适合做自然语言翻译、理解、生成、问答等任务的基础数据

3、标准Excel格式,便于处理与集成

表格结构平整、统一,适合导入至数据库、AI训练框架或问答系统中使用。

二、数据集的部分截图

image.png

image.png

有兴趣的小伙伴,可以去看看。注:不开源噢~
www.wwwoop.com/home/Index/…