最近又收集了一组关文言文/白话文互译数据集,虽然数据不多,但是对于AI时代,数据积累肯定是必不可少的环境,当我们需要做一些垂直类的智能体时,我们需要给AI一些对于某个行业的专业性的知识,这个时候就需要各种行业的数据集。所以为了以后可以用的上,那我们就慢慢收集呗。希望对你也有所帮助。
一、数据特点
1、双栏结构,简洁实用
第一栏为原文:来源广泛,包括诸子百家、史传文言、古诗文、古代政论、现代白话文优质语料等。
第二栏为译文及解析:融合现代白话翻译+关键词句解析+语境结构解析,内容清晰明了,利于模型理解。
2、数据丰富,内容专业
累计 17,087 条互译数据,内容横跨多个古文经典及现代汉语优质语料
适合做自然语言翻译、理解、生成、问答等任务的基础数据
3、标准Excel格式,便于处理与集成
表格结构平整、统一,适合导入至数据库、AI训练框架或问答系统中使用。
二、数据集的部分截图
有兴趣的小伙伴,可以去看看。注:不开源噢~
www.wwwoop.com/home/Index/…