提高大模型思考能力的第一步——获取优质版权数据使用权近几年内国家/政府层面推动AI训练可以合理使用版权数据的可能性是较小

1 现状

现在大模型的训练过程就像一个认识很多字的孩子没有经过任何循序渐进的学习（对知识的掌握、对世界的认知、对原则的理解）就去看大量的书、去上网、去回答用户提出的各种各样的问题。不区分数据的输入顺序和优劣，没有人引导它如何学习，它很难有真正的思考能力和判断力。

2 训练构想

针对大模型现在推理能力弱、不能真正理解和思考的问题，我认为最有效的方法之一是从0开始使用高质量真实数据由易到难地训练。训练阶段像学期一样拆分，每段训练都单独检测，检测通过后再进入下一阶段的训练。从小学到高中的官方认可的教材就是很好的训练材料。（详细思考请见前文：juejin.cn/post/761173… 及 juejin.cn/post/761182… ）

3 与出版社联络，获取优质数据使用权

近几年内国家/政府层面推动AI训练可以合理使用版权数据的可能性是较小的，那么现在对于AI公司来说，用更好的真实数据去从0训练大模型，是和其他大模型区别开的方式之一。与出版社联络，获取优质版权作品的使用权（从成本考虑，无需独占），以此训练成的大模型可以为出版社提供一轮校对。因校对不是简单的错别字、语法错误识别，校对也需要广泛、准确的知识，需要中立客观地指出，这些非常适合一个通过高质量数据训练的大模型来做。大模型也并不会替代人类作者，人类的经验和感受是基于自身的工作、生活、学习的，人类的创作，尤其是优质创作，永远具有独特性。