对于错乱文字的处理

125 阅读4分钟

阅读插件的功能,应该包括文字的修复。

或者说叫做“精校”。

在中国古代,精校图书是个非常有前途工作,有个专门的官位叫做校书郎,还是个郎官呢!

所谓郎官,就是皇帝身边的人,一般是侍卫,翰林学士,御马监等等这些人。

在唐朝的时候,文人通过科举入仕后,能得到最好的第一个官位就是校书郎了。做好了校书的工作,就可以外放出去做县尉,积累牧民经验,准备要升官大用了。

没错就是牧民,以前百姓在官方眼中,和牲畜没啥区别,所以地方官的职责就是代天子放牧百姓。

比如刘备先生,他就是豫州牧。

也就是河南那边牧场的首脑。

扯远了!


时代已经变了。

古代很有前途的工作,现在已经可以用机器来做啦。

网络上的各种文章,或多或少都会有一些文字错乱,这时候,插件可以入手进行修理。

这大约相当于流传在网络上的各种所谓的精修版本。

以前这种工作,是需要人手来做到。在网络上,很类似一种众包的模式。

那时候内容少,人工是可以的。

但在内容大爆发的现在,肯定是不行了,因为干不过来。

这正如字幕组,不管他是否出于公心,是否以盈利为目的,它最终必然会败给自动翻译的 AI。

大量非头部的内容,只能由机器翻译。

但字幕组不会死,总会有大量的精品电影值得人工为之付出努力。

毕竟翻译,也要讲信达雅。


说回文字的纠错,利用 AI 进行文本自动纠错,是非常便捷和经济的,对于阅读体验,也会有可观的提升。

举个例子,错误的【.】号

第一种情况:

“.那就是相当于卫兵?”

这里出现的.符号就是一个错误。

第二种情况:

“.”他不知道该怎么做了。

以前的话,这也是个错误,但现在有些网文写手会使用这种风格,比如“!!!?”,用来表示惊叹。

第三种情况:

才进入一年时间,我这样的层面,就遇到这种难度的危险。难怪.难怪没人能支持两年。难怪外面那些人都不将死人看做是威胁.

在这里,它显然更应该是一个逗号,但也可以是感叹号。

很多时候并不能完全确定修复方案,取决于上下文,特别这条语句对应的 emotion, 用这些上下文信息加权后,才能最终进行确定。

并不是所有的场景,都能用一套字符串替换的方案解决问题。

现在这些类似的纠错,插件已经能够精准的完成了。

但用传统专家系统的思路,进行穷举的话,还是太难了,必须要有更智能化的方法。

而且也需要能利用插件用户的帮助。

即,插件会提供一个开发模式,在这个模式下,用户可以在界面上看到插件对文本进行纠错的对照。

由用户对对照结果进行投票,最终的得票最高的结果会生成验证数据集,用于精炼插件的纠错模型。

这相比于以前,用户只能点击一个按钮提交错误信息,被动等待结果,也是一个改进。

而且,用户参与的越多,插件也就会了解到用户喜爱的文字风格,也就会让用户看的更爽。

比如,有的用户就喜欢用“今次”替换“这次”,用“真个销魂”取代“太销魂”

用的人越多,纠错就越准确。

该怎么做呢?

用 chatgpt 对中文进行纠错,可能是一个方向,但这是一个收费项目,破解并对它进行山寨拷贝,是巨公司的事情。

只能在开源领域寻找了,论文也是可以参考的。

这个领域,事实上已经有了很大的进展,比如这篇论文:

GrammarGPT: Exploring Open-Source LLMs for Native Chinese Grammatical Error Correction with Supervised Fine-Tuning

FreedomIntelligence/GrammarGPT: The code and data for GrammarGPT. (github.com)

看起来是个值得花时间看看的方向。

GrammarGPT 能不能用于文本精修的领域呢。

正在测试中。。。