阅读插件的功能,应该包括文字的修复。
或者说叫做“精校”。
在中国古代,精校图书是个非常有前途工作,有个专门的官位叫做校书郎,还是个郎官呢!
所谓郎官,就是皇帝身边的人,一般是侍卫,翰林学士,御马监等等这些人。
在唐朝的时候,文人通过科举入仕后,能得到最好的第一个官位就是校书郎了。做好了校书的工作,就可以外放出去做县尉,积累牧民经验,准备要升官大用了。
没错就是牧民,以前百姓在官方眼中,和牲畜没啥区别,所以地方官的职责就是代天子放牧百姓。
比如刘备先生,他就是豫州牧。
也就是河南那边牧场的首脑。
扯远了!
时代已经变了。
古代很有前途的工作,现在已经可以用机器来做啦。
网络上的各种文章,或多或少都会有一些文字错乱,这时候,插件可以入手进行修理。
这大约相当于流传在网络上的各种所谓的精修版本。
以前这种工作,是需要人手来做到。在网络上,很类似一种众包的模式。
那时候内容少,人工是可以的。
但在内容大爆发的现在,肯定是不行了,因为干不过来。
这正如字幕组,不管他是否出于公心,是否以盈利为目的,它最终必然会败给自动翻译的 AI。
大量非头部的内容,只能由机器翻译。
但字幕组不会死,总会有大量的精品电影值得人工为之付出努力。
毕竟翻译,也要讲信达雅。
说回文字的纠错,利用 AI 进行文本自动纠错,是非常便捷和经济的,对于阅读体验,也会有可观的提升。
举个例子,错误的【.】号
第一种情况:
“.那就是相当于卫兵?”
这里出现的.符号就是一个错误。
第二种情况:
“.”他不知道该怎么做了。
以前的话,这也是个错误,但现在有些网文写手会使用这种风格,比如“!!!?”,用来表示惊叹。
第三种情况:
才进入一年时间,我这样的层面,就遇到这种难度的危险。难怪.难怪没人能支持两年。难怪外面那些人都不将死人看做是威胁.
在这里,它显然更应该是一个逗号,但也可以是感叹号。
很多时候并不能完全确定修复方案,取决于上下文,特别这条语句对应的 emotion, 用这些上下文信息加权后,才能最终进行确定。
并不是所有的场景,都能用一套字符串替换的方案解决问题。
现在这些类似的纠错,插件已经能够精准的完成了。
但用传统专家系统的思路,进行穷举的话,还是太难了,必须要有更智能化的方法。
而且也需要能利用插件用户的帮助。
即,插件会提供一个开发模式,在这个模式下,用户可以在界面上看到插件对文本进行纠错的对照。
由用户对对照结果进行投票,最终的得票最高的结果会生成验证数据集,用于精炼插件的纠错模型。
这相比于以前,用户只能点击一个按钮提交错误信息,被动等待结果,也是一个改进。
而且,用户参与的越多,插件也就会了解到用户喜爱的文字风格,也就会让用户看的更爽。
比如,有的用户就喜欢用“今次”替换“这次”,用“真个销魂”取代“太销魂”
用的人越多,纠错就越准确。
该怎么做呢?
用 chatgpt 对中文进行纠错,可能是一个方向,但这是一个收费项目,破解并对它进行山寨拷贝,是巨公司的事情。
只能在开源领域寻找了,论文也是可以参考的。
这个领域,事实上已经有了很大的进展,比如这篇论文:
GrammarGPT: Exploring Open-Source LLMs for Native Chinese Grammatical Error Correction with Supervised Fine-Tuning
FreedomIntelligence/GrammarGPT: The code and data for GrammarGPT. (github.com)
看起来是个值得花时间看看的方向。
GrammarGPT 能不能用于文本精修的领域呢。
正在测试中。。。