硬字幕提取工具6.5（原创）目前为止可行的硬字幕(hardsub)提取方案。这里只说“可行”的方案，那些不成熟的、按时收

一、目前为止可行的硬字幕(hardsub)提取方案

这里只说“可行”的方案，那些不成熟的、按时收费的，用过就删的，不在此列。

1. 人工手提，用手和眼来提取时间轴和文字。

优点：

准确率高（废话）。

缺点：

费时费力，不能常做。

2. esrXP + IdxSubOcr（MODI OCR）

esrXP提取带时间轴信息的字幕图片，打包成一个idx文件，然后导入IdxSubOcr用MODI ocr识别文字。

优点：

用了计算机图像技术判断字幕出现和消失的时间点，从而提取时间轴信息，准确率较高。

缺点：

老掉牙的微软MODI ocr识别引擎准确率较低，为了照顾MODI ocr，esrXP需要做较多设置、试验、调整参数的工作，以便提供漂亮的黑底白字clearTxT给MODI ocr,这就很考验用户的经验了。总体来说识别率不高、工作量较大。虽然esrXP已经停更多时，但是苦于没有更好的选择，长期以来字幕爱好者只能将就着用。

3. VideoSubFinder_5.50_x64 + ABBYY FineReader 15

VideoSubFinder_5.50_x64做类似esrXP的工作（区别是保存每个字幕图片，不打包成一个idx文件），ABBYY FineReader 15做类似IdxSubOcr的工作，将每个jpg字幕图片ocr识别为一个txt文件，然后回到VideoSubFinder_5.50_x64将所有txt文件合成一个srt文件。

优点：

跟esrXP类似，采用了更先进复杂的计算机图像技术判断字幕出现和消失的时间点，从而提取时间轴信息，更好的去重算法，准确率进一步提高（人家叫Finder嘛，从2011年做到现在）。ABBYY FineReader 15除了能ocr中英文，还支持其他语种。

缺点：

ABBYY FineReader 15号称地表最强离线文字ocr引擎，虽然比MODI ocr好得多，但在实际使用效果上，对比经过数年AI人工智能训练的云识别引擎（例如百度OCR通用文字识别引擎），识别准确率还是差了一大截。

4. 硬字幕提取工具6.5

采用VideoSubFinder_5.50_x64 + 百度搜狗有道讯飞OCR通用文字识别引擎，整合第三方工具APP（为什么不好好利用别人的成果呢？），从开始到结束，整个字幕提取流程一气呵成，识别率高、省时省力。

二、初次使用本软件

总体来说，三个大步骤：

1、将字幕从视频中切片截图下来

2、将字幕图片OCR为文字

3、校对编辑字幕文字

具体步骤如下所述：

步骤1、准备百度OCR服务APP_ID / API_KEY / SECRET_KEY

到ai.baidu.com/tech/ocr/ge… 注册获取百度通用文字识别服务的APP_ID / API_KEY / SECRET_KEY，

一个手机号码注册一个账号（须实名认证）。

每账号每天免费识别次数有规定（依精度不同从每天500次到每月1000次不等，每次识别1张图片，具体政策由厂家规定），如不够用可多注册几个账号，同时厂家经常有优惠活动（例如百度1元购1W次，讯飞0元购10W次，搜狗有道新注册送50、100元等）。对于长期需求用户，建议充点钱购买次数吧，价格不贵，还能支持国家高科技发展。

注册步骤很简单，可自行百度，获得的APP_ID / API_KEY / SECRET_KEY信息先保存起来下面会用到。

类似的：

搜狗OCR到deepi.sogou.com/ 注册。

有道OCR到ai.youdao.com/product-ocr… 注册。

讯飞OCR到www.xfyun.cn/service/tex… 注册。（选文字识别 -- 印刷文字识别（多语种），服务接口认证信息为三项：APPID、APISecret、APIKey）

步骤2、准备工作流程中将会用到的APP1、APP2第三方软件

到sourceforge.net/projects/vi… 下载安装VideoSubFinder_5.50_x64 作为APP1

到github.com/SubtitleEdi… 下载安装Subtitle Edit 3.5.18作为 APP2

注：APP2 不指定，可以选用户熟悉的其他软件，例如SubtitleEdit可换成Aegisub或 ArcTime

步骤3、设置硬字幕提取工具

打开工具，

点击‘系统设置’

填入步骤1获得的百度OCR服务APP_ID / API_KEY / SECRET_KEY

点Browse找到步骤2安装好的APP的入口exe文件，APP1 – APP2顺序不要错，然后Save保存设置。

这时，主界面的APP1、APP2 按键将显示刚才设置好的exe文件名

步骤4、用VideoSubFinder_5.50_x64生成RGBImages

点击主界面VideoSubF按键，将启动运行VideoSubFinder_5.50_x64

点击左上角File -> Open Video(FFMPEG) ，打开要提取字幕的视频文件（本例为：倚天屠龙记之魔教教主-中字.mp4）

快速浏览全片，查看字幕区间矩形最大范围（注意有些视频是两层字幕），用两根竖线两根横线设置字幕截图区间（四根线在视频边缘不容易发现，试着点击选中可以移动它）。 注意：矩形边框要比实际字幕稍大，不要为了节省图片尺寸而把区间设置成紧贴字幕（当然也没必要设置得太大，太大会导致叠图数量降低）。

点击Search右边的Settings，出现设置界面，我们只关心左边这块能影响Search字幕图片的参数。

第一个参数‘Text Alignment’默认设置是‘Center’，须要点击设置成‘Any’。

其他众多参数中，有一个参数至关重要，就是Use Filter Colors这项，default值是空的，其他参数可以不设，这个一定要设置上，特别是非纯白字幕，例如黄色！如果不设置，有大几率会漏字幕。

我们需要取色字幕文字的骨干颜色（骨干外则是字幕轮廓颜色，不要取偏了），然后将颜色值填入，将有助于VideoSubFinder判断字幕出现和结束的时间，生成正确的时间轴信息，并防止丢时间轴。常见字幕颜色可能有白色的、黄色的，或者其他颜色，本例电影的字幕是白色。如果是多色字幕，可以按VSF要求取色多色填入。

具体的参数设置，可以参考Docs目录下的readme_eng.txt，专业用户精调参数可以提高Search字幕帧的准确率，从而减少丢时间轴（少字幕图片，致命）和假时间轴（空字幕图片，影响不大）的情况，不过据笔者使用经验，如果没弄明白参数含义和作用，随意调整反而适得其反，普通用户还不如不调的好。

在右边界面先点一下Pixel Color

然后点击字幕白色文字中心骨干取色，点不准可以多点几下。

取到了颜色，会显示出来

本例将Lab: l:245 a:127 b:129 拷贝后双击填入Use Filter Coloers，一般做了这步就可以基本保证不会有时间轴丢失的情况，算是完成了Search的设置。

点击Search -> Clear Foders 清空RGBImages目录，

然后点 OCR Search，程序开始扫描视频文件，生成RGBImages。

几分钟后扫描完成，可以关掉VideoSubFinder_5.50_x64，初次使用我们可以打开RGBImages目录看一下

这些是刚才VideoSubFinder_5.50_x64 Search生成的1000多个字幕切片图片文件，说明这个电影有1000多条字幕呢。文件名前段为时间轴信息。

打开文件看看，是RGB原色字幕截图切片，很适合喂给百度AI过的OCR引擎做识别。

步骤5、清理空字幕图片

点击主界面上的‘删合’按键，将打开‘删合窗’并自动定位到RGBImages目录，

我们可以在‘删合窗’中清除RGBImages目录中的空字幕图片。

由于VideoSubFinder 的Search算法还没做到100%准确，所以会误生成少量无字幕图片（假时间轴），有时还会把广告也截图下来，我们在‘删合窗’中用鼠标滚轮快速浏览RGBImages目录，把发现的空字幕、广告字幕图片删掉，让后续百度OCR识别不用浪费每天数量额度，同时在校对阶段不用再做删除工作。

一页可以显示几十张图片，浏览、选中、删除非常方便。

翻页：将鼠标指针停留在图片区，滚动鼠标滚轮，或者键盘↑↓键、键盘←→键，可以翻页（一次滚动三列）

选中：鼠标左键点击可以标记选中图片，再次点击可以去选中。Shift+鼠标左键可以连续多选、连续去选。

删除：直到最后一页标记完成，点<<面板上的‘总删合’按键会弹出删除提示，确认后将删除所有标记过的空图片。后昆仑决看就看的《》<,.,kl

更多方便的功能可以看“第四节之6、删合窗（删除合并）”

如下图一处为广告，可以选中标记它：