一、黑白类型
通常一般的识别软件(比如清华TH-OCR)在对文字识别后会自动生成一个与其图像文件同名的纯文本文件,但其缺点是每一行的末尾全是硬回车(直接复制到记事本中也是如此),非常不便于编辑,所以我们一般采用导出功能而不采用直接保存为TXT文本文件的方法。除此之外,OCR识别软件还可以将识别结果以RTF格式导出,这种格式不仅能够直接为WORD或WPS识别,而且导出后的版式与原稿一模一样。对于含有图、表的稿件,可以采用RTF格式导出。特别要说明的是识别后的表格一定要使用导出方式,否则表格的格线将成为字符,而不再是表格线。
一般印刷品的扫描:对于黑字原稿的印刷品,采用黑白模式、300dpi进行扫描,这样做不仅扫描时速度快,而且文件小,识别速度快。完毕之后,我们可以点击校对键,对识别结果进行校对。对于个别错误的地方采用直接输入法改正即可。依笔者之见,区域划分也是提高识别效果的关键之一,区域类型有横排正文、竖排正文、表格、图形图像四种,在识别之前,可拖动鼠标划分区域,一般而言,可将字体字号相同的划在一个区域,选定划分的区域后,单击右键即可设置区域的类型。
报纸的扫描:由于报纸不易摆放端正,所以对扫描结果进行识别前。
首先要点击“自动纠斜”。若纠斜效果不理想,还可以采用手动纠斜,不同的识别软件可能方法不同,清华TH-OCR的方法是按住Shift键的同时再按住鼠标右键,画出一条与倾斜着的文字平行的线,然后松开鼠标右键,这样就可以达到理想的纠斜效果。
第二,要点击“自动版面分析”(报纸类),这里要说明的是报纸的标题字号极大,若按字去识别,效果可能不理想,建议将此区域改成图形或干脆将该区域取消,识别之后再手工输入即可。同时还要取消不是该篇文章内容的其他区域。识别与导出的过程与上述方法相同。但需说明的是,由于报纸的版面特殊,一般不必保留,所以不宜导出成RTF格式,最好导出成Formated Text Files的格式,这种TXT文件没有多余的硬回车。