手机浏览 RSS 2.0 订阅 膘叔的简单人生 , 腾讯云RDS购买 | 超便宜的Vultr , 注册 | 登陆
浏览模式: 标准 | 列表Tag:汉王

pdf to txt

或许很多软件都是专业的转换,但是如果PDF中有图片的话,那些convert pdf to word就不一定能够成功转换了。所以我推荐这款“汉王 PDF OCR”,和传统的OCR一样对PDF进行识别、转换,再输出。因此,即使你是图片,他也能够认得出啦,因为他可以把图片直接OCR出来。

   汉王PDF OCR是汉王OCR 6.0 和尚书七号的升级版,本软件新增打开与识别PDF文件功能,支持文字型PDF的直接转换和图像型PDF的OCR识别:既可以采用OCR的方式,将PDF文件转换为可编辑文档;也可以采用格式转换的方式直接转换PDF文件为文本。
本软件系统应用OCR(Optical Character Recognition)技术,为满足书籍、报刊杂志、报表票据、公文档案等录入需求而设计的软件系统。
目前,许多信息资料需要转化成电子文档以便于各种应用及管理,但因信息数字化处理的方式落后,不但费时费力,而且资金耗费巨大,造成了大量文档资料的积压,因此急需一种快速高效的软件系统来满足这种海量录入需求。本软件系统正是适用于个人、小型图书馆、小型档案馆、小型企业进行大规模文档输入、图书翻印、大量资料电子化的软件系统。
    ●识别字符
    简体字符集:国标GB2312-80的全部一、二级汉字6800多个。
    纯英文字符集。
    简繁字集:除了简体汉字外,还可以混识台湾繁体字5400多个以及香港繁体字和GBK汉字。
    ●识别字体种类
    能识别宋体、仿宋、楷、黑、魏碑、隶书、圆体、行楷等一百多种字体,并支持多种字体混排。
    ●识别字号
    初号 小六号字体。
    ●表格识别
    可以自动判断、拆分、识别和还原各种通用型印刷体表格。

上午尝试了一下,对于一些杂志扫描出来的OCR可以正确识别。精度还挺高。当然。。。纯图片【文章配图】是没有办法导出来了。。

官网:http://www.hanwang.com.cn/

Tags: 汉王, ocr, pdf