手机浏览 RSS 2.0 订阅 膘叔的简单人生 , 腾讯云RDS购买 | 超便宜的Vultr , 注册 | 登陆
浏览模式: 标准 | 列表Tag:ocr

pdf to txt

或许很多软件都是专业的转换,但是如果PDF中有图片的话,那些convert pdf to word就不一定能够成功转换了。所以我推荐这款“汉王 PDF OCR”,和传统的OCR一样对PDF进行识别、转换,再输出。因此,即使你是图片,他也能够认得出啦,因为他可以把图片直接OCR出来。

   汉王PDF OCR是汉王OCR 6.0 和尚书七号的升级版,本软件新增打开与识别PDF文件功能,支持文字型PDF的直接转换和图像型PDF的OCR识别:既可以采用OCR的方式,将PDF文件转换为可编辑文档;也可以采用格式转换的方式直接转换PDF文件为文本。
本软件系统应用OCR(Optical Character Recognition)技术,为满足书籍、报刊杂志、报表票据、公文档案等录入需求而设计的软件系统。
目前,许多信息资料需要转化成电子文档以便于各种应用及管理,但因信息数字化处理的方式落后,不但费时费力,而且资金耗费巨大,造成了大量文档资料的积压,因此急需一种快速高效的软件系统来满足这种海量录入需求。本软件系统正是适用于个人、小型图书馆、小型档案馆、小型企业进行大规模文档输入、图书翻印、大量资料电子化的软件系统。
    ●识别字符
    简体字符集:国标GB2312-80的全部一、二级汉字6800多个。
    纯英文字符集。
    简繁字集:除了简体汉字外,还可以混识台湾繁体字5400多个以及香港繁体字和GBK汉字。
    ●识别字体种类
    能识别宋体、仿宋、楷、黑、魏碑、隶书、圆体、行楷等一百多种字体,并支持多种字体混排。
    ●识别字号
    初号 小六号字体。
    ●表格识别
    可以自动判断、拆分、识别和还原各种通用型印刷体表格。

上午尝试了一下,对于一些杂志扫描出来的OCR可以正确识别。精度还挺高。当然。。。纯图片【文章配图】是没有办法导出来了。。

官网:http://www.hanwang.com.cn/

Tags: 汉王, ocr, pdf

Google Docs 可直接做 OCR 将图片转换为可编辑文本了

说老实话,我真的认为我邪恶了,我在看到这个标题的时候,我想的居然是。。。。
等你们看完我转贴我再告诉你们,愚蠢的人类啊(套用凹凸慢的经典台词)。
原文来自:谷奥——探寻谷歌的奥秘 [http://www.google.org.cn]
大小: 80.32 K
尺寸: 468 x 376
浏览: 2120 次
点击打开新窗口浏览全图

Documents List Data API今天增加两个实验性功能:OCR和文档翻译。

OCR可以直接将扫描图片里的文字转换为可编辑的文字,要实现为.png、.jpg或.gif图片做OCR,只需要在上传请求中加入 “ocr=true”参数即可:

POST /feeds/default/private/full?ocr=true HTTP/1.1

OCR目前只能识别高分辨率图片,而且还并不完美,不过Google会尽力做的更好。

API里新增的Google Translate翻译功 能,可以在你上传的时候就做翻译。只要在上传请求中增加targetLanguage(目标语言)和sourceLanguag(源语言)参数即可:

POST /feeds/default/private/full/?targetLanguage=de&sourceLanguage=en HTTP/1.1

如果你忽略sourceLanguag参数,Google会尝试自动识语言,Google Translate的所有语言都支持。

Via Digital Inspiration and Google Code Data APIs Blog

--EOF--
我承认,我看到这个功能能的第一个想法是,以后,验证码的识别可以通过这个接口来完成了。。。程序都不用自己写了,人可以变得越来越蠢了。

Tags: google, ocr, docs