【OCR】企业实现全面“数据化”转型，这么做数据才有价值！

2019-03-18 3056

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 随着智能手机和移动设备的普及，越来越多的图片被产生，也有越来越多的图片文字识别需求。由于深度学习和图像检测技术的发展，使得上述场景中的文字的检测和识别效果越来越好，使得机器自动识别成为可能，在业务审核中给公司节省了大量的人力

前言：

随着智能手机和移动设备的普及，越来越多的图片被产生，也有越来越多的图片文字识别需求。由于深度学习和图像检测技术的发展，使得上述场景中的文字的检测和识别效果越来越好，使得机器自动识别成为可能，在业务审核中给公司节省了大量的人力。

以下内容根据演讲嘉宾视频分享以及PPT整理而成。
本次主要内容分为三部分：

一．OCR能力简介
二．OCR产品
三．OCR应用

一、OCR能力简介

OCR到底是什么？

其实它就是把图片里面的文字识别出来。为什么OCR突然现在越来越多的场景都要用到它呢？很多人一定听过数据化、智能化？那么怎么把很多的东西变成可用的数据呢，这个就非常的关键。

我们之前在很多法院以及司法机关等，其中的卷宗都是纸质的文档。大家都知道，纸质文档时间久了会褪色，查询的时候也会很麻烦。我们要把所有的文档中的文字提取出来，把这些变成可编辑的数据，这时候才是有价值的，这个才是数据化的第一步。

接着便是智能化。比如说我们过去在银行，如果要登记身份证的信息，那可是要银行的工作人员一个一个手打进去的，但现在很方便了，你只要一扫，所有的信息就可以按要求来输出。

还有一个场景就是——网络监管，现在有很多广告发出来，在发布广告时，不允许出现“最”、“第一”等等。但现在这么多的商家，这么多的图片，不可能依靠人力去一个一个识别，所以也要用到OCR技术，把图片的文字内容识别出来。

这就是OCR应用场景，就是数据化、智能化第一步，整体足够降低50%的人力成本。

从技术的维度做解释：
简单来说，就是文字识别；更深维度就是说文字理解。

第一步，把文字识别出来。比如这张图片的火车票，把有字的地方定位出来，识别出来。
第二步，很多时候，所有的文字并非都有用，我们需要的也许只是一部分信息。其实也就是说你需要什么信息，需要进行文字理解，然后对应我给你输出什么信息。

目前我们能做的主要包括这么几大类：

卡证类、表单类、汽车相关类识别、资产类证件、通用文字识别、行业文档的识别等等。
这些都是满足客户标准化的需求；当然如果客户有比较特别的需求的话，我们可以输出自定义模板，根据客户的需求来定制。

这是我们阿里云OCR和友商的一个对比，大家也可以自己对比下。

二、OCR产品

OCR整体来说就分为两类，一种是全文识别，另外就是结构化识别。

全文OCR识别：只要识别里面的文字就行了，所有的内容识别起来。我们只做文字定位、识别、提取。

结构化OCR识别：卡针类、发票类，比如其他一些不同的证件，这是要做结构化提取的。

举个例子:
一张司法行业的单子：
1.判断这张图是否旋转
2.内容分类，全文字还是表格类的
3.每个字的坐标确认，识别，输出

结构化：

这是户口页的一张图。全文识别就是把其中所有的内容识别出来，但我们无法判断其中的关系，户主是谁？所以这个时候我们要通过核心的关键字词来判断。

整个步骤如下：
1.提取整个表格
2.文字提取
3.语义空间关系提取
4.通过结构化来输出客户想要的信息

自定义模板
当客户公司有自己的单子，每一家公司的肯定也不一样，这个时候就要用到自定义模板。

把你想要的内容标注出来，然后发布
接着把数据做调用，看下能否达到你的效果（不一定适用，不合适那就继续改，直到满足自己的模板）
通过不断的训练，和模板优化，最后输出自己满意的模板

这是我们自己的一个技术，包括收货凭证、门诊发票以及海外的一些证件，都可以自定义模板来配出来的

和第三方OCR作对比的能力：

高准确率：准确率好不好，要依据大量数据，我们有2000亿张图片来进行训练
适用性：多用于多种场景下的普适性文字识别
高实时性我们平均耗时100ms
我们OCR目前是支持公共云和专有云的。

如果你们对数据不是特别敏感，我还是建议你们用公共云的方式来调用，因为我们的数据本身是不落盘的，其次我们不用去购买另外的服务器；最后我们线上的版本也在不断优化和更新，对于客户来说，会以最快的速度体验到我们最新的版本。
当然专有云一样，有一些比如像政府、司法、银行，数据绝对不允许外流，他们必须在自己的网络上进行，但专有云有一点要有自己的GPU服务器，其他的我们的交付方式还是性能来说，都一样的，
如果你们需要来测试我们接口的话，公共云有500次免费的；专有云当然也可以poc测试，只要客户准备好GPU服务器，说明需求，我们可以把做好的“加密狗”寄到他们那来测试，测试完了之后我们再实施部署。