【OCR】企业实现全面“数据化”转型,这么做数据才有价值!

简介: 随着智能手机和移动设备的普及,越来越多的图片被产生,也有越来越多的图片文字识别需求。由于深度学习和图像检测技术的发展,使得上述场景中的文字的检测和识别效果越来越好,使得机器自动识别成为可能,在业务审核中给公司节省了大量的人力

前言:

随着智能手机和移动设备的普及,越来越多的图片被产生,也有越来越多的图片文字识别需求。由于深度学习和图像检测技术的发展,使得上述场景中的文字的检测和识别效果越来越好,使得机器自动识别成为可能,在业务审核中给公司节省了大量的人力。

以下内容根据演讲嘉宾视频分享以及PPT整理而成。
本次主要内容分为三部分:

一.OCR能力简介
二.OCR产品
三.OCR应用

一、OCR能力简介

OCR到底是什么?
image

其实它就是把图片里面的文字识别出来。为什么OCR突然现在越来越多的场景都要用到它呢?很多人一定听过数据化、智能化?那么怎么把很多的东西变成可用的数据呢,这个就非常的关键。
image

我们之前在很多法院以及司法机关等,其中的卷宗都是纸质的文档。大家都知道,纸质文档时间久了会褪色,查询的时候也会很麻烦。我们要把所有的文档中的文字提取出来,把这些变成可编辑的数据,这时候才是有价值的,这个才是数据化的第一步。

接着便是智能化。比如说我们过去在银行,如果要登记身份证的信息,那可是要银行的工作人员一个一个手打进去的,但现在很方便了,你只要一扫,所有的信息就可以按要求来输出。
image

还有一个场景就是——网络监管,现在有很多广告发出来,在发布广告时,不允许出现“最”、“第一”等等。但现在这么多的商家,这么多的图片,不可能依靠人力去一个一个识别,所以也要用到OCR技术,把图片的文字内容识别出来。

这就是OCR应用场景,就是数据化、智能化第一步,整体足够降低50%的人力成本。

从技术的维度做解释:
简单来说,就是文字识别;更深维度就是说 文字理解。
image

第一步,把文字识别出来。比如这张图片的火车票,把有字的地方定位出来,识别出来。
第二步,很多时候,所有的文字并非都有用,我们需要的也许只是一部分信息。其实也就是说你需要什么信息,需要进行文字理解,然后对应我给你输出什么信息。

目前我们能做的主要包括这么几大类:
image

卡证类、表单类、汽车相关类识别、资产类证件、通用文字识别、行业文档的识别等等。
这些都是满足客户标准化的需求;当然如果客户有比较特别的需求的话,我们可以输出自定义模板,根据客户的需求来定制。
image

这是我们阿里云OCR和友商的一个对比,大家也可以自己对比下。

二、OCR产品

OCR整体来说就分为两类,一种是全文识别,另外就是结构化识别。

image

全文OCR识别:只要识别里面的文字就行了,所有的内容识别起来。我们只做文字定位、识别、提取。

结构化OCR识别:卡针类、发票类,比如其他一些不同的证件,这是要做结构化提取的。

举个例子:
一张司法行业的单子:
1.判断这张图是否旋转
2.内容分类,全文字还是表格类的
3.每个字的坐标确认,识别,输出

结构化:
image

这是户口页的一张图。全文识别就是把其中所有的内容识别出来,但我们无法判断其中的关系,户主是谁?所以这个时候我们要通过核心的关键字词来判断。

整个步骤如下:
1.提取整个表格
2.文字提取
3.语义空间关系提取
4.通过结构化来输出客户想要的信息

自定义模板
当客户公司有自己的单子,每一家公司的肯定也不一样,这个时候就要用到自定义模板。
image

  1. 把你想要的内容标注出来,然后发布
  2. 接着把数据做调用,看下能否达到你的效果(不一定适用,不合适那就继续改,直到满足自己的模板)
  3. 通过不断的训练,和模板优化,最后输出自己满意的模板
    image

这是我们自己的一个技术,包括收货凭证、门诊发票以及海外的一些证件,都可以自定义模板来配出来的
image

和第三方OCR作对比的能力:

  1. 高准确率:准确率好不好,要依据大量数据,我们有2000亿张图片来进行训练
  2. 适用性:多用于多种场景下的普适性文字识别
  3. 高实时性 我们平均耗时100ms
    我们OCR目前是支持公共云和专有云的。

image

如果你们对数据不是特别敏感,我还是建议你们用公共云的方式来调用,因为我们的数据本身是不落盘的,其次我们不用去购买另外的服务器;最后我们线上的版本也在不断优化和更新,对于客户来说,会以最快的速度体验到我们最新的版本。
当然专有云一样,有一些比如像政府、司法、银行,数据绝对不允许外流,他们必须在自己的网络上进行,但专有云有一点要有自己的GPU服务器,其他的我们的交付方式还是性能来说,都一样的,
如果你们需要来测试我们接口的话, 公共云有500次免费的;专有云当然也可以poc测试,只要客户准备好GPU服务器,说明需求,我们可以把做好的“加密狗”寄到他们那来测试,测试完了之后我们再实施部署。

三、OCR应用

公共云客户也非常多,简单举个例子,以物流行业为例。可能会碰到很多司机,来注册我们平台,这时候需要司机来提供身份证、驾驶证供我们来认证,客户就可以通过OCR印刷文字识别来解决这个问题。

专有云目前核心在司法和金融行业。
image

OCR在司法行业,提供最底层的技术能力,通过很多合作伙伴,联合ISV对外输出。

金融行业:目前在银行用的最多的是“两录一审”的状态,我们录入信息的时候,都是两个人录入,一个人审核,全都是通过人工的方式。现在通过OCR的能力,可以减少一部分人工的成本。

目前专有云上在司法和金融比较成熟的,另外我们也在拓展海关以及医疗的一些场景;公共云我们会把很多通用性的标准的接口输出,让大家用API的方式对接更简单。

这就是今天和大家分享的内容,有问题可以继续提问哈~~

资料链接:

PPT下载
ET体验馆
官方demo
错误码对照

OCR对外客户反馈群 入群方式:
钉钉搜索:11700462

目录
相关文章
|
4月前
|
人工智能 文字识别
阿里云的 口算判题 AI能力(文字识别OCR)接口 返回数据的时候 没有正确答案只有 对错吗?
阿里云的 口算判题 AI能力(文字识别OCR)接口 返回数据的时候 没有正确答案只有 对错吗?
172 0
|
文字识别 开发工具 Python
Python编程:通过百度文字识别提取表格数据
Python编程:通过百度文字识别提取表格数据
138 0
Python编程:通过百度文字识别提取表格数据
|
机器学习/深度学习 算法
MXNet之CNN:自定义CNN-OCR算法训练车牌数据集(umpy.ndarray格式数据)的模型实现一张新车牌照片字符预测
MXNet之CNN:自定义CNN-OCR算法训练车牌数据集(umpy.ndarray格式数据)的模型实现一张新车牌照片字符预测
MXNet之CNN:自定义CNN-OCR算法训练车牌数据集(umpy.ndarray格式数据)的模型实现一张新车牌照片字符预测
|
机器学习/深度学习 算法 计算机视觉
MXNet之CNN:自定义CNN-OCR算法训练车牌数据集(umpy.ndarray格式数据)实现车牌照片字符识别并评估模型
MXNet之CNN:自定义CNN-OCR算法训练车牌数据集(umpy.ndarray格式数据)实现车牌照片字符识别并评估模型
MXNet之CNN:自定义CNN-OCR算法训练车牌数据集(umpy.ndarray格式数据)实现车牌照片字符识别并评估模型
|
机器学习/深度学习 数据采集 编解码
揭秘!文字识别在高德地图数据生产中的演进
丰富准确的地图数据大大提升了我们在使用高德地图出行的体验。相比于传统的地图数据采集和制作,高德地图大量采用了图像识别技术来进行数据的自动化生产,而其中场景文字识别技术占据了重要位置。商家招牌上的艺术字、LOGO五花八门,文字背景复杂或被遮挡,拍摄的图像质量差,如此复杂的场景下,如何解决文字识别技术全、准、快的问题?本文分享文字识别技术在高德地图数据生产中的演进与实践,介绍了文字识别自研算法的主要发展历程和框架,以及未来的发展和挑战。
1013 0
揭秘!文字识别在高德地图数据生产中的演进
|
28天前
|
文字识别 容器
文字识别OCR常见问题之本地部署如何解决
文字识别OCR(Optical Character Recognition)技术能够将图片或者扫描件中的文字转换为电子文本。以下是阿里云OCR技术使用中的一些常见问题以及相应的解答。
32 3
|
28天前
|
文字识别 前端开发 API
文字识别OCR常见问题之处理产品图片识别如何解决
文字识别OCR(Optical Character Recognition)技术能够将图片或者扫描件中的文字转换为电子文本。以下是阿里云OCR技术使用中的一些常见问题以及相应的解答。
22 3
|
28天前
|
文字识别
文字识别OCR常见问题之拦截扫描件的识别如何解决
文字识别OCR(Optical Character Recognition)技术能够将图片或者扫描件中的文字转换为电子文本。以下是阿里云OCR技术使用中的一些常见问题以及相应的解答。
20 2
|
28天前
|
数据采集 文字识别
文字识别OCR常见问题之目标区域和KV区域区别如何解决
文字识别OCR(Optical Character Recognition)技术能够将图片或者扫描件中的文字转换为电子文本。以下是阿里云OCR技术使用中的一些常见问题以及相应的解答。
25 2
|
28天前
|
文字识别 API 开发工具
文字识别OCR常见问题之买了资源包识别不成功扣次数如何解决
文字识别OCR(Optical Character Recognition)技术能够将图片或者扫描件中的文字转换为电子文本。以下是阿里云OCR技术使用中的一些常见问题以及相应的解答。
22 3

热门文章

最新文章