你会心动吗?ICPR 2018 MTWI挑战赛开启

简介:

互联网世界中,图片是传递信息的重要媒介。特别是电子商务、社交、搜索等领域,每天都有数以亿兆级别的图像在流动传播。基于深度学习的图片文字识别(OCR)技术正飞速发展,并深刻影响着信息的交互和传递方式,乃至改变相关行业的生产方式。而在学术领域,图片中的文字识别(OCR)同样也是研究重点,但目前业内依旧缺少基于网络图片的、以中文为主的OCR数据集。

90745deebd105633bb0fc09100d2fb17deadaa9a

近期,由阿里巴巴“图像和美”团队联合华南理工大学共同举办ICPR MTWI(Multi-Type Web Image)2018 挑战赛正式开启,并开放业内第一个基于网络图片的中英混合数据集——MTWI数据集。大赛聚焦OCR领域相关实用知识点的突破与解决,旨在与全球AI科研人才一起共同推动OCR在工业界的应用和发展。

本次大赛发布的MTWI数据集来源于真实网络场景,以“来源于实践,且高于实践”为构建理念,既考虑到学术价值同时也兼顾工业适用性。

不同于纯文档图片和场景文字图片,MTWI数据集中的图片多为作者设计或者二次加工所得。整体上看,这类图片不仅包含部分场景图片和文档图片,更多的是在这些图片基础上添加设计好的文字而成的新图片。

a7cafa121c4fe9ee507bccd0faddd8c50b3fb2fe

左一:空心字,切断字,中英混排 /左二:封面印刷文字,离散单字,重叠字/左三:实拍,自然场景,艺术文字/左四:大字中镶嵌小字,不同字号混排

从数据场景上看,本数据集涵盖了数码合成、物体表面、封面类印刷的中英文以及少量日文、韩文等类型的文字。而从文字版式上来看,包含了各种字体类型的单字、横排、竖排、倾斜排列、曲线排列、复杂混排(不同字号、不同字体、不同字间距的混合排布)等。

因此,本次大赛发布的数据集既有图片文字识别的共性也有本身的特性,突出覆盖前沿技术尚未解决或者遗漏的样例,并基于OCR领域乃至计算机视觉领域的前沿指标,设置文本检测,文本行识别,端到端的整图文字识别三个层次的赛题,对相关技术点的解决以及在工业领域的信息数字化应用将具有直接的推动作用。

e416b7590bc65b1fac7b3bd4e3421a6eb53966ed

本次ICPR MTWI 2018 挑战赛基于天池数据众智平台,目前已开启报名通道,吸引了来自国内外2000余支队伍报名参赛,其中不乏OCR研究领域的知名院校团队。赛事组委会将在2018年6月1日评出获奖名单,并于ICPR2018大会期间在北京进行颁奖。


原文发布时间为:2018-04-4
本文来自云栖社区合作伙伴“ 淘宝技术”,了解相关信息可以关注“ 淘宝技术”微信公众号
相关文章
|
云安全 安全
第二届WEBSHELL伏魔挑战赛开启报名
舞台已备好,等你来战!
641 0
第二届WEBSHELL伏魔挑战赛开启报名
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
复旦发布中国版ChatGPT:MOSS开启测试冲上热搜,服务器挤爆
复旦发布中国版ChatGPT:MOSS开启测试冲上热搜,服务器挤爆
101 0
|
11月前
|
SQL 关系型数据库 MySQL
阿里云数据库SQL挑战赛赛题二:游戏游玩情况
阿里云开发者社区及数据库团队联合举办「阿里云数据库SQL挑战赛」,来自阿里云数据库团队的技术专家为各位开发者准备了三道由浅入深的赛题,快来试试你有多会写 SQL 吧。此外,我们还为开发者提供了 3 个月免费的 RDS MySQL Serverless 资源,参赛的同时还能体验云上开发的便利性。
900 1
|
存储 人工智能 数据可视化
【赛事速递】参与天池学习赛,开启你的AI之旅
【赛事速递】参与天池学习赛,开启你的AI之旅
345 0
|
云安全 安全 Java
|
机器学习/深度学习 人工智能 自动驾驶
重磅 | 吴恩达Coursera新课已经上线,开启全民 AI 时代!
重磅 | 吴恩达Coursera新课已经上线,开启全民 AI 时代!
388 0
重磅 | 吴恩达Coursera新课已经上线,开启全民 AI 时代!
|
SQL Java 关系型数据库
2021开发者技能竞技大赛开启报名,披荆斩棘答出我的姿态!
五条技术赛道,赛事大奖,总价值5000元,还有阿里云认证福利等你来拿!
2021开发者技能竞技大赛开启报名,披荆斩棘答出我的姿态!
|
SQL 机器学习/深度学习 人工智能
2020收官行—BIGDATA + AI Meetup 2020第三站·北京站开启报名!
始于开源,精于实践,作为2020年收官之战,本次 Meetup 又将让大数据和 AI 擦出怎样的技术花火?开源届冉冉升起的新星和风光无限的老将们将会用哪些精彩案例作为年度收尾?来自阿里云、滴滴出行、微博、Databricks、汇量科技、 Zilliz 等知名企业的技术大咖将以实践案例深度解读大数据+AI的现在与未来。落地到出行、应用于医疗、服务在社交媒体,我们从声音、影像、图片、数字···交织的信息巨网中撕出一道道出口,透出属于大数据人的科技之光。
2020收官行—BIGDATA + AI Meetup 2020第三站·北京站开启报名!
|
消息中间件 存储 人工智能
下半年你关心的行业热点都在这里,BIGDATA+AI Meetup 2020第二站·上海站开启报名!
本次活动汇集2020年下半年开发者最关心的开源主题,搜罗了数据湖、数仓架构、实时计算等热门议题,8位行业资深专家,硬核输出,用实践说话。
3016 0
下半年你关心的行业热点都在这里,BIGDATA+AI Meetup 2020第二站·上海站开启报名!