开源OCR(过程介绍)
前不久,百度技术团队,前不久,百度技术团队在GitHub上正式开放了一款OCR神器,发布后不久就数次冲上GitHub趋势榜,引起了技术圈开发者的热议。今天,我将向你介绍这个项目。
众所周知,OCR(光学字符识别)技术已经广泛应用于我们生活的方方面面。从印刷稿件的文字识别、身份证的电子信息录入、传统邮件的自动分拣、汽车车牌的识别等领域,正式开辟了一个OCR神器。发布不久就多次冲上GitHub趋势榜,引起了技术圈开发者的热议。今天,我我将向你介绍这个项目。
众所周知,OCR(光学字符识别)技术已经广泛应用于我们生活的方方面面,从印刷稿件的字符识别、身份证的电子信息输入,到传统的邮件自动分拣、汽车车牌识别等领域,OCR都是不可或缺的。
平时工作的时候,经常会用一些OCR软件扫描图片,提取文字。我一定会用AI技术,而不是人工完成一系列的文本分析和图像识别操作。
百度GitHub上开源的PaddleOCR模型,大小只有8.6M。是目前圈内为数不多的AI深度学习模型,可以支持中英文图像和纵横排版识别。
让让我们来看看PaddleOCR 自从今年年中GitHub开源以来,短短几个月内,它在GitHub上的表现:
7月发布8.6M超轻机型,GitHub Trending全球日榜第一!
8月份,开源的CVPR2020会遇到SOTA算法,然后上GitHub趋势榜!
9月GitHub星数突破4.6K你最近带来了哪些重磅更新?
果不其然,看着9月份的最新更新,PaddleOCR再次真诚的为大家带来真正的干货。直接看官方介绍:
1.官方介绍
从数量上来说,这次PaddleOCR一口气发布了三个系列的机型,满足移动端和服务器端各种场景的需求。而且多语种安排得当,所有训练代码和模型都是无保留开源的。其中,3.5M超轻字符识别模型是业界最轻的OCR模型。质量方面,这样的轻量化车型效果有保证吗?唐不要看广告,只看疗效。让让我们来看看一些常见的一般场景识别效果:
3.5M机型能达到这个识别精度,绝对是良心之作!门户网站GitHub:https://github.com/PaddlePaddle/PaddleOCR论文下载链接:https://arxiv.org/abs/2009.09941
2.快速体验
PaddleOCR s 3.5M超轻OCR型号1)。PC端快速尝试:(打开网页,选择一张图片,可以实时看到结果)https://www.paddlepaddle.org.cn/hub/scene/ocr
2).手机APP安装体验PaddleOCR在百度大脑EasyEdge上打开了文字识别App演示。示例效果如下(可以在github首页找到下载二维码)
多种开源回购测试的比较
简单对比一下目前主流OCR方向开源repo的核心能力:
3).从性能指数中:
根据OCR的实际应用场景,包括合同、车牌、铭牌、火车票、化验单、表格、证书、街头文字、名片、数字显示等。收集了300个图像,每个图像平均有17个文本框。PaddleOCR的F1-评分超过0.5,已经很不错了。
4).从功能完备的角度来看:
预训机型尺寸:easyOCR目前没有超轻机型,chineseocr_lite最新机型在4.7M左右,而PaddleOCR提供的3.5M无疑是目前业内已知最轻的。
PIP安装:目前只支持PaddleOCR和easyOCR。
自定义培训:在实际业务场景中,预培训模型往往无法满足需求。目前,只有PaddleOCR支持用户定义的训练和模型微调。
部署:easyOCR模型太大,不适合端到端部署。Chineseocr_lite和PaddleOCR具备端到端部署能力。
开发者可以根据自己的实际需求选择自己的开源方案。对于PaddleOCR3.5MB超轻机型,如何做在repo中也有说明。
3.5M超轻量模型使用了一套超轻量OCR系统PP-OCR,主要由DB文本检测、检测框校正和CRNN文本识别组成。该系统从主干网络的选择和调整、预测头的设计、数据增强、学习率转换策略、正则化参数选择、预训练模型的使用、模型的自动切割和量化等八个方面,采用19种有效策略,对各模块的模型进行优化和瘦身。其中,飞桨模型压缩库PaddleSlim为PaddleOCR超轻量化模型的实现提供了核心技术支持。从超轻型模型从8.1M压缩到3.5M,模型规模减少了56.79%,其中检测模型的速度提高了21%,整体模型精度提高。
除了3.5M超轻OCR模型,PaddleOCR还提供多语言预训练模型(英语、德语、法语、韩语和日语),支持定制训练和丰富的部署方式。
标签:模型PaddleOCRGitHub