OCR(Optical Character Recognition,光学字符识别)作为信息爆炸时代的“炼金术士”,以其高效且相对精确的性能,在海量纸质文档、扫描件、图片的文字信息提取方面发挥着举足轻重的作用。其广泛应用于教育、医疗、交通等多个行业领域,其重要性不言而喻。然而,目前开源OCR工具种类繁多,不同场景图像的识别效果却参差不齐,这给开发人员的选型工作带来了不小的挑战。为了尽可能全面测试OCR工具的识别能力,本次测评精心挑选了12款开源OCR工具,在五类不同数据集上进行横向评比,以期为用户提供更为准确、客观的选型参考。
开源OCR介绍与评测系列共分为三篇,本文为文字识别能力篇,评测开源OCR基本的文字识别能力,包括印刷中文、印刷英文、手写中文等三类基本类型,以及复杂自然场景和变形字体两类附加测评;第二篇为结构信息能力篇,对表格、票证等结构化信息的OCR能力进行测评;第三篇为OCR Free评测篇,评测开源多模态大模型对图片信息的提取和分析能力。
本次开源OCR文字识别能力测评选取了12款OCR工具,其中,独立工具有:PaddleOCR、RapidOCR、读光(开源版)、ChineseOCR、EasyOCR、Tesseract、OcrLiteOnnx、Surya、docTR、JavaOCR;文档分析OCR组件:RagFlow、Unstructured。
备注:本次测评均使用OCR工具自身提供的预训练模型进行测试,测试均采用工具的示例中提供的参数设置。除开源工具以外,选取百度OCR云服务测试结果作为参照。
PaddleOCR V2.7.5
读光OCR
DocTR V0.7.1
Tesseract V5.3.4
ChineseOCR
OcrLiteOnnx V1.6.1
RapidOCR V1.3.22
JavaOCR V1.0
EasyOCR V1.7.0
RAGflow V0.7.0
Unstructured V0.14.0
Surya V0.4.9
百度OCR V2.0
为了全面评测OCR工具各种场景下的识别和解析能力,本次测评收集整理了多种类型文字识别的图片数据,包括印刷中英文、自然场景、手写文字和验证码等方面数据集,具体文字识别数据集分类如下:
文字识别能力主要评测OCR工具对文字的检测和识别能力,包括支持识别的字符集规模(生僻字),字体形变(字体、艺术字),图像旋转、形变、干扰信息、明暗、模糊等外部因素影响。
备注:文字识别能力只考察是否正确识别出字符,不考察文字结构信息(即输出结果的文字顺序)。其中,中文统计粒度为字,英文为单词(区分大小写),中英文标点符号相互区别。
字符识别准确率(Precision):正确识别的字符数/识别输出总字符数
字符识别召回率(Recall):正确识别的字符数/验证集总字符数
字符识别综合评分(F-Score):2*Precision*Recall/(Precision+Recal)
平均响应时间:基准样本识别总时间/样本数量。
(1)印刷中文的综合测评结果为:
(2)印刷英文的综合测评结果为:
(3)变形字体的艺术字测评结果为:
(4)自然场景的街景图片测评结果为:
(5)手写中文的综合测评结果为:
【关注公众号在后台回复“OCR”即可下载完整版报告。】
印刷中文识别准确度测试中,综合前三分别是RapidOCR、RagFlow和Surya。
在印刷英文识别准确度测试环节,综合前三分别是Surya、Unstructured和读光OCR,还是国外开源软件领先。
在各种变形字体(艺术字、验证码等非标准字体)场景下,由于本次测评仅采用各OCR工具自身提供的预训练模型进行测试,识别准确度均较低,如需提高变形字体的准确率需要针对变形字体进行专项训练。
在复杂多行文字的街景场景中,前三名分别是RagFlow、RapidOCR和PaddleOCR,它们的综合评分相当接近,均略高于70%。
在手写中文识别场景下,综合前三分别是RapidOCR、ChineseOCR和RagFlow。
在响应时间方面,表现优异的有OcrLiteOnnx(0.01秒级)、RagFlow(0.1秒级),响应非常快。另外,ChineseOCR、EasyOCR和RapidOCR表现也不错,平均时间小于1秒。
随着大语言模型的快速发展和应用,我们对OCR识别的需求不再局限于字的识别,对于结构化信息抽取的需求越来越大。我们将在下一篇将对开源OCR工具的结构分析能力进行评测。同时,针对OCR Free类的大模型,如TextMoneky、DocPedia、UReader、Pix2struct、Donut,以及国内研究的InterVL等,我们计划开展一次OCR Free类评测,敬请期待。
开源 OCR介绍与评测系列,由广州软件应用技术研究院(简称:广州软件院)提供技术指导和资源支持。
广州软件院成立于2011年5月27日(原广州中国科学院软件应用技术研究所,是由广州南沙开发区管委会与中国科学院软件研究所共建的事业法人单位),为广州市政府创新发展模式的试点单位之一,广东省首批新型研发机构。广州软件院秉承立足南沙、服务粤港澳大湾区、辐射“一带一路”国家的总体定位,聚焦于智慧城市领域的应用技术研究,重点在政务大数据、智能物联网、区块链、人工智能、智慧食药监管、智能交通、智能视频分析、电子数据取证、软件测评等方向开展技术研究及成果转移转化工作。
广州软件院先进软件测评实验室是专业从事软件和信息安全测评的第三方检验检测实验室,主要研究区块链、物联网、智能网联汽车、人工智能等新技术的测试和测评。实验室具备国家市场监管总局许可的国家级检验检测机构资质认定(CMA)、中国合格评定认可技术委员会认可检验检测实验室(CNAS)和中国国防科技工业实验室认可委员会认可检验检测实验室(DIAC)。
关于《十二款开源OCR开箱测评-文字识别能力篇》,想要获取下载链接,点击右下角 在看 ,后台回复 OCR 即可。
官网:https://gzis.ac.cn