OCR文本识别，场景虽小，大有乾坤 - 安防知识网

伴随着算法的日趋成熟，作为AI赋能千行百业的又一个典型，文本识别场景虽小，却大有乾坤!

　　AI赋能千行百业的口号如今正在逐步落地实践，普罗大众在日常生活的衣食住行之中也越来越多的感受到AI带来的智能和快捷。

　　比如社区场景中出入口的人脸识别通道、社区智能垃圾分类、电瓶车禁入电梯系统；办公场景中人脸识别门禁考勤、票证识别；包裹收寄场景中图片转文本的一系列应用等等。

　　如此来看，不知不觉中，除了人脸识别的应用外，文本识别也已经深入渗透到大众生活当中，并为我们带来了诸多便利。

　　关于文本识别技术，其是计算机视觉和目标识别的基础研究之一，可以将图片、扫描件中的文字识别成可以编辑的文本，代替人工手动录入，近年在深度卷积神经网络的推波助澜下飞速进展。

　　文本识别技术秒识万千字符

　　从目前市场上文本识别技术的应用情况来看，文本识别技术适用于多种应用场景，其实用性完全不亚于名声在外的人脸识别。

　　平安科技就曾表示，文本识别技术的研究价值巨大，对人工智能在地图导航、智能交通、信息检索、机器视觉等领域的发展有较强推动作用，具有广阔的应用空间和重要的研究意义。

　　随着各行各业信息化程度的提升，很多需要文字信息录入的场合如今也在实现业务流程的数智升级。传统的票据录入、单据录入、各种证件执照等文件信息的录入以往基本只能人工手动输入，不仅效率低下，还容易出错。如今在AI技术赋能之下，卡证票据文档识别技术的投入使用，可迅速提升文本信息的录入效率，并且识别准确率基本可达99%以上。

　　为了让这项技术能够更方便的为人所用，目前不少企业已经开发了相当成熟的票证识别应用程序，嵌在各种业务办理平台的辅助功能当中，方便随点随用。

　　比如平安科技专门研发的“平安票证识别通”，目前已接入平安产险、平安寿险、平安信托等企业中，广泛应用于移动开户、移动投保、银行票据录入、医疗单据录入等场景,可准确识别身份证、行驶证、驾驶证、营业执照、医疗发票等证件票据。

　　复杂且个性化的文字和各类字符丰富着我们的日常生活，不过，这也给文本识别带来挑战。

　　比如在城市治理场景中，城市街道沿街商铺各类个性化的招牌，招牌颜色各异、招牌大小不一、随意变更招牌以及小广告粘贴等问题，这不仅影响市容市貌也存在安全隐患。紫光华智推出的街面OCR识别算法可准确识别不同招牌的文本和语义信息，提升城市智能化管理能力和效率，助力城市精细化管理。

　　而在大华股份针对文本识别技术的应用案例中，我们还看到了文本识别在在钢铁、能源、交通等行业的应用。比如在钢铁、能源领域，通过编号识别算法自动获取车辆、集装箱、钢卷等目标上的编号信息，助力高效管理；在交通运输安全管理领域，运用自然场景文字识别算法自动读取车身文字信息，智能筛选出重点管理车辆，以便针对不同车型采取不同管理方案。

　　又或者在医疗领域，帮助公司识别药品说明书，帮助公司快速构建药品说明书的信息库；在物流领域，通过文本识别技术快速完成各类单据自动识别，提效降本效果显著……文本识别技术可适用场景相当广泛，有了文本识别算法，也藉由机器之“眼”，让我们从此告别繁琐的手动输入低效率方式。

　　文本识别技术的难点和挑战

　　文本识别应用的普及，得益于OCR(Optical Character Recognition)文字识别算法的日趋成熟，不过，从目前市场的文本识别应用情况来看，由于应用场景的多样性，文本识别也还面临着一些挑战：

　　1、扫描的单据往往存在虚线干扰、版面缺失、倾斜、暗光、扭曲、噪声等情况，定位难度大。

　　2、文字千变万化，例如字体、字号、颜色、笔画宽度等不固定，方向任意；小数点、近似英文数字、特殊符号、连接词、艺术字等，容易被漏检或误识别。

　　3、语言种类繁多，经常是中英文混合,多种语言混合等场景,识别难度加大。

　　4、表格单据经常存在盖章(印章覆盖文字)、错行(文字溢出表格单元，与表格线交叉)的情况，也造成文字识别干扰，极大影响识别准确率。

　　5、拍照上传的图片存在噪声、模糊、光线变化、形变、复杂背景干扰等问题，对文字定位和识别的准确度是巨大的挑战。

　　机器不同于人眼，尤其在现实场景中，字体设计、文本背板、语种以及外部的光线环境等各类因素都可能对机器识别造成干扰，而这也正是当前AI视觉企业在文本识别算法上需要攻破的技术方向。

　　当然，我们也看到了相关企业在算法研究上取得的进展。比如针对低质量图像、生僻字、艺术字的识别。

　　大华依托自研的“巨灵”人工智能平台，对识别算法进行深度改进，运用多尺度融合、跨层链接等先进技术，提高了算法对这类文本的识别效果；紫光华智则结合多尺度融合、注意力机制、多模型融合等先进技术及基础数据分析，对难例样本进行数据增强，实现了对图片像素低、质量差、艺术字体等识别效果的大幅提升；华为云采用了黑边处理、自动纠偏、去噪、图像自动旋转、多种二值化等方法处理图像，从而提高了扭曲、复杂背景、光照、模糊场景下的文字检测识别准确率。

　　在AI视觉企业的持续探索之下，文本识别算法也得以不断演进，而伴随着算法的日趋成熟，作为AI赋能千行百业的又一个典型，文本识别场景虽小，却大有乾坤!