识别|百度大脑OCR技术加持白描App：让AI成为视障者的眼睛( 二 ) 的图片|文字|新乐|白描|场景

文章图片

考虑完用户的使用场景之后，再者就是对产品的不断打磨。当时，图片转文字常常会有识别错误的情况发生，为了弥补这一问题，在识别之前，白描APP会进行一些技术上的处理，比如图像压缩如何保证清晰度又尽量减小图片大小；如何在进行长图自动裁剪时，检测到长图的空行位置自动裁剪，且不会裁到文字；如何针对文章进行自动分段，更便于读者阅读等等。这些精细化的产品设计保证了图片的清晰度，让文字信息更易于被识别。而在识别之后，白描的校对功能，可以让识别结果与原图显示在同一界面上，方便用户快速找到需要修改的地方，在此基础上进行编辑。
依托百度优秀的深度学习算法和基于海量优质数据的预训练模型，以及白描App的图像预处理能力，最终实现了关键字段识别准确率99%+ 。看到女友使用白描时绽放的笑颜，陶新乐觉得一切都是值得的，他也希望更多人能够享受到这份快乐。
成功的背后：用“匠人”之心雕琢产品之光
程序员出身的陶新乐在做产品这件事上一直怀揣一颗“匠人”之心。陶新乐提到， AI在落地的过程中会遇到很多的困难，很多时候都是一边踩坑一边向前走。当遇到无法解决的问题时，就需要不断学习，攻坚克难。
百度大脑OCR技术与无数像陶新乐一样的开发者并肩同行。作为最早规模化应用的AI技术之一， OCR技术的产业级应用持续取得突破。百度大脑OCR技术可提供多场景、多语种、高精度的文字检测与识别服务，多项ICDAR指标居世界第一，已广泛适用于远程身份认证、财税报销、文档电子化等场景，为企业降本增效，为用户带来更智能化的应用体验。

文章图片

当然， AI技术的应用落地，除了需要有百度大脑这样提供领先AI技术能力的平台外，还需要更多像陶新乐这样的开发者们，发挥想象将AI应用在更多真实场景中，满足不同用户群体，甚至是容易被忽视的残障人群的需求，让社会更有“AI” 。同时，为了降低独立开发者和企业自主训练OCR文字识别模型的门槛，百度大脑推出业界首个EasyDL OCR自训练平台，提供零门槛、定制化、低成本的一站式OCR模型训练服务。保证高准确率的同时，满足多元化的场景需求，并有效保障数据安全。
在这个科技为大众生活赋能的时代，产品的设计更是一种普惠理念的输出。已拥有超过800万用户的白描App ，已经成为业界的口碑产品。相信，未来还将有越来越多的开发者通过百度大脑AI开放平台提供的AI技术与服务，创造出更多与场景相结合的智能应用，让更多人生活更便捷、更美好。