让图片开口“说话”：AI+信息无障碍或成普惠性创新技术 - 人工智能 - ENI经济和信息化网

当前位置：首页 >人工智能 > 正文

让图片开口“说话”：AI+信息无障碍或成普惠性创新技术

来源：ENI 作者：ENI 2018-04-12 15:52:54

视障人群身处黑色的感官世界，人工智能带来的除了便利以外，也给他们的体验抹上浓重的色彩。阿彪表示，拿语音合成技术来说，以前读屏软件“读”出来的文字，没有抑扬顿挫的声调，只有一个字一个字蹦出来的单调。语音合成，可以用男声、女声、小孩声等多种特定角色的声音读出文字，读屏也能有“人味儿”。

说到信息无障碍，以往接触的多是利用读屏软件，视障用户循着语音操作智能手机。随着AI应用领域的不断扩展，视障人群现在甚至可以“听”到图片。

日前，腾讯开放了图片转语音、OCR文字识别、语音合成三大AI无障碍技术，并允许开发者自由接入使用。这些技术，让图片可以“说出”上面的文字和场景，扩大和提升了视障人群的无障碍使用体验。

有专业人士分析，AI和信息无障碍的深度融合，未来将不仅仅造福障碍人群，更能够普惠到特殊场景和肢体不便的老年用户，成为互联网发展新的创新点。

腾讯开放三大AI无障碍技术

平常使用手机，阿彪会把手机贴着耳朵，顺着语音提示飞快地操作。阿彪还喜欢浏览QQ空间，了解朋友们的动态，可是点击到图片，读屏软件只会一遍遍提示“图片”“图片”……

而现在，利用“图片转语音”技术，图片也可以“开口说话”，当阿彪点击到图片后，语音报出“一个人坐在凳子上玩游戏”。可能对于普通用户来讲不算什么，但对于阿彪这样的视障人群，却打开了一扇全新的大门。

图：小程序“多媒体AI平台”已开放可用于无障碍场景的三大AI技术

3月28日，“2018科技无障碍发展大会”在北京举行，腾讯开放了三大AI无障碍技术，包括了图片转语音、OCR文字识别、语音合成。

记者了解到，图片转语音技术被喻为“能听的图片”，它能通过深度神经网络识别图片的内容，然后组织语言，以通顺并符合人类语言习惯描述图片，并通过读屏软件“说出来”。

OCR识别技术也叫“看图识字”，这种技术可以识别图片上的文字，比如身份证、指示牌、一张PPT的照片等等，能让用户对文本信息的获取更为便捷，不仅在日常生活中很实用，结合语音技术还能为许多障碍人群提供便利。

语音合成技术，可以多角色定制语音，通过机器学习训练，将文字以特定角色的声音诵读出来，让语音合成更加真实有情绪、获取信息更加容易，未来能模拟用户自己的声音为家人念出一份说明书。

记者看到，这些技术都可以在小程序“多媒体AI平台”中找到，并开辟了专门的入口，供企业、开发者接入和使用。腾讯公司表示，AI无障碍技术的普及，可降低互联网产品在无障碍应用研发时使用新技术的门槛，让科技助力更多无障碍场景服务，创造社会价值。

AI侧重解决场景化问题

每天人们接触的信息，有近80%由视觉传达。对于我国1700多万视障人群，如何让他们享受到移动互联网时代的便捷，是信息无障碍建设的主要目标之一。

阿彪的另一个身份是深圳信息无障碍研究会的技术主管，他说，过去业内关注信息无障碍，多是读屏软件的兼容，解决的是视障人士“怎么使用软件基本功能”的问题。而AI技术的应用，解决的是场景化问题，互联网和科技怎样给视障人群的生活带来便利。

阿彪以自己的一次经历举例说明。有一次，他收到银行信用卡中心发来的短信，需要他更新身份证信息。

图：阿彪正在使用qq空间图片描述功能

阿彪心里有点慌，身边没有人帮他。这时他想起之前和手机QQ做的一个方案，“扫一扫”里加入了OCR文字识别功能，并且针对读屏使用做了无障碍优化，于是他扫了一下身份证，提取文字信息，回复了短信。

OCR识别解决的场景化问题还有很多，比如在吃药的时候，面前有三种药，可不知道该吃的药是哪一瓶，这时扫一下药瓶上的标签，语音就报出药名。

AI拓宽互联网“盲道”

信息无障碍，被阿彪这样的信息无障碍工程师们称为互联网的“盲道”“坡道”“升降机”。不过，这条“盲道”也如现实中的盲道，断断续续、磕磕绊绊。

据《中国互联网视障用户基本情况报告》显示，66%的视障者认为目前我国互联网产品勉强能让视障者使用，另有20%的视障者认为大多数互联网产品很难使用。

在视障用户的使用中，有代码书写不规范引起的读取失败，有页内跳转、页面弹窗时不注重焦点管理造成的操作不畅。专业人士分析，造成这样的原因，是因为企业并不了解视障群体也是他们的用户，或是不了解用户的真实需求，使得手机系统、各类应用对读屏操作的支持还不够完善，产品无障碍体验做得不到位。

而人工智能乃至物联网的加速渗透，给了这条“盲道”拓宽、提速的机遇。其中一个大趋势是从去年开始，国内各大手机厂商开始集体投入信息无障碍，并取得了一些成果。

之前，在超市手机支付，要一个个页面点进去调出支付码，“有一款手机出了一个语音处理功能，只要一句语音命令，就能直接调出支付码，能省去多个点击的环节。”阿彪介绍。

物联网带来的智慧家居，同样适用于信息无障碍。阿彪说，现在日常生活中要摸索着操作洗衣机、微波炉，以后可能说一句话就能执行。

阿彪指出，除了靠语音操作之外，人工智能未来将带来更多的交互方式，靠表情、靠眼球来操作智能产品，这能给人们带来更方便快捷的生活方式，同时又会给视障人群带来新的障碍。信息无障碍要解决的问题会随着科技发展而不断变化。

AI+信息无障碍弥补身体缺陷

深圳信息无障碍研究会品牌传播负责人宋晓英认为，如今AI在不同场景的应用，信息无障碍不止给视障、听障等人群带来便利，还能给肢体不便的老年人、普通用户的特殊使用场景带来便利，提高互联网产品的通用性。

比如，对于听障人群来说，微信语音信息转文字十分便利，同时普通用户如果在开会场景下，听语音就不适合，看文字却方便得多。

某品牌手机开发了语音接听电话功能，视障人群听到手机响，说句话就可以接听，对肢体不便的老年人，也同样方便。

科技可以弥补人身体的缺陷。宋晓英认为，AI+信息无障碍提高了互联网产品的普惠性，未来可能成为互联网产业创新的机会点。

编辑：张洁

关键字：人工智能互联网腾讯软件

[收藏] [关闭] [返回顶部]

e-show 一手

上海联合汽车电子首席安全官

  数字化要一盘棋更要各自为战

  数字化是实现以客户为中心的手段

  数字化的目的是为了增加价值
长安汽车数据处处长

  以强化“连接”应对不确定性

  降本增效，产业链协同发展

  开足马力，推动智慧工厂建设

活动直播间 | CIO智行社

智能应用大会

时间：2020-05-29 地点：线上 报名
时间：2020-05-15 地点：线上 报名
时间：2020-04-22 地点：线上 报名

E-PRO

张立辉葵花药业CIO

在医药行业信息化领域耕耘20年，曾就职于哈药集团、葵花药业集团，历任计算机中心副主任、主任，信息技术部部长、信息中心总监。带领团队...

蒋科伟艾兰得健康控股集团副总裁&CIO

从事信息化20年，擅长信息系统的规划和整合，打通各种信息孤岛，从集团公司的战略出发，使系统与业务紧密结合，去除无效工作，重塑价值链...