取消
搜索历史
热搜词
原创
活动
创新2.0
I T
产业
当前位置:首页 >人工智能 > 正文
让图片开口“说话”:AI+信息无障碍或成普惠性创新技术
来源:ENI  作者:ENI 2018-04-12 15:52:54
视障人群身处黑色的感官世界,人工智能带来的除了便利以外,也给他们的体验抹上浓重的色彩。阿彪表示,拿语音合成技术来说,以前读屏软件“读”出来的文字,没有抑扬顿挫的声调,只有一个字一个字蹦出来的单调。语音合成,可以用男声、女声、小孩声等多种特定角色的声音读出文字,读屏也能有“人味儿”。

说到信息无障碍,以往接触的多是利用读屏软件,视障用户循着语音操作智能手机。随着AI应用领域的不断扩展,视障人群现在甚至可以“听”到图片。

日前,腾讯开放了图片转语音、OCR文字识别、语音合成三大AI无障碍技术,并允许开发者自由接入使用。这些技术,让图片可以“说出”上面的文字和场景,扩大和提升了视障人群的无障碍使用体验。

有专业人士分析,AI和信息无障碍的深度融合,未来将不仅仅造福障碍人群,更能够普惠到特殊场景和肢体不便的老年用户,成为互联网发展新的创新点。

腾讯开放三大AI无障碍技术

平常使用手机,阿彪会把手机贴着耳朵,顺着语音提示飞快地操作。阿彪还喜欢浏览QQ空间,了解朋友们的动态,可是点击到图片,读屏软件只会一遍遍提示“图片”“图片”……

而现在,利用“图片转语音”技术,图片也可以“开口说话”,当阿彪点击到图片后,语音报出“一个人坐在凳子上玩游戏”。可能对于普通用户来讲不算什么,但对于阿彪这样的视障人群,却打开了一扇全新的大门。

\

图:小程序“多媒体AI平台”已开放可用于无障碍场景的三大AI技术

3月28日,“2018科技无障碍发展大会”在北京举行,腾讯开放了三大AI无障碍技术,包括了图片转语音、OCR文字识别、语音合成。

记者了解到,图片转语音技术被喻为“能听的图片”,它能通过深度神经网络识别图片的内容,然后组织语言,以通顺并符合人类语言习惯描述图片,并通过读屏软件“说出来”。

OCR识别技术也叫“看图识字”,这种技术可以识别图片上的文字,比如身份证、指示牌、一张PPT的照片等等,能让用户对文本信息的获取更为便捷,不仅在日常生活中很实用,结合语音技术还能为许多障碍人群提供便利。

语音合成技术,可以多角色定制语音,通过机器学习训练,将文字以特定角色的声音诵读出来,让语音合成更加真实有情绪、获取信息更加容易,未来能模拟用户自己的声音为家人念出一份说明书。

记者看到,这些技术都可以在小程序“多媒体AI平台”中找到,并开辟了专门的入口,供企业、开发者接入和使用。腾讯公司表示,AI无障碍技术的普及,可降低互联网产品在无障碍应用研发时使用新技术的门槛,让科技助力更多无障碍场景服务,创造社会价值。

AI侧重解决场景化问题

每天人们接触的信息,有近80%由视觉传达。对于我国1700多万视障人群,如何让他们享受到移动互联网时代的便捷,是信息无障碍建设的主要目标之一。

阿彪的另一个身份是深圳信息无障碍研究会的技术主管,他说,过去业内关注信息无障碍,多是读屏软件的兼容,解决的是视障人士“怎么使用软件基本功能”的问题。而AI技术的应用,解决的是场景化问题,互联网和科技怎样给视障人群的生活带来便利。

\

阿彪以自己的一次经历举例说明。有一次,他收到银行信用卡中心发来的短信,需要他更新身份证信息。

图:阿彪正在使用qq空间图片描述功能

阿彪心里有点慌,身边没有人帮他。这时他想起之前和手机QQ做的一个方案,“扫一扫”里加入了OCR文字识别功能,并且针对读屏使用做了无障碍优化,于是他扫了一下身份证,提取文字信息,回复了短信。

OCR识别解决的场景化问题还有很多,比如在吃药的时候,面前有三种药,可不知道该吃的药是哪一瓶,这时扫一下药瓶上的标签,语音就报出药名。

视障人群身处黑色的感官世界,人工智能带来的除了便利以外,也给他们的体验抹上浓重的色彩。阿彪表示,拿语音合成技术来说,以前读屏软件“读”出来的文字,没有抑扬顿挫的声调,只有一个字一个字蹦出来的单调。语音合成,可以用男声、女声、小孩声等多种特定角色的声音读出文字,读屏也能有“人味儿”。

AI拓宽互联网“盲道”

信息无障碍,被阿彪这样的信息无障碍工程师们称为互联网的“盲道”“坡道”“升降机”。不过,这条“盲道”也如现实中的盲道,断断续续、磕磕绊绊。

据《中国互联网视障用户基本情况报告》显示,66%的视障者认为目前我国互联网产品勉强能让视障者使用,另有20%的视障者认为大多数互联网产品很难使用。

在视障用户的使用中,有代码书写不规范引起的读取失败,有页内跳转、页面弹窗时不注重焦点管理造成的操作不畅。专业人士分析,造成这样的原因,是因为企业并不了解视障群体也是他们的用户,或是不了解用户的真实需求,使得手机系统、各类应用对读屏操作的支持还不够完善,产品无障碍体验做得不到位。

人工智能乃至物联网的加速渗透,给了这条“盲道”拓宽、提速的机遇。其中一个大趋势是从去年开始,国内各大手机厂商开始集体投入信息无障碍,并取得了一些成果。

之前,在超市手机支付,要一个个页面点进去调出支付码,“有一款手机出了一个语音处理功能,只要一句语音命令,就能直接调出支付码,能省去多个点击的环节。”阿彪介绍。

物联网带来的智慧家居,同样适用于信息无障碍。阿彪说,现在日常生活中要摸索着操作洗衣机、微波炉,以后可能说一句话就能执行。

阿彪指出,除了靠语音操作之外,人工智能未来将带来更多的交互方式,靠表情、靠眼球来操作智能产品,这能给人们带来更方便快捷的生活方式,同时又会给视障人群带来新的障碍。信息无障碍要解决的问题会随着科技发展而不断变化。

AI+信息无障碍弥补身体缺陷

深圳信息无障碍研究会品牌传播负责人宋晓英认为,如今AI在不同场景的应用,信息无障碍不止给视障、听障等人群带来便利,还能给肢体不便的老年人、普通用户的特殊使用场景带来便利,提高互联网产品的通用性。

比如,对于听障人群来说,微信语音信息转文字十分便利,同时普通用户如果在开会场景下,听语音就不适合,看文字却方便得多。

某品牌手机开发了语音接听电话功能,视障人群听到手机响,说句话就可以接听,对肢体不便的老年人,也同样方便。

科技可以弥补人身体的缺陷。宋晓英认为,AI+信息无障碍提高了互联网产品的普惠性,未来可能成为互联网产业创新的机会点。

编辑:张洁
关键字:     人工智能  互联网  腾讯  软件 
活动 直播间  | CIO智行社

分享到微信 ×

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。