11月23日,“百度语音开放平台3周年庆”活动在京举行。百度宣布将在其语音开放平台上线三周年之际,开放四项全新语音技术的接口,用户在使用语音与机器进行交流时,能够享受到更奇妙的交互体验。
百度公司首席科学家吴恩达在演讲中介绍,这四项语音技术,包括情感合成、远场方案、唤醒二期技术和长语音方案。吴恩达现场宣布即日起百度将会把这几项技术免费开放给用户和开发者共享。
“最新的语音技术有很大的潜力,能够彻底改变人机交互的效率和办法。未来语音技术在很多应用场景有很好的机会,将为人机交互带来巨大的改变。”吴恩达表示,最新的语音技术旨在解决用户在使用语音交互时遇到的一些关键问题。例如,百度情感合成技术主要聚焦在为合成语音“加入情感”,目前可达到接近真人发声效果。
“极智开放·共语未来——百度语音开放平台3周年庆”现场
活动现场,来自斯坦福大学的人工智能专家James Landay,也分享了一项与百度合作的最新研究成果,该研究发现智能手机在运用语音方式进行输入时,输入速度比键盘输入快了3倍。他表示,近两年,受益于大数据和深度学习技术的不断发展,语音识别技术突飞猛进,速度及准确性都有了长足进步。
目前,百度语音开放平台的合作伙伴已涵盖多个领域和场景,包括智能手机领域的联想、中兴;智能家居领域的长虹智能电视、康佳智能电视、SONY智能电视;汽车行业的特斯拉、途胜;智能设备领域的惠普、艾米通讯;智能服务领域的携程、手机QQ阅读等。
“语音是人类交流最自然的方式,通过开放语音技术,百度希望可以引领语音功能产品的繁荣发展。”吴恩达表示。
作为国内最为开放的领先语音技术开放平台,百度语音开放平台自2013年10月上线以来,每日在线语音识别要求从2013年的500万上升到今天的1亿4千万,在线语音合成每日请求达2亿,开发者数量超过14万。
据百度提供的数据,在技术指标方面,百度语音识别准确率目前已达97%,居于全球领先。今年2月,百度深度语音识别系统Deep Speech 2入选MIT 2016十大突破技术。包括语音技术在内的百度大脑,入选2016第三届乌镇世界互联网大会15大领先科技成果,成为国内唯一入选的综合型人工智能技术。