联系方式

浙江拱东医疗科技有限公司

电子商务服务中心

更多 | 发布图片企业相册

访问数:2343353

香港本港开奖直播

镍元素对不锈钢的影响(A)


更新时间:2019-10-18  


  正在朝着这一步迈进:由人类说一段话,AI根据唇形和语音准确识别内容。最近搜狗与清华天工研究院合作,在语音和唇语的多模态识别方面取得了重大成果。ICASSP是全世界最大的,也是最全面的信号处理及其应用方面的顶级会议,是IEEE的一个重要的年度会议,对于信号处理方面的学术人士有着重要意义。

  随着语音识别的快速发展,纯粹靠声音的识别技术越来越成熟,识别准确率达到98%以上,很多公司,包括搜狗在内都推出了成熟的产品,比如搜狗输入法语音输入和搜狗智能录音笔等。但是纯粹依靠语音的识别方式存在一个缺陷,就是无法在嘈杂环境下仍然保持较高的识别准确率。

  通常当语音环境比较安静时,语音识别的准确率会比较高,但当语音环境较为嘈杂时,语音识别的准确率会明显下降。而视觉的识别方法不受环境声音的影响,人在嘈杂环境下,听不清对方讲话时,会自然的盯紧讲话者的嘴巴,大致明白讲话者的意思。实际上听力障碍人士,正是通过讲话者的唇语进行交流的。搜狗研究人员想到,如果让AI也能把这两种方法结合起来,就能提高语音识别的准确率。

  早在2017年年底,搜狗就已经发布了一个唇语识别的初步成果,是业内首家公开展示唇语识别的公司。但当时的准确率仅有50%~60%,限制了它的实际应用,而且搜狗语音和唇语的技术也一直是分开做的。经过一年多的发展,唇语识别技术已经有了很大的提升,搜狗团队开始考虑将听觉与视觉两种识别的模式融合起来,即所谓的“多模态”识别,这是搜狗唇语识别继乌镇互联网大会发布后的新突破。

  但多模态识别不是简单的把音频和视频的识别叠加起来,在这个过程中,研究人员需要克服两个难题。声音和视觉特征是两种本质上差异很大的模态,而且原始帧速率通常不一样,音频为每秒100帧,而视频为每秒24帧。采用直接拼接的方法会造成信息损失,使得听觉特征在模型训练过程中起到主导作用,造成模型训练难收敛,视觉信息对听觉信息的提升有限。

  在安静的情况下应该是语音占主导,在嘈杂环境下一定是视频占主导。如何根据不同的环境选择二者的比例。

  搜狗的做法是 “基于注意力的编码器解码器”。在这个框架下,分别使用两个神经网络编码器对输入的不同模态的序列进行逐层特征抽取,得到高层特征表达。然后,由解码器分别对不同模态的特征表达进行注意力计算,得到声音和视觉模态信息中对应于当前解码时刻的上下文向量(context vector)。不同模态的上下文向量经由模态间的注意力自动对不同模态的信息进行融合,并输入到输出层得到解码输出。

  可见在编解码框架下,由于融合的是不同模态的context vector,而不是对原始特征或者编码器输出的高层特征进行直接融合,解决了不同模态的特征长度不同的问题。

  同时,这种模态注意力(Modality Attention)依据不同模态各自的重要程度计算出相应的融合系数,反应了不同模态在当前解码时刻的不同贡献度,可以随着不同解码时刻的不同信噪比等得到不同的模态融合权重,得到更加鲁棒的融合信息。

  搜狗从去年6月开始立项,10月就完成并投递了论文,在这个过程中,融合模型的设计是其中最困难的一步,研究人员周盼介绍说,他们在这个问题上花费了大约一半的时间。实验结果证实了搜狗努力获得的回报。在信噪比为0dB(信号与噪声大小相当)时,搜狗的多模态识别将准确率提高了30%。

  而且模型在不同噪声下,体现出了对语音和视频两种不同模态间的依赖。随着噪声的提升,模型在融合音视觉时,对视觉信息的依赖比例在逐渐提升。0dB信噪比时,视频的注意力权重接近40%,高于语音清晰环境中35.9%的比例。现场,搜狗像我们展示了一段Demo,模拟了各种嘈杂环境下的多模态识别。姚晨与二婚老公现身机场婚后的生活怎么样?2019-10-02

  在模拟乘坐地铁的环境中,可以看到无论是单独的语音识别和唇语识别都无法正确还原原来的语句,但是二者结合起来,就可以正确识别出“北京今天天气怎么样”这句话。语音交互技术中心首席科学家陈伟还特别指出,视频识别还能根据唇形识别语句在何处结束,也提高了在嘈杂环境下识别的准确率。

  这么实用的功能何时才能用上呢?陈伟预计,多模态语音识别将在搜狗的手机输入法中集成,目前搜狗还在和车厂合作通过车内的麦克风、摄像头做出更准确的语音识别。输入法走向对话、搜索走向问答,是搜狗一项长期战略。未来视频识别的场景会越来越多,所以搜狗认为多模态识别是NLP研究发展的一个必然的趋势。

  主题简介及亮点:第四期直播内容是AI语音识别机器人眼睛灯编码与实现,通过直接讲解如何编写代码去实现各个子模块的功能。

  关于移动设备和应用程序对于孩子的正面和负面影响仍存在争论,有些家长将其当做更好的学习工具,而有些家长...

  “小度小度,拉开窗帘。小度小度,空调调到24摄氏度。“在青岛市北区的一家盲人按摩店里,按摩师熟练地发...

  首先,智慧法院有一个很权威的定义,这是经过最高人民法院首席官周强院长一字一句进行推敲后而形成。智...

  9月3日电 李彦宏多年前说过:“互联网发展到今天,它的灵魂依然没有改变——技术创新永远是这个行业的核...

  据 Loup Ventures 不久前发布的2019年语音助理智商测试的结果,通过对每个人工智能系统...

  最新的Amazon EC2 G4实例将于今年部署到由光环新网运营的AWS中国(北京)区域和由西云数据...

  事情发生在 5 月 7 日的午夜,Dan Povey 带着一把断线钳,试图趁着夜黑风高闯入被抗议的学...

  对于一个分类的问题的简化,我们可以先训练一个Basic classfier,然后将其共享给follo...

  在互联网人工智能的时代,各种各样的语音识别技术越来越智能成熟,生活中手机我们也常常都在使用语音识别,...

  本届大会首次设立人工智能应用场景板块,集中展示“未来诊室”、“智能学校”、“政务大脑”、“AI园区”...

  随着科技的发展,AI智能时代已经到来,智能语音也已经深入生活的方方面面。如今,快鼠智能语音鼠标采用科...

  智能家居带来的科技感正渗透到生活点滴中,随着经济水平的提高和观念的开放,智能家居普及化是迟早的事。考...

  据悉,现在的语音助理市场上,谷歌公司正在面临很大的压力。亚马逊(Amazon)的Alexa和苹果(A...

  Nuance通讯公司目前与斑马网络宣布合作,斑马网络最新的基于AliOS的智能网联系统斑马智行MAR...

  研发出了一种简单的新型模型,该模型不仅完美地融合了声学和语音线索,而且将说话人分类和语音识别任务融合...

  美国著名投资者红树林资本合伙人在其2019年的《语音技术报告》中表示,语音将从根本上改变人类与机器与...

  搜狗输入法发布新版本,发布“个性化语音识别”服务,用户只需更新后点击APP选择一键登陆账户,即可体验...

  谷歌在其开源博客中宣布开源 Android语音识别转录工具——Live Transcribe的语音引...

  快鼠这款第二代升级版鼠标颜色是充满黑科技范儿的蓝黑色,拿到鼠标仔细研究了一下,首先可以看出的是做工比...

  深度学习技术自 2009 年兴起之后,已经取得了长足进步。语音识别的精度和速度取决于实际应用环境,但...

  这家公司希望这样做可以让任何开发人员为长篇对话提供字幕,减少因网络延迟、断网等问题导致的沟通障碍。源...

  以腾讯来说,腾讯AI的战略是“AIinall”,让AI无处不在。在内部业务上,腾讯已经实现AI在内容...

  同时搭载了针对智能家居、办公环境、车载等场景的抗强噪唤醒算法(AKS技术),保证在噪声环境中,也实现...

  中国移动副总裁李正茂解释到全面诠释了一个核心基石、六大创新能力的网络即服务理念。核心基石是打造覆盖全...

  总之,我们确定了「AI 服务」和「AI 芯」,将人工智能与硬件和芯片相结合,目前我们的云服务覆盖全国...

  同时,同步用户终端的个人偏好设置,甚至是其他设备的使用偏好,形成基于用户ID为基础的声学、语言模型,...

  写病历是医生的重要工作之一。台风影响K联赛争冠战济州联赢得保级关键战,病案记录的工作量到底有多大?香港德信对中国医生每天消耗在病历记录上的时间...

  另外,云知声还发布了基于AIOS@Home的标杆产品,一款可以语音交互的音箱魔盒。这款中国版“亚马逊...

  从云知声实际业务角度出发,李霄寒博士还向与会者介绍了智能语音技术在外语教学中的应用价值。他指出,智能...

  人工智能的商业化发展前景广阔,当今用户的需求越来越多也越来越高,在各个场景下人工智能技术的应用成为了...

  通过种子模型对无标注数据解码获得标注后,如何从这些海量数据中挑选出有用的数据一直是半监督AM学习中的...

  在项目攻坚过程中,“上海师范大学-云知声自然人机交互联合实验室”团队提出“混合词典构建”、“混合声学...

  白少康副秘书长对云知声把顶尖的语音识别、语义理解技术与新时代市域社会治理工作高度融合表示肯定,特别是...

  赵恒艺表示,低成本的实时服务海量用户,满足每个用户的个性化需求并实现快速迭代,能够更好的实现智能商业...

  父母家庭事业两难存。随着工作压力、家庭经济压力及孩子间的亲子陪伴引发的假性陪伴、错位陪伴等问题日益严...

  雷雄国指出,思必驰为360小巴迪儿童机器人量身打造了可爱的童声合成音,十分贴近人声,是人性化交互的重...

  思必驰是国内为数不多的拥有完整知识产权的语音公司,从纵向上看,它是国内仅有的两家拥有全面的语音技术的...

  除车载语音方案外,思必驰还带来了“环形6+1远场麦克风阵列”“线麦远场麦克风阵列”等软硬一体化的...

  其中一个很重要的原因是交互并没有做好,我们知道亚马逊在做Echo这件事情上面投入非常大,第一是2C产...

  对于语音交互未来的发展,龙总监给出了自己的看法:“现在的交互做的都是被动的交互,那么未来的发展肯定是...

  随着技术的越发成熟,我们的市场也在拓展,或考虑不久后在美国硅谷设点。优秀的智能硬件产品,定位和用户往...

  未来的语音界面将会更加普及,那些能够提供优质产品和隐私保护的供应商拥有广阔商机。

  对于Processing,我们有一个简单的游戏,可以从Wekinator接收一个DTW(动态时间扭曲...

  Google进一步更新客服中心AI所使用的技术,特别是在Dialogflow以及云端语音转文字两服务...

  语音交互越来越多地关系着人们的生命和财产安全,因此,智能语音的安全性也成为工业界和学术界的研究重点。

  开发人员认为Phenox不仅仅是玩具或无人驾驶飞机;它是应用于“飞行应用程序”的开发平台。

  近日,小米有品众筹上架了一位新成员“多亲AI助手”,界面简单易用,结合智能语音识别技术,可控制家居家...

  近日,图灵奖获得者、中国政府友谊奖获得者、中国科学院外籍院士约翰·霍普克罗夫特(John Hopcr...

  让AI会说话、说好话是不够的,懂得拒绝的AI挑战更大,也更值得人类信赖。

  在当下的智能家居行业,语音基于其交互的自然性,被认为是未来人与家居交互的主要入口路径。

  这也是搜狗分身技术藉由AI合成主播在媒体领域全面应用之后,在司法领域的首次落地。

  清华大学章程明确提出价值塑造、能力培养、知识传授三位一体的育人模式,我认为这是高水平AI人才养成...

  如前所述,人工智能大致还是一个计算机应用的课题。虽然这两年国内外已有很多高校开设了人工智能班和专业,...

  近日,三菱UFJ银行发布了AI语音应用APP---“虚拟小助手”。它是一款使用AMI(见注释)提供...

Copyright © 2002-2011 DEDECMS. 织梦科技 版权所有 Power by DedeCms