基于君正智能中控屏的音响方案开发设计

方案推荐 我爱方案网 · 2022-07-11

智能音响是现代科技产物,是基于语音识别技术的音响的衍生物。智能音响在家庭用途十分广泛,涉及生活许多方面,可以说智能音响已经进入日常生活。智能音响有多种功能,基本满足了人们日常生活服务。目前的家庭智能音响可以实现设置闹钟,点播音乐等功能,链接网络后可实现了解未来天气、上网购物、打电话等功能,另外可以连接第三方软件,也可实现对家用智能电器的控制,而智能服务仅需说一句话即可实现叫外卖、叫服务、打车、订餐等多种功能。

 

1657521387573659.png

 

智能音响方案的主要技术

 

智能音响的流程为语音唤醒,之后内部处理,最后找到对应内容输出,其中主要包括前端信号处理、语音唤醒、语音交互等技术。  

 

1、前端信号处理  

 

前端信号处理是在唤醒前进行准备工作,音响工作时,麦列处于拾音状态,当接收到声音时,对声音进行处理,包括语音检测、降噪、声源定位和波束形成四个方面。  

 

语音检测用来检测出音频信号语音段的起始位置,并过滤不相干的非语音信号,达到分离语音段和非语音段信号的目的。降噪即减少噪音对智能音响识别的影响,包含声学回声消除和去混响。实际环境中存在各种各样的噪声,采取降噪来降低噪声干扰,提高信噪比。由于室内语音会被墙壁等多次反射,采集到的声音较混杂,采用去混响来处理。声源定位是根据麦列,确定使用者的位置。可以用来展示方位灯,增强交互效果,也可作为波束形成的前导任务,确定空间滤波参数。波束形成通过利用空间滤波,将多路信号整合为一路,达到增强原始语音信号和抑制旁路信号的目的。  


2、语音唤醒  

 

语音唤醒又称关键词检测,即在连续不断的语音中将目标关键词检测出来,一般目标关键词的个数较少。语音唤醒性能取决于唤醒率和误唤醒率。唤醒率指将连续语流中存在的唤醒词检测出来的概率。语音唤醒常用的实现方式是dnn+hmm(深度神经网络+隐马尔科夫模型)和lstm+ctc(长短时记忆网络+全连接时序分类模型)。目前开源的唤醒方案可提供SDK,实现唤醒功能一般分为在线和离线版本。国内主要以科大讯飞为代表。网上也有多种开源的小型语音识别引擎,可实现单独的语音唤醒功能,性能参差不齐。  

 

3、语音交互  

 

语音交互包括语音识别、自然语言理解和对话管理。

 

语音识别技术也称为自动语音识别,可将语音信息转为文字信息。用户发出的指令为语音,然而语音并不能直接拿来分析,需要转化为文字。随着深度神经网络的应用、大数据的使用和云计算的普及,语音技术已经进入人们的日常生活,如科大讯飞、阿里巴巴的AliGenie、喜马拉雅的小雅等。  

 

自然语言理解的目的是将自然语言转化为计算机易处理的形式,即接收到指令后,识别出用户命令的所属领域,之后再相应领域识别用户的意图,最后进行实体抽取,确定意图的参数。目前,自然语言处理使用的NPL算法是基于机器学习的,拥有各类语言处理的数据集,其中包括中文分词、词性标注、实体识别、句法分析以及自动文本分类等功能。  

 

对话管理对连续对话的交互极为重要,一般的解决办法是将上轮对话解析的参数作为全局变量,带入到下一轮对话,根据当轮对话和一定条件来判断是否保持在上一轮的领域,或是清空上下文。  

 

1657521395790545.png

 


语音识别技术的不足与改进

 

虽然语音识别技术已广泛应用,但其还存在许多缺陷,主要为以下几点。  

 

1)自然语言的不确定性。自然语言由语义,语境等组成。因此自然语言有很大的不确定性。现有的人工智能基本是自上而下的人工智能,也就是说程序员先制定好计算机理解语言的规则才理解自然语言。一旦程序员编程出现缺陷,那会导致计算机对自然语言的误解。虽然将所有语法规则写入程序中也许能让计算机理解语言但语法规则众多,将这些规则全部写入程序中几乎不可能实现。  

 

另外,自然语言信息量大,在不同情景下,一个词语可能成褒义,可能是贬义,并且上下句对一个句子实际意义影响巨大,例如“帮忙下。”这句话省略了主语和宾语。但如果有前后句做铺垫,那这句话对人并不难理解。但是应用语音识别,那么机器将不能理解特殊句子,自然语言的不确定性很大阻碍了语音识别的进步。  

 

2)环境干扰。公共场合中的环境杂音和噪音对识别影响巨大,在这种环境中计算器很难接受到合适的语音信号,这很大地限制了语音识别的使用范围。  

 

3)读音不标准问题。现在的词汇数量逐渐增加,读音相似是正常的事,但机器很难区别这种读音。特别是一些字词会连带这上个字词读音,如果语速果快,计算机也很难识别。

 

方案介绍

 

支持ID登录语音播报的智能中控平板方案

 

1657521402911937.png

 

智能中控平板采用君正X2000E芯片,采取三核结构,搭载双XBurst®2,主频1.2GHz,跨界第三核XBurst®0(240MHz),性能强劲。采用7寸触摸屏,支持多种分辨率。支持POE网络和WIFI网络,支持多个输入输出接口,支持433通信,支持RFID刷卡。支持语音输入输出。支持485通信。

查看方案详情>>

 

双目人体检测人脸识别模组


1657521408981000.png

 

WY665双目人体检测人脸识别模组是一个PCBA方案产品,用于人体运动检测和人脸识别检测。在人脸识别检测上,WY665采用RGB+IR双目摄像头方案,双目人脸识别在活体检测方面精准度更高,可有效抵御照片和视频被攻击,且对光线变化,背景环境等因素变化适应性更强。在人体运动检测上,该模块内置专用算法,可以精准快速检测人体运动状态,检测结果以PWM形式输出或电平信号输出。WY665模块基于君正X1600 SoC,具备低功耗特点和灵活的算法支撑环境。

查看方案详情>>

 

现在的语言识别技术尚未完全,但以语音识别技术为核心的智能音响是足够满足人们的需求的。各项技术的不断完善和人们对智能产品日益增长的需求为语音识别技术的发展指明了方向,由于市场扩大,各个企业势必会加快对于语音识别的竞争,从而加快语音识别技术的发展。在迭代更新中,智能音响会更加注重用户的体验,成为家庭生活中必不可少的重要设备。  

 

目前,智能音响还处于发展阶段,随着技术的发展,将会打造商业生态链、智能家居生态链以及丰富的有声资源,提出更多个性化服务。智能音响将渗入到人们生活的各方各面,给生活带来更多的便捷和乐趣。


相关推荐

文章评论