问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

语音识别的过程是什么?语音识别的方法有哪几种?

发布网友 发布时间:2022-12-20 08:10

我来回答

1个回答

热心网友 时间:2023-09-26 11:11

语音识别的过程和方法具体如下:

语音识别过程

1、语音信号采集

语音信号采集是语音信号处理的前提。语音通常通过话筒输入计算机。话筒将声波转换为电压信号,然后通过A/D装置(如声卡)进行采样,从而将连续的电压信号转换为计算机能够处理的数字信号。

目前多媒体计算机已经非常普及,声卡、音箱、话筒等已是个人计算机的基本设备。其中声卡是计算机对语音信进行加工的重要部件,它具有对信号滤波、放大、A/D和D/A转换等功能。而且,现代操作系统都附带录音软件,通过它可以驱动声卡采集语音信号并保存为语音文件。

对于现场环境不好,或者空间受到*,特别是对于许多专用设备,目前广泛采用基于单片机、DSP芯片的语音信号采集与处理系统。

2、语音信号预处理

语音信号号在采集后首先要进行滤波、A/D变换,预加重(Preemphasis)和端点检测等预处理,然后才能进入识别、合成、增强等实际应用。

滤波的目的有两个:一是抑制输入信号中频率超出//2的所有分量(/:为采样频率),以防止混叠干扰;二是抑制50Hz的电源工频干扰。因此,滤波器应该是一个带通滤波器。

A/D变换是将语音模拟信号转换为数字信号。A/D变换中要对信号进行量化,量化后的信号值与原信号值之间的差值为量化误差,又称为量化噪声。

预加重处理的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,便于频谱分析。

端点检测是从包含语音的一段信号中确定出语音的起点和终点。有效的端点检测不仅能减少处理时间,而且能排除无声段的噪声干扰。目前主要有两类方法:时域特征方法和频域特征方法。

时域特征方法是利用语音音量和过零率进行端点检测,计算量小,但对气音会造成误判,不同的音量计算也会造成检测结果不同。频域特征方法是用声音的频谱的变异和熵的检测进行语音检测,计算量较大。

3、语音信号的特征参数提取

人说话的频率在10kHz以下。根据香农采样定理,为了使语音信号的采样数据中包含所需单词的信息,计算机的采样频率应是需要记录的语音信号中包含的最高语音频率的两倍以上。

一般将信号分割成若干块,信号的每个块称为帧,为了保证可能落在帧边缘的重要信息不会丢失,应该使帧有重叠。例如,当使用20kH的采样面率时,标准的一帧为10ms,包含200个采样值。

话筒等语音输入设备可以采集到声波波形,虽然这些声音的波形包含了所需单词的信息,但用肉眼观察这些波形却得不到多少信息因此,需要从采样数据中抽取那些能够帮助辨别单词的特征信息。在语音识别中,常用线性预测编码技术抽取语音特征。

线性预测编码的基本思想是:语音信号采样点之间存在相关性,可用过去的若干采样点的线性组合预测当前和将来的采样点值。线性预测系数埽以通过使预测信号和实际信号之间的均方误差最小来唯一确定。

语音线性预测系数作为语音信号的一种特征参数,已经广泛应用于语音处理各个领域。

4、向置量化

向量量化(Vector Quantization,VQ)技术是20世纪W年代后期发展起来的一种数据压缩和编码技术。经过向量量化的特征向量也可以作为后面隐马尔可夫模型中的输入观察符号。

在标量量化中整个动态范围被分成若干个小区间,每个小区间有一个代表值,对于一个输入的标量信号,量化时落入小区间的值就用这个代表值>[戈替。因为这时的信号量是一维的标量,所以称为标量量化。

向量量化的概念是用线性空间的观点,把标量改为一维的向量,对向量进行量化。和标量量化一样,向量量化是把向量空间分成若干个小区域,每个小区域寻找一个代表向量,量化时落入小区域的向量就用这个代表向量代替。

向量量化的基本原理是将若干个标量数据组成一个向量(或者是从一帧语音数据中提取的特征向量)在*空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量。

语音识别

1、模板(template)匹配法

在训练阶段,用户将词汇表中的每一个词依次说一遍,并且将其特征向量作为模板存入模板库。在识别阶段,将输入语音的特征向量序列,依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。

2、随机模型法

随机模型法是目前语音识别研究的主流。其突出的代表是隐马尔可夫模型。语音信号在足够短的时间段上的信号特征近似于稳定,而总的过程可看成是依次相对稳定的某一特性过渡到另一特性。隐马尔可夫模型则用概率统计的方法来描述这样一种时变的过程。

3、概率语法分析法

这种方法是用于大长度范围的连续语音识别。语音学家通过研究不同的语音语谱图及其变化发现,虽然不同的人说同一些语音时,相应的语谱及其变化有种种差异,但是总有一些共同的特点足以使他们区别于其他语音,也即语音学家提出的“区别性特征”。

另一方面,人类的语言要受词法、语法、语义等约束,人在识别语音的过程中充分应用了这些约束以及对话环境的有关信息。

于是,将语音识别专家提出的“区别性特征”与来自构词、句法、语义等语用约束相互结合,就可以构成一个“自底向上”或“自顶向下”的交互作用的知识系统,不同层次的知识可以用若干规则来描述。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
dnf属性强化增加多少攻击力 上海青种多久能吃 上海青栽种多久可以吃 上海青种植几个月才能收获 1月播种上海青多久发芽 1月播种上海青发芽所需时间 上海青种植多久可以吃 上海青 多久 上海青种多久成熟 用可丽蓝十字验孕棒测了两次结果不同,这是怀孕了吗? PHP实现简单的发送HTML邮件 尖锐湿疣为什么会很容易复发 很想询问,如果要写一本书,怎么在word中给书的底部标上页数啊??? 怎么查询淘宝消费总额 关于春天的诗除了春晓、春游湖、咏柳还有 什么? 裴仁爀尹斗俊不是一个人吗? 尹斗俊裴仁赫是一个人吗 厚黑学白话文电子书或精华版 疾恶如风的成语典故 关于静和读书的诗句 飒爽英姿的词语 刘禹锡是哪个朝代的诗人 大家可以看看 安卓手机吃鸡怎么开透视 外省医保在上海可以报销多少 sony mark2 2G内存的记忆短棒用川宇MS读卡器怎么在电脑里不显示 mark2内存卡怎么读 惯性跟质量有关吗 惯性与质量有关吗 三国牧马役是什么官 镰刀想起什么诗句 微信ios夜间模式怎么设置 实木地板需要保养吗?具体该如何保养? 以鲁秀燕做首藏头诗 垂垂的意思解释 近义词 解释“垂垂老矣”拜托各位了 3Q 3000吨嗙差30多吨正常吗 百忧集行的解释 百忧集行 (忆年十五......) 康佳空调扇取暖费不费电 康佳冷风扇注水最高水位线在什么地方? 诗经溱洧原文及翻译 解释词语"空山凝云" 空气凝固形容什么心情 为什么气氛僵的时候,是空气都要凝住了?这里的空气应该是指代气氛吧 北京小漾影业有限公司怎么样? 恒泰证券股份有限公司北京南湖南路证券营业部怎么样? 纳丹堡小区到 朝阳南湖南路16号 《满江红》的诗词? 哔哩哔哩怎么实名认证 “繻”念“ru”第几声? 彩字的繁体字怎么写? 《诗经》 (90)