发布网友 发布时间:2022-04-21 22:54
共1个回答
热心网友 时间:2023-08-16 13:30
电子耳蜗CIS语音信号处理方案的计算机仿真及声音合成北京生物医学工程 1999年第4期第18卷 论著作者:聂开宝 蓝宁 高上凯单位:清华大学电机系 (北京 100084)关键词:电子耳蜗;语音信号处理;连续交替取样(CIS) 摘 要 电子耳蜗是用有限个电极刺激听神经以恢复全聋人听觉的装置。本文利用耳蜗的电刺激简化模型,在计算机上对连续交替取样(continued interleaved sampling,简称CIS)方案进行了仿真及声音合成,以模拟耳蜗植入者感受到的声音。仿真方法和结果对研究语音信号处理的新方案及临床参数选择具有一定的意义。Computer-Based Acoustic Simulation of CIS Speech Processing Strategy for Electronic Cochlear ImplantsNie Kaibao, Lan Ning, Gao Shangkai (Tsinghua University,Beijing 100084) Abstract Electronic cochlear implant is an electronic device to restore profoundly deaf people's hearing with limi- ted electrodes implanted in their cochleae.The objective of this study is to develop a computer-based acoustic simulation method to simulate actual sound perception by the deaf fitted with cochlear implants.In this paper,the acoustic simulation of CIS processors by using simplified cochlea model of electrical stimulation and simulation results on Chinese speech are discussed. Key words:Electronic cochlear implant;Speech processing;Continued interleaved sampling(CIS) 0 引 言 电子耳蜗(cochlear implant)是利用电刺激的方法恢复全聋人听觉的一种有效装置,目前已在全世界近万名聋人耳内使用[1]。正常人感知声音的听觉通路可以分为外耳、中耳、内耳、神经系统和大脑皮层语音中枢等,其中内耳耳蜗的作用是将声音振动转变为电信号并兴奋听神经,是感知声音的关键器官。致聋的原因主要是由于耳蜗内的毛细胞损伤或毛细胞先天性发育不全等,因而不能将声音振动转变为电信号,无法引起听神经的发放。但是,多数聋人耳蜗内的听神经是完好的或部分完好的,仍然保持着对电刺激产生响应的能力。对于深度耳聋患者,助听器已基本失去作用,而电子耳蜗可以帮助恢复他们的语言交流能力。电子耳蜗是通过手术把一组电极植入耳蜗的鼓阶内,在体外用处理器对语音信号进行分析,并将所得参数传入体内。植入人体的电子电路依据这些参数产生相应的微弱刺激电流,兴奋电极附近的听神经,诱发听觉。 电子耳蜗诱发的听觉必然与正常人存在一定的差异,因为电极数目(即通道数)有限,电极电流的电场存在一定的分布范围,而且听神经的残余状况还存在着个体差异。也正因如此,对语音信号进行适当的处理是使电子耳蜗植入者有效恢复听觉的关键问题之一。但是,对于采用不同语音信号处理方法聋人实际感受到的声音效果,难以通过生理实验验证。本文对CIS语音信号处理方案通过计算机仿真和声音合成,模拟出耳蜗植入者感受到的声音,并在此基础上进行了初步分析。 1 电子耳蜗的CIS语音信号处理方案 根据耳蜗的特性,电子耳蜗的语音信号处理方案主要是对语音信号在频域进行相应的处理。1991年美国学者Wilson提出了电子耳蜗的CIS语音信号处理方案[2~4],其主要原理见图1。语音信号(0~6kHz)在预加重后由一组带通滤波器分频为6~8个通道,每一通道经过整流、低通后得到各通道的包络信号,并用对数或平方律压缩到适当的动态范围,各通道的包络信号用于控制一组时间上交替的双相脉冲序列来产生电刺激脉冲电流。预加重的目的是对1.2kHz以上高频信号进行6dB/Oct的补偿。图1 CIS语音信号处理器原理框图 CIS方案是目前较成功的电子耳蜗语音信号处理方案之一。由于它采用了比较高的刺激速率(>800 PPS-Pulses Per Second)以及电极之间相互交替的刺激脉冲电流,从而避免了电极之间的相互干扰。但是,CIS方案是用6~8个频带内的语音信号的包络来产生刺激信号,在信号传递过程中,原始语音信号的频率细节信息丢掉了。那么,6~8个语音信号的包络能否较好地表征原来的语音信号呢?同时,对CIS方案而言,耳蜗植入者听到的是什么样的声音呢?声音效果如何?这些问题的解决将有助于对电子耳蜗的语音信号处理方案的进一步深入研究。根据耳蜗的电刺激简化模型,本文对CIS方案进行了计算机仿真,并合成出模拟电子耳蜗植入者感受到的声音。通过分析,对以上问题有一个初步的结论。 2 CIS方案的计算机模拟及声音合成 电子耳蜗是模仿外周听觉生理系统的功能的一种电子刺激系统。内耳耳蜗的功能可以被认为是一频率分析器,从蜗底到蜗顶感受的声音的频率依次从高频到低频(音频范围16Hz~20kHz)。依据耳蜗的频率分析机制,耳蜗可以被近似地认为是一组品质因数恒定的带通滤波器,按部位对语音作编码。 为了由包络信号合成出语音信号,需要产生一组调制信号[5,6]。根据耳蜗对声音的编码机理可知,植入耳蜗鼓阶不同部位的电极对应不同的频率,因此耳蜗的电刺激简化模型可以用一组正弦信号发生器来描述。在合成语音时,用一组频率位于带通滤波器1~n中心的正弦信号由各个相应通道的包络信号调制,调制后的信号相加后可以得到合成的语音信号。正弦信号的频率反映了电极在耳蜗内的位置。 合成语音的产生原理如图2所示。声音信号经过CIS方案处理后得到各通道的包络信号,然后去调制一组正弦信号发生器产生的相应频率正弦信号作为调制信号,这些调制信号相加即得到合成的声音信号。正弦信号发生器1~n的频率为带通滤波器的中心频率。合成信号可以近似地反映耳蜗植入者感受到的声音。将原始语音信号同经过CIS方案处理后并合成得到的声音进行比较,可以分析各种参数情况下CIS方案对语音的处理效果。图2 CIS语音处理方案及仿真方法示意图 仿真过程在计算机上用软件实现。通过声卡对语音信号以11.025kHz的采样速率进行采样(分辨率为8位),采样数据存入�.wav文件中。软件用Matlab语音编制。在图2中,带通滤波器1~n均用6阶Batterworth滤波器实现,且带通滤波器的品质因素Q近似恒定;各低通滤波器用截止频率为100Hz,200Hz或400Hz的4阶Batterworth滤波器实现;预加重用一阶FIR滤波器实现:y(n)=x(n)-ax(n-1) 其中:a=0.9 仿真时可不考虑动态范围的压缩。由于在语音合成过程中,是用包络信号去调制正弦信号,因此合成语音信号中位于正弦信号频率附近的分量较强,在合成后需要对信号进行陷波处理,即用一组频率与正弦信号频率相同的陷波器对各正弦信号频率分量作适当的衰减。 3 仿真结果 图3为对采集的语音信号“医(yi)”处理前后的波形图,上图为原始的语音信号,下图为8通道CIS处理后合成的语音信号时域波形图。(a)原始语音信号(b)处理后合成的语音信号图3 语音“医(yi)”处理前后的波形图 合成语音与原始语音在形状上非常相似。由于CIS方案仅传递了语音信号的包络信息,一部分频率信息没有传递,因此合成语音同原始语音信号相比,波形有一定差别。 我们对几十种汉语单字、词及句子发音的语音信号,依据以上方法进行了仿真及声音模拟合成,如“计算机”,“科学”,“北京”等。合成语音由正常听力者进行听音实验。结果表明,合成声音类似“机器发声”或“水下音”,但可以获得一定的语言识别能力。当通道数低于4时,由CIS方案处理后合成的语音识别效果较差。6或8通道的CIS方案可以获得比较好的效果,合成音有较好的可懂度,表明6或8通道的CIS方案能将原始语音信号中的主要信息通过CIS处理器传递给电子耳蜗植入者,部分恢复其语言交流能力。当通道数再增加到10、12或16时,合成声音没有明显的效果改善。 电子耳蜗语音信号处理方案的计算机仿真为改进语音信号的处理策略提供了一种新的研究方法,使电子耳蜗植入者实际感受到的声音能在计算机上进行模拟、仿真及分析。 4 结束语 本文依据耳蜗的电刺激简化模型,用计算机仿真的方法研究了电子耳蜗的CIS语音信号处理方案,有关结果可以为电子耳蜗系统的设计提供参考。初步的仿真结果显示,CIS语音信号处理方案能*近正常人的外周听觉生理系统模型,6或8通道的CIS处理器可以将声音信号中对语言理解比较重要的信息传递给耳蜗,对恢复聋人的语言交流能力有较好的帮助。本文的仿真方法也可以用于SMSP、MPEAK、SPEAK、F0/F1/F2/F3等语音信号处理方案的仿真,对研究其它电子耳蜗语音信号处理策略有一定的借鉴作用。 作者简介:聂开宝(1966-),男,山东大学电子工程系讲师,现为清华大学电机系生物医学工程专业在职博士。 参考文献 1 Zeng FG.Cochlear implants in China.Audiology.1995;34:61 2 Wilson B S,Lawson D T and Finley C C,et al.New prosthessing strategies in cochlear implantation.The American Journal of Otoloy,1995,16:668 3 Wilson B S,Finley C C and Lawson D T,et al.Better speech recognition with cochlear implants.Nature,1991,352:236 4 Wilson B S,Finley C C and Lawson D T,et al.Design and evaluation of continuous interleaved sampling (CIS) processing strategy for multichannel cochlear implants. J of Rehab.and Research and Development,1993,30:110 5 Shannon RV,Zeng FG and Kamath V,et al.Speech recognition with primarily temporal cues.Science,1995,270(13):303 6 Dorman MF,Loizou PC and Rainey D. Speech inteligibility as a function of the number of channels of simulation for signal processors using sine-wive. J Acoust Soc Am,1997,102(4):2403(1998-10-15收稿) ※ 相 关 文 章人工电子耳蜗语音信号处理方法的研究进展 (文献资料)