原聲語(yǔ)音信號(hào)可以看成是模擬信號(hào),其數(shù)字化就是將這些模擬信號(hào)進(jìn)行模數(shù)轉(zhuǎn)換變成數(shù)字信號(hào)。早的原聲語(yǔ)音信號(hào)數(shù)字化采用的是PCM(Pulse Code Modulation)技術(shù)即脈沖編碼調(diào)制技術(shù)。1967年,日本NHK技術(shù)研究所首先把將通信技術(shù)中的PCM技術(shù)引進(jìn)音響領(lǐng)域,從此標(biāo)志著數(shù)字音響時(shí)代的開(kāi)始。
2.1典型的原聲信號(hào)數(shù)字化方法
原聲信號(hào)的數(shù)字化一般從信號(hào)的波形、信號(hào)的參數(shù)等方面入手,可以分為波形編碼、參數(shù)編碼和混合編碼等。
波形編碼力圖使還原出的語(yǔ)音波形與原語(yǔ)音信號(hào)波形一致,這種數(shù)字化的方法適應(yīng)能力強(qiáng)、編碼后的語(yǔ)音質(zhì)量好,但所需的編碼速率高。這類方法的典型代表有前述的脈沖編碼調(diào)制(PCM)、自適應(yīng)差分脈沖編碼調(diào)制(Adaptive Difference Pulse CodeModulation,ADPCM)、連續(xù)可變斜率增量(ContinuouslyVariable Slope Delta,CVSD)編碼調(diào)制[2]等。其中CVSD編碼由于其抗突發(fā)錯(cuò)誤能力較強(qiáng),在移動(dòng)通信、軍事通信和衛(wèi)星通信等領(lǐng)域得到了廣泛地應(yīng)用。
參數(shù)編碼的編碼對(duì)象是原聲信號(hào)的特征參數(shù),通過(guò)對(duì)這些參數(shù)的提取及編碼來(lái)保持原聲語(yǔ)意,其特點(diǎn)是編碼速率較低,合成語(yǔ)音質(zhì)量較差,如線性預(yù)測(cè)編碼(Linear Prediction Code,LPC)、多脈沖激勵(lì)線性預(yù)測(cè)編碼(Multi Pulse Excited Linear Prediction Code,MPELPC)[3]等。
混合編碼編碼對(duì)象包括了原聲信號(hào)的波形和參數(shù),針對(duì)參數(shù)編碼語(yǔ)音質(zhì)量低的缺點(diǎn),混合編碼采用合成-分析的方法,能夠在中低速率上獲得高質(zhì)量的語(yǔ)音編碼,節(jié)省傳輸信道容量及存儲(chǔ)量。其典型代表如線性預(yù)測(cè)編碼(Code Excited Linear Prediction,CELP)、短時(shí)延碼激勵(lì)線性預(yù)測(cè)編碼(Low-DelayCode Excited Linea rPrediction,LD-CELP)、矢量和激勵(lì)線性預(yù)測(cè)編碼(Vector Sum Code Excited Linear Prediction,VSCELP)等。
針對(duì)不同的編碼方式,歐洲廣播聯(lián)盟和3GPP國(guó)際組織等機(jī)構(gòu)組織陸續(xù)推出了EAAC+、AMR-WB+和G.729.1等編碼標(biāo)準(zhǔn),用以規(guī)范編碼方法,極大促進(jìn)了語(yǔ)音信號(hào)的數(shù)字化進(jìn)程。