語音識別技術的發展史,本質上是一部以概率統計和機器學習為核心,不斷追求更優模型來逼近人類語言復雜性的歷史。本文將回溯其識別模型發展歷程。
早期探索與奠基
初期的語音識別系統(1950s-1980s),如貝爾實驗室的“Audrey”,依賴于基于模板匹配(Template Matching)的確定性方法。系統預存特定發音人的詞匯聲學模板(如頻譜圖),識別時通過動態時間規整(Dynamic Time Warping, DTW)算法計算輸入語音與模板庫的最佳匹配。此方法嚴重受限于“特定人(Speaker-Dependent)”、“孤立詞(Isolated Word)”和“小詞匯量(Small Vocabulary)”,不具備泛化能力。
https://blog.csdn.net/edward_zcl/article/details/126862031《MFCC/HMM/GMM/EM/LM基本知識》
整個識別流程是一個典型的流水線(Pipeline)結構:聲學特征提取 (MFCC) → 聲學模型 (GMM-HMM) → 發音詞典 → 語言模型 (N-gram) → 解碼器 (Viterbi/Beam Search)。盡管 GMM-HMM 取得了巨大成功,但其獨立性假設過強、區分性建模能力不足以及模塊間割裂優化等問題,也為其后續被替代埋下了伏筆。
深度學習革命:從混合模型到端到端
深度學習的興起(2010s-至今)徹底重塑了語音識別的技術版圖。混合模型 (DNN-HMM):革命的開端是使用“深度神經網絡 (DNN)”替代 GMM 來估計HMM狀態的后驗概率。DNN強大的非線性建模能力,能夠學習到聲學特征與音素狀態間更復雜的映射關系,從而顯著提升了聲學模型的精度。這標志著深度學習正式進入主流ASR系統,并帶來了詞錯誤率(Word Error Rate, WER)的大幅下降。
端到端 (End-to-End, E2E) 模型:這是當前的業界主流和研究前沿。E2E模型試圖將聲學模型、發音詞典和部分語言模型功能整合進一個單一的深度神經網絡中,直接實現從聲學特征序列到文本序列的映射,大大簡化了傳統流程。主要技術流派包括:
聯結主義時序分類 (CTC):通過動態規劃算法解決了輸入聲學幀序列與輸出文本序列間的對齊問題,直接輸出字符序列而無需預先對齊,適合流式識別場景。
注意力機制編解碼模型 (Attention-based Encoder-Decoder):由編碼器和解碼器構成。編碼器將整個輸入語音序列編碼為高級特征表示,解碼器則通過“注意力機制”在生成文本時動態關注輸入序列不同部分,在長序列依賴建模上更具優勢。
RNN-Transducer (RNN-T):結合CTC和Attention優點,處理輸入音頻流的同時生成輸出字符,實現嚴格流式解碼,并保持高精度。在低延遲和高精度上很出色,是工業級實時語音識別首選架構。
圖片來源:《數據科學入門的三個最簡單的深度學習平臺》https://medium.com/@un_hooked/the-3-easiest-deep-learning-platforms-to-get-started-with-data-science-6edc0718e8e7