OpenAI 最近推出了一款名為 Whisper 的神經網路模型,該模型能夠達到人類級別的語音辨識準確度。Whisper 是一個自動語音識別(ASR)系統,使用了從網絡上收集的680,000小時的多語種和多任務監督式數據進行訓練。通過使用如此大型和多樣化的數據集,Whisper 可以更好地應對口音、背景噪音和專業術語等方面的問題。此外,它能夠進行多語言轉錄,並且支持從這些語言翻譯成英語。OpenAI 開放了這些模型和推論代碼的源代碼,作為建立有用應用程序和進一步研究強健語音處理的基礎。
Whisper採用了一種簡單的端到端方法,使用了編碼器-解碼器Transformer架構。輸入的音頻會被分割成30秒的片段,轉換成對數梅爾頻譜圖,然後輸入到編碼器中。解碼器則被訓練來預測對應的文本標題,並夾雜著特殊標記,這些標記指示單一模型執行任務,例如語言識別、短語級時間戳、多語言語音轉錄和語音翻譯。
與現有方法相比,Whisper 的優勢在於使用更大、更多樣化的數據集進行訓練,並且不會被精細調整到任何特定的數據集上。因此,Whisper 沒有擊敗專門研究LibriSpeech性能的模型。LibriSpeech 性能是語音識別領域著名的競爭基準。然而,當在測量 Whisper 在許多不同的數據集上的 零樣本 性能時,發現它比那些模型更具加穩定,並且錯誤率降低了50%。
Whisper 大約三分之一的音頻數據集是非英語的,它交替被賦予以原始語言轉錄或翻譯成英語的任務。我們發現這種方法在學習語音到文本翻譯方面特別有效,並且在 CoVoST2 到英語翻譯零樣本上優於監督式 SOTA。
▲ Whisper架構 |
0 留言