Back_To_Home..
Transfoms
January 2019
Transformers in Speech Processing: A Survey
https://arxiv.org/abs/2303.11607
“Transformers in Speech Processing: A Survey” 由 Siddique Latif 等人撰写。随着 transformers 在自然语言处理领域取得成功,其在语音处理中的应用也备受关注。本文对 transformers 在语音处理各领域的应用进行了全面综述,涵盖自动语音识别、语音合成、语音翻译等。通过整合研究成果,指出其面临的挑战如训练复杂、计算成本高、数据需求大等,并提出未来研究方向,为相关领域研究人员提供了重要参考。
研究背景
- 传统模型的局限:早期语音处理的深度学习方法如 CNN 难以捕捉语音数据的顺序性,而 RNN 及其变体虽能处理顺序数据,但存在梯度消失或爆炸问题,且在利用并行计算硬件和建模长期上下文方面存在困难。
- Transformer 的优势:Transformer 基于自注意力机制,能有效捕捉输入序列的长距离依赖关系,实现更高效的并行化,在自然语言处理等领域表现出色,引起了语音处理社区的关注。
Transformer 架构
- 核心组件
- 自注意力层(Self - Attention Layer):通过将输入转换为查询(Q)、键(K)和值(V)矩阵,计算注意力矩阵,从而捕获序列或特征的内部相关性。
- 多头注意力(Multi - Head Attention):由多个自注意力块组成,可对输入序列中的不同元素之间的依赖关系进行建模,进一步提高模型性能。
- 位置编码(Positional Encoding):为模型提供输入序列的位置信息,以弥补自注意力机制对位置不敏感的问题,可通过学习或预定义的方式获得。
- 常见的语音 Transformers
- wav2vec:采用自监督训练方法,利用对比预测编码(CPC)损失函数学习语音表示,在语音识别、说话人识别等任务上取得了优异性能。
- data2vec:旨在学习包括语音、图像和文本等多模态数据的表示,通过对比学习目标,无需标签即可学习,能捕获跨模态相关性。
- Whisper:通用的语音识别模型,适用于嘈杂或低资源环境,采用弱监督和简约的数据预处理方法,可执行多语言语音识别、翻译和语言识别等任务。
- Tacotron 及其变体:用于语音合成任务,基于序列到序列架构和注意力机制,从文本输入生成高质量语音,后续变体不断改进性能和效率。
- VALL - E:零样本文本到语音合成系统,将 TTS 视为条件语言建模任务,利用大量预训练数据和离散代码,具有强大的上下文学习能力。
- Conformer:结合卷积和 Transformer 层,能够同时捕获局部和全局上下文信息,在语音识别和说话人识别等任务上取得了先进的性能。
文献综述
- 自动语音识别(ASR):Transformers 在 ASR 中展现出竞争力,通过自注意力机制捕获时间相关性,相比 RNN 具有训练和性能优势,在不同数据集和模型架构下都取得了较好的识别率。在混合 ASR、流式应用、大规模 ASR 等方面也有积极的研究成果。
- 神经语音合成:在神经语音合成中逐渐流行,通过替换 RNN 结构提高训练和推理效率,如利用多头注意力机制解决长距离依赖问题,还出现了多种改进模型来提高语音合成的质量、速度和鲁棒性,以及实现多说话人语音合成和语音转换等功能。
- 语音翻译(ST):分为级联系统和端到端系统,目前研究探索利用 Transformers 解决级联系统的错误累积问题和改进端到端系统性能,在不同语言对的翻译任务上取得了一定进展。
- 语音副语言:用于分析和合成带有非语言特征的语音信号,如情感、说话人身份和口音等。相关模型如 WavLM、Conformer - HuBERT 等在语音情感识别、说话人验证等任务上取得了先进结果,还有一些模型通过改进注意力机制或架构提高了性能。
- 语音增强和分离:在语音增强中,与传统方法结合或利用自身优势提高语音质量,在语音分离方面,其并行计算能力有助于提升性能,但面临计算复杂度高的问题,已有多种方法尝试解决该问题。
- 口语对话系统:Transformer 网络在口语对话系统中主要应用于语言理解任务,不同的架构如 BERT、GPT - 2 等在不同任务上表现各异,通过预训练、微调、结合特定架构或多模态信息等方式可提高性能,但目前仍不清楚哪种架构最适合特定任务。
- 多模态应用:在多模态学习中,Transformers 可利用多模态数据解决实际应用问题,通过不同的融合方式和架构创新,如 Multimodal Transformer(MulT)、Factorised Multimodal Transformer(FMT)等,在多模态分类、分割和检索等任务上取得了较好效果,同时自监督学习也被广泛应用于解决多模态问题。
挑战与未来工作
- 训练挑战:训练复杂,需精心设计优化器和学习率调度器。应用自注意力机制于语音识别时,由于语音帧的特性,需辅助的预处理机制。原始的位置编码方法在语音系统中存在性能问题,虽有改进方法,但仍需在其他语音领域进一步研究。
- 计算成本和效率:与 LSTM 模型相比,Transformer 在推理时计算成本高,内存消耗大,限制了其在一些应用中的使用。为解决这些问题,提出了多种方法如稀疏注意力模式、低秩分解等,但在硬件平台上的并行化和加速仍面临挑战。
- 大数据需求:基于 Transformers 的语音模型需要大量数据进行有效训练,而语音数据相对有限。可通过收集大规模数据集、数据增强、迁移学习和多任务学习等方法提高模型性能。
- 泛化和迁移性:缺乏归纳偏差,在新任务或领域上泛化能力可能受限,可通过集成贝叶斯框架、压缩技术等方法改进。在跨模态和多语言应用中,由于域差距,迁移性面临挑战,已有多种方法尝试增强迁移性,但仍存在问题。
- 多模态训练:在多模态学习中,信息融合在输入、中间表示和预测三个层面进行,但存在数据同步和融合方式的问题。利用大量网络数据进行跨模态对齐虽取得进展,但训练成本高,后续研究主要关注利用预训练模型,同时模态间的交互仍有待进一步探索。
- 鲁棒性:对语音数据的域转移和噪声敏感,在不同语言和应用中性能可能下降。可通过对比学习、多模态信息融合等方法提高鲁棒性,如利用视听信息改进语音识别的准确性和鲁棒性。
总结与结论
Transformer 架构在语音处理领域已成为一种高效的神经网络架构,在多个语音相关任务中表现出色。本文综述了其在音频领域的应用,指出 Transformers 在语音处理任务中是 RNN 模型的有力替代方案,但也面临着诸多挑战。未来需要在跨语言/多语言系统、模型效率、泛化和迁移性、多模态训练以及鲁棒性等方面进行进一步研究。