Transfoms

January 2019

Transformers in Speech Processing: A Survey

https://arxiv.org/abs/2303.11607

“Transformers in Speech Processing: A Survey” 由 Siddique Latif 等人撰写。随着 transformers 在自然语言处理领域取得成功，其在语音处理中的应用也备受关注。本文对 transformers 在语音处理各领域的应用进行了全面综述，涵盖自动语音识别、语音合成、语音翻译等。通过整合研究成果，指出其面临的挑战如训练复杂、计算成本高、数据需求大等，并提出未来研究方向，为相关领域研究人员提供了重要参考。

研究背景

传统模型的局限：早期语音处理的深度学习方法如 CNN 难以捕捉语音数据的顺序性，而 RNN 及其变体虽能处理顺序数据，但存在梯度消失或爆炸问题，且在利用并行计算硬件和建模长期上下文方面存在困难。
Transformer 的优势：Transformer 基于自注意力机制，能有效捕捉输入序列的长距离依赖关系，实现更高效的并行化，在自然语言处理等领域表现出色，引起了语音处理社区的关注。

Transformer 架构

核心组件
- 自注意力层（Self - Attention Layer）：通过将输入转换为查询（Q）、键（K）和值（V）矩阵，计算注意力矩阵，从而捕获序列或特征的内部相关性。
- 多头注意力（Multi - Head Attention）：由多个自注意力块组成，可对输入序列中的不同元素之间的依赖关系进行建模，进一步提高模型性能。
- 位置编码（Positional Encoding）：为模型提供输入序列的位置信息，以弥补自注意力机制对位置不敏感的问题，可通过学习或预定义的方式获得。
常见的语音 Transformers
- wav2vec：采用自监督训练方法，利用对比预测编码（CPC）损失函数学习语音表示，在语音识别、说话人识别等任务上取得了优异性能。
- data2vec：旨在学习包括语音、图像和文本等多模态数据的表示，通过对比学习目标，无需标签即可学习，能捕获跨模态相关性。
- Whisper：通用的语音识别模型，适用于嘈杂或低资源环境，采用弱监督和简约的数据预处理方法，可执行多语言语音识别、翻译和语言识别等任务。
- Tacotron 及其变体：用于语音合成任务，基于序列到序列架构和注意力机制，从文本输入生成高质量语音，后续变体不断改进性能和效率。
- VALL - E：零样本文本到语音合成系统，将 TTS 视为条件语言建模任务，利用大量预训练数据和离散代码，具有强大的上下文学习能力。
- Conformer：结合卷积和 Transformer 层，能够同时捕获局部和全局上下文信息，在语音识别和说话人识别等任务上取得了先进的性能。

文献综述

自动语音识别（ASR）：Transformers 在 ASR 中展现出竞争力，通过自注意力机制捕获时间相关性，相比 RNN 具有训练和性能优势，在不同数据集和模型架构下都取得了较好的识别率。在混合 ASR、流式应用、大规模 ASR 等方面也有积极的研究成果。
神经语音合成：在神经语音合成中逐渐流行，通过替换 RNN 结构提高训练和推理效率，如利用多头注意力机制解决长距离依赖问题，还出现了多种改进模型来提高语音合成的质量、速度和鲁棒性，以及实现多说话人语音合成和语音转换等功能。
语音翻译（ST）：分为级联系统和端到端系统，目前研究探索利用 Transformers 解决级联系统的错误累积问题和改进端到端系统性能，在不同语言对的翻译任务上取得了一定进展。
语音副语言：用于分析和合成带有非语言特征的语音信号，如情感、说话人身份和口音等。相关模型如 WavLM、Conformer - HuBERT 等在语音情感识别、说话人验证等任务上取得了先进结果，还有一些模型通过改进注意力机制或架构提高了性能。
语音增强和分离：在语音增强中，与传统方法结合或利用自身优势提高语音质量，在语音分离方面，其并行计算能力有助于提升性能，但面临计算复杂度高的问题，已有多种方法尝试解决该问题。
口语对话系统：Transformer 网络在口语对话系统中主要应用于语言理解任务，不同的架构如 BERT、GPT - 2 等在不同任务上表现各异，通过预训练、微调、结合特定架构或多模态信息等方式可提高性能，但目前仍不清楚哪种架构最适合特定任务。
多模态应用：在多模态学习中，Transformers 可利用多模态数据解决实际应用问题，通过不同的融合方式和架构创新，如 Multimodal Transformer（MulT）、Factorised Multimodal Transformer（FMT）等，在多模态分类、分割和检索等任务上取得了较好效果，同时自监督学习也被广泛应用于解决多模态问题。

挑战与未来工作

训练挑战：训练复杂，需精心设计优化器和学习率调度器。应用自注意力机制于语音识别时，由于语音帧的特性，需辅助的预处理机制。原始的位置编码方法在语音系统中存在性能问题，虽有改进方法，但仍需在其他语音领域进一步研究。
计算成本和效率：与 LSTM 模型相比，Transformer 在推理时计算成本高，内存消耗大，限制了其在一些应用中的使用。为解决这些问题，提出了多种方法如稀疏注意力模式、低秩分解等，但在硬件平台上的并行化和加速仍面临挑战。
大数据需求：基于 Transformers 的语音模型需要大量数据进行有效训练，而语音数据相对有限。可通过收集大规模数据集、数据增强、迁移学习和多任务学习等方法提高模型性能。
泛化和迁移性：缺乏归纳偏差，在新任务或领域上泛化能力可能受限，可通过集成贝叶斯框架、压缩技术等方法改进。在跨模态和多语言应用中，由于域差距，迁移性面临挑战，已有多种方法尝试增强迁移性，但仍存在问题。
多模态训练：在多模态学习中，信息融合在输入、中间表示和预测三个层面进行，但存在数据同步和融合方式的问题。利用大量网络数据进行跨模态对齐虽取得进展，但训练成本高，后续研究主要关注利用预训练模型，同时模态间的交互仍有待进一步探索。
鲁棒性：对语音数据的域转移和噪声敏感，在不同语言和应用中性能可能下降。可通过对比学习、多模态信息融合等方法提高鲁棒性，如利用视听信息改进语音识别的准确性和鲁棒性。

总结与结论

Transformer 架构在语音处理领域已成为一种高效的神经网络架构，在多个语音相关任务中表现出色。本文综述了其在音频领域的应用，指出 Transformers 在语音处理任务中是 RNN 模型的有力替代方案，但也面临着诸多挑战。未来需要在跨语言/多语言系统、模型效率、泛化和迁移性、多模态训练以及鲁棒性等方面进行进一步研究。