Back_To_Home..

Audio Speech Recognition

FUNASR

其他语音识别算法库

深度学习类

传统模型类

其他类

LAB

http://web.ee.tsinghua.edu.cn/satlab/en/index.htm

https://web.stanford.edu/~jurafsky/slp3/ed3bookaug20_2024.pdf

https://web.stanford.edu/class/cs124/

常用的度量指标

语音识别准确率的常用度量指标:

将ASR预测的输出字符序列与正确的参考字符序列进行比较,CER计算如下:

\[CER = \frac {S+D+I} N\]

其中:

所以,CER值的范围是 [0, 无穷大)

可以看出,CER的分子的计算其实就是编辑距离(Levenshtein distance),其公式如下:

\[\begin{array}{c} m=|r| \\ n=|h| \\ D_{0,0}=0 \\ D_{i, 0}=i, 1 \leq i \leq m \\ D_{0, j}=j, 1 \leq j \leq n \\ \text { For } 1 \leq i \leq m, 1 \leq j \leq n \\ D_{i, j}=\min \left\{\begin{array}{l}D_{i-1, j-1}+0 \text { if } u_{i}=v_{j} \\ D_{i-1, j-1}+1 \text { (Substitution) } \\ D_{i, j-1} \quad+1 \text { (Insertion) } \\ D_{i-1, j}+1 \text { (Deletion) }\end{array}\right. \end{array}\]

中文ASR常用字错率CER;而英文中单词为最小单位,因此常用词错率WER。但CER与WER核心计算方法一样。

© 2025 ai-charlie   •  Powered by Soopr   •  Theme  Moonwalk