FireRedASR:小红书开源的语音识别新星

54

在数字化的浪潮中,语音识别技术正以惊人的速度发展,并逐渐渗透到我们生活的方方面面。从智能家居的语音控制,到车载导航的语音指令,再到办公场景中的语音输入,语音识别技术正在极大地改变着人与机器的交互方式。近日,小红书开源了其工业级自动语音识别(ASR)模型家族——FireRedASR,再次将这项技术推向了新的高度。

FireRedASR的开源,无疑为语音识别领域注入了新的活力。它不仅支持普通话、中文方言和英语,还在普通话ASR基准测试中达到了新的SOTA水平,尤其在歌词识别方面表现出色。那么,FireRedASR究竟有何独特之处?它的技术原理是什么?又将在哪些场景中发挥重要作用?本文将带您一探究竟。

FireRedASR:语音识别的新星

FireRedASR并非单一模型,而是一个强大的模型家族,包含两个主要版本:FireRedASR-LLM和FireRedASR-AED。这两个版本各有侧重,分别满足不同场景下的需求。

  • FireRedASR-LLM:精度至上

    FireRedASR-LLM采用了Encoder-Adapter-LLM框架,充分利用大型语言模型(LLM)的强大能力,实现了SOTA性能,并支持无缝端到端语音交互。在普通话基准测试中,其平均字符错误率(CER)仅为3.05%,相较于之前的SOTA模型(3.33%)降低了8.4%。这意味着更高的识别准确率,更流畅的交互体验。

  • FireRedASR-AED:效率与性能兼顾

    FireRedASR-AED则采用了基于注意力的编码器-解码器(AED)架构,在高性能和计算效率之间取得了良好的平衡。它可以作为基于LLM的语音模型中的有效语音表示模块。在普通话基准测试中,其平均CER为3.18%,甚至优于拥有超过12B参数的Seed-ASR模型。这使得FireRedASR-AED在资源受限的设备上也能实现高效的语音识别。

AI快讯

FireRedASR的主要功能

FireRedASR的功能非常丰富,可以满足各种应用场景的需求:

  1. 高精度语音识别

    无论是追求极致精度的FireRedASR-LLM,还是兼顾效率的FireRedASR-AED,都提供了出色的语音识别能力。这使得FireRedASR能够准确地理解用户的语音指令,并将其转化为文本。

  2. 高效推理

    FireRedASR-AED基于经典的Attention-based Encoder-Decoder架构,参数量仅为1.1B,在保证高准确率的同时,实现了高效的推理速度。这使得它能够快速地响应用户的语音输入,提供实时的反馈。

  3. 多场景适配

    FireRedASR在多种日常场景下表现出色,包括短视频、直播、语音输入和智能助手等。在这些场景中,FireRedASR能够准确地识别用户的语音,并提供相应的服务。

  4. 歌词识别能力

    FireRedASR-LLM在歌词识别场景中展现出了极强的适配能力,其CER实现了50.2%~66.7%的相对降低。这意味着它能够更准确地识别歌曲中的歌词,为用户提供更好的音乐体验。

  5. 多语言支持

    FireRedASR不仅支持普通话,还在中文方言和英语语音识别方面表现出色。这使得它能够服务于更广泛的用户群体,满足不同语言环境下的需求。

  6. 开源与社区支持

    FireRedASR的模型和推理代码均已开源,这为语音识别技术的社区驱动改进和学术研究提供了便利。开发者可以基于FireRedASR进行二次开发,构建更强大的语音识别应用。

FireRedASR的技术原理

要深入了解FireRedASR的强大之处,就必须对其技术原理进行剖析。

FireRedASR-LLM的技术原理

FireRedASR-LLM采用了Encoder-Adapter-LLM框架,该框架结合了大型语言模型(LLM)的能力,以实现极致的语音识别精度。它主要包含以下三个核心组件:

  • Conformer基础编码器

    Conformer是一种先进的神经网络架构,它能够有效地提取语音特征,并生成连续的语音表示。Conformer结合了卷积神经网络(CNN)和Transformer的优点,既能捕捉局部特征,又能捕捉全局依赖关系。

  • 轻量级适配器

    适配器的作用是将编码器的输出转换为与LLM语义空间匹配的表示。由于编码器提取的语音特征与LLM的文本语义空间存在差异,因此需要适配器来进行转换。适配器通常采用轻量级的神经网络结构,以减少计算负担。

  • 预训练文本LLM

    LLM是FireRedASR-LLM的核心组成部分,它负责生成最终的文本输出。FireRedASR-LLM基于Qwen2-7B-Instruct进行初始化,这是一种强大的预训练语言模型,具有出色的文本生成能力。

  • 训练策略

    在训练过程中,编码器和适配器是可训练的,而LLM的大部分参数保持固定,仅通过Low-Rank Adaptation(LoRA)进行微调。LoRA是一种参数高效的微调方法,它通过引入少量可训练的参数,来实现对LLM的定制化。这种训练策略能够确保编码器和适配器能有效地将语音特征映射到LLM的语义空间,同时保留LLM的预训练能力。

  • 输入与推理

    在推理时,输入包括提示(prompt)和语音。提示可以引导LLM生成特定类型的文本,例如歌词或对话。LLM执行next-token-prediction,即根据之前的文本生成下一个token,最终生成识别文本。

FireRedASR-AED的技术原理

FireRedASR-AED基于经典的注意力机制编码器-解码器(AED)架构,该架构在高性能和计算效率之间取得了良好的平衡。它主要由以下部分组成:

  • Conformer编码器

    与FireRedASR-LLM类似,FireRedASR-AED也采用了Conformer模型作为编码器,以处理语音特征。Conformer编码器能够有效地捕捉局部和全局依赖关系,从而提高语音识别的准确率。

  • Transformer解码器

    Transformer解码器采用Transformer架构进行序列转换,它包含多头自注意力模块和前馈模块。多头自注意力模块能够捕捉输入序列中不同位置之间的依赖关系,而前馈模块则负责对每个位置的特征进行非线性变换。

  • 输入特征

    输入特征为80维的log Mel滤波器组,经过全局均值和方差归一化处理。log Mel滤波器组是一种常用的语音特征提取方法,它能够将语音信号转换为更易于处理的表示。全局均值和方差归一化则可以减少不同音频之间的差异,提高模型的鲁棒性。

  • 训练数据

    训练数据包含约7万小时的高质量普通话音频数据,以及约1.1万小时的英语音频数据。高质量的训练数据是训练出高性能语音识别模型的关键。

FireRedASR的应用场景

FireRedASR的应用场景非常广泛,几乎涵盖了所有需要语音识别技术的领域。

  1. 智能语音助手

    FireRedASR可以用于开发智能语音助手,如智能家居控制、智能客服等。高精度的语音识别能力能准确理解用户的语音指令,提供流畅的交互体验。例如,用户可以通过语音控制家里的灯光、温度和电器,或者通过语音查询天气、新闻和交通信息。

  2. 视频和直播

    在短视频和直播领域,FireRedASR能实时生成字幕,帮助观众更好地理解内容。这对于听力障碍人士或需要翻译的场景非常有用。例如,直播平台可以利用FireRedASR为直播内容生成实时字幕,方便观众观看。

  3. 歌词识别

    FireRedASR在歌词识别场景中表现尤为突出,能广泛应用于音乐平台和卡拉OK等场景。例如,音乐平台可以利用FireRedASR为歌曲生成歌词,方便用户学习和演唱。

  4. 语音输入

    FireRedASR可以用于语音输入场景,如语音打字、语音笔记等。高效的推理能力和高精度的识别效果能显著提升用户的输入效率。例如,用户可以通过语音输入文字,而无需手动输入,从而节省时间和精力。

  5. 车载语音助手

    在车载环境中,FireRedASR可以作为车载语音助手的核心技术,帮助驾驶员实现语音导航、语音控制音乐、语音拨打电话等功能,从而提高驾驶安全性。

结语

FireRedASR的开源,无疑将推动语音识别技术的发展和应用。我们期待FireRedASR在未来能够取得更大的突破,为人们的生活带来更多的便利。