声音分类识别
数据概述
数据集:包含315个普通话音频文件,每个音频文件的长度大约为5秒。
标注格式:音频文件带有TextGrid格式的音素级别标注,详细记录了每个音素在音频中的时间位
置。
项目要求
模型任务
为音频分类识别任务制定一个小型模型,使用该模型对音频中的每个音素进行分类识别。
输入:任意一个20毫秒的音频片段。
输出:对应的音素标签。模型在推理过程中应能即刻输出结果,目标是2-5毫秒内完成预测。
气流强度识别:虽然数据集没有气流强度的标注,模型还需要估计气流强度。可以通过设计合
适的算法来实现该功能。
模型限制:为了保证实时性,不能使用现有的语音识别模型,因为这些模型通常包含较多后处理步
骤,难以实现实时处理要求。
性能要求
实时性:20毫秒的音频片段作为模型的输入,模型需在2-5毫秒内输出分类结果。
准确性:模型对每个音素的识别准确率需达到85%以上。不过,某些特殊音素的识别率可以相对较
低。
气流强度识别
问题描述
:尽管气流强度没有明确标注,但可以采用以下策略进行估计:
声门能量检测:通过检测音频信号中的能量变化,尤其是在声门关闭期间的能量波动,来推测
气流强度。
无监督学习:利用自编码器等无监督学习算法,从音频特征中学习并推测气流强度的表现。
物理建模:基于声学特性开发物理模型,通过气流引起的高频噪声等特征,推测气流强度。