代写辅导接单-声音分类识别

欢迎使用51辅导,51作业君孵化低价透明的学长辅导平台,服务保持优质,平均费用压低50%以上! 51fudao.top

声音分类识别

数据概述

数据集:包含315个普通话音频文件,每个音频文件的长度大约为5秒。

标注格式:音频文件带有TextGrid格式的音素级别标注,详细记录了每个音素在音频中的时间位

置。

项目要求

模型任务

为音频分类识别任务制定一个小型模型,使用该模型对音频中的每个音素进行分类识别。

输入:任意一个20毫秒的音频片段。

输出:对应的音素标签。模型在推理过程中应能即刻输出结果,目标是2-5毫秒内完成预测。

气流强度识别:虽然数据集没有气流强度的标注,模型还需要估计气流强度。可以通过设计合

适的算法来实现该功能。

模型限制:为了保证实时性,不能使用现有的语音识别模型,因为这些模型通常包含较多后处理步

骤,难以实现实时处理要求。

性能要求

实时性:20毫秒的音频片段作为模型的输入,模型需在2-5毫秒内输出分类结果。

准确性:模型对每个音素的识别准确率需达到85%以上。不过,某些特殊音素的识别率可以相对较

低。

气流强度识别

问题描述

:尽管气流强度没有明确标注,但可以采用以下策略进行估计:

声门能量检测:通过检测音频信号中的能量变化,尤其是在声门关闭期间的能量波动,来推测

气流强度。

无监督学习:利用自编码器等无监督学习算法,从音频特征中学习并推测气流强度的表现。

物理建模:基于声学特性开发物理模型,通过气流引起的高频噪声等特征,推测气流强度。

51作业君

Email:51zuoyejun

@gmail.com

添加客服微信: Fudaojun0228