我们发布了中文构音障碍数据库(CDSD),是目前公开最大的中文构音障碍语音数据库。该数据库包括44名构音障碍患者的构音语音数据,分为A和B两个部分。本数据库的A部分包括了44名参与者每人提供的1小时构音障碍录音,共44小时;B部分包括了8名参与者额外提供的10小时录音,共80小时;本数据库总共包括124小时的构音障碍语音数据。另外,由于参与者的录音形式不同,本数据库还包括9位参与者的9小时录音视频数据。为了适应不同教育水平的参与者,我们的语料池主要参考了AISHELL-1数据集和中国中小学生的演讲稿。本数据库的采集设备包括参与者的智能手机以及ZOOM F8n多轨现场录音机。参与者被允许在居家环境中,分段式进行录音采集构音障碍语音数据。基于 CDSD 数据库,我们进行了多项基线实验和构音障碍语音识别研究。结果显示,通过广泛的模型预训练并微调特定个体数据,在说话人相关的语音识别中取得了优异表现。然而,我们也观察到不同发音障碍个体的识别结果存在显著差异。通过对不同规模数据的训练结果进行对比分析,我们确定了个性化语音识别的最佳数据规模,为未来的研究提供了有价值的参考。
如需下载CDSD语音数据库,请下载并仔细阅读license agreement,通过以下链接填写您的个人信息,并提交签字版license agreement。
点击下载license agreement点击这里进行申请
Wan, Y., Sun, M., Kang, X., Li, J., Guo, P., Gao, M., Wang, S.-J. (2024) CDSD: Chinese Dysarthria Speech Database. Proc. Interspeech 2024, 4109-4113, doi: 10.21437/Interspeech.2024-1597
联系MELAB: melab@psych.ac.cn