主动语音识别(ASR)系统「Whisper 」式一个,8 万个小时多语音和多使命监视数据研究团队通过利用从收集上收集的 6,进行锻炼来对其。
21 日9 月 ,「Whisper 」的神经收集OpenAI 发布了一个名为,接近人类程度的鲁棒性和精确性声称其在英语语音识别方面已。

团队还发觉此外研究,hisper 」的零样本机能时当在很多分歧的数据集上丈量「W,比其他模子表示愈加稳健「Whisper 」相,了 50%错误率降低。
万小时音频中当前在 68,笼盖了 96 中其他言语共 11.7 万个小时,个小时的转录和翻译数据还包罗 12.5 万,之一长短英语的即大约有三分。
同研究表白此前有不,著提高音频编码器的质量虽然无监视预锻炼能够显,质量的预锻炼解码器但因为缺乏划一高,集中的微和谐谈以及特定于数据,了模子的无效性和鲁棒性因而在必然程度上限制;预锻炼语音识别系统中而在部门有监视的体例,模子呈现出更高的鲁棒性其表示会比单一源锻炼的。
此对,per 」中在「Whis,高质量数据集总和大几倍的根本上OpenAI 在新数据集比现有,级扩展至 68 万小时将弱监视语音识此外数量;时同,了在这种规模下研究团队还演示,无数据集的零射击表示所锻炼模子在转移现,数据集微调的影响可消弭任何特定于,质量成果以实现高。
pathy 也转发了这一动静称 OpenAI 正处于最好的形态中 src=前特斯拉人工智能和主动驾驶部分担任人 Andrej Kar。
研究团队发觉锻炼过程中,高对口音、布景乐音和手艺言语的鲁棒性利用如斯复杂且多样化的数据集能够提。
数据集规模外除了足够大的,还支撑多种言语的转录「Whisper 」,言翻译成英语以及将这些语。
Sutskever 对此暗示OpenAI 创始人 Ilya,话的靠得住的语音识别系统终究有一个能理解我说。
练一个序列到序列的转换器模子在很多分歧的语音处置使命中训,、口头言语识别和语音勾当检测包罗多言语语音识别、语音翻译;解码器预测的标识表记标帜序列所有使命都暗示为要由,语音处置管道的分歧阶段答应单一模子代替保守;用一组特殊的标识表记标帜多使命锻炼格局使,定者或分类目作为使命目标
用一种简单的端到端方式Whisper 架构采,er 来实现:输入音频被分成 30 秒的块通过编码器 - 解码器 Transform, 频谱图后传送到编码器转换成 log-Mel。响应的文本题目解码器可预测,标识表记标帜夹杂并与特殊,级时间戳、多言语语音转录和英语语音翻译等使命由这些标识表记标帜指点单个模子施行诸如言语识别、短语。
以原始言语转录或翻译成英语的使命「Whisper 」会交替施行,团队发觉对此研究,文本的翻译方面出格无效这种方式在进修语音到,英语翻译零样本的监视 SOTA而且优于 CoVoST2 到。
提的是值得一,一个复杂且多样的数据集长进行因为「Whisper 」是在,的数据集进行微调没有针对任何特定,briSpeech 机能的模子因而它不会击败特地研究 Li。
|