【音频识别】十大数据集合集,宝藏合集,不容错过!
文本选择算法的详细信息在以下论文中进行了描述:C. Veaux、J. Yamagishi 和 S. King,“语音库语料库:大型区域口音语音数据库的设计、收集和数据分析”,https:/ /doi.org/10.1109/ICSDA.2013.6709856。在CVPR2023中我们提出了精细化音视频描述任务(Fine-grained Audible Video Description, FAV
本文将为您介绍10个经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。
1
RenderMe-360
-
发布方:
上海人工智能实验室
-
发布时间:
2023-05-24
-
简介:
RenFace是一个大规模多视角人脸高清视频数据集,包含多样的人脸表情、丰富的细粒度发型发色,同时也包含音素均衡的说话视频。可应用于:2D/3D数字人脸生成、人脸重建捕捉等领域。
-
下载地址:
https://renderme-360.github.io/; https://openxdlab.org.cn/home
2
ODSQA (Open-Domain Spoken Question Answering)
-
发布方:
台湾大学
-
发布时间:
2018
-
简介:
ODSQA 数据集是用于中文问答的口语数据集。它包含来自 20 位不同演讲者的三千多个问题。
-
下载地址:
https://github.com/chiahsuan156/ODSQA
-
论文地址:https://arxiv.org/pdf/1808.02280v1.pdf
3
EDT
-
发布方:
Northwestern University
-
发布时间:
2021
-
简介:
EDT 数据集专为企业事件检测和基于文本的股票预测(交易策略)基准而设计。它包括 9721 篇带有令牌级事件标签的新闻文章和 303893 篇带有分钟级时间戳和综合股价标签的新闻文章。 EDT 包含用于三个目的的数据: 1. 企业事件检测; 2. 基于新闻的交易策略基准; 3.金融领域适配。
-
下载地址:https://github.com/Zhihan1996/TradeTheEvent/tree/main/data
-
论文地址:
https://arxiv.org/pdf/2105.12825v2.pdf
4
WHAM! (WSJ0 Hipster Ambient Mixtures)
-
发布方:
三菱电机研究实验室·Whisper AI
-
发布时间:
2019
-
简介:
“WSJ0 Hipster Ambient Mixtures (WHAM!) 数据集将 wsj0-2mix 数据集中的每个双说话者混合与独特的噪声背景场景配对。它有一个名为 WHAMR! 的扩展,它还为语音信号添加了人工混响到背景噪音。噪音音频于 2018 年底在旧金山湾区的各个城市地点收集。环境主要包括餐馆、咖啡馆、酒吧和公园。音频是使用三脚架上的 Apogee Sennheiser 双耳麦克风录制的离地 1.0 到 1.5 米。”
-
下载地址:https://renderme-360.github.io/; https://openxdlab.org.cn/home
-
论文地址:https://arxiv.org/pdf/1907.01160v1.pdf
5
RenderMe-360
-
发布方:
上海人工智能实验室
-
发布时间:
2023-05-24
-
简介:
RenFace是一个大规模多视角人脸高清视频数据集,包含多样的人脸表情、丰富的细粒度发型发色,同时也包含音素均衡的说话视频。可应用于:2D/3D数字人脸生成、人脸重建捕捉等领域。
-
下载地址:
https://renderme-360.github.io/; https://openxdlab.org.cn/home
6
UrbanSound8K
-
发布方:
纽约大学城市科学与进步中心·纽约大学音乐与音频研究实验室
-
发布时间:2014
-
简介:
“这个数据集包含来自 10 个类别的 8732 个城市声音的标记声音摘录 (<=4s):air_conditioner、car_horn、children_playing、dog_bark、drilling、enginge_idling、gun_shot、jackhammer、siren 和 street_music。这些类别来自城市声音分类法。有关数据集的详细说明及其编译方式,请参阅我们的论文。所有摘录均来自上传到 www.freesound.org 的现场录音。文件预先分类为十个文件夹(文件夹名为 fold1 “
-
下载地址:https://urbansounddataset.weebly.com/urbansound8k.html
-
论文地址:
http://www.justinsalamon.com/uploads/4/3/9/4/4394963/salamon_urbansound_acmmm14.pdf
7
VCTK (CSTR VCTK Corpus)
-
发布方:
爱丁堡大学
-
发布时间:
2017
-
简介:
这个 CSTR VCTK 语料库包含 110 位不同口音的英语使用者发出的语音数据。每位演讲者读出大约 400 个句子,这些句子选自报纸、彩虹段落和用于演讲口音档案的启发段落。经 Herald & Times Group 许可,报纸上的文字取自 Herald Glasgow。每个演讲者都有一组不同的报纸文本,这些文本是根据增加上下文和语音覆盖率的贪心算法选择的。文本选择算法的详细信息在以下论文中进行了描述:C. Veaux、J. Yamagishi 和 S. King,“语音库语料库:大型区域口音语音数据库的设计、收集和数据分析”,https:/ /doi.org/10.1109/ICSDA.2013.6709856。所有演讲者的彩虹段落和启发段落都是相同的。彩虹段落可以在英语档案的国际方言中找到:(http://web.ku.edu/~idea/readings/rainbow.htm)。启发段落与用于语音口音档案 (http://accent.gmu.edu) 的段落相同。可以在 http://www.ualberta.ca/~aacl2009/PDFs/WeinbergerKunath2009AACL.pdf 找到语音口音档案的详细信息。所有语音数据均使用相同的录音设置进行录音:全向麦克风 (DPA 4035) 和带宽非常宽的小型振膜电容麦克风 (Sennheiser MKH 800),采样频率为 96kHz,24 位,半消声室为爱丁堡大学。 (但是,两个扬声器 p280 和 p315 在使用 MKH 800 进行录音时存在技术问题)。所有录音都转换为 16 位,下采样到 48 kHz,并手动结束。
-
下载地址:
https://datashare.is.ed.ac.uk/handle/10283/2651
-
论文地址:
https://arxiv.org/pdf/1609.03499.pdf
8
OpenNLPLab/FAVDBench
-
发布方:
上海人工智能实验室
-
发布时间:
2023-07-19
-
简介:
在CVPR2023中我们提出了精细化音视频描述任务(Fine-grained Audible Video Description, FAVD)该任务旨在提供有关可听视频的详细文本描述,包括每个对象的外观和空间位置、移动对象的动作以及视频中的声音。我们同是也为社区贡献了第一个精细化音视频描述数据集FAVDBench。对于每个视频片段,我们不仅提供一句话的视频概要,还提供4-6句描述视频的视觉细节和1-2个音频相关描述,且所有的标注都有中英文双语。
-
下载地址:
https://github.com/OpenNLPLab/FAVDBench
-
论文地址:
https://openaccess.thecvf.com/content/CVPR2023/html/Shen_Fine-Grained_Audible_Video_Description_CVPR_2023_paper.html
9
AISHELL-3
-
发布方:
北京希尔科技
-
发布时间:2020
-
简介:
AISHELL-3 是一个大规模、高保真的多说话人普通话语料库,可用于训练多说话人文本到语音(TTS)系统。该语料库包含大约 85 小时的情绪中性录音,由 218 位以汉语为母语的人讲过,总共有 88035 条话语。它们的性别、年龄组和母语口音等辅助属性在语料库中被明确标记和提供。相应地,在录音的同时还提供了汉字级和拼音级的成绩单。通过专业的语音标注和严格的语调质量检测,词音转录准确率在98%以上。
-
下载地址:
http://www.aishelltech.com/aishell_3
-
论文地址:
https://arxiv.org/pdf/2010.11567v2.pdf
10
Speech Commands
-
发布方:
Google AI Research
-
发布时间:
2017-08-03
-
简介:
语音命令是一个语音单词的音频数据集,旨在帮助训练和评估关键字识别系统。该数据集 (1.4 GB) 65,000了30个短词的一秒钟长话语,由数千个不同的人提供,由公众通过AIY网站提供。这是一套一秒的。wav音频文件,每个文件都包含一个口语单词。这些单词来自一小部分命令,并由各种不同的说话者说出。音频文件会根据它们包含的单词组织到文件夹中,并且此数据集旨在帮助训练简单的机器学习模型。
-
下载地址:
https://ai.googleblog.com/2017/08/launching-speech-commands-dataset.html
-
论文地址:
https://arxiv.org/pdf/1804.03209v1.pdf
温馨 小贴士
如有您想了解的计算机方向数据集
请联系我们
免费为您提供数据集搜索服务
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)