本文介绍一个机器学习大型数据集的汇总网站,网站目前提供约 70 个最新数据集,涵盖了计算机视觉、自然语言理解和音频三大领域。
还在愁到哪里找到需要的机器学习数据集吗?
每年都有很多大型、高质量的数据集发布,其中大多数数据集都发布在各自的网站上,通过谷歌搜索很难找到所有这些数据集。
现在,一位名叫nikola pleša的开发人员做了一个项目,将所有机器学习的大型数据集收集在一个网站上,方便大家取用。
网站一经发布,好评如潮。网站目前提供约70个数据集,涵盖了计算机视觉、自然语言理解和音频三大领域,包括每个数据集的链接、简介、许可类型、论文等,并且作者表示将继续增加数据集数量。
传送门:
https://www.datasetlist.com/
下面,我们分别介绍cv、nlp的最新10大数据集,以及4个音频数据集。
计算机视觉(46个)
1. ibm人脸多样性数据集
ibm的人脸多样性(dif)数据集是一个庞大而多样化的数据集,旨在促进人脸识别技术中公平性和准确性的研究。dif是第一个此类数据集,包含100万张带注释的人脸图像。
2. gqa
gqa数据集包含2200万个关于各种日常图像的问题。每个图像都与图像的对象、属性和关系的场景图相关联,这是一个基于visual genome的新的清晰版本数据集。
3. nvidia flickr-faces-hq数据集
该数据集由70000张分辨率为1024×1024的高质量png图像组成,并且在人物的年龄、种族和图像背景方面差异很大。数据集也很好地覆盖了人脸的附件,如眼镜,太阳镜,帽子等。
4. google open images v4
open images是一个包含约900万个url图像的数据集,这些图像具有包含数千个类别的图像级标签和边界框注释。
5. youtube-8m 2018
youtube- 8m是一个大型的带标签的视频数据集,由数百万个youtube视频id和来自4700多个视觉实体的不同词汇表的相关标签组成,包含大量的视频画面信息、音频信息、标签信息。
6. berkeley deep drive (bdd100k)
该数据集包含超过100k个驾驶体验视频,每个视频长度为40秒,帧数为每秒30帧。总图像数比百度apolloscape(2018年3月发布)大800倍,比mapillary大4800倍,比kitti大8000倍。
7. apolloscape
apolloscape是一个此前的类似数据集如kitti和cityscapes更大、更复杂的数据集。apolloscape提供了高分辨率高10倍以上的图像,并逐像素标注,包括26种不同的可识别对象,如汽车、自行车、行人和建筑物。随着行人和车辆数量的增加,数据集提供了多个级别的场景复杂性,在给定场景中最多多达100辆车辆,以及更广泛的具有挑战性的环境,如恶劣天气或极端光照条件。
8. tencent ml - images
腾讯发布的tencent ml - images是目前最大的开源多标签图像数据集,包括17,609,752个训练图像和88739个验证图像url,注释多达11,166个类别。
9. fashion mnist
fashion-mnist是zalando文章图像的一个数据集,包括60,000个示例的训练集和10,000个示例的测试集。每个示例都是一个28x28的灰度图像,与10个类别的标签相关联。
10. megaface
mf2训练数据集是身份数量上最大的公开可用的面部识别数据集,有470万张面部图像,672k个身份,以及各自的边界框。所有图片均来自flickr,并在知识共享协议下许可。
自然语言理解(18个)
1. 斯坦福问答数据集(squad)
斯坦福问答数据集(stanford question answer dataset, squad)是一个全新的阅读理解数据集,由众包工作者根据维基百科文章提出的问题组成,其中每个问题的答案都对应阅读文章的一段文本。squad包含500多篇文章的10万对以上的问答对,因此规模明显大于之前的阅读理解数据集。squad2.0将squad1.1中的10万个问题与5万多个新的、无法回答的问题(由众包工作者提出)结合起来,使之看起来与可回答的问题相似。
2. multinli
多体裁自然语言推理语料库(multi-genre natural language inference, multinli)是一个由433k个句子对组成的源文本集合语料库,这些句子对都带有文本蕴涵信息。multinli语料库是在snli语料库的基础上建立的,但不同之处在于它涵盖了一系列口语和书面文本的体裁,并支持独特的跨体裁评估。
3. coqa
coqa是一个用于构建会话问答系统的大型数据集。coqa包含127k个问题和答案,来自7个不同领域的8k个文本段落的对话。
4. spider 1.0
spider是一个大型复杂的跨域语义分析和text-to-sql的数据集。spider由10181个问题和5693个独特的复杂sql查询组成,这些查询来自200个数据库,覆盖138个不同的域。
5. hotpotqa
hotpotqa是一个以自然的、multi-hop的问题为特征的问答数据集,具有强大的支持事实的监督,以实现更易于解释的问答系统。该数据集由113,000对基于wikipedia的qa对组成。
6. question pairs (quora)
包含超过400,000行潜在的问题对。
7. yelp open dataset
yelp数据集是用于个人、教育和学术目的的业务、评论和用户数据的子集。可在json和sql文件中使用。
8. facebook babi
一个用于自动文本理解和推理的数据集。
9. ms marco
微软机器阅读理解数据集(ms marco)是一个用于阅读理解和问题回答的新型大型数据集。在ms marco中,所有问题都是从真实的匿名用户查询中提取的。数据集中的答案来自上下文段落,这些段落使用bing搜索引擎从真实的web文档中提取。如果他们能够总结出答案,那么查询的答案就是人工生成的。
10. newsqa
newsqa数据集的目的是帮助研究社区构建能够回答需要人类水平理解和推理技能的问题的算法。该数据集包含来自众包的120k阅读理解q&a对。
音频(4个)
1. mozilla common voice
mozilla拥有可供使用的最大的人类语音数据集,包括18种不同的语言,从4.2万多名贡献者那里收集了近1400小时的录音语音数据。
2. nsynth
这是一个大规模、高质量的注释音符数据集。nsynth数据集是一个音频数据集,包含~300k个音符,每个音符都有一个独特的音调、音色和包络。
3. google audioset
audioset由632个音频事件类的扩展本体和来自youtube视频的2084320个带有人类标记的10秒声音片段组成。本体被指定为事件类别的层次图,涵盖广泛的人类和动物声音、乐器和流派,以及常见的日常环境声音。
4. librispeech
librispeech是一个有声图书数据集,包含文本和语音。数据集包含多位讲者朗读的各类有声读物,时长近500小时。
展锐持续深耕穿戴生态,首批实现QQ在RTOS端应用部署
5G时代进入倒计时华为战略投入5G形成领跑之势
长时间佩戴耳机危害多!骨传导耳机真的更有效吗?深度解析
关于日欧新时代的清洁柴油机性能分析
电动汽车:造车新势力崛起,传统车企反击争夺主导权
还在愁到哪里找到需要的机器学习数据集吗?
Imagination宣布联发科X30处理器采用PowerVR GPU 实现更高性能低功耗图形功能
浅析虚拟仪器监测系统的独特之处
学生党蓝牙耳机推荐,蓝牙耳机性价比排行榜
一架全新型号的喷气式飞机进行了风洞试验
占领手机领域的主要传感器
国产半导体产业迎来新机遇 5G多元化应用不再被少数厂商掌控
oppo、vivo和小米之间的那点事,渠道之争谁称帝?
FRAM技术和工作原理
微型DC/DC转换器LM3670和LM3671的性能及应用范围
区块链游戏的议论与未来发展方向
中国移动推出内容生态三五计划,打造VR内容生态圈
迅芯微C轮融资超亿元,中国移动旗下基金独家投资
NB-IOT智能门锁可有效减轻住房管理人员的工作负担
紧凑型3W BTL音频功率放大器电路原理图