深度学习中罕用的开源数据集

2024-11-15

图像分类

MNIST 数据集是机器学习和计算机视觉畛域中最驰名的数据集之一，罕用于训练各种图像处置系统。

MNIST 数据集蕴含了 70,000 张小型的黑色图像，每张图像的大小是 28x28 像素。每个图像都是手写数字（0到9）的一个实例。

它十分适宜初学者练习图像分类技术和卷积神经网络（CNN）等算法。

2.CIFAR-10

CIFAR-10 数据集是另一种在机器学习和计算机视觉钻研畛域宽泛经常使用的规范数据集。

~kriz/cifar.html

它由加拿大初级钻研院（Canadian Institute For Advanced Research, CIFAR）颁布，因此得名 CIFAR。CIFAR-10 特意实用于开发和测试图像识别算法。

CIFAR-10 蕴含 60,000 张 32x32 像素的黑色图像，这些图像被分为 10 个类别，每个类别各 6,000 张图像。这些类别包括：飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车。

3.ImageNet

ImageNet数据集是一个大规模的图像数据集，宽泛用于计算机视觉钻研和各种图像处置算法的训练和测试。

这个数据集由斯坦福大学的钻研人员启动和保养，蕴含超越 1 万张图片和超越 20,000 个类别。

它用于大规模视觉识别应战和训练深度学习模型。

4.fashion-mnist

Fashion-MNIST 数据集是由 Zalando（一家德国的时兴科技公司）颁布的一个图像数据集，旨在作为机器学习钻研中经典的 MNIST 手写数字数据集的间接代替品。

Fashion-MNIST 蕴含 70,000 张 28x28 像素的灰度图像，这些图像分为 10 个类别，每个类别有 7,000 张图像，这些类别包括：T恤/上衣、裤子、套头衫、连衣裙、外套、凉鞋、衬衫、静止鞋、包和踝靴。

CelebA 数据集是一个大型的人脸属性数据集，宽泛用于计算机视觉钻研中，特意是在面部识别、面部属性识别和面部编辑等畛域。

这个数据集由香港中文大学的钻研者开发和保养，CelebA 蕴含超越 200,000 张名人面部的图像，笼罩了大概 10,000 名不同的名人，每张图像都标有 40 种不同的属性（如发型、帽子、眼镜、愁容等），以及 5 个关键点位置（眼睛、鼻子、嘴巴）的标志。

人造言语处置

6.IMDB 评论

~amaas/data/sentiment/)

IMDB 评论数据集（Internet Movie>

7.20个资讯组

20 个资讯组数据集由 Ken Lang 编制，蕴含约 18000 个资讯组文档，散布在 20 个不同的资讯组。

它罕用于文本分类和聚类义务。

斯坦福问答数据集 (SQuAD) 是一个浏览了解数据集，由众包上班者针对一系列维基百科文章提出的疑问组成，其中每个疑问的答案都是来自相应段落的一段文本。斯坦福问答数据集蕴含 100,000 多个用于机器了解的疑问。

GLUE (General Language Understanding Evaluation) 是一个用于评价人造言语处置（NLP）模型在宽泛言语了解义务上的功能的基准数据集。

GLUE 旨在提供一个综合性的评价框架，经过多个不同的NLP义务来测试模型的宽泛性和鲁棒性。

COCO 数据集是一个用于对象检测、宰割和图像字幕生成的宽泛经常使用的基准数据集。

它由微软钻研院颁布，旨在提供丰盛的标注数据，用于训练和评预计算机视觉模型。

11.Sentiment140

Sentiment140 数据集蕴含来自Twitter的160万条标注推文。这些推文被标注为侧面或负面情感，关键用于训练和评价情感分类模型。

12.Yelp 放开数据集

Yelp数据集蕴含了用户对不同业务的评论、评分、用户消息、业务消息等。它罕用于钻研和开发介绍系统、情感剖析、文本分类和其余NLP义务。

语音识别

13.LibriSpeech

LibriSpeech 数据集蕴含约1000小时的英语语音数据，关键用于训练和评价语音识别系统。

该数据集中的音频文件经过高品质的预处置，并且都带有准确的文字转录。

14.VoxCeleb

~vgg/data/voxceleb/

VoxCeleb 数据集蕴含少量名人的音频片段，这些片段从 YouTube 视频中提取，并经过细心的过滤和标注，以确保数据的品质和多样性。

卫生保健

15.Breast Cancer Wisconsin

Breast Cancer Wisconsin 数据集是一个宽泛用于机器学习和数据开掘畛域的医学数据集，关键用于训练和评价分类模型，以区分良性和恶性乳腺肿瘤。

该数据集蕴含569个样本，每个样本有30个特色，这些特色从细胞核的图像中提取。

介绍系统

16.MovieLens

MovieLens数据集是一个宽泛用于介绍系统钻研和开发的电影评分数据集。该数据集由明尼苏达大学的GroupLens钻研小组创立，蕴含用户对电影的评分消息。

17.Amazon Product Reviews

~jmcauley/datasets.html#amazon_reviews

Amazon Product Reviews 数据集是一个宽泛用于情感剖析、介绍系统和其余人造言语处置（NLP）义务的大规模数据集。该数据集蕴含了来自 Amazon 网站的用户对各种产品的评论和评分消息。

深度学习开源数据集

<<RNN回归！Bengio新作小道至简与Transformer一较上下

赋能户外赛事时空道宇率先成功运行商业闭环>>