斯坦福 Salesforce等开源1万亿tokens多模态数据集

2024-11-15

华盛顿大学、斯坦福大学、Salesforce等钻研人员联结开源了多模态数据集MINT-1T。

据悉，MINT-1T共蕴含了大概1万亿个文本标志和34亿张图像，是现有开源多模态数据集的10倍，同时还初次从ArXiv网站中爬取了专业论文，进一步优化了数据品质。这关于开源畛域开发GPT-4o、Gemini等多模态模型，提供了片面、多元化的数据集。

开源地址：

在提取的环节中，为了确保数据集的品质和多样性，钻研人员对文档启动了数据过滤，扫除了那些不蕴含图像或蕴含超越三十张图像的文档，同时剔除了那些图像URL中蕴含不适当子字符串（例如，logo、avatar、porn、xxx等）的文档。

在解决HTML文档时，团队驳回了OBELICS的方法，经过解析WARC条目标DOM树来提取交织的多模态文档。这种方法准许团队在坚持图像和文本原始顺序的同时，提取出有用的数据。

此外， 团队还对HTML文档启动了去重解决，经常使用了Bloom Filter技术，经过设置0.01的误报率，对13-gram段落启动去重 。假设一个文档中超越80%的段落是重复的，那么整个文档就会被摈弃。这种方法有效地缩小了数据集中的冗余内容，提高了数据的品质和可用性。

在解决的环节中，钻研人员对PDF文件的大小和页数启动了限度，扫除了超越50MB大或超越50页的PDF文档。这是由于这些文档理论蕴含少量的图像，或者会影响数据解决的效率和成果。

ArXiv是世界驰名提供物理、数学、计算机迷信、AI等畛域的专业论文网站，钻研人员从这里提取了少量基于LaTeX源代码的文档，蕴含了论文的文本内容、图像、表格、参考文献等一切元素。

在解决LaTeX源代码时首先须要识别图形标签，这些标签理论以\includegraphics的方式产生，批示了图像在文档中的位置。

经过分析这些标签，钻研人员能够确定图像在文本中的相对位置，并据此将图像与文本内容启动交织，这关于坚持文档的原始结构和阅读顺序至关关键。

在失掉了经过初步解决的PDF、HTML等数据后，钻研人员对这些数据做了进一步解决。首先，经常使用Fasttext的言语识别模型扫除了非英语文档，以确保数据集的言语分歧性。

其次，删除了URL蕴含NSFW子字符串的文档，以扫除色情和不良内容。还经常使用了RefinedWeb的文本过滤方法，移除了蕴含过多重复n-gram或被辨以为低品质的文档。

在图像过滤方面， 团队尝试下载HTML数据集中的一切图像URL，摈弃了任何不可检索的链接，并移除了没有有效图像链接的文档 。为了提高图像品质，移除了小于150像素的图像，以防止蕴含诸如徽标和图标等噪声图像。

为了确保数据集的安保性和合规性，钻研人员对一切图像经常使用了NSFW图像检测器。假设发现文档蕴含单个NSFW图像，则摈弃整个文档。同时对对文本数据中的电子邮件地址和IP地址等团体消息，启动了匿名化解决防止敏感数据暴露。

原文链接: