斯坦福 Salesforce等开源1万亿tokens多模态数据集
华盛顿大学、斯坦福大学、Salesforce等钻研人员联结开源了多模态数据集MINT-1T。
据悉,MINT-1T共蕴含了大概1万亿个文本标志和34亿张图像,是现有开源多模态数据集的10倍,同时还初次从ArXiv网站中爬取了专业论文,进一步优化了数据品质。这关于开源畛域开发GPT-4o、Gemini等多模态模型,提供了片面、多元化的数据集。
开源地址:
在提取的环节中,为了确保数据集的品质和多样性, 钻研人员对文档启动了数据过滤,扫除了那些不蕴含图像或蕴含超越三十张图像的文档,同时剔除了那些图像URL中蕴含不适当子字符串(例如,logo、avatar、porn、xxx等)的文档 。
在解决HTML文档时,团队驳回了OBELICS的方法,经过解析WARC条目标DOM树来提取交织的多模态文档。这种方法准许团队在坚持图像和文本原始顺序的同时,提取出有用的数据。
此外, 团队还对HTML文档启动了去重解决,经常使用了Bloom Filter技术,经过设置0.01的误报率,对13-gram段落启动去重 。假设一个文档中超越80%的段落是重复的,那么整个文档就会被摈弃。这种方法有效地缩小了数据集中的冗余内容,提高了数据的品质和可用性。
在解决的环节中,钻研人员对PDF文件的大小和页数启动了限度,扫除了超越50MB大或超越50页的PDF文档。这是由于这些文档理论蕴含少量的图像,或者会影响数据解决的效率和成果。
ArXiv是世界驰名提供物理、数学、计算机迷信、AI等畛域的专业论文网站,钻研人员从这里提取了少量基于LaTeX源代码的文档,蕴含了论文的文本内容、图像、表格、参考文献等一切元素。
在解决LaTeX源代码时首先须要识别图形标签,这些标签理论以\includegraphics的方式产生,批示了图像在文档中的位置。
经过分析这些标签,钻研人员能够确定图像在文本中的相对位置,并据此将图像与文本内容启动交织,这关于坚持文档的原始结构和阅读顺序至关关键。
在失掉了经过初步解决的PDF、HTML等数据后,钻研人员对这些数据做了进一步解决。首先,经常使用Fasttext的言语识别模型扫除了非英语文档,以确保数据集的言语分歧性。
其次,删除了URL蕴含NSFW子字符串的文档,以扫除色情和不良内容。还经常使用了RefinedWeb的文本过滤方法,移除了蕴含过多重复n-gram或被辨以为低品质的文档。
在图像过滤方面, 团队尝试下载HTML数据集中的一切图像URL,摈弃了任何不可检索的链接,并移除了没有有效图像链接的文档 。为了提高图像品质,移除了小于150像素的图像,以防止蕴含诸如徽标和图标等噪声图像。
为了确保数据集的安保性和合规性,钻研人员对一切图像经常使用了NSFW图像检测器。假设发现文档蕴含单个NSFW图像,则摈弃整个文档。同时对对文本数据中的电子邮件地址和IP地址等团体消息,启动了匿名化解决防止敏感数据暴露。
原文链接: