
Written by 研究員29/07/2024
MINT-1T:拥有一万亿Token和34亿张图像的多模态数据集
Ai資訊 Article

Salesforce AI宣布开源MINT-1T,这是首个拥有一万亿个Token的多模态交织数据集。包含一万亿个文本标记和34亿张图像,比现有开源数据集规模大10倍。此外,还纳入了 PDF 和 ArXiv 论文等之前尚未开发的资源。
多模态交织文档是包含图像和文本的序列结构,能够训练跨图像和文本模式推理的大型多模态模型。
Support authors and subscribe to content
This is premium stuff. Subscribe to read the entire article.
Login if you have purchased
閲讀原文
Author: 小互
You may also like
Written by 研究員
研究一下自己。