一致多模态了解和生成仅1.3B！Janus

2024-11-14

Janus 是一个一致的多模态了解和生成的大型言语模型（MLLM），它将多模态了解和生成的视觉编码解耦。Janus 基于 DeepSeek-LLM-1.3b-base 构建，该模型训练时经常使用了大概5000亿个文本token的语料库。在多模态了解方面，它经常使用 SigLIP-L 作为视觉编码器，允许384 x 384像素的图像输入。在图像生成方面，Janus 经常使用了LlamaGen的tokenizer，并且具有16倍的下采样率。

Janus的训练环节是分阶段启动的，以确保模型在多模态了解和生成义务上都能到达高性能：