
帖子
字节跳动开源3B全能多模态模型Lance

币界网消息,字节跳动(Bytedance Research)正式开源原生统一多模态大模型Lance。该模型激活参数仅为3B,是一个轻量级模型,能够在单一框架内同时支持图像与视频的理解、生成及编辑。研发团队让模型完全从零开始训练,并将整个训练周期的总计算预算压低至128张A100 GPU。为解决不同模态与任务间的内部冲突,Lance在架构上做了两项硬性隔离:采用双流混合专家(MoE)架构处理交织的多模态序列,解耦理解与生成的计算路径引入模态感知的旋转位置编码,削弱图像和视频异构视觉token之间的信号干扰。尽管算力压缩,Lance的图像与视频生成及编辑在绝大多数基准测试中表现优异,展现了小参数兼顾生成与语义理解的低成本路线。