3月19日,小米宣布推出三款自研大模型Xiaomi MiMo-V2-Pro、Xiaomi MiMo-V2-Omni与Xiaomi MiMo-V2-TTS。MiMo-V2-Pro和MiMo-V2-Omni已正式开放API服务。

据官方介绍,MiMo-V2-Pro是旗舰文本基座,专为高强度Agent工作场景设计,具备推理、规划与工具调用能力。MiMo-V2-Omni是全模态Agent基座,融合了文本、视觉与音频感知,打通从理解到执行的完整链路。MiMo-V2-TTS则专注于语音合成,旨在赋予Agent有温度、有情感的声音表达能力。

MiMo-V2-Pro针对复杂多样的智能体架构进行了监督微调和强化学习,具备更强的工具调用与多步推理能力。该模型总参数规模突破1万亿,激活参数为42B,采用改进后的混合注意力机制,在保证推理效率的同时大幅提升模型容量。上下文窗口扩展至100万Token,支持超长任务链和复杂工作流。

同步亮相的MiMo-V2-Omni与MiMo-V2-TTS补齐了感知与表达的拼图。前者实现了音频、图像、视频的对齐,后者支持细粒度控制的情感表达引擎,使Agent的表达更接近人类。
定价方面,MiMo-V2-Pro在256K上下文以内,输入每百万tokens定价1美元,输出3美元;1M上下文范围内,则为输入2美元,输出6美元。MiMo-V2-Omni也已开放API,支持256K上下文长度,输入定价每百万tokens 0.4美元,输出2美元。






