学吧导航_第28页 - 蜀驿圈娱乐网

MiniCPM-V 4.5 - 面壁智能开源的多模态模型 | 学吧导航

MiniCPM-V 4.5 是面壁智能开源的多模态模型,基于 Qwen3-8B 和 SigLIP2-400M 构建,具备高效处理图像和视频的能力。在视觉 Token 消耗上表现出色,处理 180 万像素图像仅需 6...

Hunyuan-MT-7B 是腾讯混元发布的轻量级翻译模型,参数量为70亿,支持33个语种及5种民汉语言/方言的互译,包括粤语、维吾尔语、藏语等。模型采用完整的训练范式,覆盖预训练、C...

SkyReels-A3 是昆仑万维发布的音频驱动数字人视频生成工具。通过简单的输入(如人像图片和语音)生成高质量的动态视频内容,让静态照片活起来,可以为现有视频更换台词,人物...

Qwen-Flash 是阿里巴巴通义千问系列推出的高性能语言模型,专为速度和成本优化设计,适合处理简单任务。基于 Mixture-of-Experts (MoE) 架构,通过稀疏专家网络实现高效代码...

HunyuanVideo-Foley 是腾讯混元团队开源的端到端视频音效生成模型,能为无声视频添加沉浸式的音效。模型通过大规模数据集训练,结合多模态扩散变换器架构,能精准理解视频画...

Seedream 4.0 是字节跳动最新推出的图像创作模型,为创作者提供高效、可控的创作体验。模型支持精准指令编辑,用户能用日常语言描述需求,模型能准确完成增删、修改等操作。 ...

RedOne是小红书推出的首个面向社交网络服务(SNS)领域的定制化大语言模型(LLM),突破单一任务基线模型的性能瓶颈,构建全面覆盖SNS任务的基座模型。模型采用独特的三阶段训练...