学吧导航_第27页 - 蜀驿圈娱乐网

FineVision - Hugging Face发布的开源视觉语言数据集 | 学吧导航

FineVision 是Hugging Face 发布的开源视觉语言数据集,为训练先进的视觉语言模型。包含 1730 万张图像、2430 万个样本、8890 万轮对话和 95 亿个答案标记。数据集聚合了来...

AudioGen-Omni 是中国矿业大学和快手科技联合开发的先进的多模态音频生成模型,基于多模态扩散变换器(MMDit)架构,能根据输入的视频、文本或两者的结合,生成与之高度同步的...

Qwen-Image-Edit 是阿里通义推出的全能图像编辑模型,基于 200 亿参数的 Qwen-Image 架构构建而成。模型具备强大的语义与外观编辑能力,能进行低层次的视觉外观编辑(比如添...

Draw A Fish 是在线AI画鱼网站,用户可以用鼠标随意画一条鱼,点击放生后,这条鱼会进入一个全球共享的虚拟鱼缸,与来自世界各地的鱼一起游动。 Draw A Fish是什么 Draw A F...

AutoClip是开源的AI视频剪辑工具,专为高效处理视频而设计。工具能自动识别视频中的高光片段,精准切片并生成优化后的标题,提升内容吸引力。工具支持B站视频下载和字幕提取,...

ToonComposer 是腾讯联合港中文、北大推出的 AI 动画制作工具。工具通过生成式后关键帧技术,将传统动画制作中的中间帧生成和上色环节自动化,仅用一个草图和上色参考帧,能...

MiniCPM-V 4.5 是面壁智能开源的多模态模型,基于 Qwen3-8B 和 SigLIP2-400M 构建,具备高效处理图像和视频的能力。在视觉 Token 消耗上表现出色,处理 180 万像素图像仅需 6...