Sora 停滞于已公开的 60 秒 demo,国内视频生成模型的发展却频频给产业界带来惊喜。CogVideoX 是智谱AI视频生成模型的开源版本,与智谱清影同源,架构为DiT。截至今日,已在Github 揽获5.4k Star,被誉为是国内首个人人可用的 Sora。
现无问芯穹Infini-AI异构云平台的GenStudio大模型服务平台已上架CogVideoX 2B。通过使用申请的开发者已可通过GenStudio体验和使用CogVideoX 2B文生视频模型能力。
无问芯穹GenStudio模型笔记
模型能力概览:CogVideoX支持固定720*480分辨率和8fp/s帧率视频生成,每次生成视频长度为6秒共48帧,是目前效果最好的开源视频生成模型之一,生成视频在动作细节和视频流畅度等方面相比以往公开模型有较大的提升,对文本Prompt的感知能力较强,能有效支持可控生成。
未来应用潜力:我们认为在当前多媒体类工作流程中,视频生成模型已可以应用于剧本背景设定、画面风格、剧情走向等内容的生产与快速效果验证,结合专业人员的图像处理和视频编辑工作,能更高效地产出Demo内容。文生视频类的模型,使得概念从想象和文字,到可视化效果验证的路径大幅度缩短了。
CogVideoX 2B 性能与效果
智谱AI使用了 VBench 中的多个指标,如人类动作、场景、动态程度等,以及Devil 中的 Dynamic Quality 和 Chrono-Magic 中的 GPT4o-MT Score两个专注于视频的动态特性的视频评估工具来评估CogVideoX的文生视频性能。
针对CogVideoX 2B主要理解内容为英文Prompt的情况,无问芯穹提供了一键翻译和润色Prompt能力。基于平台预置的大语言模型,将用户的中文描述内容自动转为英文,并进行相应的视频细节补充,使得模型可以在更丰富描述词的基础上生成相应的内容。
GenStudio大模型服务平台
GenStudio内置于无问芯穹Infini-AI异构云平台,现已上架包括CogVideoX 2B、Llama 3.1 70B、Qwen2 72B、GLM4 9B、Stable Diffusion在内的多种大语言模型、文生图及文生视频模型。GenStudio针对生成式大模型的应用落地的多种场景需求,为应用开发者提供高性能、易上手、安全可靠的大模型服务,覆盖从大模型开发到大模型服务化部署的全流程。
使用GenStudio时,大模型应用开发团队无需关注机器、开发环境等大模型开发要素,可以直接在这个平台上体验、对比各种模型能力和芯片效果,通过简单拖拽各种参数按钮的动作,精调出更贴合业务的大模型并完成部署,最快三天就可开发一个大模型应用。GenStudio已成功帮助多个团队有效降低技术负担、提高了调试效率并简化了开发流程。