简介
Vimi是由商汤科技推出的全球首款面向消费者(C端)的可控人物视频生成AI工具。它基于商汤日日新大模型体系,能够通过单张照片、动作视频、文字描述甚至语音指令,生成高一致性的分钟级人物动态视频。无论是表情管理、肢体动作还是场景细节,Vimi都能精准还原用户需求,特别适合短视频创作、虚拟偶像运营、广告制作等场景。
特点
1. 多模态驱动:支持照片、视频、文字、声音等多种输入方式,用户可自由组合创意元素生成个性化视频。
2. 微表情控制:精准捕捉睫毛颤动、唇部开合等细节,实现电影级的面部表情管理。
3. 场景自适应:自动生成与人物动作匹配的服饰褶皱、光影变化及背景环境,确保画面真实感。
4. 长镜头稳定:突破AI视频时长限制,可生成60秒以上的单镜头连续视频,避免画面跳变或失真。
如何使用
步骤一:访问商汤科技官网进入Vimi专题页,完成实名认证与创作需求问卷。
步骤二:上传人物正脸高清照片(建议分辨率≥1080P),系统自动生成3D人脸建模。
步骤三:选择驱动模式——可上传参考视频、输入动作描述文本或录制语音指令。
步骤四:在编辑界面调整细节参数,包括肢体幅度、场景复杂度、渲染精细度等。
步骤五:提交生成任务,通常5-15分钟即可在个人中心下载高清视频文件。
价格
目前提供三种服务套餐:
基础版:免费体验每月3次720P视频生成(限30秒内)
专业版:199元/月,支持1080P高清渲染及商业授权
企业定制:按项目需求提供4K分辨率、多角色交互等高级功能
创作技巧
1. 拍摄原始照片时尽量选择纯色背景,避免复杂图案干扰AI识别
2. 动作描述建议采用"形容词+部位+动作"结构,例如"缓慢抬起右臂45度"
3. 长视频创作可采用分镜模式,每段控制在15秒内再无缝拼接
4. 启用光影同步功能时,优先使用侧光环境拍摄原始素材
常见问题
Q:支持哪些格式的原始素材?
A:目前接受JPG/PNG格式图片,MP4/MOV格式参考视频(≤100MB)
Q:生成视频的版权归属如何界定?
A:个人用户享有完整著作权,商用需购买专业版授权
Q:能否生成多人互动场景?
A:企业版支持最多5个角色的协同动作生成,需提前配置角色关系参数