通义万象视频生成示例
以下示例展示如何使用通义万象(Qwen)视频生成模型通过 OpenAI 兼容接口生成高质量的视频内容。 通义万象视频生成分为三个步骤:- 创建视频生成任务 - 提交生成请求,获得任务ID
- 查询任务状态 - 定期检查任务进度
- 下载生成的视频 - 任务完成后下载视频文件
支持的参数
通用参数
- model: 使用的模型名称
- prompt: 视频描述文本(文生视频场景必需设置,支持中英文)
- size (string, 可选): 指定生成的视频分辨率,格式为宽x高
- 重要: size 直接影响费用,费用 = 单价(基于分辨率)× 时长(秒)。同一模型下:1080P > 720P > 480P,请在调用前确认模型价格
- size 必须设置为具体数值(如1280x720),而不是1:1或480P
- 该参数的默认值和可用枚举值依赖于 model 参数
- 图生视频场景特别说明:在图生视频的场景(包括首帧、首尾帧),size 参数不支持控制宽高比,只能用于设置清晰度档位(总像素)。比如,希望视频的清晰度为1080P 这个档位,可以把 size 设置为1920x1080 或1080x1920,但实际输出视频的宽高比由输入首帧图像决定
- 480P档位:832x480(16:9)、480x832(9:16)、624x624(1:1)
- 720P档位:1280x720(16:9)、720x1280(9:16)、960x960(1:1)、1088x832(4:3)、832x1088(3:4)
- 1080P档位:1920x1080(16:9)、1080x1920(9:16)、1440x1440(1:1)、1632x1248(4:3)、1248x1632(3:4)
- seconds (string, 可选): 生成视频的时长,单位为秒
- 重要: seconds直接影响费用。费用 = 单价(基于分辨率)× 时长(秒),请在调用前确认模型价格
- wan2.5-t2v-preview: 可选值为”5”和”10”,默认值为”5”
- wan2.2-t2v-plus: 固定为”5”秒,且不支持修改
- wanx2.1-t2v-plus: 固定为”5”秒,且不支持修改
- wanx2.1-t2v-turbo: 固定为”5”秒,且不支持修改
- 示例值:“5”
- content.text (string, 可选): 视频描述文本,用于指导视频生成的内容和风格
- 使用说明: 在使用content 数组格式时,通过 text 类型的content 元素来传递视频描述
- 支持语言: 中文和英文
- 内容要求: 描述应该详细、具体,有助于模型理解所需生成的视频内容
- 与prompt 的关系: 二选一即可
- 示例值:“一只可爱的小猫在花园里玩耍,阳光明媚,画面温馨”
- content.image_url.url (string, 可选): 输入图像的公网可访问的HTTP/HTTPS链接
- 重要: 链接不能包含中文等非ASCII字符,否则需要进行编码后再传递
- 本地文件: 可通过上传文件获取临时URL
- 格式: JPG、JPEG、PNG、BMP、WEBP
- 尺寸: 图像的宽度和高度都在[200,4096]像素范围内,宽高比在1:3到3:1范围内
- 文件大小: 不超过20MB
- 内容: 画面中仅有一人,正对镜头,人脸完整无遮挡,且在画面中的占比适中,避免过大或过小
- 示例值:https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250919/adsyrp/move_input_image.jpeg
- content.audio_url.url (string, 可选): 音频设置:通过content.audio_url.url和audio参数组合控制音频行为,参数优先级:audio_url > audio。支持三种模式:
- 生成无声视频: 参数设置:不传audio_url,且 audio 为false。适用场景:纯视觉内容展示,后期自行添加音频或配乐
- 自动生成音频: 参数设置:不传audio_url,且 audio 为true。效果说明:模型根据提示词和画面内容,自动生成匹配的背景音频或音效
- 使用自定义音乐: 参数设置:传入audio_url(此时audio参数无效)。效果说明:视频画面会与音频内容对齐(如口型、节奏等)
- 示例值:https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250923/hbiayh/%E4%BB%8E%E5%86%9B%E8%A1%8C.mp3
Qwen 扩展参数
-
prompt_extend (boolean, 可选): 是否开启prompt智能改写。开启后使用大模型对输入prompt进行智能改写。对于较短的prompt生成效果提升明显,但会增加耗时
- true: 默认值,开启智能改写
- false: 不开启智能改写
- 示例值:true
-
watermark (boolean, 可选): 是否添加水印标识,水印位于视频右下角,文案固定为”AI生成”
- false: 默认值,不添加水印
- true: 添加水印
- 示例值:false
-
audio (boolean, 可选): 仅wan2.5-t2v-preview 支持。是否添加音频。参数优先级:content.audio_url.url > audio,仅在content.audio_url.url为空时生效
- true: 默认值,自动为视频添加音频
- false: 不添加音频,输出无声视频
- 示例值:true
-
seed (integer, 可选): 随机数种子,取值范围为[0, 2147483647]。未指定时,系统自动生成随机种子。若需提升生成结果的可复现性,建议固定seed值。请注意,由于模型生成具有概率性,即使使用相同 seed,也不能保证每次生成结果完全一致
- 示例值:12345
文生视频模型介绍
以下是通义万象文生视频支持的各个模型及其规格说明:| 模型名称 | 模型简介 | 输出视频规格 |
|---|---|---|
| wan2.5-t2v-preview 🌟推荐 | 万相2.5 preview(有声视频) 新增音频能力:支持自动配音,或传入自定义音频文件 | • 分辨率档位:480P、720P、1080P • 视频时长:5秒,10秒 • 固定规格:24fps、MP4 (H.264编码) |
| wan2.2-t2v-plus 🌟推荐 | 万相2.2专业版(无声视频) 较2.1模型稳定性与成功率提升,速度提升50% | • 分辨率档位:480P、1080P • 视频时长:5秒 • 固定规格:30fps、MP4 (H.264编码) |
| wanx2.1-t2v-turbo | 万相2.1极速版(无声视频) | • 分辨率档位:480P、720P • 视频时长:5秒 • 固定规格:30fps、MP4 (H.264编码) |
| wanx2.1-t2v-plus | 万相2.1专业版(无声视频) | • 分辨率档位:720P • 视频时长:5秒 • 固定规格:30fps、MP4 (H.264编码) |
步骤1:创建视频生成任务
响应示例
步骤2:查询任务状态
状态响应示例
排队中步骤3:下载生成的视频
使用音频背景音乐示例
注意: 音频背景音乐功能仅支持wan2.5-i2v-preview 和wan2.5-t2v-preview 模型。
图生视频模型介绍
以下是通义万象图生视频支持的各个模型及其规格说明:| 模型名称 | 模型简介 | 输出视频规格 |
|---|---|---|
| wan2.5-i2v-preview 🌟推荐 | 万相2.5 preview(有声视频) 新增音频能力:支持自动配音,或传入自定义音频文件 | • 分辨率档位:480P、720P、1080P • 视频时长:5秒,10秒 • 固定规格:24fps、MP4 (H.264编码) |
| wan2.2-i2v-flash | 万相2.2极速版(无声视频) 较2.1模型速度提升50% | • 分辨率档位:480P、720P、1080P • 视频时长:5秒 • 固定规格:30fps、MP4 (H.264编码) |
| wan2.2-i2v-plus | 万相2.2专业版(无声视频) 较2.1模型稳定性与成功率全面提升 | • 分辨率档位:480P、1080P • 视频时长:5秒 • 固定规格:30fps、MP4 (H.264编码) |
| wanx2.1-i2v-plus | 万相2.1专业版(无声视频) | • 分辨率档位:720P • 视频时长:5秒 • 固定规格:30fps、MP4 (H.264编码) |
| wanx2.1-i2v-turbo | 万相2.1极速版(无声视频) | • 分辨率档位:480P、720P • 视频时长:3秒、5秒 • 固定规格:30fps、MP4 (H.264编码) |
图生视频-首帧示例
通义万象支持基于图片生成视频(首帧生成),以下是图生视频-首帧的示例:图生视频-首尾帧示例
通义万象支持基于首帧和尾帧图片生成视频,以下是首尾帧生成视频的示例:图生动作示例
通义万象支持基于图片和视频生成动作视频,通过wan2.2-animate-move 模型实现图生动作功能。
图生动作参数
- mode (string, 图生动作场景必需): 用于图生动作场景。模型服务模式选择,支持两种模式:
- wan-std: 标准模式,生成速度较快,性价比高,适用于快速预览和基础动画场景,处理1s视频耗时约1s
- wan-pro: 专业模式,动画流畅度更高,效果更佳,但处理时间和费用也相应增加,处理1s视频耗时约3s
- 示例值:“wan-std”
图生动作模型说明
| 模型名称 | 模型简介 | 功能特点 |
|---|---|---|
| wan2.2-animate-move | 万相2.2动作生成模型 | • 基于图片和参考动作视频生成动态视频 • 支持标准模式和专业模式 • 适用于人物动作迁移和动画制作 |
支持的模式
- wan-std: 标准模式,生成速度较快,性价比高,适用于快速预览和基础动画场景,处理1s视频耗时约1s
- wan-pro: 专业模式,动画流畅度更高,效果更佳,但处理时间和费用也相应增加,处理1s视频耗时约3s
视频特效示例
通义万象支持基于首帧图片生成带有特效的视频,可以通过template 参数指定不同的视频特效模板:
视频特效参数
- template (string, 可选): 通过 template 参数从特效列表中选择一个动态效果。模型将根据模板生成指定的动态效果:
- 示例值:“hanfu-1”
支持的视频特效模板
更多特效模板请参考阿里云万相视频特效文档,获取最新的特效模板列表和使用说明。
视频编辑-多图参考示例
通义万象支持基于多张参考图像生成视频,可以分别指定主体和背景参考,以下是多图参考视频编辑的示例。多图参考参数
- obj_or_bg (array[string], 可选): 该参数用于标识每张参考图像的用途,与参考图像一一对应。数组中每个元素表示对应位置的图像为”主体”还是”背景”。
- obj: 表示该图像作为主体参考
- bg: 表示该图像作为背景参考(最多仅允许一个)
- 使用说明:建议传入该参数,且长度必须与参考图像数量保持一致,否则将报错。仅当参考图像为单元素时,可不传,此时默认值为 [“obj”]
- 示例值:[“obj”, “bg”]
视频编辑-视频重绘示例
通义万象支持基于已有视频进行重绘,通过输入一个视频片段和文本描述,结合特征提取控制,可以生成新的视频内容。这种功能特别适用于需要保持原视频动作或构图的同时改变视频内容风格的场景。视频重绘参数
视频重绘功能支持以下参数,用于控制视频特征提取和重绘强度:-
control_condition (string, 必需): 设置视频特征提取的方式,用于视频重绘功能
- posebodyface: 提取输入视频中主体的脸部表情和肢体动作,适用于需保留主体表情细节的场景
- posebody: 提取输入视频中主体的肢体动作(不含脸部表情),适用于只需要控制主体身体动作的场景
- depth: 提取输入视频的构图和运动轮廓
- scribble: 提取输入视频的线稿结构
- 示例值:“depth”
-
strength (float, 可选): 调节 control_condition 所指定的视频特征提取方式对生成视频的控制强度
- 默认值为1.0,取值范围[0.0, 1.0]
- 数值越大,生成视频越贴近原视频动作和构图
- 数值越小,生成内容越自由
- 示例值:1.0
视频编辑-局部重绘示例
通义万象支持基于掩码图像进行视频局部重绘,通过输入视频、掩码图像和文本描述,可以对视频中的特定区域进行编辑,而保持其他区域不变。这种功能特别适用于需要对视频中某个特定对象或区域进行样式变换的场景。局部重绘参数
视频局部重绘功能支持以下参数,用于控制掩码区域的行为和编辑效果:-
mask_type (string, 可选): 当使用掩码图像时,该参数用于指定编辑区域的行为方式
- tracking(默认值): 编辑区域将根据目标物体的运动轨迹动态跟随,适用于主体运动场景
- fixed: 编辑区域保持固定不变,不会随画面内容变化
- 示例值:“tracking”
-
expand_ratio (float, 可选): 当mask_type 为tracking 时生效,表示对掩码区域进行向外扩展的比例
- 取值范围为 [0.0, 1.0],默认值为 0.05
- 取值越小,掩码区域越贴合目标物体;取值越大,掩码区域的扩展范围越大
- 示例值:0.05
-
expand_mode (string, 可选): 当mask_type 为tracking 时生效,表示掩码区域的形状
- hull(默认值): 多边形模式,使用一个多边形包裹掩码目标
- bbox: 边界框模式,使用一个矩形包裹掩码目标
- original: 原始模式,尽量保持与原始掩码目标的形状一致
- 示例值:“hull”
-
mask_frame_id (integer, 可选): 指定掩码对应的视频帧ID,用于局部编辑功能
- 示例值:1
视频延展示例
通义万象支持基于已有视频进行延展,通过输入一个视频片段和文本描述,可以生成延展后的视频内容。这种功能特别适用于需要扩展现有视频长度或改变视频内容的场景。视频编辑-视频画面扩展示例
通义万象支持基于已有视频进行画面扩展,通过设置不同方向的扩展比例,可以扩大视频的可视范围,生成更宽广的画面内容。这种功能特别适用于需要扩展视频画面、增加背景内容的场景。画面扩展参数
视频画面扩展功能支持以下参数,用于控制不同方向的扩展比例:-
top_scale (float, 可选): 设置顶部扩展比例
- 取值范围:[1.0, 2.0],默认值为1.0(不扩展)
- 数值越大,顶部扩展范围越大
- 示例值:1.5
-
bottom_scale (float, 可选): 设置底部扩展比例
- 取值范围:[1.0, 2.0],默认值为1.0(不扩展)
- 数值越大,底部扩展范围越大
- 示例值:1.5
-
left_scale (float, 可选): 设置左侧扩展比例
- 取值范围:[1.0, 2.0],默认值为1.0(不扩展)
- 数值越大,左侧扩展范围越大
- 示例值:1.5
-
right_scale (float, 可选): 设置右侧扩展比例
- 取值范围:[1.0, 2.0],默认值为1.0(不扩展)
- 数值越大,右侧扩展范围越大
- 示例值:1.5
视频换人示例
通义万象支持基于图片和参考视频进行视频换人,通过wan2.2-animate-mix 模型可以将输入图片中的人物融入到参考视频的动作中,实现人物替换效果。
视频换人参数
- mode (string, 视频换人场景必需): 用于视频换人场景。模型服务模式选择,支持两种模式:
- wan-std: 标准模式,生成速度较快,性价比高,适用于快速预览和基础换人场景
- wan-pro: 专业模式,换人效果更佳,但处理时间和费用也相应增加
- 示例值:“wan-std”
视频换人模型说明
| 模型名称 | 模型简介 | 功能特点 |
|---|---|---|
| wan2.2-animate-mix | 万相2.2换人模型 | • 基于输入人物图片和参考动作视频生成换人视频 • 支持标准模式和专业模式 • 适用于人物替换和动作迁移场景 |
支持的模式
- wan-std: 标准模式,生成速度较快,性价比高,适用于快速预览和基础换人场景
- wan-pro: 专业模式,换人效果更佳,面部一致性更高,但处理时间和费用也相应增加
使用说明
视频换人功能需要提供两个输入:- 人物图片: 需要替换到视频中的目标人物照片
- 参考视频: 包含动作和场景的原始视频

