session_id,必须先调用人脸识别接口获取。
工作流概览
输入方式
文本驱动——内置 TTS
提供text、voice_id 和 voice_language,平台使用指定音色将文字合成为语音,再驱动嘴型。
音频驱动——使用已有音频文件
提供audio_url,直接用音频文件驱动嘴型。
请求参数
| 参数 | 类型 | 必填 | 说明 |
|---|---|---|---|
input.session_id | string | ✅ | 人脸识别步骤返回的会话 ID |
input.face_image_url | string | 否 | 人脸参考图片 URL,用于提升人物一致性 |
input.text | string | 文本模式必填 | 人物要说的文字内容 |
input.voice_id | string | 文本模式必填 | TTS 音色 ID。可查阅音色 ID 参考文档在线试听并选择合适的音色。 |
input.voice_language | string | 文本模式必填 | 语言代码:zh(中文)或 en(英文) |
input.audio_url | string | 音频模式必填 | 音频文件的公网 URL |
轮询结果
任务创建后,使用GET /kling/v1/videos/advanced-lip-sync/{task_id} 查询状态,参考任务查询文档。状态流转:queued → processing → succeeded / failed。
成功后,视频下载链接在 data.data.task_result.videos[0].url。
前置步骤:人脸识别
必须先调用此接口获取 session_id。
音色 ID 参考文档
在线试听所有可用音色,选择适合的 voice_id 参数值。
API 参考
查看 Kling 对口型生成的交互式 API 文档。