在矩池云使用TANGO生成数字人视频,详细指南
TANGO是一个由CyberAgentAILab开发的开源项目,专注于共语手势视频重演技术,它通过分层音频-运动嵌入和扩散插值技术来实现。该项目提供了训练代码、推理代码、处理过的视频数据以及创建手势图的脚本。本文将详细介绍,如何在GPU算力租赁平台矩池云上快速复现、跑通 TANGO 项目,便捷的生成自己的数字人视频。
TANGO是一个由CyberAgentAILab开发的开源项目,专注于共语手势视频重演技术,它通过分层音频-运动嵌入和扩散插值技术来实现。该项目提供了训练代码、推理代码、处理过的视频数据以及创建手势图的脚本。
本文将详细介绍,如何在GPU算力租赁平台矩池云上快速复现、跑通 TANGO 项目,便捷的生成自己的数字人视频。
租用机器
本次复现先使用的是亚太1区 NVIDIA RTX 4090 配置环境,镜像使用的是 Pytorch 2.3.1,选择好机器和镜像后,在高级选项–自定义一个http协议的 8675 端口,然后点击租用即可。
使用亚太1区的可以无感连 Github 和 HuggingFace,克隆 Github 代码或者下载Huggingface 模型很快。
租用成功后我们可以在租用页面看到机器的 SSH、Jupyterlab 等链接,矩池云官网有详细的教程介绍了如何使用这些链接连接服务器。
配置环境
clone 代码
经常修改的代码和数据集建议放矩池云网盘,Linux 系统实例中网盘对应机器中的 /mnt
目录,永久存储,可以离线上传下载数据。
我们点击 Jupyterlab 链接即可直接访问服务器,新建一个 Terminal,输入以下指令 clone 项目。
# 进入网盘目录,我复现项目代码会归纳在一起 /mnt/example/,你改成自己目录即可
cd /mnt/example/
# clone 代码
git clone https://github.com/CyberAgentAILab/TANGO.git
cd TANGO
git clone https://github.com/justinjohn0306/Wav2Lip.git
git clone https://github.com/dajes/frame-interpolation-pytorch.git
安装依赖
创建conda环境,按以下指令输入即可:
# 这句rm指令是清除镜像里默认配置的国内pip、conda镜像源,
# 如果你租用的不是亚太1区的机器,不用运行这句
rm ~/.condarc
rm /root/.config/pip/pip.conf /root/.pip/pip.conf
# 创建新环境
conda create -n tango python==3.9.20
安装 python 依赖包。
conda activate tango
# 安装相关依赖
pip install -r ./pre-requirements.txt
pip install -r ./requirements.txt
除了 Pyhton 依赖还需要安装一个处理视频的系统依赖 ffmpeg,
# 这句sed指令是将默认的腾讯原换成官方的,
# 如果你租用的不是亚太1区的机器,不用运行这句
sed -i 's|http://mirrors.cloud.tencent.com/ubuntu/|http://archive.ubuntu.com/ubuntu|g' /etc/apt/sources.list
apt update
apt install ffmpeg -y
运行项目
环境都配置好,我们先在项目目录下点击打开 app.py,将原来if __name__ == "__main__":
内容改成下面内容,主要修改:
- 设置了MASTER_ADDR为 0.0.0.0
- 设置了 gradio 启动 server_name和server_port
if __name__ == "__main__":
# os.environ["MASTER_ADDR"] = "127.0.0.1"
os.environ["MASTER_ADDR"] = "0.0.0.0"
os.environ["MASTER_PORT"] = "8675"
demo = make_demo()
demo.launch(share=False, server_name="0.0.0.0", server_port=8675)
修改好后,在terminal项目目录下输入以下指令运行项目:
python app.py
第一次运行需要先下载需要的模型文件。
启动成功后,即可访问租用页面 8675 端口链接。
页面上首先显示的是官方给的一些生成视频案例。
页面下面可以看到语音上传区域和视频上传区域,上传好后可以点击Generate Video
开始合成。
推理过程显存占用8G左右,GPU利用率 60%左右。
运行完成后会在页面中显示生成视频,和动作文件。
数字人音频+视频结合效果,中文口型效果差点,英文口型效果还不错,但肢体语言基本和上传的参考视频一致。
tango 算法测试效果
保存环境
在矩池云配置好环境后,暂时不用的话,可以租用页面点击更多–保存到个人环境,这样下次从保存环境启动不需要重新配置环境。
取一个环境名称,然后勾选保存成功后自动释放机器
,再点击保存环境
即可。
保存成功后下次即可快速从保存环境启动啦。
如果你复现有什么问题,或者有什么AI项目复现需求,欢迎评论交流,知无不言。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)