在矩池云使用智谱情感语音模型GLM-4-Voice,详细指南
GLM-4-Voice 是智谱 AI 推出的端到端语音模型。GLM-4-Voice 能够直接理解和生成中英文语音,进行实时语音对话,并且能够遵循用户的指令要求改变语音的情感、语调、语速、方言等属性。本文将详细介绍,如何在GPU算力租赁平台矩池云上快速复现、跑通 GLM-4-Voice 项目,获取一个独享的AI语音智能助手。
GLM-4-Voice 是智谱 AI 推出的端到端语音模型。GLM-4-Voice 能够直接理解和生成中英文语音,进行实时语音对话,并且能够遵循用户的指令要求改变语音的情感、语调、语速、方言等属性。
本文将详细介绍,如何在GPU算力租赁平台矩池云上快速复现、跑通 GLM-4-Voice 项目,获取一个独享的AI语音智能助手。
上传模型和数据
租用的亚太区机器可以直接访问huggingface,在线下载模型和数据,无需操作以下步骤。
GLM-4-Voice 的模型放在Huggingface,租用国内服务器直接运行下载可能很慢,所以我们需要提前本地下载好,然后上传到矩池云网盘再租用机器使用。
https://huggingface.co/THUDM/glm-4-voice-9b
本地下载好后,把相关文件上传到矩池云网盘即可,之后再根据项目需求进行调用。
租用机器
本次复现先使用的是亚太1区 NVIDIA RTX 4090 配置环境,镜像使用的是 Pytorch 2.3.1,选择好机器和镜像后,在高级选项–自定义一个http协议的 8080 端口,然后点击租用即可。
使用亚太1区的可以无感连 Github 和 HuggingFace,克隆 Github 代码或者下载Huggingface 模型很快。
租用成功后我们可以在租用页面看到机器的 SSH、Jupyterlab 等链接,矩池云官网有详细的教程介绍了如何使用这些链接连接服务器。
配置环境
clone 代码
经常修改的代码和数据集建议放矩池云网盘,Linux 系统实例中网盘对应机器中的 /mnt
目录,永久存储,可以离线上传下载数据。
我们点击 Jupyterlab 链接即可直接访问服务器,新建一个 Terminal,输入以下指令 clone 项目。
# 进入网盘目录,我复现项目代码会归纳在一起 /mnt/example/,你改成自己目录即可
cd /mnt/example/
# clone 代码
git clone --recurse-submodules https://github.com/THUDM/GLM-4-Voice
安装依赖
安装 requirements.txt 里的依赖和 torch,按以下指令输入即可:
# 进入项目目录
cd GLM-4-Voice
# 安装依赖
conda create -n glm python=3.10
conda activate glm
pip install -r requirements.txt
pip install gradio==4.44.1
看到最后警告信息不用管,意思是不建议你在 root 权限下操作安装,实际是安装成功了的。
安装需要的手动下载的模型:
apt update
apt install git-lfs
git lfs install
git clone https://huggingface.co/THUDM/glm-4-voice-decoder
运行项目
输入以下指令运行项目:
python model_server.py --model-path THUDM/glm-4-voice-9b
等服务完全启动后,如下图:
再新建一个 terminal ,输入以下指令启动 webui 服务:
conda activate glm
python web_demo.py --port 8080
启动成功后,即可访问租用页面 8080 端口链接。
在页面中可以选择对话,或者录音发送、文本发送,写好后点击 Submit
即可开启推理。
推理过程显存占用21G左右,GPU利用率 100%。
平均一个问答回复在10s左右,提交后会生成回复并音频对话形式播出,我试了文本和录音交流,效果都不错。
文本对话测试
q: 矩池云是一个什么平台?
a: 矩池云是一个云计算平台,提供各种云服务,比如计算、存储、数据库等等。你可以用它来构建和部署应用程序,也可以存储和管理数据。特别适合开发者和企业使用。
录音对话测试
q: 我需要4090的显卡在矩池云上可以租到吗?
a: 是的,NVIDIA的显卡在矩池云上是可以使用的。矩池云提供NVIDIA的显卡服务,你可以选择不同的配置来满足需求。你可以选择使用NVIDIA的显卡进行数据分析、机器学习、深度学习等任务。不过,具体的费用和配置你可能需要去矩池云官网查看哦。
保存环境
在矩池云配置好环境后,暂时不用的话,可以租用页面点击更多–保存到个人环境,这样下次从保存环境启动不需要重新配置环境。
取一个环境名称,然后勾选保存成功后自动释放机器
,再点击保存环境
即可。
保存成功后下次即可快速从保存环境启动啦。
如果你复现有什么问题,或者有什么AI项目复现需求,欢迎评论交流,知无不言。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)