手把手教你部署 AAVT ( •̀ ω •́ )✧
Chenyme-AAVT 是一个开源的全自动(音频)视频翻译项目。它通过 Whisper 来识别视频字幕,支持使用大语言模型翻译字幕,并通过FFmpeg驱动字幕与视频合并,一键生成翻译后的视频。现在我已将部署和使用教程全部重制并优化,希望对你有所帮助!
【Part1 我的介绍】
关于我
你好,我是 chenyme!一位普通大学生。目前在备考研究生,时间精力比较有限,所以项目还存在很多不足之处未能及时优化,还请大家理解!项目现阶段虽然不是那么完美,但请在批评或建议时给予最起码的尊重~感谢🙏
本项目完全开源且免费,请不要相信任何关于此项目的收费内容,有更好的建议、需求或疑问可以前往 AAVT 交流学习 ,或直接在文章的对应段落处评论反馈!
关于项目
Chenyme-AAVT 全自动视频翻译项目 致力于提供一个简便高效且免费的媒体识别与翻译自动化流程,帮助您快速完成音视频字幕的识别、翻译和处理等多种功能,当然目前项目已经不仅仅是帮您识别并翻译声音,还可以自动化生成营销图文、对字幕单独翻译。计划未来会基于现有基本功能继续加入更多有意思的工具,比如 实时识别、口型校正、声音克隆、音色辨别 等等,敬请期待!
项目亮点:
- 支持识别和翻译多种语言
- 支持 全流程本地化、免费化部署
- 支持对视频 一键生成博客内容、营销图文
- 支持 自动化翻译、二次修改字幕、预览视频
- 支持开启 GPU 加速、VAD 辅助、FFmpeg 加速
- 支持使用 ChatGPT、Claude、Gemini、DeepSeek 等众多大模型翻译引擎
【Part2 部署教程】
Windows 部署
1. 安装 Python
请确保Python版本高于3.8,建议不要安装过新或过老的Python版本,在 3.8-3.11 即可,否则可能会出现未知问题!
下载 Python
前往 Python官网 下载 python 安装包,我本人使用的是 3.11.9 版本供参考,如果你翻译需要使用谷歌 Gemini 的 API 服务,请务必下载高于 3.9 的 Python版本 !
勾选添加到环境
选择适合自己的 python 版本下载后就可以直接进行安装,要注意的是:安装时,请务必勾选 ADD Python 3.xx.x to PATH ,这样才能让python添加到系统环境,否则后面使用脚本安装时会报错找不到 Pip 模块,从而导致失败!
2. 安装 FFmpeg
下载 FFmpeg
请前往 FFmpeg 官网 下载编译好的 Windows 版本。
推荐使用我在 GitHub Release 中发布的 Win 版本,这个版本是包含上述的 FFmpeg 的版本。如果你下载的是此版本,可跳过上方的下载步骤。
配置 FFmpeg 环境变量
首先,win+R
打开系统运行对话框,接着键入 rundll32 sysdm.cpl,EditEnvironmentVariables
,点击确定会自动打开环境变量设置界面。
继续在设置界面的 用户变量 中找到 Path
那一行,点击右侧 新建
,键入刚刚下载的 FFmpeg\bin
的所在路径(示例:D:\APP\ffmpeg\bin
)
3. 安装 CUDA
使用 CPU 部署的用户可以跳过此项步骤
查看 CUDA 支持
首先,查看显卡的 CUDA 支持,Win+R
键入 CMD
,调出命令提示符,输入 nvidia-smi
回车,在系统返回的信息的右上角显示的 CUDA Version
即为显卡 CUDA 程序的 最高支持版本 !
如下图红框所示,版本向下兼容。
下载 CUDA 程序
接着前往 NVIDIA 官网下载 CUDA ,个人推荐的 CUDA 版本为CUDA11.8、CUDA12.1 、CUDA12.4。
运行并检验安装
下载完毕后点击运行,直接安装,不推荐更改安装目录。
等待安装完毕后,我们继续 Win+R
调出 CMD
,在对话框内输入 nvcc --version
回车,等待返回信息,如果正常显示版本即为成功。
4. 安装依赖
推荐使用 CUDA 部署的用户挂梯子下载,否者下载 CUDA版本的 Pytorch 会很慢。
点击运行 1_install.bat
,耐心等待启动。
安装执行后,会先检测你是否正确配置了Python、FFMpeg,如果出现ERROR,请阅读前面的安装步骤,查看是否有步骤遗漏或错误。
根据提示选择适合你的 Pytorch版本号 和 CUDA版本,输入对应的数字即可继续,若您运行遇到 OSError: [WinError 126] Not found fbgemm.dll时,请选择修复版本。
选择完毕后耐心等待下载完成即可
5. 启动 WebUI
找到 2_Webui.bat
,点击运行,等待拉起 UI 页面。如果没有自动跳转,请自行在浏览器输入 http://localhost:8501/
。
输入chenymeaavt
即可进入项目(此为新版本的保护功能,可在设置中自由关闭)
Mac平台部署方法
1. 安装 Python
前往 Python官网 下载Mac版本的 python PGK 安装包,如果你翻译需要使用谷歌 Gemini 的 API 服务,请务必下载高于 3.9 的 Python版本 !
下载后运行安装,页面内选择标准安装
2. 安装 Brew
终端中使用下面的命令进行一键安装 brew
3. 安装 FFMpeg
终端中使用下面的命令进行一键安装 FFMpeg
4. 安装依赖
前往 Release 页面下载 Mac
的最新发行版 (Mac/Small),然后cd 到项目根路径输入
5. 启动 WebUI
输入 chenymeaavt
进入项目(此为新版本的保护功能,可关闭),WebUI 会自动拉起,若没有自动跳转请手动在浏览器输入localhost:8501
Linux 部署
具体使用方法,请查阅:📖 issues/36,由 @dhlsam 提供支持!
Google Colab 部署
具体使用方法,请查阅:📖 Google Colab ,由 @Kirie233 提供支持!
Docker 部署
具体使用方法,请查阅:📖 使用方法,由 @Eisaichen 提供支持!
注:目前 项目最新版本为 V0.9.0 此 Docker 方法的版本为 V0.8.x。
【Part3 功能指南】
1. 全流程使用教程
由于很多朋友安装后并不知道如何正确使用项目䣌全流程,因此我在本文加入具体的使用方法和一些说明,以便各位更好的使用。下面是每个页面的基本功能分区,所有模块页面风格都与这个类似
首先你需要明白,识别和翻译这是两个完全不同的模型,识别模型是用Whisper模型进行处理,翻译模型是自己本地部署的LLMs模型或者大模型服务商的API调用,所以你必须配置好这两个才能进行识别+翻译。
配置识别后端
您需要必须先配置识别后端方法,可前往 设置-识别设置
中选择您需要使用的识别后端。
配置翻译引擎
如果您需要使用翻译功能,请前往 设置-翻译设置
中先配置您的翻译引擎。
目前支持 OPENAI、MoonShot、ChatGLM、DeepSeek、Gemini、零一万物、Claude、本地模型调用和全局模型调用,如需支持其他模型请提issue或使用 LOCAL 本地自定义模型和服务(此方法仅支持 OpenAI SDK 调用方式)。
选择功能模块
在页面左侧边栏选择您需要使用的功能,下面将以 媒体识别
功能为例,目前上线的功能为
调整模块参数
上述所有模块对应的参数均可以细节调整,比如识别的模型、使用的引擎、视频生成的样式、字幕的样式、图文博客生成的风格......等等,均可以在每个模块页面的参数设置中调整具体参数。
上传视频并运行
文件上传按钮统一规定在 Tool/工具-上传文件
中,一般放置在工具栏的第一个。而开始识别/执行任务按钮,一般放置在页面右上方
点击文件上传,上传您需要进行识别的文件,然后点击右上方的开始识别即可使用。
此方法修改后可以再次合并字幕。如果您觉得字幕效果不好,可以使用方案二,先调整好字幕后再合并,减少方案一中不必要的过程。
2. 本地模型识别
由于国内访问Huggingface不稳定,使用时下载模型经常崩溃,因此做了本地加载接口,方便国内使用。或者有的时候想用自己的微调模型,那么你也可以用本地加载模型功能。
下载本地模型
可前往 Systran 下载适合您的本地模型,下载时请仔细检查所有模型文件,必须包含以下文件才能运行!
config.json
、model.bin
、README.md
、tokenizer.json
、vocabulary.txt
放入本地模型
请将下载好的模型文件,放入项目目录 ..\AAVT_0.9.x\model\faster-whisper
的任意一个自定义的文件夹下,请务必保证包含所有上述的必要文件!
注:如果您想放在其他位置,请务必及时前往 设置-识别设置 选择 FasterWhisper - LocalModel 模式,修改模型路径
使用本地模型
3. 预置提示词
预置提示词是为了适应不同模型的能力而开发的,您可以在翻译时选择需要的预置提示词进行翻译,以获得更好的翻译体验。
更换预置提示词
新建提示词
点击下方的新建提示词即可新建。提示词规则:你在写提示词时请务必保留 {language1}
和 {language2}
这两个参数,以便自动匹配到你设置的原始语言和目标语言。
【Part4 闲话漫谈】
Q&A 项目问题
我已经整理并更新了一些使用中的常见问题,您可以直接前往 AAVT 常见问题 查找相关资料,或者可以前往AAVT 交流学习 中交流提问。
Feedback 反馈提问
本项目完全开源且免费,请不要相信任何关于此项目的收费内容,有更好的建议、需求以及疑问都可以前往AAVT 交流学习 中交流提问,或者登录我的博客站,在具体疑问步骤的对应段落处直接评论提问!
Sponsor 赞助支持
由于一直在准备考研,所以时间精力比较有限,项目还存在很多不足之处,这次也是抽空办了博客重写了项目文章,希望大家能够理解!
项目到现在也已经过去大半年了,期间经历了无数次的调试优化,如果项目对你有帮助,不妨给我买杯咖啡吧~您的支持是我更新最大的动力
我很喜欢吴恩达先生的开源精神,以后的我也会做更多更好用的开源项目给大家,再次感谢大家的喜欢,愿开源精神永存!