• 首页
  • 博客
  • 项目
  • 留言墙

动态更新

喜欢我的内容的话不妨订阅支持一下 🫶
加入其他 15 位订阅者,每月一封,随时可以取消订阅。

© 2025 Chenyme. ( •̀ ω •́ )✧GitHub

首页博客项目留言墙
总浏览量 2.8万
最近访客来自 Ashburn, US🇺🇸
  • 【Part1 我的介绍】
  • 关于我
  • 关于项目
  • 【Part2 部署教程】
  • Windows 部署
  • 1. 安装 Python
  • 2. 安装 FFmpeg
  • 3. 安装 CUDA
  • 4. 安装依赖
  • 5. 启动 WebUI
  • Mac平台部署方法
  • 1. 安装 Python
  • 2. 安装 Brew
  • 3. 安装 FFMpeg
  • 4. 安装依赖
  • 5. 启动 WebUI
  • Linux 部署
  • Google Colab 部署
  • Docker 部署
  • 【Part3 功能指南】
  • 1. 全流程使用教程
  • 2. 本地模型识别
  • 3. 预置提示词
  • 【Part4 闲话漫谈】
  • Q&A 项目问题
  • Feedback 反馈提问
  • Sponsor 赞助支持
手把手教你部署 AAVT ( •̀ ω •́ )✧
2024/08/08AI, Tool, AAVT

手把手教你部署 AAVT ( •̀ ω •́ )✧

Chenyme-AAVT 是一个开源的全自动(音频)视频翻译项目。它通过 Whisper 来识别视频字幕,支持使用大语言模型翻译字幕,并通过FFmpeg驱动字幕与视频合并,一键生成翻译后的视频。现在我已将部署和使用教程全部重制并优化,希望对你有所帮助!

1.5万次点击23分钟阅读

【Part1 我的介绍】

关于我

你好,我是 chenyme!一位普通大学生。目前在备考研究生,时间精力比较有限,所以项目还存在很多不足之处未能及时优化,还请大家理解!项目现阶段虽然不是那么完美,但请在批评或建议时给予最起码的尊重~感谢🙏

本项目完全开源且免费,请不要相信任何关于此项目的收费内容,有更好的建议、需求或疑问可以前往 AAVT 交流学习 ,或直接在文章的对应段落处评论反馈!

关于项目

Chenyme-AAVT 全自动视频翻译项目 致力于提供一个简便高效且免费的媒体识别与翻译自动化流程,帮助您快速完成音视频字幕的识别、翻译和处理等多种功能,当然目前项目已经不仅仅是帮您识别并翻译声音,还可以自动化生成营销图文、对字幕单独翻译。计划未来会基于现有基本功能继续加入更多有意思的工具,比如 实时识别、口型校正、声音克隆、音色辨别 等等,敬请期待!

项目亮点:

  • 支持识别和翻译多种语言
  • 支持 全流程本地化、免费化部署
  • 支持对视频 一键生成博客内容、营销图文
  • 支持 自动化翻译、二次修改字幕、预览视频
  • 支持开启 GPU 加速、VAD 辅助、FFmpeg 加速
  • 支持使用 ChatGPT、Claude、Gemini、DeepSeek 等众多大模型翻译引擎

【Part2 部署教程】

很久以前录的安装视频,仅供参考

Windows 部署

1. 安装 Python

请确保Python版本高于3.8,建议不要安装过新或过老的Python版本,在 3.8-3.11 即可,否则可能会出现未知问题!

  • 下载 Python

前往 Python官网 下载 python 安装包,我本人使用的是 3.11.9 版本供参考,如果你翻译需要使用谷歌 Gemini 的 API 服务,请务必下载高于 3.9 的 Python版本 !

python 官网下载

  • 勾选添加到环境

选择适合自己的 python 版本下载后就可以直接进行安装,要注意的是:安装时,请务必勾选 ADD Python 3.xx.x to PATH ,这样才能让python添加到系统环境,否则后面使用脚本安装时会报错找不到 Pip 模块,从而导致失败!

安装 python 时勾选添加到环境

2. 安装 FFmpeg

  • 下载 FFmpeg

请前往 FFmpeg 官网 下载编译好的 Windows 版本。

推荐使用我在 GitHub Release 中发布的 Win 版本,这个版本是包含上述的 FFmpeg 的版本。如果你下载的是此版本,可跳过上方的下载步骤。

Release 快速下载 FFmpeg

  • 配置 FFmpeg 环境变量

首先,win+R 打开系统运行对话框,接着键入 rundll32 sysdm.cpl,EditEnvironmentVariables,点击确定会自动打开环境变量设置界面。

打开环境变量设置

继续在设置界面的 用户变量 中找到 Path 那一行,点击右侧 新建,键入刚刚下载的 FFmpeg\bin 的所在路径(示例:D:\APP\ffmpeg\bin)

添加 FFmpeg Path

3. 安装 CUDA

使用 CPU 部署的用户可以跳过此项步骤

  • 查看 CUDA 支持

首先,查看显卡的 CUDA 支持,Win+R 键入 CMD ,调出命令提示符,输入 nvidia-smi回车,在系统返回的信息的右上角显示的 CUDA Version即为显卡 CUDA 程序的 最高支持版本 !

如下图红框所示,版本向下兼容。

Cuda-version

  • 下载 CUDA 程序

接着前往 NVIDIA 官网下载 CUDA ,个人推荐的 CUDA 版本为CUDA11.8、CUDA12.1 、CUDA12.4。

CUDA 11.8
  • 运行并检验安装

下载完毕后点击运行,直接安装,不推荐更改安装目录。

等待安装完毕后,我们继续 Win+R 调出 CMD ,在对话框内输入 nvcc --version 回车,等待返回信息,如果正常显示版本即为成功。

检查Cuda安装

4. 安装依赖

推荐使用 CUDA 部署的用户挂梯子下载,否者下载 CUDA版本的 Pytorch 会很慢。

点击运行 1_install.bat,耐心等待启动。

运行自动部署脚本

安装执行后,会先检测你是否正确配置了Python、FFMpeg,如果出现ERROR,请阅读前面的安装步骤,查看是否有步骤遗漏或错误。

正常执行情况

根据提示选择适合你的 Pytorch版本号 和 CUDA版本,输入对应的数字即可继续,若您运行遇到 OSError: [WinError 126] Not found fbgemm.dll时,请选择修复版本。

选择您的设备版本

选择完毕后耐心等待下载完成即可

5. 启动 WebUI

找到 2_Webui.bat,点击运行,等待拉起 UI 页面。如果没有自动跳转,请自行在浏览器输入 http://localhost:8501/。

V0.9.0 版本的项目登录页面

输入chenymeaavt 即可进入项目(此为新版本的保护功能,可在设置中自由关闭)

愉快的使用项目叭

Mac平台部署方法

1. 安装 Python

前往 Python官网 下载Mac版本的 python PGK 安装包,如果你翻译需要使用谷歌 Gemini 的 API 服务,请务必下载高于 3.9 的 Python版本 !

下载后运行安装,页面内选择标准安装

Mac OS 下载 python

2. 安装 Brew

终端中使用下面的命令进行一键安装 brew

3. 安装 FFMpeg

终端中使用下面的命令进行一键安装 FFMpeg

4. 安装依赖

前往 Release 页面下载 Mac 的最新发行版 (Mac/Small),然后cd 到项目根路径输入

5. 启动 WebUI

输入 chenymeaavt 进入项目(此为新版本的保护功能,可关闭),WebUI 会自动拉起,若没有自动跳转请手动在浏览器输入localhost:8501

Linux 部署

具体使用方法,请查阅:📖 issues/36,由 @dhlsam 提供支持!

Google Colab 部署

具体使用方法,请查阅:📖 Google Colab ,由 @Kirie233 提供支持!

Docker 部署

具体使用方法,请查阅:📖 使用方法,由 @Eisaichen 提供支持!

注:目前 项目最新版本为 V0.9.0 此 Docker 方法的版本为 V0.8.x。

【Part3 功能指南】

1. 全流程使用教程

由于很多朋友安装后并不知道如何正确使用项目䣌全流程,因此我在本文加入具体的使用方法和一些说明,以便各位更好的使用。下面是每个页面的基本功能分区,所有模块页面风格都与这个类似

页面各区域说明

首先你需要明白,识别和翻译这是两个完全不同的模型,识别模型是用Whisper模型进行处理,翻译模型是自己本地部署的LLMs模型或者大模型服务商的API调用,所以你必须配置好这两个才能进行识别+翻译。

  • 配置识别后端

您需要必须先配置识别后端方法,可前往 设置-识别设置 中选择您需要使用的识别后端。

Whisper识别后端设置

  • 配置翻译引擎

如果您需要使用翻译功能,请前往 设置-翻译设置 中先配置您的翻译引擎。

目前支持 OPENAI、MoonShot、ChatGLM、DeepSeek、Gemini、零一万物、Claude、本地模型调用和全局模型调用,如需支持其他模型请提issue或使用 LOCAL 本地自定义模型和服务(此方法仅支持 OpenAI SDK 调用方式)。

配置您的翻译引擎

  • 选择功能模块

在页面左侧边栏选择您需要使用的功能,下面将以 媒体识别 功能为例,目前上线的功能为

  • 调整模块参数

上述所有模块对应的参数均可以细节调整,比如识别的模型、使用的引擎、视频生成的样式、字幕的样式、图文博客生成的风格......等等,均可以在每个模块页面的参数设置中调整具体参数。

调整各个模块的参数

  • 上传视频并运行

文件上传按钮统一规定在 Tool/工具-上传文件 中,一般放置在工具栏的第一个。而开始识别/执行任务按钮,一般放置在页面右上方

点击文件上传,上传您需要进行识别的文件,然后点击右上方的开始识别即可使用。

此方法修改后可以再次合并字幕。如果您觉得字幕效果不好,可以使用方案二,先调整好字幕后再合并,减少方案一中不必要的过程。

如何执行相关任务

2. 本地模型识别

由于国内访问Huggingface不稳定,使用时下载模型经常崩溃,因此做了本地加载接口,方便国内使用。或者有的时候想用自己的微调模型,那么你也可以用本地加载模型功能。

  • 下载本地模型

可前往 Systran 下载适合您的本地模型,下载时请仔细检查所有模型文件,必须包含以下文件才能运行!

config.json、model.bin、README.md、tokenizer.json、vocabulary.txt

  • 放入本地模型

请将下载好的模型文件,放入项目目录 ..\AAVT_0.9.x\model\faster-whisper 的任意一个自定义的文件夹下,请务必保证包含所有上述的必要文件!

本地模型存放目录

注:如果您想放在其他位置,请务必及时前往 设置-识别设置 选择 FasterWhisper - LocalModel 模式,修改模型路径

如何修改指定本地模型目录

  • 使用本地模型
如何选择本地模型

3. 预置提示词

预置提示词是为了适应不同模型的能力而开发的,您可以在翻译时选择需要的预置提示词进行翻译,以获得更好的翻译体验。

  • 更换预置提示词
修改预置提示词
  • 新建提示词

点击下方的新建提示词即可新建。提示词规则:你在写提示词时请务必保留 {language1} 和 {language2} 这两个参数,以便自动匹配到你设置的原始语言和目标语言。

新建提示词

【Part4 闲话漫谈】

Q&A 项目问题

我已经整理并更新了一些使用中的常见问题,您可以直接前往 AAVT 常见问题 查找相关资料,或者可以前往AAVT 交流学习 中交流提问。

Feedback 反馈提问

本项目完全开源且免费,请不要相信任何关于此项目的收费内容,有更好的建议、需求以及疑问都可以前往AAVT 交流学习 中交流提问,或者登录我的博客站,在具体疑问步骤的对应段落处直接评论提问!

Sponsor 赞助支持

由于一直在准备考研,所以时间精力比较有限,项目还存在很多不足之处,这次也是抽空办了博客重写了项目文章,希望大家能够理解!

项目到现在也已经过去大半年了,期间经历了无数次的调试优化,如果项目对你有帮助,不妨给我买杯咖啡吧~您的支持是我更新最大的动力

我很喜欢吴恩达先生的开源精神,以后的我也会做更多更好用的开源项目给大家,再次感谢大家的喜欢,愿开源精神永存!

赞助支持

相关文章

GAN 系列原理学习笔记

2024/08/22AI, GAN, Article1077分钟阅读

AAVT 常见问题

2024/08/06答疑, AAVT3,6587分钟阅读

教你快速利用 GPT-4o 实现自动生成图文

2024/05/16AI, Tool, ChatGPT2188分钟阅读