AI 真的能自动生成短视频吗?先看效果
可以。不是未来时,是现在进行时。
MoneyPrinterTurbo 是一个完全开源的 AI 短视频生成工具,MIT 协议,任何人都可以免费使用。它的核心能力很直接:你给它一个主题词,它帮你生成一条带配音、字幕和背景音乐的高清短视频。
在 GitHub 上,这个项目已经获得 59,600+ Stars、8,800+ Forks,是当前 AI 短视频生成领域最热门的开源项目,没有之一。
它不是概念产品。项目已有 547 次代码提交、38 位贡献者参与维护,最新版本 v1.2.7 发布于 2026 年 4 月。
举一个官方的演示例子:输入"生命的意义是什么"这个主题,MoneyPrinterTurbo 会自动完成以下工作:
- 调用大模型生成一段视频文案
- 根据文案关键词从素材库搜索匹配的视频片段
- 用 AI 语音合成技术将文案转为配音
- 自动生成与配音同步的字幕
- 叠加背景音乐
- 合成输出一条 30 秒左右的高清 MP4 视频
竖屏 9:16(1080×1920,适合抖音/TikTok)和横屏 16:9(1920×1080,适合 YouTube/B站)都支持。
从关键词到成片:MoneyPrinterTurbo 的五步自动化工作流

MoneyPrinterTurbo 的本质是一条全自动化的视频生产工作流。你只需要在开头输入,它自动走完剩下的五步:
第一步:AI 生成视频文案
你输入一个主题(比如"如何增加生活的乐趣"),系统调用大模型自动生成适合短视频的文案。支持中文和英文。你也可以跳过 AI 生成,直接粘贴自己写好的文案。
第二步:提取关键词,搜索视频素材
系统从文案中提取关键词(英文),然后去 Pexels 或 Pixabay 搜索匹配的高清视频片段。这些素材都是无版权的,可以放心使用。你也可以使用自己的本地素材。
第三步:AI 语音合成
文案通过 TTS(文字转语音)引擎转为配音。支持 Edge TTS(免费,200+ 音色)和 Azure TTS(更真实的语音质量),还支持 ElevenLabs 专业级语音克隆。
第四步:自动生成字幕
配音完成后,系统自动生成与语音同步的字幕。有两种引擎可选:
- Edge 模式:速度快,对电脑配置没要求,但质量可能不稳定
- Whisper 模式:基于 OpenAI Whisper 模型,准确率更高,但需要下载约 3GB 的模型文件,处理速度也更慢
字幕的外观完全可自定义:字体、颜色、大小、位置、描边效果都能调。
第五步:合成视频
最后一步是把配音、字幕、背景音乐和视频素材合成在一起,输出最终的高清 MP4 文件。
背景音乐的处理方式:
- 内置了 100+ 首背景音乐,存放在
resource/songs目录 - 可以随机选择,也可以指定具体音乐文件
- 音量可调(默认 0.2,避免盖过配音)
- 你也可以往
resource/songs里放入自己的音乐文件
整个流程走完,你就得到了一条可以直接发布到短视频平台的视频。
视频文案、配音、字幕、素材——四个核心环节逐一拆解
文案生成:13+ 种大模型可选
MoneyPrinterTurbo 最大的灵活性在于,它不绑定某一家大模型。目前支持:
- OpenAI(GPT 系列)
- DeepSeek
- Moonshot(月之暗面)
- Google Gemini
- Azure OpenAI
- 通义千问
- 文心一言
- Ollama(本地部署)
- MiniMax
- Pollinations(免费)
- ModelScope
- gpt4free、one-api 等中转服务
中国用户的建议:直接用 DeepSeek 或 Moonshot。这两个国内可以直接访问,不需要 VPN,注册就送免费额度,个人使用完全够用。
配音:从免费到专业级
| 方案 | 费用 | 音色数量 | 声音质量 |
|---|---|---|---|
| Edge TTS | 免费 | 200+ | 日常使用足够 |
| Azure TTS | 需 API Key | 9+ 种精选 | 更自然真实 |
| ElevenLabs | 需付费 | 专业级 | 接近真人 |
所有方案都支持实时试听,语速和音量都可以调节。
项目还提供了完整的声音列表文件(docs/voice-list.txt),你可以查看所有可用的音色名称和语言。另外,Web UI 还支持上传自定义音频文件,你可以用自己的录音或购买的配音素材替代 AI 合成的语音。
字幕:可自定义程度很高
MoneyPrinterTurbo 的字幕系统不是简单地叠加文字,而是提供了完整的自定义能力。
字幕引擎切换:在 config.toml 中通过 subtitle_provider 字段选择引擎。设为 edge 用快速模式,设为 whisper 用精准模式。如果留空,表示不生成字幕。建议先用 edge 模式,如果字幕质量不好再切换到 whisper。
字幕外观自定义:
- 字体:项目内置了 20+ 种字体(存放在
resource/fonts目录),你也可以放入自己的字体文件 - 位置:顶部、底部或自定义百分比位置
- 颜色:前景色和描边色独立设置
- 大小:默认 60px,可调整
- 描边:颜色和宽度可调
素材:高清无版权
视频素材来自 Pexels 和 Pixabay 两个平台,都是高清且无版权的素材库。你可以在 Web UI 中选择使用哪个素材源,系统会根据文案关键词自动搜索匹配的视频片段,下载后按设定时长(默认 3 秒)切片使用。素材会自动缓存到本地,下次使用相同关键词时不需要重新下载。
如果你对自动匹配的素材不满意,也可以直接使用本地视频素材,或者自己上传视频文件作为素材。
不花一分钱 vs 每月花几百块:和付费工具的真实差距

先说对比结论:如果你是个人创作者或小团队,想做批量短视频但不舍得每月花几百块订阅商业工具,MoneyPrinterTurbo 是目前唯一靠谱的免费选择。
但它不是万能的。下面是和主流付费工具的诚实对比:
| 维度 | MoneyPrinterTurbo | Runway ML | Synthesia | Descript |
|---|---|---|---|---|
| 价格 | 完全免费 | $12/月起 | $22/月起 | $24/月起 |
| 开源 | 是(MIT) | 否 | 否 | 否 |
| 部署方式 | 本地部署 | 云端 | 云端 | 云端 |
| 数据隐私 | 数据不出本机 | 上传到云端 | 上传到云端 | 上传到云端 |
| 使用限制 | 无 | 按月额度 | 按分钟计费 | 按月额度 |
| 视频质量 | 依赖素材库质量 | 特效丰富 | 数字人播报 | 精准字幕 |
| 上手难度 | 需要配置环境 | 注册即用 | 注册即用 | 注册即用 |
| 批量生成 | 支持(一次多条) | 有限 | 有限 | 有限 |
| 可定制性 | 高(文案/配音/字幕/素材全可调) | 中 | 低 | 中 |
MoneyPrinterTurbo 的真正优势:
- 完全免费,没有月度额度限制
- 数据完全在本地处理,隐私有保障
- 高度可定制,每个环节都可以调整
- 支持批量生成,日产量可达 50+ 条
它的局限:
- 需要自己配置运行环境(不过有 Windows 一键启动包)
- 视频质量受素材库限制,无法像 Runway 那样生成特效
- 没有数字人/虚拟主播功能
- 渲染速度取决于你的电脑配置
快速上手指南(附常见问题)
第一步:检查系统要求
在部署之前,先确认你的电脑满足基本要求:
| 项目 | 最低配置 | 推荐配置 | 理想配置 |
|---|---|---|---|
| CPU | 4 核 | 6-8 核 | 8 核及以上 |
| 内存 | 4 GB | 8 GB | 16 GB 及以上 |
| GPU | 非必须 | 4 GB 显存及以上 | 8 GB 显存及以上 |
| 操作系统 | Windows 10 / MacOS 11.0+ / Linux | 同左 | 同左 |
关于 GPU 的说明:
- 如果你主要用云端大模型(DeepSeek/Moonshot)+ 云端 TTS + 在线素材源,CPU 和内存比 GPU 更重要,不需要显卡
- 如果你启用 faster-whisper 做本地字幕识别、批量生成视频或更重的本地处理,GPU 会明显提升速度
- 建议系统:Windows 10 或 MacOS 11.0 以上,或主流 Linux 发行版
第二步:部署安装
方式 A:Windows 一键启动包(推荐新手)
下载地址:
- 百度网盘(v1.2.6)(提取码:sbqx)
- Google Drive(v1.2.6)
下载后解压(注意:路径不要有中文、特殊字符、空格),然后:
- 先双击执行
update.bat更新到最新代码(一键包自带的是 v1.2.6 旧版,需更新) - 双击
start.bat启动 - 浏览器会自动打开(如果空白,建议换成 Chrome 或 Edge)
方式 B:手动部署(MacOS / Linux 推荐)
推荐使用 uv 管理 Python 环境和依赖:
git clone https://github.com/harry0703/MoneyPrinterTurbo.git
cd MoneyPrinterTurbo
uv python install 3.11
uv sync --frozen
如果暂时不用 uv,也可以用传统的 venv + pip:
python3.11 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
pyproject.toml是主依赖定义文件,uv.lock是锁文件,建议默认执行uv sync --frozen。requirements.txt仅保留给旧的 pip 安装方式兼容使用。
方式 C:Docker 部署(适合隔离环境)
如果未安装 Docker,先去 Docker 官网 安装 Docker Desktop。Windows 用户还需要参考微软文档安装 WSL:
然后执行:
git clone https://github.com/harry0703/MoneyPrinterTurbo.git
cd MoneyPrinterTurbo
docker compose up
注意:最新版 Docker 安装时会自动以插件形式安装 docker compose,启动命令是
docker compose up(没有中间的横杠)。
方式 D:Docker GPU 版(适合有显卡的用户)
如果你有 NVIDIA 显卡,想用 GPU 加速视频处理,项目提供了专门的 GPU 版本:
# 使用 GPU 版本构建和启动
docker compose -f docker-compose.gpu.yml up
GPU 版本会启用 CUDA 加速,适合需要大量批量生成或使用 faster-whisper 做本地字幕识别的场景。
方式 E:Google Colab(最快体验)
免去本地环境配置,直接在 Google Colab 中快速体验,不需要安装任何东西。
第三步:安装必要依赖
ImageMagick(必须安装)
ImageMagick 用于字幕渲染和图文合成,是必须安装的依赖。
Windows:
- 访问 ImageMagick 下载页
- 选择 Windows 版本,切记一定要选择静态库版本,文件名类似
ImageMagick-7.1.1-32-Q16-x64-static.exe - 安装时不要修改默认安装路径
- 在
config.toml中设置imagemagick_path为实际安装路径
MacOS:
brew install imagemagick
CentOS:
sudo yum install ImageMagick
Ubuntu:
sudo apt-get install imagemagick
FFmpeg(通常自动下载)
FFmpeg 负责视频合成处理,支持 H.265 编码。通常情况下 ffmpeg 会被自动下载并检测到。如果自动下载失败,可以从 ffmpeg 官网 手动下载,然后在 config.toml 中配置:
[app]
# 注意 Windows 路径分隔符为 \
ffmpeg_path = "C:\Users\你的用户名\Downloads\ffmpeg.exe"
Whisper 模型(可选,用于高质量字幕)
如果你选择用 Whisper 模式生成字幕(而不是 Edge 模式),需要下载一个约 3GB 的模型文件。
方式一:自动下载(需要能访问 HuggingFace)
首次使用 Whisper 模式时,系统会自动从 HuggingFace 下载 Systran/faster-whisper-large-v3 模型。请确保网络通畅。
方式二:手动下载(中国国内用户推荐)
由于中国国内无法直接访问 HuggingFace,可以通过以下网盘下载:
下载后解压,把整个目录放到项目根目录的 models 文件夹里。最终路径应该是:
MoneyPrinterTurbo/
├── models/
│ └── whisper-large-v3/
│ ├── config.json
│ ├── model.bin
│ ├── preprocessor_config.json
│ ├── tokenizer.json
│ └── vocabulary.json
第四步:配置 API Key
将 config.example.toml 复制一份重命名为 config.toml,然后配置以下关键项:
素材库 API Key(必须配置)
MoneyPrinterTurbo 使用 Pexels 和 Pixabay 两个素材库来搜索视频素材,需要分别注册获取免费 API Key:
Pexels API Key:
- 访问 https://www.pexels.com/api/ 注册账号
- 填写简单的申请表(描述用途即可),免费获取 API Key
- 支持配置多个 Key 来避免速率限制
Pixabay API Key:
- 访问 https://pixabay.com/api/docs/ 注册账号
- 在账号设置中找到你的 API Key,免费获取
在 config.toml 中配置(注意格式):
# Pexels API Key
# 支持配置多个 Key 来避免速率限制
# Key 用英文双引号括起来,多个 Key 用逗号隔开
pexels_api_keys = ["你的Pexels API Key"]
# Pixabay API Key
# 支持配置多个 Key 来避免速率限制
pixabay_api_keys = ["你的Pixabay API Key"]
大模型 API Key(必须配置)
根据你选择的大模型提供商,配置对应的 API Key。推荐中国国内用户使用以下方案:
- DeepSeek:访问 https://platform.deepseek.com/ 注册,注册即送额度,国内直接访问
- Moonshot:访问 https://platform.moonshot.cn/ 注册,注册即送额度,国内直接访问
当然你也可以在启动 Web UI 后,直接在界面中配置这些参数,不需要手动改文件。
第五步:启动并生成第一条视频
启动 Web UI:
uv run streamlit run ./webui/Main.py --browser.gatherUsageStats=False
或者 Windows 用户可以直接双击 webui.bat,MacOS/Linux 用户执行 sh webui.sh。
启动后浏览器会自动打开操作界面。
启动 API 服务(如果需要通过接口调用):
uv run python main.py
启动后可以访问 API 文档:http://127.0.0.1:8080/docs 在线调试接口。
生成第一条视频:
- 在 Web UI 中输入视频主题(比如"如何保持专注")
- 选择视频尺寸(竖屏 9:16 / 横屏 16:9)
- 选择配音音色(可以先试听效果)
- 选择字幕引擎(建议先用 Edge 模式,效果不好再换 Whisper)
- 点击"生成视频"
等待几分钟,你的第一条 AI 生成视频就准备好了。
常见问题
Q:提示找不到 ffmpeg 怎么办?
A:通常 ffmpeg 会被自动下载并检测到。如果失败了,从 ffmpeg 官网 手动下载,然后在 config.toml 中设置 ffmpeg_path 为你的实际安装路径。Windows 注意路径分隔符用 \。
Q:ImageMagick 安全策略报错怎么办?
A:找到 ImageMagick 安装目录下的 policy.xml 文件(通常在 /etc/ImageMagick-X/ 或安装目录),把 pattern="@" 那行的 rights="none" 改为 rights="read|write",允许对临时文件的读写操作。
Q:Whisper 模型下载失败怎么办?
A:如果出现 LocalEntryNotFoundError 或网络超时错误,说明无法访问 HuggingFace。请使用上面的网盘链接手动下载模型文件,放到 models/whisper-large-v3/ 目录下。
Q:可以用中文路径吗?
A:强烈不建议。安装路径、项目路径、素材路径中都不要包含中文、特殊字符或空格,否则可能出现各种不可预料的问题。
Q:需要 GPU 吗?
A:不是必须的。如果你主要用云端大模型和云端 TTS,CPU 和内存就够了(4 核 CPU + 8GB 内存可以正常运行)。如果你要用 Whisper 做本地字幕识别或批量生成视频,有 GPU 会明显提升速度。
Q:打开 Web UI 是空白页怎么办?
A:建议换成 Chrome 或 Edge 浏览器打开。
总结:谁该用它,谁不该用它
适合用 MoneyPrinterTurbo 的人:
- 想批量生产短视频的自媒体创作者(抖音、TikTok、YouTube)
- 需要快速制作产品介绍视频的小团队
- 想在教育领域批量生成讲解视频的内容团队
- 有一定技术基础,愿意花 30 分钟配置环境的开发者
不适合的人:
- 需要数字人/虚拟主播效果 → 用 Synthesia
- 需要电影级特效和后期 → 用 Runway ML
- 完全不想碰任何技术配置 → 用录咖在线服务(基于 MoneyPrinterTurbo 提供的免费在线版)
下一步:
- 直接访问 GitHub 仓库 了解详情
- 下载 Windows 一键启动包,5 分钟内体验第一条 AI 视频
- 如果不想部署,可以试试基于该项目的免费在线服务:中文版 reccloud.cn / 英文版 reccloud.com
