免费开源,MoneyPrinterTurbo 如何让你零成本批量生成 AI 短视频

封面图

AI 真的能自动生成短视频吗?先看效果

可以。不是未来时,是现在进行时。

MoneyPrinterTurbo 是一个完全开源的 AI 短视频生成工具,MIT 协议,任何人都可以免费使用。它的核心能力很直接:你给它一个主题词,它帮你生成一条带配音、字幕和背景音乐的高清短视频。

在 GitHub 上,这个项目已经获得 59,600+ Stars、8,800+ Forks,是当前 AI 短视频生成领域最热门的开源项目,没有之一。

它不是概念产品。项目已有 547 次代码提交、38 位贡献者参与维护,最新版本 v1.2.7 发布于 2026 年 4 月。

举一个官方的演示例子:输入"生命的意义是什么"这个主题,MoneyPrinterTurbo 会自动完成以下工作:

  • 调用大模型生成一段视频文案
  • 根据文案关键词从素材库搜索匹配的视频片段
  • 用 AI 语音合成技术将文案转为配音
  • 自动生成与配音同步的字幕
  • 叠加背景音乐
  • 合成输出一条 30 秒左右的高清 MP4 视频

竖屏 9:16(1080×1920,适合抖音/TikTok)和横屏 16:9(1920×1080,适合 YouTube/B站)都支持。


从关键词到成片:MoneyPrinterTurbo 的五步自动化工作流

MoneyPrinterTurbo 五步工作流

MoneyPrinterTurbo 的本质是一条全自动化的视频生产工作流。你只需要在开头输入,它自动走完剩下的五步:

第一步:AI 生成视频文案

你输入一个主题(比如"如何增加生活的乐趣"),系统调用大模型自动生成适合短视频的文案。支持中文和英文。你也可以跳过 AI 生成,直接粘贴自己写好的文案。

第二步:提取关键词,搜索视频素材

系统从文案中提取关键词(英文),然后去 Pexels 或 Pixabay 搜索匹配的高清视频片段。这些素材都是无版权的,可以放心使用。你也可以使用自己的本地素材。

第三步:AI 语音合成

文案通过 TTS(文字转语音)引擎转为配音。支持 Edge TTS(免费,200+ 音色)和 Azure TTS(更真实的语音质量),还支持 ElevenLabs 专业级语音克隆。

第四步:自动生成字幕

配音完成后,系统自动生成与语音同步的字幕。有两种引擎可选:

  • Edge 模式:速度快,对电脑配置没要求,但质量可能不稳定
  • Whisper 模式:基于 OpenAI Whisper 模型,准确率更高,但需要下载约 3GB 的模型文件,处理速度也更慢

字幕的外观完全可自定义:字体、颜色、大小、位置、描边效果都能调。

第五步:合成视频

最后一步是把配音、字幕、背景音乐和视频素材合成在一起,输出最终的高清 MP4 文件。

背景音乐的处理方式:

  • 内置了 100+ 首背景音乐,存放在 resource/songs 目录
  • 可以随机选择,也可以指定具体音乐文件
  • 音量可调(默认 0.2,避免盖过配音)
  • 你也可以往 resource/songs 里放入自己的音乐文件

整个流程走完,你就得到了一条可以直接发布到短视频平台的视频。


视频文案、配音、字幕、素材——四个核心环节逐一拆解

文案生成:13+ 种大模型可选

MoneyPrinterTurbo 最大的灵活性在于,它不绑定某一家大模型。目前支持:

  • OpenAI(GPT 系列)
  • DeepSeek
  • Moonshot(月之暗面)
  • Google Gemini
  • Azure OpenAI
  • 通义千问
  • 文心一言
  • Ollama(本地部署)
  • MiniMax
  • Pollinations(免费)
  • ModelScope
  • gpt4free、one-api 等中转服务

中国用户的建议:直接用 DeepSeek 或 Moonshot。这两个国内可以直接访问,不需要 VPN,注册就送免费额度,个人使用完全够用。

配音:从免费到专业级

方案 费用 音色数量 声音质量
Edge TTS 免费 200+ 日常使用足够
Azure TTS 需 API Key 9+ 种精选 更自然真实
ElevenLabs 需付费 专业级 接近真人

所有方案都支持实时试听,语速和音量都可以调节。

项目还提供了完整的声音列表文件(docs/voice-list.txt),你可以查看所有可用的音色名称和语言。另外,Web UI 还支持上传自定义音频文件,你可以用自己的录音或购买的配音素材替代 AI 合成的语音。

字幕:可自定义程度很高

MoneyPrinterTurbo 的字幕系统不是简单地叠加文字,而是提供了完整的自定义能力。

字幕引擎切换:在 config.toml 中通过 subtitle_provider 字段选择引擎。设为 edge 用快速模式,设为 whisper 用精准模式。如果留空,表示不生成字幕。建议先用 edge 模式,如果字幕质量不好再切换到 whisper。

字幕外观自定义

  • 字体:项目内置了 20+ 种字体(存放在 resource/fonts 目录),你也可以放入自己的字体文件
  • 位置:顶部、底部或自定义百分比位置
  • 颜色:前景色和描边色独立设置
  • 大小:默认 60px,可调整
  • 描边:颜色和宽度可调

素材:高清无版权

视频素材来自 Pexels 和 Pixabay 两个平台,都是高清且无版权的素材库。你可以在 Web UI 中选择使用哪个素材源,系统会根据文案关键词自动搜索匹配的视频片段,下载后按设定时长(默认 3 秒)切片使用。素材会自动缓存到本地,下次使用相同关键词时不需要重新下载。

如果你对自动匹配的素材不满意,也可以直接使用本地视频素材,或者自己上传视频文件作为素材。


不花一分钱 vs 每月花几百块:和付费工具的真实差距

开源免费 vs 付费订阅对比

先说对比结论:如果你是个人创作者或小团队,想做批量短视频但不舍得每月花几百块订阅商业工具,MoneyPrinterTurbo 是目前唯一靠谱的免费选择。

但它不是万能的。下面是和主流付费工具的诚实对比:

维度 MoneyPrinterTurbo Runway ML Synthesia Descript
价格 完全免费 $12/月起 $22/月起 $24/月起
开源 是(MIT)
部署方式 本地部署 云端 云端 云端
数据隐私 数据不出本机 上传到云端 上传到云端 上传到云端
使用限制 按月额度 按分钟计费 按月额度
视频质量 依赖素材库质量 特效丰富 数字人播报 精准字幕
上手难度 需要配置环境 注册即用 注册即用 注册即用
批量生成 支持(一次多条) 有限 有限 有限
可定制性 高(文案/配音/字幕/素材全可调)

MoneyPrinterTurbo 的真正优势

  • 完全免费,没有月度额度限制
  • 数据完全在本地处理,隐私有保障
  • 高度可定制,每个环节都可以调整
  • 支持批量生成,日产量可达 50+ 条

它的局限

  • 需要自己配置运行环境(不过有 Windows 一键启动包)
  • 视频质量受素材库限制,无法像 Runway 那样生成特效
  • 没有数字人/虚拟主播功能
  • 渲染速度取决于你的电脑配置

快速上手指南(附常见问题)

第一步:检查系统要求

在部署之前,先确认你的电脑满足基本要求:

项目 最低配置 推荐配置 理想配置
CPU 4 核 6-8 核 8 核及以上
内存 4 GB 8 GB 16 GB 及以上
GPU 非必须 4 GB 显存及以上 8 GB 显存及以上
操作系统 Windows 10 / MacOS 11.0+ / Linux 同左 同左

关于 GPU 的说明

  • 如果你主要用云端大模型(DeepSeek/Moonshot)+ 云端 TTS + 在线素材源,CPU 和内存比 GPU 更重要,不需要显卡
  • 如果你启用 faster-whisper 做本地字幕识别、批量生成视频或更重的本地处理,GPU 会明显提升速度
  • 建议系统:Windows 10 或 MacOS 11.0 以上,或主流 Linux 发行版

第二步:部署安装

方式 A:Windows 一键启动包(推荐新手)

下载地址:

下载后解压(注意:路径不要有中文、特殊字符、空格),然后:

  1. 先双击执行 update.bat 更新到最新代码(一键包自带的是 v1.2.6 旧版,需更新)
  2. 双击 start.bat 启动
  3. 浏览器会自动打开(如果空白,建议换成 Chrome 或 Edge)

方式 B:手动部署(MacOS / Linux 推荐)

推荐使用 uv 管理 Python 环境和依赖:

git clone https://github.com/harry0703/MoneyPrinterTurbo.git
cd MoneyPrinterTurbo
uv python install 3.11
uv sync --frozen

如果暂时不用 uv,也可以用传统的 venv + pip:

python3.11 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

pyproject.toml 是主依赖定义文件,uv.lock 是锁文件,建议默认执行 uv sync --frozenrequirements.txt 仅保留给旧的 pip 安装方式兼容使用。

方式 C:Docker 部署(适合隔离环境)

如果未安装 Docker,先去 Docker 官网 安装 Docker Desktop。Windows 用户还需要参考微软文档安装 WSL:

然后执行:

git clone https://github.com/harry0703/MoneyPrinterTurbo.git
cd MoneyPrinterTurbo
docker compose up

注意:最新版 Docker 安装时会自动以插件形式安装 docker compose,启动命令是 docker compose up(没有中间的横杠)。

方式 D:Docker GPU 版(适合有显卡的用户)

如果你有 NVIDIA 显卡,想用 GPU 加速视频处理,项目提供了专门的 GPU 版本:

# 使用 GPU 版本构建和启动
docker compose -f docker-compose.gpu.yml up

GPU 版本会启用 CUDA 加速,适合需要大量批量生成或使用 faster-whisper 做本地字幕识别的场景。

方式 E:Google Colab(最快体验)

免去本地环境配置,直接在 Google Colab 中快速体验,不需要安装任何东西。

第三步:安装必要依赖

ImageMagick(必须安装)

ImageMagick 用于字幕渲染和图文合成,是必须安装的依赖。

Windows

  1. 访问 ImageMagick 下载页
  2. 选择 Windows 版本,切记一定要选择静态库版本,文件名类似 ImageMagick-7.1.1-32-Q16-x64-static.exe
  3. 安装时不要修改默认安装路径
  4. config.toml 中设置 imagemagick_path 为实际安装路径

MacOS

brew install imagemagick

CentOS

sudo yum install ImageMagick

Ubuntu

sudo apt-get install imagemagick

FFmpeg(通常自动下载)

FFmpeg 负责视频合成处理,支持 H.265 编码。通常情况下 ffmpeg 会被自动下载并检测到。如果自动下载失败,可以从 ffmpeg 官网 手动下载,然后在 config.toml 中配置:

[app]
# 注意 Windows 路径分隔符为 \
ffmpeg_path = "C:\Users\你的用户名\Downloads\ffmpeg.exe"

Whisper 模型(可选,用于高质量字幕)

如果你选择用 Whisper 模式生成字幕(而不是 Edge 模式),需要下载一个约 3GB 的模型文件。

方式一:自动下载(需要能访问 HuggingFace)

首次使用 Whisper 模式时,系统会自动从 HuggingFace 下载 Systran/faster-whisper-large-v3 模型。请确保网络通畅。

方式二:手动下载(中国国内用户推荐)

由于中国国内无法直接访问 HuggingFace,可以通过以下网盘下载:

下载后解压,把整个目录放到项目根目录的 models 文件夹里。最终路径应该是:

MoneyPrinterTurbo/
├── models/
│   └── whisper-large-v3/
│       ├── config.json
│       ├── model.bin
│       ├── preprocessor_config.json
│       ├── tokenizer.json
│       └── vocabulary.json

第四步:配置 API Key

config.example.toml 复制一份重命名为 config.toml,然后配置以下关键项:

素材库 API Key(必须配置)

MoneyPrinterTurbo 使用 Pexels 和 Pixabay 两个素材库来搜索视频素材,需要分别注册获取免费 API Key:

Pexels API Key

  1. 访问 https://www.pexels.com/api/ 注册账号
  2. 填写简单的申请表(描述用途即可),免费获取 API Key
  3. 支持配置多个 Key 来避免速率限制

Pixabay API Key

  1. 访问 https://pixabay.com/api/docs/ 注册账号
  2. 在账号设置中找到你的 API Key,免费获取

config.toml 中配置(注意格式):

# Pexels API Key
# 支持配置多个 Key 来避免速率限制
# Key 用英文双引号括起来,多个 Key 用逗号隔开
pexels_api_keys = ["你的Pexels API Key"]

# Pixabay API Key
# 支持配置多个 Key 来避免速率限制
pixabay_api_keys = ["你的Pixabay API Key"]

大模型 API Key(必须配置)

根据你选择的大模型提供商,配置对应的 API Key。推荐中国国内用户使用以下方案:

当然你也可以在启动 Web UI 后,直接在界面中配置这些参数,不需要手动改文件。

第五步:启动并生成第一条视频

启动 Web UI

uv run streamlit run ./webui/Main.py --browser.gatherUsageStats=False

或者 Windows 用户可以直接双击 webui.bat,MacOS/Linux 用户执行 sh webui.sh

启动后浏览器会自动打开操作界面。

启动 API 服务(如果需要通过接口调用):

uv run python main.py

启动后可以访问 API 文档:http://127.0.0.1:8080/docs 在线调试接口。

生成第一条视频

  1. 在 Web UI 中输入视频主题(比如"如何保持专注")
  2. 选择视频尺寸(竖屏 9:16 / 横屏 16:9)
  3. 选择配音音色(可以先试听效果)
  4. 选择字幕引擎(建议先用 Edge 模式,效果不好再换 Whisper
  5. 点击"生成视频"

等待几分钟,你的第一条 AI 生成视频就准备好了。

常见问题

Q:提示找不到 ffmpeg 怎么办?

A:通常 ffmpeg 会被自动下载并检测到。如果失败了,从 ffmpeg 官网 手动下载,然后在 config.toml 中设置 ffmpeg_path 为你的实际安装路径。Windows 注意路径分隔符用 \

Q:ImageMagick 安全策略报错怎么办?

A:找到 ImageMagick 安装目录下的 policy.xml 文件(通常在 /etc/ImageMagick-X/ 或安装目录),把 pattern="@" 那行的 rights="none" 改为 rights="read|write",允许对临时文件的读写操作。

Q:Whisper 模型下载失败怎么办?

A:如果出现 LocalEntryNotFoundError 或网络超时错误,说明无法访问 HuggingFace。请使用上面的网盘链接手动下载模型文件,放到 models/whisper-large-v3/ 目录下。

Q:可以用中文路径吗?

A:强烈不建议。安装路径、项目路径、素材路径中都不要包含中文、特殊字符或空格,否则可能出现各种不可预料的问题。

Q:需要 GPU 吗?

A:不是必须的。如果你主要用云端大模型和云端 TTS,CPU 和内存就够了(4 核 CPU + 8GB 内存可以正常运行)。如果你要用 Whisper 做本地字幕识别或批量生成视频,有 GPU 会明显提升速度。

Q:打开 Web UI 是空白页怎么办?

A:建议换成 Chrome 或 Edge 浏览器打开。


总结:谁该用它,谁不该用它

适合用 MoneyPrinterTurbo 的人

  • 想批量生产短视频的自媒体创作者(抖音、TikTok、YouTube)
  • 需要快速制作产品介绍视频的小团队
  • 想在教育领域批量生成讲解视频的内容团队
  • 有一定技术基础,愿意花 30 分钟配置环境的开发者

不适合的人

  • 需要数字人/虚拟主播效果 → 用 Synthesia
  • 需要电影级特效和后期 → 用 Runway ML
  • 完全不想碰任何技术配置 → 用录咖在线服务(基于 MoneyPrinterTurbo 提供的免费在线版)

下一步

  1. 直接访问 GitHub 仓库 了解详情
  2. 下载 Windows 一键启动包,5 分钟内体验第一条 AI 视频
  3. 如果不想部署,可以试试基于该项目的免费在线服务:中文版 reccloud.cn / 英文版 reccloud.com
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。