3秒克隆任何声音！支持646种语言，完全免费本地运行，从安装到测试全流程讲解

2026年5月22日软件推荐潜行者

之前写过一篇人工智能语音项目，测试了感觉能打还是没到ElevenLabs那么能打，今天咱们又来测试一个。

之前测试的VoxCPM2文章,感觉跟ElevenLabs还是有一定差距

NoOne，公众号：AI不硬核最新开源多语言TTS模型_VoxCPM2实测_从安装到测试全流程讲解

今天这个，上线36天就拿下1.5K star，官方标题写的是「The open-source ElevenLabs alternative」。够嚣张。

PS:ElevenLabs 是全球顶级 AI 人工智能语音合成平台（2022 年伦敦成立），目前业界公认人声最自然、情绪最逼真的 AI 配音 / 声音工具。

ElevenLabs官方指路：

https://elevenlabs.io/app/

你知道的，GitHub上每天都有项目说自己是某某的平替。十个里九个是半成品，功能砍一半，体验打骨折，然后给你一句「但是开源免费」就完事了。

所以我本来是没那么重视的。

但是我没关掉这个项目页面。

因为我又看了一眼，它的描述里写了三个字，桌面应用。

这玩意是个带图形界面的桌面App？

不是命令行，不是Docker容器，不是那个你得手搓Python环境才能跑的脚本。是下载，安装，打开，直接用。

而且支持Windows、macOS、Linux三个平台。

这下我就来兴趣了。把项目抬上来！

#项目指路：https://github.com/debpalash/OmniVoice-Studio

这个项目叫 OmniVoice Studio。

作者是一个印度的开发者，叫debpalash。他在4月9号把项目传上了GitHub，到现在也就一个多月的时间。

一个多月，1.5K Star，174个Fork。

这个速度放在AI工具这个赛道里，算得上爆发了。

而且你去看他的commit记录，140次提交，高频到离谱。最后一条commit是三天前，写了句「Post-refactor cleanup」，一看就是那种连重构完打扫战场的时间都要挤的人。

这种更新频率的项目，作者是真的在用心做。

那OmniVoice Studio到底能干什么呢。

咱们直接上手看看吧！

开始安装：

1.下载安装包

根据自己的电脑系统点击即可下载桌面应用，这里我是windows，所以选择的第二个，下载msi文件

2.安装包只有167.04MB，下载好之后打开就进入安装程序

C盘不够大的话记得安装到其它盘

接着这里可以选择用中国镜像进行安装，也可以默认让它自动选择，然后就会不断拉取文件安装啦包括环境依赖也会自动安装，全程不用输入什么命令行，安装过程大概5-10min，最终安装时间根据网速而定

3.下载模型

安装好之后会下载K2-fas/OmniVoice模型，但似乎国内没有镜像源导致无法下载所以出现报红提示。后面是我问了AI教我的，大家如果出现相同问题可以跟着我的步骤走或者也拿去问问AI该怎么办。

这时候我们可以先关闭OmniVoice，记得在任务管理器看看有没有残留进程，确保完全关闭。

右键点击桌面的 "此电脑" → "属性" → "高级系统设置" → "环境变量"

在 "用户变量" 中点击 "新建"，添加以下两个变量之后重启电脑让变量生效：

变量名	变量值
`HF_ENDPOINT`	`https://hf-mirror.com`
`HUGGINGFACE_HUB_CACHE`	`C:Users你的用户名AppDataLocalOmniVoicehf_cache`

重启之后打开OmniVoice，就正式进入欢迎页面，会进行环境依赖和系统检查，这里告知我yt-dlp没有下载配置，这是一个youtube视频下载工具，方便直接拉取youtube视频片段进行音频生成，这里我暂时用不上选择不安装，不装yt-dlp也不会影响主要功能使用，就暂时不管直接点击continue了。

然后就来到了模型下载界面，K2OmniVoice TTS (600+ languages, zero-shot)和SYWhisper large-v3 (faster-whisper — default, cross-platform)这两个模型是核心必装模型，点击右侧install进行下载

这里由于网络问题大概率会下载失败，也别内耗，自己去手动下载还得建立文件夹，我们直接调用本地的Claude Code或者Hermes，让AI自己来完成这项任务，这里给AI的提示词一定要让它读官方这两个模型的文件夹路径架构，再让它帮你下载好之后创建好文件夹把模型放进去

#一定让AI参考下面两个模型的文件安装路径https://huggingface.co/k2-fsa/OmniVoicehttps://huggingface.co/Systran/faster-whisper-large-v3

如果自己下的话可以参考下面这两张图，看上去还是比较麻烦，我是让hermes接管了这个棘手的事情。

模型安装好之后就大功告成啦！

4.开测

开测前看看有哪些功能

坦率的讲，功能多到让我有点懵，这里我们就不一一测试了，今天就先测试语音克隆和配音设计这两个板块。

第一大杀器是语音克隆。你只需要给它一段3秒钟的音频，它就能把你的声音复制下来。注意，是三秒，不是三十秒，不是一分钟。三秒钟的音频，然后你就可以用这个声音去生成任意的文本朗读了。

而且它支持646种语言。

646种。

ElevenLabs才支持多少种，32种。

不是说ElevenLabs不好。ElevenLabs在语音质量上目前依然是行业标杆，这点得承认。但是在语言覆盖这件事上，OmniVoice Studio直接把差距拉到了一个我一眼看过去都不知道该说什么的程度。646种语言，说实话你让我说出30种我可能都够呛。

进软件看了，真的是646种

测试了一下克隆的效果，给到人上人

注意：

在黄框处选择需要克隆的声音，也可以开麦录制

在红框处写下你上传的克隆音频中的准确文字内容，这一步虽然是可选但强烈建议开启，有助于AI掌握需要克隆的声音。

在绿框处写在被克隆声音需要朗读的文字内容，你写什么AI就念什么。

测试结果：

然后是语音设计。如果说语音克隆是「复制一个已有的声音」，那语音设计就是「从零捏一个不存在的声音」。你可以调性别、年龄、口音、音高、语速、情绪，甚至方言。

这里我们让OmniVoice Studio给我们根据文本生成一段四川方言，我加入了两个语气控制，然后就只在上方选择了四川话的选项。

由于模型本身就不大，还能调用cuda加速，0.74s就跑好了......测试结果：

语音设计这个功能的概念不新，ElevenLabs也有。但OmniVoice Studio把它做成了一个可视化的界面，你拖拽几个滑块，声音就变了。我试想了一下那个体验，应该跟捏脸差不多，挺上头的。

这里测试了一条完全自动化的例子，从配音到语气到音调，

除了四川话，官方还原生支持以下咱们国家的方言：

测试了一条东北话看看效果，配置如下图：

总结下，这几次测试下来给我最大的感觉就是快，基本上是秒生成，我刚点击运行呢就已经在播放配好的音了...而且效果也不错，因为我基本上都是直出，不爱调参，感觉调试下参数抽抽卡应该能达成更好的效果。

然后是视频配音。

这个功能我觉得可能是很多内容创作者的刚需。

你把一个视频拖进去，或者直接贴一个YouTube链接，它自动做四件事：先把语音转成文字，然后翻译成你选的目标语言，再用你克隆好的声音去重新生成配音，最后把新配音和视频合成一个MP4导出来。

全程自动，不需要你手动对时间轴。

而且它内置了说话人识别。就是如果视频里有两个人对话，它能自动识别出谁说了什么，然后给每个人分配不同的克隆声音。

这个功能叫什么来着，Speaker Diarization。说实话这个词我每次念都觉得舌头要打结，但它做的事非常好理解，就是把「这个人说了这句，那个人说了那句」自动分清楚。

结合语音克隆，你理论上可以做到：把一个中文采访视频，自动翻译成英文，而且主持人用主持人的声音说英文，嘉宾用嘉宾的声音说英文。

这里由于我模型配置报红暂且搁置这项测试。

但是这项功能，我作为内容创作者，我的第一反应是：这能省多少事儿啊。

还有一个小功能我特别喜欢。

它有一个叫Dictation Widget的东西。你按一个全局快捷键，会弹出一个浮窗，你说完话它会自动识别成文字然后粘贴到你当前光标的位置。

什么意思呢，就是你在任何一个软件里，Word也好微信也好VSCode也好，按下快捷键，说话，文字就自动输入进去了。

这个功能说实话跟ElevenLabs没什么关系，但它是那种「一旦用上了就回不去」的东西。

为什么这样的工具，之前没有人做出来。

ElevenLabs是按字计费的，最便宜的套餐一个月5美元，最贵的商业套餐330美元。而且你的所有音频都要上传到他们的服务器上处理。

OmniVoice Studio的方案是，所有的事情都在你自己的电脑上跑。不需要注册账号，不需要API Key，不需要联网。

你的声音就是你的声音，不会传到任何人的服务器上。

这个区别，我觉得已经不是「便宜和贵」的问题了，而是两种完全不同的理念。

一个是「你付钱，我用云计算帮你处理」。一个是「我把能力给你，你在自己的机器上搞定一切」。

在这里说一句啊开源yyds！

OmniVoice Studio的系统要求也不高，8GB内存，4GB显存就能跑。如果你显存不够8GB，它会自动把一部分模型放到CPU上去跑，不让你报错。如果你连显卡都没有，纯CPU也能跑，就是慢一点。

当然，这个东西也不是没缺点。

首先，它现在还在beta阶段，作者自己都在README里写了，版本之间可能会有breaking changes。你要是拿来干正事儿，可能得谨慎点。

其次，第一次启动的时候要下载大约2.4GB的模型文件，而且是从HuggingFace拉下来的。国内用户第一次启动大概率会比较慢。建议提前配个HF_TOKEN。

再者，ElevenLabs在语音的自然度和情感表达上，目前还是略胜一筹的。毕竟人家是商业公司，砸了几千万美元搞研发。OmniVoice Studio的质量在同类型开源项目里已经是顶尖水平，而且有图像界面，但要说完美平替，我觉得还差那么一口气。

不过考虑到这玩意才做了一个多月，这个完成度已经很吓人了。

还有一个细节我觉得挺值得说的。OmniVoice Studio的底层语音引擎也是开源的，叫OmniVoice，来自k2-fsa团队。项目本身用的也是MIT/Apache这种宽松协议。但OmniVoice Studio自己的许可是FSL-1.1-ALv2，个人和非商业使用免费，每个版本发布两年后自动转成Apache 2.0。

这个许可策略挺聪明的。既保护了作者的商业利益，又没有把门关死。两年之后，你的付费用户也能享受Apache 2.0的完全自由。这种「先收一点，最终全放」的思路，我觉得比很多开源项目的许可设计要务实得多。

回到这件事本身，我为什么会为一个语音工具写这么多字呢。

因为我觉得它代表了一种我特别想看到的趋势。

AI的能力不应该只掌握在少数几家收了天价订阅费的公司手里。不应该只有付得起330美元一个月的人才能用上顶级的语音AI。不应该把每个人的声音数据都上传到别人的服务器上。

OmniVoice Studio让我看到的是，那些曾经“高高在上”需要企业级才能部署的AI能力，正在走入寻常百姓家。

646种语言。

三秒克隆。

一键视频翻译配音。

全在你的电脑上跑。

一个月之前这些东西还需要花大价钱买ElevenLabs的会员。

现在你只需要一个GitHub账号，下载一个安装包，等它下载完模型，然后你就可以开始了。

这种感觉太爽了。

项目地址我再放一遍：github.com/debpalash/OmniVoice-Studio

如果你有独立显卡，真心建议去试一下。没有显卡也不要紧，CPU也能跑，就是慢点。

行了，今天就聊到这。如果安装过程有任何问题，欢迎留言讨论！

AI不硬核，把复杂AI，讲给普通人听。

作者：潜行者

链接：https://tool.pc012.com/105.html

文章版权归作者所有，未经允许请勿转载。