星期四, 8 月 11, 2022

媲美真人配音!微软语音合成助手 – 免费文字转换音频的 TTS 工具 (发音更有感情)

AI 技术在飞速发展,比如美颜换脸、文字识别、语音识别、移除图片背景、自动驾驶等等都在生活的各个方面起到了应用。而「语音合成 TTS」方面,如今实用性也已非常惊人了。

像腾讯云、阿里云、百度云等都推出文字转语音在线服务 API,但合成的人声大多时候都很容易听出“机器人味”。而微软的 Azure TTS 文本转语音服务效果就比较让人惊叹了!它拥有多种声音和情感风格,能像真人一样朗读出抑扬顿挫,使得合成的人声非常逼真自然,不妨来看看……

微软自然语音转换 – 像真人般将文本朗读出来并保存成音频

微软文本转语音Azure Text to Speech 是一个能将文字转换成真人般自然朗读的云服务,相比同类 TTS 强大之处在于,它借助 AI 神经网络技术,让合成的语音拥有媲美真人的表现力,实现人声语调与情感匹配,朗读时能表现出高兴、悲伤、新闻广播、客服、恐惧、耳语等情感。

加上语速、语调、发音、停顿都可以由用户调节,实际生成的语音非常自然逼真!完全不再像机器人了!因此微软文本转语音技术几乎能应用在任何场景。新版的 Edge 浏览器的朗读功能就是基于此技术而来。可惜此服务是付费的,你还懂编程才能用上它,这似乎离普通用户很远?

别急!其实,微软提供了一个免费的在线 DEMO 演示,可以让用户随便输入文字实现在线试听 (但字数有限制,且试听无法保存)。于是,高手们纷纷各显神通,给我们带来了几款如微软语音合成助手Edge-TTS-record微软 TTS 下载按钮脚本插件等免费工具,可以帮助你将一大段文字转换成音频导出 mp3 或录制成 wav 保存下来,用于其他地方。

微软 TTS 朗读效果预览:

我们先来听几段微软文本转语音的效果吧,相信你一定能听出来,它真的比目前大多数 TTS 同行要优秀很多,情感表现力简直满分!开心、严肃不同场景可以用不同的调调,就连讲个鬼故事也都能讲出害怕的感觉。

其实如今在哔哩哔哩、抖音、快手里好多视频的配音,都有使用了这个微软语音库来生成,人的声音听起来很自然,不特意地去留意,基本都分辨不出来是用机器合成的。

微软语音合成助手免费版 (Windows)

微软语音合成助手」是一款完全免费的文字转语音的 Windows 电脑版软件,它绿色免安装,而且体积小巧,打开就能使用 (需联网),软件界面非常简洁,上手即会使用。

它完全借助了微软的 Azure TTS 服务来将文字合成并生成语音,支持在线试听,也可以保存成 mp3 音频文件,效果非常接近真人朗读!不仅真实自然,而且也能设置它的情感风格、语速、停顿、音量等等。

微软语音合成助手可以支持导入 TXT、SRT 字幕、PDF 多种格式的文档文件,甚至还能支持 JPG、PNG 截图里的文字识别并导入成文本内容。并且重点是,此软件使用了分段下载合并的方式解决了一次只能转换 2500 个字数限制的问题。

软件支持保存导出编辑内容,支持翻译,自动排版,自动标点,文本替换,敏感词提醒,敏感词替换,SSML 多人语音混编等多种功能,还可以实现批量转换。

浏览器插件:微软 TTS 下载音频按钮(油猴脚本)

前面说到,微软 TTS 本身提供了文字转语音的在线演示的网页版,可以让用户在浏览器上输入或粘贴文本,转换成语音进行试听,但官网上并不提供下载功能。因此,有开发者制作了这么一个「微软 TTS 下载音频按钮」插件,可以让你将试听的语音下载保存成 MP3 音频。

这款浏览器插件是完全免费的,它是以 UserScript (油猴脚本) 的形式提供的,比如 Chrome、Edge 等浏览器安装了 Tempermonkey 插件后就能安装此类脚本。安装成功并启用的话,微软 TTS 的网页上除了试听按钮以外,还会如上图一样,增加一个「下载音频」的按钮。

所以,如果你使用 Mac、Linux 或者不希望下载第三方软件,那么使用此脚本也可以在浏览器里搞定文本转音频。

Edge-TTS-record 开源录制工具

这款开源免费的「edge-TTS-record」工具,是一款可以录制 Microsoft Edge 浏览器的语音合成(TTS)语音并输出为 .wav 音频的 Windows 版工具。另外,网上也有一款名为「Read Aloud by asup」的工具与此程序几乎一样,暂不知道是否同一作者。

由于 Edge 浏览器也是使用了微软 Azure TTS 的技术,因此它拥有了同样的逼真自然的声音引擎,包括了晓晓、云杨等人物声音。不过相比前两者,此工具的实现方法是需要将试听的声音进行“录音”而来的,因此录制时间较长,同时过程中也可能受到系统其他软件声音的影响。

aspeak – 命令行文字转语音工具:

对于有特殊需求的朋友,还有一款命令行版的微软 TTS 语音合成工具 aspeak,这是用 Python 编写的基于 Azure 语音合成的命令行程序,安装简单,还可以跨平台使用。

#安装 aspeak
pip install –upgrade aspeak

# 最简单的例子:
aspeak -t “异次元软件世界,你好呀!” -l zh-CN

#导入 .txt 文件,并转换成 .wav 音频保存
aspeak -f input.txt -l zh-CN -o ouput.wav

更多具体的参数,比如怎样指定语音,大家可以看 aspeak 的官方文档。至于此工具的的实际应用例子嘛,就得看大家发挥想象力和二次开发的能力了。

总结:

不管你是视频 UP 主、自媒体还是办公人士,借助微软 Azure TTS 的语音合成引擎来不仅能录制一些旁白、朗读稿子电子书、给视频配音等,也能自娱自乐,给生活和工作都带来方便与乐趣。

上面的几款工具都是免费的,感兴趣和有需要的朋友都可以下载使用。当然了,微软这个 TTS 云服务接口本来是需要付费的,而这些免费工具都是基于微软的免费 Demo 演示开发而来,哪一天要是被关掉了,可能就无法使用了。所以,免费有限,大家且用且珍惜吧……

/ 关注 “异次元软件世界” 微信公众号,获取最新软件推送 /

X-Force

异次元软件世界、iPcFun.com 网站创始人。

本来名字很酷,但很无辜地被叫成小X,瞬间被萌化了。据说爱软件,爱网络,爱游戏,爱数码,爱科技,各种控,各种宅,不纠结会死星人,不折腾会死星人。此人属虚构,如有雷同,纯属被抄袭……

本文作者

相關文章

留下一個答复

請輸入你的評論!
請在這裡輸入你的名字

最新的文章