当前位置:首页 > AI > 正文内容

Transformers 结构 Pipeline 使命详解:文本转音频(text-to-audio 或 text-to-speech)

邻居的猫1个月前 (12-09)AI847

在上一篇文章(Transformers 结构使命概览:从零开始把握 Pipeline(管道)与 Task(使命)),咱们深化探讨了 Transformers 结构中的 Pipeline 和 Task 分类、装备及履行流程。今日,咱们将聚集于五大使命之一的text-to-audiotext-to-speech(TTS),探究怎么运用 Transformers 将文本转化为天然流通的语音。

文本转音频使命

1. 运用场景

文本转音频技能经过深度学习模型从海量语音数据中学习发音规则,能够生成传神的声响。依据 Hugging Face 官网的数据,当时已有超越2,148个文本转音频模型供挑选:

Hugging Face模型列表

这项技能广泛运用于多个范畴,以下是一些具有代表性的运用场景:

  • 有声读物与电子书:将电子书或文章的内容转化为音频格式,运用户能够在通勤、运动或其他无法专心阅览的时间段倾听,供给了一种愈加快捷和灵敏的常识获取办法。

  • 在线教育与学习渠道:主动为课程内容生成配套的音频解说,协助学生操练外语发音,增强了学习的互动性和趣味性,丰厚了教育资源的办法。

  • 虚拟帮手与智能家居:智能音箱、智能手机和其他物联网设备能够运用文本转音频技能响运用户的指令或查询,供给天气预报、新闻更新等信息,提升了设备的易用性和用户体会。

  • 客服体系与主动化服务:企业能够集成文本转音频技能来主动生成语音应对,用于客户服务热线、电话会议记录转写以及主动化的音讯告诉,降低了人力本钱并提高了服务功率。

  • 播送与媒体制造:播送电台、电视节目和网络视频能够快速生成旁白、广告词等需求语音播报的内容,加快了内容生产流程,减少了对专业配音演员的依靠,并可依据方针受众的特色定制不同的声响风格。

2. 使命装备

在 Transformers 结构中,text-to-audio(T2A)和text-to-speech(TTS)是同一使命的不同称号。虽然两者在 Pipeline 装备中有别号联系,但在实际运用时没有差异,结构终究一致运用text-to-audio作为使命称号。

TASK_ALIASES = {
    # 其他省掉......

    "text-to-speech": "text-to-audio",
}

SUPPORTED_TASKS = {
    # 其他省掉......

    "text-to-audio": {
        "impl": TextToAudioPipeline,
        "tf": (),
        "pt": (AutoModelForTextToWaveform, AutoModelForTextToSpectrogram) if is_torch_available() else (),
        "default": {"model": {"pt": ("suno/bark-small", "1dbd7a1")}},
        "type": "text",
    },

    # 其他省掉......
}

3. 文本转音频实战

3.1 ChatTTS 模型

之前的文章中,咱们介绍了怎么运用ChatTTS将儿童绘本内容组成音频。ChatTTS支撑中英文、中止、笑声等多种元素的兼并,生成的声响十分流通。关于更具体的进程,请参阅老牛同学的教程:ChatTTS 长音频组成和本地布置 2 种办法,让你的“儿童绘本”发声的实战教程。

【音频文件请到老牛同学大众号收听】

需求留意的是,ChatTTS现在尚不支撑 Transformers 结构的 Pipeline 使命,因而需求依照老牛同学供给的攻略进行下载、装备和布置推理模型。

3.2 Bark 模型

Transformers 结构默许运用的是由 Suno AI 研制的suno/bark-small模型,该模型以其高质量、天然流通且赋有表现力的语音生成才能而出名。除了英语外,它还支撑包含简体中文、法语、德语、西班牙语在内的 13 种言语。

接下来,咱们将介绍两种运用 Bark 模型的办法。

办法一:主动下载模型

首要,保证装置必要的依靠包:

pip install --upgrade transformers scipy

然后,咱们能够直接从 Hugging Face 下载模型。如果您的网络环境答应,能够直接下载;不然,能够经过设置镜像来加快下载进程:

import os
from transformers import pipeline
import scipy

# 设置署理和本地缓存目录
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
cache_dir = os.path.join('D:', os.path.sep, 'ModelSpace', 'Cache')
os.environ['HF_HOME'] = cache_dir

# 创立Pipeline使命
nlp = pipeline("text-to-audio", model="suno/bark-small")

# 履行文本转音频使命
speech = nlp("Hello, my name is Suno. And, uh — and I like pizza. [laughs] But I also have other interests such as playing tic tac toe.", forward_params={"do_sample": True})

# 存储音频文件
scipy.io.wavfile.write("./output/01.bark.wav", rate=speech["sampling_rate"], data=speech["audio"].ravel())

运转上述代码后,您将在output目录下找到生成的音频文件:01.bark.wav

【音频文件请到老牛同学大众号收听】

办法二:自主下载模型

如果您期望经过本地模型文件进行推理,能够依照以下进程操作:

from transformers import AutoTokenizer, AutoModel, pipeline
import os

# 本地模型文件目录
model_dir = os.path.join('D:', os.path.sep, 'ModelSpace', 'Bark-small')

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(model_dir, local_files_only=True)
model = AutoModel.from_pretrained(model_dir, torch_dtype="auto", device_map="auto", local_files_only=True)

# 创立Pipeline使命
nlp = pipeline("text-to-audio", tokenizer=tokenizer, model=model)

这样,您能够根据本地存储的模型文件进行推理,避免了网络下载的约束。

总结

本文具体介绍了 Transformers 结构中text-to-audio使命的运用场景、装备办法以及实战事例。无论是运用默许的suno/bark-small模型仍是其他模型,Pipeline 都供给了简略而强壮的接口来完成文本到音频的转化。未来,老牛同学将持续推出更多关于 Transformers 结构 Pipeline 使命的文章,敬请期待!

Transformers结构Pipeline使命

期望这篇文章能为您的学习之旅带来协助,欢迎在谈论区共享您的见地和问题!


Pipeline使命:

Transformers 结构使命概览:从零开始把握 Pipeline(管道)与 Task(使命)

往期引荐文章:

深化解析 Transformers 结构(一):包和目标加载中的规划巧思与实用技巧

深化解析 Transformers 结构(二):AutoModel 初始化及 Qwen2.5 模型加载全流程

深化解析 Transformers 结构(三):Qwen2.5 大模型的 AutoTokenizer 技能细节

深化解析 Transformers 结构(四):Qwen2.5/GPT 分词流程与 BPE 分词算法技能细节详解

根据 Qwen2.5-Coder 模型和 CrewAI 多智能体结构,完成智能编程体系的实战教程

vLLM CPU 和 GPU 形式署和推理 Qwen2 等大言语模型具体教程

根据 Qwen2/Lllama3 等大模型,布置团队私有化 RAG 常识库体系的具体教程(Docker+AnythingLLM)

运用 Llama3/Qwen2 等开源大模型,布置团队私有化 Code Copilot 和运用教程

根据 Qwen2 大模型微调技能具体教程(LoRA 参数高效微谐和 SwanLab 可视化监控)

ChatTTS 长音频组成和本地布置 2 种办法,让你的“儿童绘本”发声的实战教程

微信大众号:老牛同学

扫描二维码推送至手机访问。

版权声明:本文由51Blog发布,如需转载请注明出处。

本文链接:https://www.51blog.vip/?id=383

分享给朋友:

“Transformers 结构 Pipeline 使命详解:文本转音频(text-to-audio 或 text-to-speech)” 的相关文章

蒙特-霍尔悖论其实一句话就能解说清楚!!!

蒙特-霍尔悖论其实一句话就能解说清楚!!!

蒙蒂-霍尔问题 蒙蒂-霍尔问题是一个闻名的概率谜题,它产生在一个游戏节目。 假定你正在参与一个游戏节目,节目中有三扇门:一扇门后边有一辆轿车(奖品),别的两扇门后边有山羊。 你挑选了一扇门(比方说 1 号门),但没有翻开。 主持人蒙特-霍尔(Monty Hall)知道每扇门后边有什么,他翻开了另一...

Semantic Kernel入门系列:使用YAML界说prompts functions

Semantic Kernel入门系列:使用YAML界说prompts functions

导言 在上一章节咱们了解了prompts functions(提示函数)的创立,咱们了解了PromptTemplateConfig中各个特点的简略运用。Semantic Kernel答应咱们使用多种办法去创立prompts包含native functions,prompts functions或许也...

机器学习 线性回归

机器学习 线性回归

线性回归是机器学习中最基础和常用的算法之一,它主要用来预测连续型变量。线性回归的目的是找到一个线性关系,使得模型能够最小化预测值与实际值之间的差异。线性回归可以分为两种类型:1. 简单线性回归:只有一个自变量和一个因变量,模型形式为 $ y = wx b $,其中 $ w $ 是权重,$ b $...

机器学习课本,深入浅出机器学习——探索人工智能的基石

机器学习课本,深入浅出机器学习——探索人工智能的基石

1. 《机器学习》 周志华 这本书由计算机科学家周志华教授撰写,涵盖了机器学习的基本概念、范式、应用领域和发展历史,以及各种机器学习模型和方法。提供了百度网盘的下载链接和提取码。2. 《动手学深度学习》 这本书是面向中文读者的深度学习教科书,包含 PyTorch、 NumPy /MXN...

ai文案生成器,革新写作方式,提升内容创作效率

ai文案生成器,革新写作方式,提升内容创作效率

AI文案生成器是一种利用人工智能技术自动生成文案的工具。它可以根据用户输入的关键词、描述、风格等要求,快速生成符合要求的文案内容。AI文案生成器通常采用自然语言处理技术,能够理解和分析用户的需求,并根据大量的文本数据生成高质量的文案。这种工具广泛应用于广告、营销、新闻、社交媒体等领域,可以帮助用户节...

ai修图,重塑摄影后期处理格局

ai修图,重塑摄影后期处理格局

1. 图像去噪:通过AI算法去除图像中的噪点,提高图像质量。2. 图像增强:增强图像的对比度、亮度和色彩饱和度,使图像更加生动。3. 图像修复:修复图像中的损坏、划痕或缺失部分。4. 图像风格迁移:将一种风格应用到另一种图像上,例如将一幅油画风格应用到照片上。5. 图像合成:将多张图像合成一张新的图...