说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210512268.8 (22)申请日 2022.05.12 (71)申请人 杭州倒映有 声科技有限公司 地址 310000 浙江省杭州市余杭区五常街 道高教路970 -1号5幢4楼40 3-5室 (72)发明人 李素贞 李骁 肖朔  (51)Int.Cl. G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 40/253(2020.01) G06F 40/211(2020.01) G10L 25/63(2013.01) (54)发明名称 一种基于语音合成的情绪数据标注方法 (57)摘要 本发明涉及语音合 成技术领域, 尤其涉及一 种基于语音合成的情绪数据标注方法。 包括: 获 取语音数据源; 对语音数据源进行预处理: 通过 对一句话完整性的把握, 将语义连贯的句子进行 切割, 针对文本对应的语音数据, 打上时间戳; 对 文本一致性和风格一致性进行校对; 将音频对应 的时间戳进行音频切分, 产出音频单句; 将产出 的音频单句, 进行音字韵律以及情绪层面的标 注。 本发明通过一级标签词、 二级标签词和辅助 用词的设计, 可以实现几十种情绪词映射学习, 全面提升情感表现力, 使tts的声音更具温度, 情 感表现力更加自然丰富, 与真人播讲进一步减小 差距; 能有效降低标注数据量, 降低制作成本和 复杂度, 能够更 快速的落 地应用场景。 权利要求书1页 说明书4页 附图2页 CN 115130469 A 2022.09.30 CN 115130469 A 1.一种基于语音合成的情绪数据标注方法, 其特 征在于, 包括以下步骤: 步骤1.获取语音数据源; 步骤2.对语音数据源进行 预处理, 包括以下步骤: 步骤2.1.通过对一句话完整性的把握, 将语义连贯的句子进行切割, 针对文本对应的 语音数据, 打上时间戳; 步骤2.2.对文本一 致性和风格一 致性进行校对; 步骤2.3.将音频对应的时间戳进行音频切分, 产出音频 单句; 步骤3.将产出的音频 单句, 进行音字韵律以及情绪层面的标注。 2.根据权利要求1所述的一种基于语音合成的情绪数据标注方法, 其特征在于, 步骤1 获取方式为: 声纹录制, 和/或, 使用过往数据; 所述声纹录制包括以下步骤: 步骤1.1.1.制定 录音计划、 准备录音材 料; 步骤1.1.2.确定 录音环境和主播状态; 步骤1.1.3.录制形成最终录音 整轨和对应文本; 所述使用过往数据包括以下步骤: 步骤1.2.1.调取录音 主播以往的音频作品内容; 步骤1.2.2.人工转写或提供原 始语料; 步骤1.2.3.产出对应音频的文本内容。 3.根据权利要求1所述的一种基于语音合成的情绪数据标注方法, 其特征在于, 步骤 2.1中, 针对文本对应的语音数据, 打上时间戳, 还 包括: 每句话前后保留5 00ms静音时长 。 4.根据权利要求1所述的一种基于语音合成的情绪数据标注方法, 其特征在于, 步骤3 中, 音字韵律层面标注包括: 标出每句话文字的声韵母以及韵律层面的音标, 并进行 人工二次校对。 5.根据权利要求1所述的一种基于语音合成的情绪数据标注方法, 其特征在于, 步骤3 中, 情绪层面标注包括: 步骤3.1.定义情绪分类, 包括一级标签词、 二级标签词和辅助用词; 二级词 汇出现时必 定与一级部分词汇存在绑定关系; 步骤3.2.将句子进行 标签词的标注; 步骤3.3.将一句话依据一级标签词、 二级标签词区分后, 分析各类标签词的情绪在当 前句的占比, 给 出对应分值, 并进行文本标注。 6.根据权利要求5所述的一种基于语音合成的情绪数据标注方法, 其特征在于, 所述一 级标签词包括: 疑惑、 得意、 紧张、 喜悦、 不满、 敷衍、 失望、 悲伤、 欣慰、 愤怒、 惊讶、 恐惧、 无 奈、 嘲讽、 自然; 所述二级情绪词包括: 疑问、 激动、 喜悦; 所述辅助用词包括: 好奇、 自信、 骄傲、 焦虑、 紧急、 开心、 愉快、 高兴、 赞叹、 愉悦、 满意、 厌恶、 不屑、 忧愁、 伤 心、 生气、 胆怯、 害怕、 恐慌、 嘲笑、 平静。 7.根据权利要求5所述的一种基于语音合成的情绪数据标注方法, 其特征在于, 所述分 值为10分制分值。权 利 要 求 书 1/1 页 2 CN 115130469 A 2一种基于语音合成的情绪数据标注方 法 技术领域 [0001]本发明涉及语音合成技术领域, 尤其涉及一种基于语音合成的情  绪数据标注方 法。 背景技术 [0002]从早期的语音合成开始发展至今, 其应用场景经历了较大的转  变。 过去语音合成 应用主要用于简单的文本播报, 场景相对单调, 现  其应用场景更复杂更多样, 智能助手、 智 能机器人、 文字阅读等诸多  领域都能见到语音合成技 术的身影。 [0003]如在有声阅读方面, 用户需求越来越个性化; 机场、 车站广播等  服务业, 甜美温柔 的音质可以拉进与乘客间的距离, 让乘客在繁忙的  旅途中感受到温暖; 服务业客服场景 下, 人们倾向于声音 更加热情、  亲切。 如何让合 成的声音听起来自然并富有情感, 是语音合 成领域的  一个主要发展方向。 [0004]随着语音合成技术的发展, 语音合成(TTS)已经应用于生活中  的各个场景, 实现 在语音外呼、 智能交 互、 内容生产、 新闻播报等 落 地, 但现有语音合成存在着以下缺陷: [0005]当前的tts相对来说比较成熟, 但实际落地在业务场景上用户一  般都能够辨别出 是否是合成音, 由于合成的整体节奏韵律感还是对比  真人演绎来说相差很多, 真人的朗读 更多追求口气和情感的, 而合成  的机械感和句与句之前的停顿节 奏都比较固定和统一, 情 感表达不会  随着上下文的内容发生明显起伏。 [0006]人在表达时, 会通过声音来传达出喜怒哀乐。 比如在小说朗读中,  不同的语境不 同的情景非常多, tts合成的声音无论是痛苦还是高兴  输出的情绪都非常中性, 无法给人 以带入感, 整体的情感表现都是平  稳的。 发明内容 [0007]本发明的目的是提供一种基于语音合成的情绪数据标注方法,用  于解决现有技 术问题: 合成的声 音都非常中性, 无法给 人以带入感。 [0008]为了实现上述目的, 本发明采用了如下技 术方案: [0009]一种基于语音合成的情绪数据标注方法, 包括以下步骤: [0010]步骤1.获取语音数据源; [0011]步骤2.对语音数据源进行 预处理, 包括以下步骤: [0012]步骤2.1.通过对一句话完整性的把握, 将语义连贯的句子  进行切割, 针对文本对 应的语音数据, 打上时间戳; [0013]步骤2.2.对文本一 致性和风格一 致性进行校对; [0014]步骤2.3.将音频对应的时间戳进行音频切分, 产出音频 单 句; [0015]步骤3.将产出的音频 单句, 进行音字韵律以及情绪层面的标注。 [0016]进一步地, 步骤1 获取方式为: [0017]声纹录制, 和/或, 使用过往数据;说 明 书 1/4 页 3 CN 115130469 A 3

.PDF文档 专利 一种基于语音合成的情绪数据标注方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于语音合成的情绪数据标注方法 第 1 页 专利 一种基于语音合成的情绪数据标注方法 第 2 页 专利 一种基于语音合成的情绪数据标注方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:08:38上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。