(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210616526.7
(22)申请日 2022.06.01
(71)申请人 合众新能源 汽车有限公司
地址 314500 浙江省嘉兴 市桐乡市梧桐街
道同仁路98 8号
(72)发明人 蒋磊 蔡勇
(74)专利代理 机构 北京润泽恒知识产权代理有
限公司 1 1319
专利代理师 苏培华
(51)Int.Cl.
G10L 15/22(2006.01)
G10L 15/26(2006.01)
G10L 15/34(2013.01)
H04L 67/12(2022.01)
G06V 10/74(2022.01)G06F 16/583(2019.01)
(54)发明名称
语音处理方法、 装置、 电子设备、 存储介质及
产品
(57)摘要
本发明提供一种语音处理方法、 装置、 电子
设备、 存储介质及产品, 所述方法包括: 获取车内
的语音信息, 将所述语音信息发送给云端, 在通
过车机没有获取到与语音信息对应的页面内容
时, 对所述车机的屏幕进行截屏, 得到截屏图片;
将所述截屏图片发送给云端; 接收所述云端发送
的匹配结果, 所述匹配结果是基于语音信息与截
屏图片上的内容进行相似度匹配的结果; 根据匹
配结果进行模拟点击操作。 本发明中, 在检测到
车内的语音信息时, 若通过车机不能获取到与该
语音信息对应的页面内容, 就对 该车机的屏幕进
行截屏, 将该语音信息和对应的截屏图片发送给
云端, 以便于云端利用图片识别技术, 对该截屏
图片上的内容进行准确的识别, 提高了语音识别
的准确率。
权利要求书2页 说明书13页 附图7页
CN 115171677 A
2022.10.11
CN 115171677 A
1.一种语音处 理方法, 其特 征在于, 包括:
获取车内的语音信息;
将所述语音信息发送给云端;
在通过车机没有获取到与 所述语音信 息对应的页面内容 时, 对所述车机的屏幕进行截
屏, 得到截屏图片;
将所述截屏图片发送给云端;
接收所述云端发送的匹配结果, 所述匹配结果是基于所述语音信 息与所述截屏图片上
的内容进行相似度匹配的结果;
根据所述匹配结果进行模拟点击操作。
2.根据权利要求1所述的语音处理方法, 其特征在于, 在所述获取车内的语音信息后,
所述方法还 包括:
判断通过 车机是否能获取到与所述语音信息对应的页面内容;
若通过车机能获取到与所述语音信 息对应的页面内容, 则将 获取到的所述页面内容发
送给云端;
若通过车机不能获取到与 所述语音信 息对应的页面内容, 则执行对所述车机的屏幕进
行截屏, 得到截屏图片的步骤。
3.一种语音处 理方法, 其特 征在于, 包括:
接收车机发送的消息, 所述消息包括: 检测到车内的语音信 息, 以及车机屏幕的截屏图
片; 其中, 所述截屏图片为所述车机 没有获取到与所述语音信息对应的页面内容时, 对车机
屏幕进行截屏的截屏图片;
将所述消息中的所述语音信息转换为文本;
对所述消息中的车机屏幕的截屏图片进行识别, 得到识别结果;
将转换后的所述文本与所述识别结果进行相似度匹配, 得到相匹配的匹配结果;
将所述匹配结果发送给所述车机, 以使所述车机根据所述匹配结果进行模拟点击操
作。
4.根据权利要求3所述的语音处理方法, 其特征在于, 所述对所述消息中的车机屏幕的
截屏图片进行识别, 得到识别结果, 包括:
将所述消息 中的车机屏幕的截屏图片上的文字转换成文本, 以及提取所述文本在所述
车机屏幕上的位置信息; 以及
对所述消息 中的车机屏幕的截屏图片上的对象进行识别, 并得到所述对象的文本描述
及提取所述对象在所述车机屏幕上的位置信息 。
5.根据权利要求4所述的语音处理方法, 其特征在于, 所述将转换后的所述文本与 所述
识别结果进行相似度匹配, 得到相匹配的匹配结果, 包括:
将所述语音信息转换后的所述文本, 与所述识别结果中的文字转换的文本、 提取的所
述文本在所述车机屏幕上的位置信息、 所述对象的文本描述及提取的所述对象在所述车机
屏幕上的位置信息, 通过训练好的相似度模型进 行相似度匹配, 得到相匹配的匹配结果, 或
者
将所述语音信息转换后的所述文本, 与所述截屏图片上的文字转换的文本、 提取的所
述文本在所述车机屏幕上的位置信息、 所述对象的文本描述及提取的所述对象在所述车机权 利 要 求 书 1/2 页
2
CN 115171677 A
2屏幕上的位置信息, 分别按照关键词的关联关系和权重值进行相似度匹配, 得到相匹配的
匹配结果。
6.一种语音处 理装置, 其特 征在于, 包括:
获取模块, 用于获取 车内的语音信息;
第一发送模块, 用于将所述语音发送给云端;
截屏模块, 用于在通过车机没有获取到与所述语音信息对应的页面内容时, 对所述车
机的屏幕进行截屏, 得到截屏图片;
第二发送模块, 用于将所述截屏图片发送给云端;
接收模块, 用于接收所述云端发送的基于所述语音信 息与所述截屏图片上的内容进行
相似度匹配的匹配结果;
操作模块, 用于根据所述匹配结果进行模拟点击操作。
7.一种语音处 理装置, 其特 征在于, 包括:
接收模块, 用于接收车机发送 的消息, 所述消息包括: 检测到车内的语音信息, 以及车
机屏幕的截屏图片; 其中, 所述截屏图片为所述车机没有获取到与所述语音信息对应的页
面内容时, 对车机屏幕进行截屏的截屏图片;
转换模块, 用于将所述消息中的所述语音信息转换为文本; 以及
识别模块, 用于对所述消息中的车机屏幕的截屏图片进行识别, 得到识别结果;
匹配模块, 用于将转换后的所述文本与所述识别结果进行相似度匹配, 得到相匹配的
匹配结果;
发送模块, 用于将所述匹配结果发送给所述车机, 以使所述车机根据所述匹配结果进
行模拟点击操作。
8.一种电子设备, 其特 征在于, 包括:
处理器;
用于存储所述处 理器可执行指令的存 储器;
其中, 所述处理器被配置为执行所述指令, 以实现如权利要求1至5中任一项所述的语
音处理方法。
9.一种计算机可读存储介质, 其特征在于, 当所述计算机可读存储介质中的指令由电
子设备的处理器执行时, 使得电子 设备能够执行如权利要求 1至5中任一项所述的语音处理
方法。
10.一种计算机程序产品, 包括计算机程序或指令, 其特征在于, 所述计算机程序或指
令被处理器执行时实现权利要求1至 5任一项所述的语音处 理方法。权 利 要 求 书 2/2 页
3
CN 115171677 A
3
专利 语音处理方法、装置、电子设备、存储介质及产品
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:45上传分享