(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211508242.2
(22)申请日 2022.11.29
(71)申请人 蓝象智联 (杭州) 科技有限公司
地址 311121 浙江省杭州市余杭区仓前街
道鼎创财富中心 2幢3012室
(72)发明人 冯黎明 王超 邢冰 王玥
刘文博 马煜翔
(74)专利代理 机构 北京知果之信知识产权代理
有限公司 1 1541
专利代理师 苏利
(51)Int.Cl.
G06F 21/60(2013.01)
G06F 21/62(2013.01)
G06F 16/2455(2019.01)
H04L 9/00(2022.01)H04L 9/08(2006.01)
(54)发明名称
一种不暴露明文 数据的相似性检测方法、 装
置及存储介质
(57)摘要
本申请实施例公开了一种不暴露明文数据
的相似性检测方法、 装置及存储介质, 其中方法
包括步骤: 生成同态加密的公钥和对应的私钥,
使用公钥对 数据库中的数据集合进行对齐加密,
得到第一密文集合和密文映射, 利用哈希算法对
数据库中的数据集合进行处理, 得到第一哈希集
合; 将公钥发送给采集端, 以得到第二密文集合,
以及得到第二哈希集合; 将第一密文集合、 密文
映射、 第一哈希集合、 公钥和数据库的数据库ID
发送给计算端, 以得到候选密文与第二密文集合
之间的密 态余弦距离; 接收候选数据库ID和对应
的密态余弦距离, 使用私钥对密 态余弦距离进行
解密得到对应的明文值, 根据余弦距离的明文值
和对应的数据库ID确定出数据库中与明文数据
集合最接近的数据。
权利要求书3页 说明书14页 附图4页
CN 115544552 A
2022.12.30
CN 115544552 A
1.一种不 暴露明文数据的相似性检测方法, 其特 征在于, 包括以下步骤:
生成同态加密的公钥和对应的私钥, 使用所述公钥对数据库中的数据集合进行对齐加
密, 得到第一密 文集合和密 文映射, 利用哈希算法对所述数据库中的数据集合进 行处理, 得
到第一哈希集 合;
将所述公钥发送给采集端, 以使所述采集端使用所述公钥对采集到的明文数据集合进
行同态加密, 得到第二密 文集合, 以及利用所述哈希算法对所述明文 数据集合进 行处理, 得
到第二哈希集 合;
将所述第一密文集合、 密文映射、 第一哈希集合、 公钥和所述数据库的数据库ID发送给
计算端, 以使所述计算端在得到所述采集端发来的所述第二密文集合和第二哈希集合之
后, 根据所述第一哈希集合和第二哈希集合之间的汉明距离, 确定出汉明距离最近的前预
设数量条数据所对应的若干候选数据库ID, 并根据所述密文映射, 确定在所述第一密文集
合中与所述候选数据库ID对应的候选密 文, 以及利用所述 公钥通过计算得到所述候选密 文
与所述第二密文集 合之间的密态余弦距离;
获取所述计算端发送的所述候选数据库ID和对应的所述密态余弦距离, 使用所述私钥
对所述密态余弦距离进行解密得到对应的明文值, 根据对应的余弦距离的明文值和对应的
所述数据库ID确定出 所述数据库中与所述明文数据集 合最接近的数据。
2.根据权利要求1所述的不暴露明文数据的相似性检测方法, 其特征在于, 在所述采集
端对采集到的所述明文数据集 合进行同态加密之前, 还 包括:
所述采集端对采集到的所述明文数据集合进行扩充补零, 所述扩充补零的方法包括:
生成四个长度均为4n的向量, 其中n代表所述明文 数据集合中的明文 数据的向量长度, 分别
向四个向量中区间为[1:n] [n+1:2n] [2n+1:3n ] [3n+1:4n ]的位置写入所述明文数据, 其
他位置的数据依旧为0 。
3.根据权利要求1所述的不暴露明文数据的相似性检测方法, 其特征在于, 在将所述数
据库ID发送给 所述计算端之前, 还 包括:
对所述数据库 ID进行脱敏处理, 所述脱敏处理的方法包括通过使用sha256哈希对原始
的所述数据库ID 计算哈希值的方式得到脱 敏处理后的所述数据库ID, 脱 敏处理后的所述数
据库ID与所述第一哈希集 合中的数据存在一 一对应关系。
4.根据权利要求1所述的不暴露明文数据的相似性检测方法, 其特征在于, 所述哈希算
法为生物哈希算法, 所述 生物哈希算法的计算方法包括:
从[0,1]的均匀分布中生成随机矩阵, 维度为n ×n, 其中n为所述生物哈希算法的输入
向量的长度;
使用正交三角分解法对所述随机矩阵进行分解得到一个正交矩阵和一个上三角矩阵;
初始化长度为 n所述生物哈希算法的结果向量;
获取特征向量和所述正交矩阵的列向量之间的点积, 并将结果存入所述结果向量的对
应位置, 然后对所述结果向量进行二值化处理, 对所述结果向量内的值求均值并对大于均
值的位置取1, 对小于均值的位置取0得到最终的所述结果向量。
5.根据权利要求1所述的不暴露明文数据的相似性检测方法, 其特征在于, 利用所述公
钥通过计算得到所述密态余弦距离的方法包括:
利用公式:权 利 要 求 书 1/3 页
2
CN 115544552 A
2计算得到所述密态余弦距离, 其中
为所述密态余 弦距离,
代表
所述第二密文集合中的一条密文,
代表所述候选密文中的一条密文, n代表所述明文数
据集合中的明文数据的长度。
6.一种不 暴露明文数据的相似性检测装置, 其特 征在于, 包括:
存储器; 以及
与所述存 储器连接的处 理器, 所述处 理器被配置成:
生成同态加密的公钥和对应的私钥, 使用所述公钥对数据库中的数据集合进行对齐加
密, 得到第一密 文集合和密 文映射, 利用哈希算法对所述数据库中的数据集合进 行处理, 得
到第一哈希集 合;
将所述公钥发送给采集端, 以使所述采集端使用所述公钥对采集到的明文数据集合进
行同态加密, 得到第二密 文集合, 以及利用所述哈希算法对所述明文 数据集合进 行处理, 得
到第二哈希集 合;
将所述第一密文集合、 密文映射、 第一哈希集合、 公钥和所述数据库的数据库ID发送给
计算端, 以使所述计算端在得到所述采集端发来的所述第二密文集合和第二哈希集合之
后, 根据所述第一哈希集合和第二哈希集合之间的汉明距离, 确定出汉明距离最近的前预
设数量条数据所对应的若干候选数据库ID, 并根据所述密文映射, 确定在所述第一密文集
合中与所述候选数据库ID对应的候选密 文, 以及利用所述 公钥通过计算得到所述候选密 文
与所述第二密文集 合之间的密态余弦距离;
获取所述计算端发送的所述候选数据库ID和对应的所述密态余弦距离, 使用所述私钥
对所述密态余弦距离进行解密得到对应的明文值, 根据余弦距离的明文值和对应的所述数
据库ID确定出 所述数据库中与所述明文数据集 合最接近的数据。
7.根据权利要求6所述的不暴露明文数据的相似性检测装置, 其特征在于, 所述处理器
还被配置成:
在所述采集端对 采集到的所述明文数据集 合进行同态加密之前, 还 包括:
所述采集端对采集到的所述明文数据集合进行扩充补零, 所述扩充补零的方法包括:
生成四个长度均为4n的向量, 其中n代表所述明文 数据集合中的明文 数据的向量长度, 分别
向四个向量中区间为[1:n] [n+1:2n] [2n+1:3n ] [3n+1:4n ]的位置写入所述明文数据, 其
他位置的数据依旧为0 。
8.根据权利要求6所述的不暴露明文数据的相似性检测装置, 其特征在于, 所述处理器
还被配置成:
在将所述数据库ID发送给 所述计算端之前, 还 包括:
对所述数据库 ID进行脱敏处理, 所述脱敏处理的方法包括通过使用sha256哈希对原始
的所述数据库ID 计算哈希值的方式得到脱 敏处理后的所述数据库ID, 脱 敏处理后的所述数
据库ID与所述第一哈希集 合中的数据存在一 一对应关系。
9.根据权利要求6所述的不暴露明文数据的相似性检测装置, 其特征在于, 所述处理器权 利 要 求 书 2/3 页
3
CN 115544552 A
3
专利 一种不暴露明文数据的相似性检测方法、装置及存储介质
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:14上传分享