(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210823146.0
(22)申请日 2022.07.13
(71)申请人 焦点科技股份有限公司
地址 210032 江苏省南京市江北新区丽景
路7号
(72)发明人 赵亮亮
(74)专利代理 机构 南京瑞弘专利商标事务所
(普通合伙) 32249
专利代理师 陈建和
(51)Int.Cl.
G06F 16/31(2019.01)
G06F 16/33(2019.01)
G06F 16/335(2019.01)
G06F 16/35(2019.01)
G06F 40/216(2020.01)G06F 40/30(2020.01)
(54)发明名称
一种基于Lucene的同行客户检索方法
(57)摘要
本发明公开了一种基于Lucene的同行客户
检索方法, 主要是构建第一客户的特征索引库,
识别第二客户的特征, 对第二客户的特征与第一
客户特征进行相似度计算, 召回结果人工排名。
达到在一般基于Lucene的全文检索的基础功能
之上, 通过特征工程, 识别 能够代表第一客户的
特征, 以及能够代表第二客户的特征, 通过本发
明的相似度算法和人工排名算法, 能够极大提高
同行客户的召回准确率和检索效率的效果。
权利要求书2页 说明书6页 附图1页
CN 115114393 A
2022.09.27
CN 115114393 A
1.一种基于Lucene的同行客户检索方法, 其特 征在于, 包括以下步骤:
步骤1: 构建第 一客户的特征索引库, 具体为: 利用第 一客户的公司基本信息、 行业信息
和营销信息, 提取 特征词并构建基于Lucene的第一 客户特征索引库;
步骤2: 建立第二客户的行业特征词与关联目录的关联, 包括: 识别第二客户的行业特
征词, 获取第二 客户的行业特 征词的关联目录和对应的关联度;
步骤3: 计算第 二客户与每一个第 一客户之间的相似度 得分, 所述相似度 得分是对第二
客户的行业特征词分别与第一客户的公司基本信息、 行业信息和营销信息进 行相似度计算
所得的三个相似度分值的总和, 包括: 第二客户的行业特征词与第一客户的公司基本信息
之间的相似度, 第二客户的行业特征词与第一客户的行业信息之间的相似度, 第二客户的
行业特征词与第一 客户的营销 信息之间的相似度;
步骤4: 召回结果重新排名, 对于步骤3得出的相似度分值的基础上, 基于预设的排名优
化规则优化排名; 所述排名优化方案包括根据第一客户的属 性信息进行二次排序, 属 性信
息包括客户等级和客户收到询盘数量, 所述客户等级和客户收到询盘数量是数据库中的预
设参数, 在本步骤中作为词典数据使用。
2.如权利要求1所述的一种基于Lucene的同行客户检索方法, 其特征在于: 所述步骤1
具体包括:
步骤11: 收集第一 客户的公司基本信息, 所述公司基本信息包括公司关键词;
步骤12: 对公司基本信息进行分词, 整理成{词元, …}格式的文本, 构建第一客户特征
索引库的索引字段, 其中, 词元为文本分词结果的最小单 元;
步骤13: 收集第一客户的行业信息, 所述行业信息包括: 主营产品名称、 主营产品关键
字、 主营产品目录;
步骤14: 按照主营产品目录作 为统计维度, 对步骤13中收集到的行业信息, 对进行分词
处理, 整理成{主 营产品目录:{词元:词频}, …}格式的文本, 构建第一客户的特征索引库的
索引字段, 其中, 词元为文本 分词结果的最小单元, 词频为词元在 对应主营产品目录统计维
度中出现的次数, 在一个主 营产品中多次出现的词元的词频只记录1次, 词频的最大值是对
应主营产品目录下主营产品的数量总和;
步骤15: 收集第一 客户的营销 信息, 所述营销 信息包括被购买的营销推广关键词;
步骤16; 对步骤15收集到的营销信息, 不做分词处理, 整理成{营销词, …}格式的文本,
构建第一 客户的特 征索引库的索引字段;
步骤17: 基于索引字段, 完成第一 客户的特 征索引库构建。
3.如权利要求2所述的一种基于Lucene的同行客户检索方法, 其特征在于: 所述步骤2
具体包括:
步骤21: 基于从预设的行业特征词词库, 对第二客户的任意主营产品名称, 通过逆向最
大分词算法, 识别其行业特 征词, 作为第二 客户的行业特 征词;
步骤22: 采用预训练语言模型Ber t搭建第一 客户的主营产品信息和目录的分类模型;
步骤23: 向步骤23的模型输入步骤22识别出的第二客户的行业特征词, 返回模型预测
分类概率最高的三个目录码, 将分类概 率作为行业特 征词与对应目录之间的关联度;
步骤24: 输出预测结果并整理成{第二客户的行业特征词:{关联目录: 关联度,…},…}
的文本格式。权 利 要 求 书 1/2 页
2
CN 115114393 A
24.如权利要求3所述的一种基于Lucene的同行客户检索方法, 其特征在于: 所述步骤3
具体包括:
步骤31: 所述步骤3中第二客户的行业特征与第一客户的行业信息之间的相似度的计
算, 包括公式:
其中i∈[1,n], n为第二客户
的行业特征词的关联目录与匹配上的第一客户的主 营产品目录匹配的个数, catboost 为第
二客户的行业特征词与主营产品目录 之间的关联度, sum(fre)为第二客户的行业特征词相
匹配的主营产品词元对应的词频的累加值, totalPr odNum为匹配上的第一客户的主营产品
总数;
步骤32: 所述步骤3中第二客户的行业特征与第一客户的公司基本信息之间的相似度
的打分公 式为: score_ck=n'*1000,其中n'为第二客户行业特征词与第一客户公司基本信
息之间的匹配次数;
步骤33: 步骤3中的第二客户的行业特征与第一客户的营销信息之间的相似度的打分
公式为: score_tr=n ”*10000,其中n ”为第二客户行业特征词与第一客户营销信息之间的
匹配次数;
步骤34: 结合步骤31, 步骤32和步骤33, 第二客户特征与第一客户之间的总相似度分值
为: score_fi nal=score_mpf+score_ck+score_t r。
5.如权利要求4所述的一种基于Lucene的同行客户检索方法, 其特征在于: 所述步骤4
包括:
步骤41: 所述排名优化规则为: 根据步骤34的score_final分值, 划分出分值区间[0~
1], [1~1000], [1000~], 对于相似度分值落在[1~1000], [1000~]两个区间的匹配结果,
按照第一 客户等级, 第一 客户收到询盘数量进行二次排序;
步骤42: 步骤41的排序结果 为第二客户最终的同行检索结果。权 利 要 求 书 2/2 页
3
CN 115114393 A
3
专利 一种基于Lucene的同行客户检索方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:07:11上传分享