-
公开(公告)号:CN109992772A
公开(公告)日:2019-07-09
申请号:CN201910191756.1
申请日:2019-03-13
Applicant: 众安信息技术服务有限公司
Abstract: 本发明公开了一种文本相似度计算方法及装置,该方法包括:S1:利用预先训练的词向量模型对待计算文本分别进行向量化,获取待计算文本的词向量;S2:计算获取待计算文本之间的第一相似度;S3:根据预先构建的预测模型、待计算文本的词向量以及第一相似度,获取待计算文本之间的第二相似度。本发明一方面利用监督学习技术,融合中文分词,Tf‑Idf,LSA,LDA,Word2Vec等多种自然语言特征提取技术,Jaccard,WMD等多种文本相似度(距离)的计算方法,提高文本相似度计算的准确性,另一方面利用模型融合技术,将深度学习和传统特征学习结合起来,进一步提高了文本相似度计算的准确性。
-
公开(公告)号:CN108920500B
公开(公告)日:2022-02-11
申请号:CN201810507457.X
申请日:2018-05-24
Applicant: 众安信息技术服务有限公司
IPC: G06F16/332 , G06F16/33
Abstract: 本发明公开了一种时间解析方法,所述方法包括以下步骤:S1:构建时间表达集并存储于系统中;S2:获取语音信息,将所述语音信息转换成文本数据;对所述文本数据进行预处理的前或后提取所述文本数据中的第一时间特征;提取所述文本数据中的介词特征和代词特征;S3:对上述所得的代词特征进行指代消解;根据所述指代消解的结果与第一时间特征恢复所述代词特征对应的第二时间特征;S4:根据所得时间特征进行解析处理。通过本技术方案,能解析多轮语音对话中时间;进一步地,还能解决提高时间解析的解析效率;更进一步地,还能解决提高时间解析的解析准确率。
-
公开(公告)号:CN111046132B
公开(公告)日:2023-06-16
申请号:CN201911022722.6
申请日:2019-10-25
Applicant: 众安信息技术服务有限公司
IPC: G06F16/33 , G06F16/332 , G06F40/30 , G06N3/084
Abstract: 一种检索多轮对话的客服问答处理方法及其系统,其中客服问答处理方法包括:获取用户输入的当前信息;根据当前信息识别归属的业务领域,从业务领域中筛选多条候选回复信息,以及提取用户输入的与业务领域相关的历史信息;将每一条候选回复信息与当前信息、历史信息构成的上下文信息进行检索匹配,得到对应的匹配度得分;确定最高的匹配度得分对应的候选回复信息作为当前信息的回复内容。在依据业务领域确定当前信息的回复内容时,是将每一条候选回复信息与当前信息、历史信息构成的上下文信息进行检索匹配,可以避免仅与当前信息进行检索匹配的局限问题,能够从上下文的语境中准确理解用户的真实意图,提高检索匹配的准确度。
-
公开(公告)号:CN111046132A
公开(公告)日:2020-04-21
申请号:CN201911022722.6
申请日:2019-10-25
Applicant: 众安信息技术服务有限公司
IPC: G06F16/33 , G06F16/332 , G06F40/30 , G06N3/08
Abstract: 一种检索多轮对话的客服问答处理方法及其系统,其中客服问答处理方法包括:获取用户输入的当前信息;根据当前信息识别归属的业务领域,从业务领域中筛选多条候选回复信息,以及提取用户输入的与业务领域相关的历史信息;将每一条候选回复信息与当前信息、历史信息构成的上下文信息进行检索匹配,得到对应的匹配度得分;确定最高的匹配度得分对应的候选回复信息作为当前信息的回复内容。在依据业务领域确定当前信息的回复内容时,是将每一条候选回复信息与当前信息、历史信息构成的上下文信息进行检索匹配,可以避免仅与当前信息进行检索匹配的局限问题,能够从上下文的语境中准确理解用户的真实意图,提高检索匹配的准确度。
-
公开(公告)号:CN109857264A
公开(公告)日:2019-06-07
申请号:CN201910010325.0
申请日:2019-01-02
Applicant: 众安信息技术服务有限公司
Abstract: 本发明公开了一种基于空间键位的拼音纠错方法,该方法包括:S1:基于键盘构建二维直角坐标系,并对构成音节的每个字母进行坐标编码;S2:将所有的音节按照各自长度映射到不同的高维空间中,并通过相应的二叉树进行存储;S3:将输入的字符串构建成相应的高维空间的待验证点后,根据待验证点判断字符串是否需要进行纠错,若需要,则执行步骤S4,否则,不做任何操作;S4:在相应的高维空间中查询与待验证点的距离不大于预设的搜索阈值的节点,输出节点对应的音节作为纠错候选项。本发明通过对键盘进行坐标编码,将拼音音节映射到高维空间中,通过二叉树进行存储,比较高维空间中两点之间距离的大小选取出纠错选项,且不需要遍历该高维空间中的所有点。
-
公开(公告)号:CN109857264B
公开(公告)日:2022-09-20
申请号:CN201910010325.0
申请日:2019-01-02
Applicant: 众安信息技术服务有限公司
IPC: G06F3/023 , G06F40/232 , G06F40/279
Abstract: 本发明公开了一种基于空间键位的拼音纠错方法及装置,该方法包括:S1:基于键盘构建二维直角坐标系,并对构成音节的每个字母进行坐标编码;S2:将所有的音节按照各自长度映射到不同的高维空间中,并通过相应的二叉树进行存储;S3:将输入的字符串构建成相应的高维空间的待验证点后,根据待验证点判断字符串是否需要进行纠错,若需要,则执行步骤S4,否则,不做任何操作;S4:在相应的高维空间中查询与待验证点的距离不大于预设的搜索阈值的节点,输出节点对应的音节作为纠错候选项。本发明通过对键盘进行坐标编码,将拼音音节映射到高维空间中,通过二叉树进行存储,比较高维空间中两点之间距离的大小选取出纠错选项,且不需要遍历该高维空间中的所有点。
-
公开(公告)号:CN108920500A
公开(公告)日:2018-11-30
申请号:CN201810507457.X
申请日:2018-05-24
Applicant: 众安信息技术服务有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种时间解析方法,所述方法包括以下步骤:S1:构建时间表达集并存储于系统中;S2:获取语音信息,将所述语音信息转换成文本数据;对所述文本数据进行预处理的前或后提取所述文本数据中的第一时间特征;提取所述文本数据中的介词特征和代词特征;S3:对上述所得的代词特征进行指代消解;根据所述指代消解的结果与第一时间特征恢复所述代词特征对应的第二时间特征;S4:根据所得时间特征进行解析处理。通过本技术方案,能解析多轮语音对话中时间;进一步地,还能解决提高时间解析的解析效率;更进一步地,还能解决提高时间解析的解析准确率。
-
-
-
-
-
-