-
公开(公告)号:CN102867040B
公开(公告)日:2015-03-18
申请号:CN201210320575.2
申请日:2012-08-31
Applicant: 中国科学院计算技术研究所 , 人民搜索网络股份公司
Abstract: 本发明涉及一种面向中文搜索引擎混杂语言的查询纠错方法及系统。本发明针对中文搜索引擎混杂语言查询的特点,采用面向混杂语言的异构字符树词典和基于高频或高点击次数用户查询日志构建的语言模型,对用户的查询进行同步切分和纠错尝试,利用状态之间的转移达到对查询进行切分的目的;采用双队列记录每一步编辑后最优的N个完成状态和M个未完成状态,在保障纠错速度的同时获取最佳的切分方式和对应的替代词条组合;利用最终纠错结果侯选集的特征进行判定,输出符合限定条件的纠错结果,有效地提高了准确率。
-
公开(公告)号:CN103246714B
公开(公告)日:2015-05-27
申请号:CN201310149482.2
申请日:2013-04-26
Applicant: 中国科学院计算技术研究所 , 人民搜索网络股份公司
IPC: G06F17/30
Abstract: 本发明提供一种基于错误模式挖掘的中文搜索引擎查询纠错方法。该方法通过挖掘搜索引擎查询日志中的错误模式并建模,有效的改善了查询纠错系统中查询及其正确形式之间转换概率的预估精度;利用隐马尔科夫模型进行查询纠错,通过隐含状态的转移实现对查询的切分和纠错,提高了查询纠错的准确率和速度。
-
公开(公告)号:CN102867040A
公开(公告)日:2013-01-09
申请号:CN201210320575.2
申请日:2012-08-31
Applicant: 中国科学院计算技术研究所 , 人民搜索网络股份公司
Abstract: 本发明涉及一种面向中文搜索引擎混杂语言的查询纠错方法及系统。本发明针对中文搜索引擎混杂语言查询的特点,采用面向混杂语言的异构字符树词典和基于高频或高点击次数用户查询日志构建的语言模型,对用户的查询进行同步切分和纠错尝试,利用状态之间的转移达到对查询进行切分的目的;采用双队列记录每一步编辑后最优的N个完成状态和M个未完成状态,在保障纠错速度的同时获取最佳的切分方式和对应的替代词条组合;利用最终纠错结果侯选集的特征进行判定,输出符合限定条件的纠错结果,有效地提高了准确率。
-
公开(公告)号:CN103246714A
公开(公告)日:2013-08-14
申请号:CN201310149482.2
申请日:2013-04-26
Applicant: 中国科学院计算技术研究所 , 人民搜索网络股份公司
IPC: G06F17/30
Abstract: 本发明提供一种基于错误模式挖掘的中文搜索引擎查询纠错方法。该方法通过挖掘搜索引擎查询日志中的错误模式并建模,有效的改善了查询纠错系统中查询及其正确形式之间转换概率的预估精度;利用隐马尔科夫模型进行查询纠错,通过隐含状态的转移实现对查询的切分和纠错,提高了查询纠错的准确率和速度。
-
公开(公告)号:CN115687638A
公开(公告)日:2023-02-03
申请号:CN202211199819.6
申请日:2022-09-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/36 , G06F40/211 , G06F40/289 , G06N3/0455 , G06N3/044 , G06N3/048 , G06N3/047 , G06N3/08
Abstract: 本发明提出一种基于三元组森林的实体关系联合抽取方法和系统,包括:获取待实体关系抽取的语料,得到句子及其对应的词序列;将词序列输入BERT模型,BERT模型对词序列进行分词,得到子词序列,使用BERT模型对子词序列进行编码,得到句子的分布式表示;将分布式表示输入CRF模型,标注句子中实体,得到实体的向量表示;将实体向量输入,通过TransformerDecoder模块中多头注意力机制获得实体向量中包含的实体间交互信息、实体和输入句子间交互信息的隐层向量;将隐层向量作为Tree‑RNN的初始状态和初始隐层单元,输入实体表示至Tree‑RNN,从Tree‑RNN的根节点的头实体生成其所参与的关系,根据头实体及其对应的关系,选择其尾实体,从而生成重叠的三元组树,再进一步解码得到实体关系三元组。
-
公开(公告)号:CN109308321A
公开(公告)日:2019-02-05
申请号:CN201811428266.0
申请日:2018-11-27
Applicant: 烟台中科网络技术研究所 , 中国科学院计算技术研究所
IPC: G06F16/36 , G06F16/33 , G06F16/332
Abstract: 本发明涉及一种知识问答方法、知识问答系统及计算机可读存储介质,其方法包括以下步骤:接收问答请求,问答请求携带有源问题文本信息;根据源问题文本信息和预设问题标签模板确定查询语言;从动态更新的知识管理库中查询与查询语言匹配的推荐实体组,基于推荐实体组生成知识图谱;发送知识图谱。本发明提供的知识问答方法、知识问答系统和计算机可读存储介质,预设问题标签模板可以检验查询语言的完整性,提高了查询语言的准确性,查询语言和知识管理库共同保证了推荐实体组的准确性以及实时性,知识图谱形式统一归纳了推荐实体组,为用户提供专业化的知识答案。
-
公开(公告)号:CN106874489A
公开(公告)日:2017-06-20
申请号:CN201710092869.7
申请日:2017-02-21
Applicant: 烟台中科网络技术研究所 , 中国科学院计算技术研究所
Abstract: 本发明涉及一种基于卷积神经网络的肺结节图像块检索方法及装置,通过对获取的肺结节图像块进行切片处理,得到至少两张肺结节切片扫描图,通过构造卷积神经网络提取肺结节切片扫描图的图像特征,得到肺结节的局部特征集合,获取数据库中所有肺结节的局部特征集合,对所有肺结节的局部特征集合进行聚类构建视觉词典,基于视觉词典获取肺结节带权特征向量,通过倒排索引的方式对肺结节带权特征向量构建索引库,根据输入的查询信息对索引库执行检索,得到符合查询条件的肺结节图像块。本发明能够快速、准确的检索出与待检索肺结节最相似的肺结节图像序列。
-
公开(公告)号:CN102289514B
公开(公告)日:2016-03-30
申请号:CN201110263798.5
申请日:2011-09-07
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种社会化标签自动标注的方法。该方法包括计算标签词项在文档中的频率(TF)权重,以及由协同过滤CF、一致性话题模型Corr-LDA方法所得的标签权重,并归一化;对上述权重建立线性融合权值模型,并估计线性融合参数;以及基于线性融合模型对社会标签进行自动标注。该发明同时考虑了社会标签与文档具体内容的一致性和抽象语义层的相关性,因此能够提高社会标签自动标注的准确性。
-
公开(公告)号:CN103235812B
公开(公告)日:2015-04-01
申请号:CN201310146037.0
申请日:2013-04-24
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种查询多意图识别方法和系统,所述方法包括:根据G-PLSI模型计算查询意图概率特征向量,其中,G-PLSI模型用于模拟摘要文本的产生过程、相同查询意图下搜索不同查询时的点击链接行为,以及相同查询意图下在同一session中搜索不同查询的行为,查询意图概率特征向量体现摘要文本信息以及不同查询在相同链接上的点击概率和在同一session中的共现概率。所述方法还包括:计算不同查询的查询意图概率特征向量之间的相似度并且根据该相似度进行查询聚类。本发明使用的查询意图概率特征向量对查询内容和用户点击行为进行结合利用,能够更准确地反映用户搜索意图。
-
公开(公告)号:CN103177126A
公开(公告)日:2013-06-26
申请号:CN201310134933.5
申请日:2013-04-18
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种用于搜索引擎的色情用户查询识别方法,该方法包括基于已标注的用户查询集合,训练用于识别色情用户查询的分类模型,以及利用该训练好的分类模型判断待识别的用户查询是否为色请用户查询。其中,用于训练所述分类模型的用户查询特征包括用户查询的命名实体和实体上下文主题特征以及用户属于色情查询和非色情查询的概率。该方法不需要基于搜索引擎的查询结果来识别色情查询,而是通过利用用户查询中包含的命名实体特征和语言模型特征实现了快速、有效的色情查询识别。
-
-
-
-
-
-
-
-
-