-
公开(公告)号:CN103336793B
公开(公告)日:2015-08-12
申请号:CN201310230933.5
申请日:2013-06-09
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了一种个性化论文推荐方法及其系统,其中该方法包括:步骤1,利用科研领域中研究人员撰写学术论文的行为特性,挖掘异质学术网络数据,根据所述异质学术网络数据构建训练数据集,并根据所述训练数据集进行训练得到排序学习模型;步骤2,在线构建用户配置,生成用户感兴趣的候选论文集,根据所述候选论文集并基于所述排序学习模型生成论文推荐结果,基于所述论文推荐结果,按照一定方式生成论文推荐返回给用户;步骤3,在线接收用户反馈,并根据不同的用户反馈行为相应地更新所述论文推荐结果。本发明有效地避免了推荐系统初期的“冷启动”问题,保证了推荐结果的准确率和召回率。
-
公开(公告)号:CN102867040B
公开(公告)日:2015-03-18
申请号:CN201210320575.2
申请日:2012-08-31
Applicant: 中国科学院计算技术研究所 , 人民搜索网络股份公司
Abstract: 本发明涉及一种面向中文搜索引擎混杂语言的查询纠错方法及系统。本发明针对中文搜索引擎混杂语言查询的特点,采用面向混杂语言的异构字符树词典和基于高频或高点击次数用户查询日志构建的语言模型,对用户的查询进行同步切分和纠错尝试,利用状态之间的转移达到对查询进行切分的目的;采用双队列记录每一步编辑后最优的N个完成状态和M个未完成状态,在保障纠错速度的同时获取最佳的切分方式和对应的替代词条组合;利用最终纠错结果侯选集的特征进行判定,输出符合限定条件的纠错结果,有效地提高了准确率。
-
公开(公告)号:CN103268348A
公开(公告)日:2013-08-28
申请号:CN201310204529.0
申请日:2013-05-28
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供了一种用户查询意图识别方法,包括:1)对于待识别的用户查询,将其切分为两个命名实体e1,e2和命名实体上下文ct;2)根据用户查询日志的集合和主题模型,计算用户查询中包含命名实体e1,e2和上下文ct的情况下隐含主题r的概率p(r|e1,e2,ct),找出使得概率p(r|e1,e2,ct)最大的主题r,将该主题r作为命名实体e1,e2之间所隐含的关系;所述主题模型是用查询日志聚合文档集合训练得到的主题模型;所述查询日志聚合文档集合是将每两个命名实体在查询日志中的上下文聚合到一起,形成的关于两两命名实体组合的文档集合。本发明识别的准确率和召回率高;时间复杂度低,给搜索引擎造成的负荷较小,能够提升用户体验;特别适合于移动端的搜素或者移动终端本地的应用搜索。
-
公开(公告)号:CN119066217A
公开(公告)日:2024-12-03
申请号:CN202310643813.1
申请日:2023-06-01
Applicant: 中国科学院计算技术研究所
IPC: G06F16/53 , G06N3/0455 , G06N3/084
Abstract: 本发明提供了一种基于模态对比学习的跨模态实体召回方法和装置,所述方法包括以下步骤:T1、获取待查询实体,利用经训练的多模态编码神经网络和预设的归一化方式提取待查询实体的多维待查询实体向量,其中,多模态编码神经网络包括用于对文本模态的输入实体提取向量的文本编码模型以及用于对图像模态的输入实体提取向量的图像编码模型并且根据同模态的对比学习和跨模态的对比学习得到;T2、计算多维待查询实体向量与索引库中存储的各库内实体的多维库内实体向量的相似度,所述各库内实体的多维库内实体向量预先基于所述经训练的多模态编码神经网络和预设的归一化方式提取得到;T3、基于相似度,从索引库中召回多个库内实体作为候选实体。
-
公开(公告)号:CN117764077A
公开(公告)日:2024-03-26
申请号:CN202311613359.1
申请日:2023-11-29
Applicant: 中国科学院计算技术研究所
IPC: G06F40/30 , G06F18/22 , G06N3/0455 , G06N3/0499 , G06F40/126
Abstract: 本发明提出一种基于提示学习的零样本可解释性立场检测方法、装置,所述方法包括:获取相关零样本立场检测的文本数据集并进行预处理;针对文本中的任一主题构造提示语,所述提示语中包含一立场标签,所述立场标签包含支持、反对和中立其中之一;将预处理的文本数据集以及所述提示语输入到预训练语言模型中进行编码,获得上下文表示向量和token词表示向量;使用上下文表示向量和token词表示向量进行相似度交互,计算出基于上下文的第一相似度和基于立场标签的第二相似度;利用所述第一相似度、第二相似度,对文本的立场标签进行预测。该方法提高了零样本立场检测的可解释性与检测精度。
-
公开(公告)号:CN117333738A
公开(公告)日:2024-01-02
申请号:CN202311308831.0
申请日:2023-10-10
Applicant: 中国科学院计算技术研究所
IPC: G06V10/774 , G06V10/764 , G06V10/40
Abstract: 本发明实施例提供了一种图像分类模型训练方法,该方法包括:S1、获取包括多个图像样本的原始图像数据集及其对应的特征矩阵;S2、对原始图像数据集对应的特征矩阵进行降维处理,并将降维处理后的特征矩阵进行高斯建模以获得特征矩阵中每个特征值的高斯分布;S3、基于步骤S2中每个特征值的高斯分布对其依次进行高斯采样,以使高斯采样所得的所有特征值构成新的特征矩阵,并基于新的特征矩阵生成新的图像数据集;S4、采用新的图像数据集和原始图像数据集构成增强图像训练集训练图像分类模型至收敛。该方法提高了图像分类模型在少样本情况下的性能。
-
公开(公告)号:CN103177126B
公开(公告)日:2015-07-29
申请号:CN201310134933.5
申请日:2013-04-18
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种用于搜索引擎的色情用户查询识别方法,该方法包括基于已标注的用户查询集合,训练用于识别色情用户查询的分类模型,以及利用该训练好的分类模型判断待识别的用户查询是否为色请用户查询。其中,用于训练所述分类模型的用户查询特征包括用户查询的命名实体和实体上下文主题特征以及用户属于色情查询和非色情查询的概率。该方法不需要基于搜索引擎的查询结果来识别色情查询,而是通过利用用户查询中包含的命名实体特征和语言模型特征实现了快速、有效的色情查询识别。
-
公开(公告)号:CN103246714B
公开(公告)日:2015-05-27
申请号:CN201310149482.2
申请日:2013-04-26
Applicant: 中国科学院计算技术研究所 , 人民搜索网络股份公司
IPC: G06F17/30
Abstract: 本发明提供一种基于错误模式挖掘的中文搜索引擎查询纠错方法。该方法通过挖掘搜索引擎查询日志中的错误模式并建模,有效的改善了查询纠错系统中查询及其正确形式之间转换概率的预估精度;利用隐马尔科夫模型进行查询纠错,通过隐含状态的转移实现对查询的切分和纠错,提高了查询纠错的准确率和速度。
-
公开(公告)号:CN103336793A
公开(公告)日:2013-10-02
申请号:CN201310230933.5
申请日:2013-06-09
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了一种个性化论文推荐方法及其系统,其中该方法包括:步骤1,利用科研领域中研究人员撰写学术论文的行为特性,挖掘异质学术网络数据,根据所述异质学术网络数据构建训练数据集,并根据所述训练数据集进行训练得到排序学习模型;步骤2,在线构建用户配置,生成用户感兴趣的候选论文集,根据所述候选论文集并基于所述排序学习模型生成论文推荐结果,基于所述论文推荐结果,按照一定方式生成论文推荐返回给用户;步骤3,在线接收用户反馈,并根据不同的用户反馈行为相应地更新所述论文推荐结果。本发明有效地避免了推荐系统初期的“冷启动”问题,保证了推荐结果的准确率和召回率。
-
公开(公告)号:CN103235812A
公开(公告)日:2013-08-07
申请号:CN201310146037.0
申请日:2013-04-24
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种查询多意图识别方法和系统,所述方法包括:根据G-PLSI模型计算查询意图概率特征向量,其中,G-PLSI模型用于模拟摘要文本的产生过程、相同查询意图下搜索不同查询时的点击链接行为,以及相同查询意图下在同一session中搜索不同查询的行为,查询意图概率特征向量体现摘要文本信息以及不同查询在相同链接上的点击概率和在同一session中的共现概率。所述方法还包括:计算不同查询的查询意图概率特征向量之间的相似度并且根据该相似度进行查询聚类。本发明使用的查询意图概率特征向量对查询内容和用户点击行为进行结合利用,能够更准确地反映用户搜索意图。
-
-
-
-
-
-
-
-
-