-
公开(公告)号:CN112214993B
公开(公告)日:2024-02-06
申请号:CN202010916293.3
申请日:2020-09-03
Applicant: 拓尔思信息技术股份有限公司
IPC: G06F40/242 , G06F40/30 , G06N3/0464 , G06N3/09
Abstract: 本发明属于文档处理和检索技术领域,为了解决现有基于传统的关键词检索技术,无法挖掘词语、句子、文档之间的语义关系,检索效果差的技术问题;本发明一种基于图神经网络的文档处理方法、装置、电子装置和非易失性计算机存储介质,所述方法采用基于有监督学习的图神经网络技术将语义词图生成深度语义向量,应用二值化编码器技术,将语义向量转化为二进制编码形式,进而生成字符特征向量,并构建倒排索引;使得处理后的文档,在检索过程中,能够基于字符特征索引和检索技术进行高性能检索与语义匹配,有效地提升语义检索结果相关性。
-
公开(公告)号:CN116630482A
公开(公告)日:2023-08-22
申请号:CN202310919649.2
申请日:2023-07-26
Applicant: 拓尔思信息技术股份有限公司
IPC: G06T11/60 , G06N3/0464 , G06T5/00 , G06T7/13 , G06V10/25 , G06V10/74 , G06V10/764 , G06V10/80 , G06V10/82 , G06F16/532 , G06F16/583
Abstract: 本发明提出了一种基于多模态检索与轮廓引导的图像生成方法,步骤如下所述:S1:图文多模态检索生成原始图像:输入正向提示文本Prompt,对其进行分词和向量化处理,输出符合相似度阈值的图库中图像作为原始图像;S2:文字检测;S3:图像修复,去除图像中生成效果不好的元素;S4:边缘检测;S5:生成引导文本,S6:图像条件生成:设置支持外部输入条件的隐式扩散模型;输入S4生成的轮廓图作为外部条件,利用S5生成的引导文本在扩散模型中有条件的生成最终图像并输出,本发明有较好的通用性,通过检测已有图像的布局结构来引导图像生成,有效提升了图像生成效果。
-
公开(公告)号:CN112214966A
公开(公告)日:2021-01-12
申请号:CN202010923832.6
申请日:2020-09-04
Applicant: 拓尔思信息技术股份有限公司
IPC: G06F40/126 , G06F40/284 , G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明属于信息处理领域,为了解决现有技术中实体识别和关系抽取存在无法充分利用实体识别时隐含的实体类别信息的技术问题,本发明提供一种基于深度神经网络的实体及关系联合抽取方法、非易失性存储介质和数据处理系统,使用深度神经网络采用一体化的方法实现将实体识别和关系抽取进行联合训练学习,并且对输入的文本无需人工干预组合实体,能够自动抽取出文本中包含的实体及实体间存在的关系。
-
公开(公告)号:CN107193883B
公开(公告)日:2020-06-02
申请号:CN201710285832.6
申请日:2017-04-27
Applicant: 北京拓尔思信息技术股份有限公司
IPC: G06F16/335 , G06F16/332
Abstract: 本发明实施例提供了一种数据处理方法和系统,其中,所述方法包括:获取待处理的第一数据;根据自然语言处理引擎抽取所述第一数据的关键词序列;根据协同过滤引擎确定所述关键词序列的推荐数据;查询预设的数据库,得到与所述推荐数据匹配的第二数据。本发明实施例利用协同过滤引擎和第一数据的关键词序列确定第一数据的相似数据,即推荐数据,采用协同过滤技术确定第一数据的相似数据,提高了确定相似数据的准确率。当第一数据作为问题数据,第二数据作为答案数据时,本发明实施例也提高了答案推荐的准确率。
-
公开(公告)号:CN107203509A
公开(公告)日:2017-09-26
申请号:CN201710262158.X
申请日:2017-04-20
Applicant: 北京拓尔思信息技术股份有限公司
IPC: G06F17/27
CPC classification number: G06F17/2745 , G06F17/2775 , G06F17/2785
Abstract: 本发明的实施例提供了一种标题生成方法和装置。所述标题生成方法包括:获取第一新闻集合中各新闻文档的原始标题并拼接成标题文本串,其中,所述第一新闻集合包括关于同一新闻事件的至少一个新闻文档;从所述标题文本串中提取高频词串,并对提取的所述高频词串进行过滤;将经过过滤的所述高频词串中出现频次最高的词串确定为所述第一新闻集合的标题。采用本发明实施例的技术方案,可以自动为新闻文档生成了一个高质量的短标题,保证了标题的语义效果和精炼性,而且降低了短标题生成的计算难度,并具有较高的适应性。
-
公开(公告)号:CN105302793A
公开(公告)日:2016-02-03
申请号:CN201510696274.3
申请日:2015-10-21
Applicant: 南方电网科学研究院有限责任公司 , 中国南方电网有限责任公司电网技术研究中心 , 北京拓尔思信息技术股份有限公司
Abstract: 本发明提供了一种利用计算机自动评价科技文献新颖性的方法,其包括如下步骤:A、基于文档内容排序的新颖性检测;B、基于文档语义比对的新颖性检测;C、基于关键术语的新颖性检测;D、基于数值指标的新颖性检测;E、基于步骤A-D分别得到各自的新颖性评分,运用回归模型计算出查新文档的新颖性总分。采用本发明的方法,可基于多维度新颖性检测的科技文献自动查新,提高科技查新的效率。
-
公开(公告)号:CN119721257A
公开(公告)日:2025-03-28
申请号:CN202510206413.3
申请日:2025-02-25
Applicant: 拓尔思信息技术股份有限公司
IPC: G06N5/04 , G06N5/022 , G06F16/35 , G06F40/289 , G06F40/211
Abstract: 本发明属于人工智能领域,提出一种基于事理图谱和大模型的推演方法及系统,通过构建包含现实事件和虚拟事件的事件库,并基于这些事件库建立事理图谱,能够扩展数据集的范围,使其不受实际数据的限制,这样不仅丰富了数据的多样性,还为推荐系统提供了创新的可能性,使得推荐结果更加丰富和多元;使用事理图谱构造用于大模型训练的指令数据集,能够更好地描述事件之间的复杂关系和动态过程,从而在构建指令数据集能够提供更加准确和深入的知识支持;通过指令调优即指令数据集中的指令约束大模型的输出,提高了对大模型的输出的可控性和可预测性;大模型具备了强大的推演能力,突破了事理图谱库的规模限制,推演结果可能具有一定的创新性。
-
公开(公告)号:CN116383331A
公开(公告)日:2023-07-04
申请号:CN202310001827.3
申请日:2023-01-03
Applicant: 拓尔思信息技术股份有限公司
Abstract: 本发明提出了一种构建中文事件库及基于该元事件库对元事件分析预测的方法及系统。构建中文事件库的方法具体步骤包括:S1:元事件抽取;S2:元事件共指;S3:元事件关联;S4:元事件聚合;S5:最终通过S1‑S4形成元事件抽取库、元事件共指库、元事件关联库、元事件专题库,共同构成中文事件库。基于该元事件库形成的一种元事件可视化分析预测的方法,具体步骤包括:S1:元事件库检索;S2:元事件专题分析;S3:元事件预测分析。本发明构建一种适合中文新闻及情报数据处理、分析、预测的中文事件库,不局限于数据统计,实现对事件的语义分析,并通过该中文事件库,可视化元事件脉络,使中文元事件识别更准确,并可预测元事件的下一步发展趋势。
-
公开(公告)号:CN107203509B
公开(公告)日:2023-06-20
申请号:CN201710262158.X
申请日:2017-04-20
Applicant: 北京拓尔思信息技术股份有限公司
IPC: G06F40/258 , G06F40/289 , G06F40/30
Abstract: 本发明的实施例提供了一种标题生成方法和装置。所述标题生成方法包括:获取第一新闻集合中各新闻文档的原始标题并拼接成标题文本串,其中,所述第一新闻集合包括关于同一新闻事件的至少一个新闻文档;从所述标题文本串中提取高频词串,并对提取的所述高频词串进行过滤;将经过过滤的所述高频词串中出现频次最高的词串确定为所述第一新闻集合的标题。采用本发明实施例的技术方案,可以自动为新闻文档生成了一个高质量的短标题,保证了标题的语义效果和精炼性,而且降低了短标题生成的计算难度,并具有较高的适应性。
-
公开(公告)号:CN107273412B
公开(公告)日:2019-09-27
申请号:CN201710307520.0
申请日:2017-05-04
Applicant: 北京拓尔思信息技术股份有限公司
IPC: G06F16/35
Abstract: 本发明的实施例提供了一种文本数据的聚类方法、装置和系统。其中,所述方法包括:子节点接收主节点针对海量文本数据进行拆分得到的待聚类的文本子集合;所述子节点将所述文本子集合中的每个文本分别与所有子节点的文本子集合中的每个文本进行文本相似度的比对,得到文本对的相似关系集合;所述子节点将所述相似关系集合发送至所述主节点,以使得所述主节点根据所有子节点发送的所述相似关系集合对所述海量文本数据进行聚类,得到所述海量文本数据的聚类结果。本发明通过引入spark分布式框架,对海量文本数据进行分布式聚类,从而获得对海量文本数据进行聚类的能力。
-
-
-
-
-
-
-
-
-