基于图神经网络的文档处理方法、装置和存储介质

    公开(公告)号:CN112214993B

    公开(公告)日:2024-02-06

    申请号:CN202010916293.3

    申请日:2020-09-03

    Abstract: 本发明属于文档处理和检索技术领域,为了解决现有基于传统的关键词检索技术,无法挖掘词语、句子、文档之间的语义关系,检索效果差的技术问题;本发明一种基于图神经网络的文档处理方法、装置、电子装置和非易失性计算机存储介质,所述方法采用基于有监督学习的图神经网络技术将语义词图生成深度语义向量,应用二值化编码器技术,将语义向量转化为二进制编码形式,进而生成字符特征向量,并构建倒排索引;使得处理后的文档,在检索过程中,能够基于字符特征索引和检索技术进行高性能检索与语义匹配,有效地提升语义检索结果相关性。

    基于深度神经网络的实体及关系联合抽取方法

    公开(公告)号:CN112214966A

    公开(公告)日:2021-01-12

    申请号:CN202010923832.6

    申请日:2020-09-04

    Inventor: 刘永志 王洪俊

    Abstract: 本发明属于信息处理领域,为了解决现有技术中实体识别和关系抽取存在无法充分利用实体识别时隐含的实体类别信息的技术问题,本发明提供一种基于深度神经网络的实体及关系联合抽取方法、非易失性存储介质和数据处理系统,使用深度神经网络采用一体化的方法实现将实体识别和关系抽取进行联合训练学习,并且对输入的文本无需人工干预组合实体,能够自动抽取出文本中包含的实体及实体间存在的关系。

    一种数据处理方法和系统

    公开(公告)号:CN107193883B

    公开(公告)日:2020-06-02

    申请号:CN201710285832.6

    申请日:2017-04-27

    Abstract: 本发明实施例提供了一种数据处理方法和系统,其中,所述方法包括:获取待处理的第一数据;根据自然语言处理引擎抽取所述第一数据的关键词序列;根据协同过滤引擎确定所述关键词序列的推荐数据;查询预设的数据库,得到与所述推荐数据匹配的第二数据。本发明实施例利用协同过滤引擎和第一数据的关键词序列确定第一数据的相似数据,即推荐数据,采用协同过滤技术确定第一数据的相似数据,提高了确定相似数据的准确率。当第一数据作为问题数据,第二数据作为答案数据时,本发明实施例也提高了答案推荐的准确率。

    标题生成方法和装置
    5.
    发明公开

    公开(公告)号:CN107203509A

    公开(公告)日:2017-09-26

    申请号:CN201710262158.X

    申请日:2017-04-20

    Inventor: 王洪俊 肖诗斌

    CPC classification number: G06F17/2745 G06F17/2775 G06F17/2785

    Abstract: 本发明的实施例提供了一种标题生成方法和装置。所述标题生成方法包括:获取第一新闻集合中各新闻文档的原始标题并拼接成标题文本串,其中,所述第一新闻集合包括关于同一新闻事件的至少一个新闻文档;从所述标题文本串中提取高频词串,并对提取的所述高频词串进行过滤;将经过过滤的所述高频词串中出现频次最高的词串确定为所述第一新闻集合的标题。采用本发明实施例的技术方案,可以自动为新闻文档生成了一个高质量的短标题,保证了标题的语义效果和精炼性,而且降低了短标题生成的计算难度,并具有较高的适应性。

    一种基于事理图谱和大模型的推演方法及系统

    公开(公告)号:CN119721257A

    公开(公告)日:2025-03-28

    申请号:CN202510206413.3

    申请日:2025-02-25

    Abstract: 本发明属于人工智能领域,提出一种基于事理图谱和大模型的推演方法及系统,通过构建包含现实事件和虚拟事件的事件库,并基于这些事件库建立事理图谱,能够扩展数据集的范围,使其不受实际数据的限制,这样不仅丰富了数据的多样性,还为推荐系统提供了创新的可能性,使得推荐结果更加丰富和多元;使用事理图谱构造用于大模型训练的指令数据集,能够更好地描述事件之间的复杂关系和动态过程,从而在构建指令数据集能够提供更加准确和深入的知识支持;通过指令调优即指令数据集中的指令约束大模型的输出,提高了对大模型的输出的可控性和可预测性;大模型具备了强大的推演能力,突破了事理图谱库的规模限制,推演结果可能具有一定的创新性。

    构建中文事件库及基于该元事件库对元事件分析预测的方法及系统

    公开(公告)号:CN116383331A

    公开(公告)日:2023-07-04

    申请号:CN202310001827.3

    申请日:2023-01-03

    Abstract: 本发明提出了一种构建中文事件库及基于该元事件库对元事件分析预测的方法及系统。构建中文事件库的方法具体步骤包括:S1:元事件抽取;S2:元事件共指;S3:元事件关联;S4:元事件聚合;S5:最终通过S1‑S4形成元事件抽取库、元事件共指库、元事件关联库、元事件专题库,共同构成中文事件库。基于该元事件库形成的一种元事件可视化分析预测的方法,具体步骤包括:S1:元事件库检索;S2:元事件专题分析;S3:元事件预测分析。本发明构建一种适合中文新闻及情报数据处理、分析、预测的中文事件库,不局限于数据统计,实现对事件的语义分析,并通过该中文事件库,可视化元事件脉络,使中文元事件识别更准确,并可预测元事件的下一步发展趋势。

    标题生成方法和装置
    9.
    发明授权

    公开(公告)号:CN107203509B

    公开(公告)日:2023-06-20

    申请号:CN201710262158.X

    申请日:2017-04-20

    Inventor: 王洪俊 肖诗斌

    Abstract: 本发明的实施例提供了一种标题生成方法和装置。所述标题生成方法包括:获取第一新闻集合中各新闻文档的原始标题并拼接成标题文本串,其中,所述第一新闻集合包括关于同一新闻事件的至少一个新闻文档;从所述标题文本串中提取高频词串,并对提取的所述高频词串进行过滤;将经过过滤的所述高频词串中出现频次最高的词串确定为所述第一新闻集合的标题。采用本发明实施例的技术方案,可以自动为新闻文档生成了一个高质量的短标题,保证了标题的语义效果和精炼性,而且降低了短标题生成的计算难度,并具有较高的适应性。

    一种文本数据的聚类方法、装置和系统

    公开(公告)号:CN107273412B

    公开(公告)日:2019-09-27

    申请号:CN201710307520.0

    申请日:2017-05-04

    Abstract: 本发明的实施例提供了一种文本数据的聚类方法、装置和系统。其中,所述方法包括:子节点接收主节点针对海量文本数据进行拆分得到的待聚类的文本子集合;所述子节点将所述文本子集合中的每个文本分别与所有子节点的文本子集合中的每个文本进行文本相似度的比对,得到文本对的相似关系集合;所述子节点将所述相似关系集合发送至所述主节点,以使得所述主节点根据所有子节点发送的所述相似关系集合对所述海量文本数据进行聚类,得到所述海量文本数据的聚类结果。本发明通过引入spark分布式框架,对海量文本数据进行分布式聚类,从而获得对海量文本数据进行聚类的能力。

Patent Agency Ranking