一种融入多个段落信息的抽取式机器阅读理解方法

    公开(公告)号:CN113836893A

    公开(公告)日:2021-12-24

    申请号:CN202111074789.1

    申请日:2021-09-14

    Abstract: 本发明提出了一种融入多个段落信息的抽取式机器阅读理解方法,属于自然语言处理中的阅读理解技术领域。所述融入多个段落信息的抽取式机器阅读理解方法依托的阅读理解系统包括段落评分器、段落阅读器和答案选择器,包括以下步骤:S1,段落评分器根据问题和段落的相关程度得出段落包含正确答案的可能性;S2,段落阅读器根据问题抽取出段落中最有可能的N个答案,并量化它们是正确答案的可能性;S3,答案选择器融合段落阅读器和段落评分器的结果,将答案和答案所在段落可能性相乘,得出整篇文章中最有可能的答案。所述方法摆脱了现有技术对输入长度的限制,可以帮助用户在科研论文上进行阅读理解,从而快速了解论文内容,紧跟领域内最新进展。

    一种基于局部敏感哈希的主题标签快速赋予方法

    公开(公告)号:CN105354264B

    公开(公告)日:2018-08-03

    申请号:CN201510697460.9

    申请日:2015-10-23

    Abstract: 本发明提出了种基于局部敏感哈希的主题标签快速赋予方法,属于文本挖掘技术领域。此方法将主题标签赋予问题转换成求K近邻的问题,包含离线数据库构建和在线查询两个部分。其中,离线部分利用标签主题模型对带标签的文档进行处理,得到个“主题‑标签”数据库。在线部分通过局部敏感哈希在已经构建好的“主题‑标签”数据库中快速查找与待查主题最相似的主题,并把该主题的标签赋给待查主题,并进步通过2种哈希采用序列融合技术优化结果。本发明能够实现主题标签的自动赋予,使得传统主题模型的结果变得可理解;对比现有技术,使用局部敏感哈希进行查找的方法使得效率大大提高,能够在大数据上获得较快较好的主题标签赋予效果。

    一种基于baseline的期刊评价方法及评价装置

    公开(公告)号:CN105404641A

    公开(公告)日:2016-03-16

    申请号:CN201510697408.3

    申请日:2015-10-23

    CPC classification number: G06F17/30705 G06F17/30699

    Abstract: 本发明涉及一种基于baseline的期刊评价方法,属于计算机自然语言处理技术领域。此方法首先通过建立期刊的baseline引文的网络,以便计算期刊的baseline评价值Vbaseline,然后通过建立期刊引文网络,以便计算期刊所有引用的评价值Vcount,最后综合Vbaseline以及Vcount得到基于baseline值的期刊评价指标V。与已有技术相比较,本发明方法能够综合考虑论文的关注度与新颖度:论文的被引用数代表论文的关注度,论文的baseline值代表论文本身的重要性与新颖度。基于baseline的期刊评价指标,有效的解决了平衡论文数量与质量的两个评价指标,强调了期刊原创性、新颖性、开拓性的重要性,提供了更加公平的衡量期刊重要性的方法。

    一种基于词组的概念化主题建模方法

    公开(公告)号:CN111401053A

    公开(公告)日:2020-07-10

    申请号:CN202010178856.3

    申请日:2020-03-15

    Abstract: 本发明涉及一种基于词组的概念化主题建模方法,属于自然语言处理中的文本挖掘领域。包括1)挖掘文本语料中的词组;2)从概念知识库获取概念和实体关系;3)设置主题数、Dirichlet分布先验参数及最大迭代次数N;4)随机为每篇文档的每个词组中的词分配概念;5)随机地为每个词组的概念分配相同的主题;6)通过Gibbs采样方法迭代N次,更新概念和主题分配;7)计算文档-主题分布θ和主题-概念分布φ的估计值;8)得出每篇文档中不同主题的占比;9)得出每个主题中不同概念的占比,并结合概念知识库对挖掘出的主题进行解释。所述方法使主题模型在挖掘文本语料主题的过程中,深入理解文本的含义,增强了主题挖掘的语义完整性。

    一种基于自注意力机制的科技写作推荐方法

    公开(公告)号:CN111061935A

    公开(公告)日:2020-04-24

    申请号:CN201911292337.3

    申请日:2019-12-16

    Abstract: 本发明涉及一种基于自注意力机制的科技写作推荐方法,属于计算机自然语言处理以及社交媒体技术领域。所述科技写作推荐方法,首先利用已有的段落写作内容,挖掘作者写作主题与意图,并以此初步筛选候选段落;其次设计了基于自注意力机制的深度科技写作推荐模型,用于获取上下文语境的深度语义表示,以对候选段落进行排序;通过将预测排序结果与真实排序结果进行比较,获取召回率和归一化折损累积增益,以评价写作推荐方法的好坏。所述方法与传统的基于内容的引文推荐方法相比,在一个真实的科技论文写作推荐中进行推荐预测,取得最高的召回率和归一化折损累积增益。

    一种基于深度哈希的符号社交网络嵌入方法

    公开(公告)号:CN110210988A

    公开(公告)日:2019-09-06

    申请号:CN201910468680.2

    申请日:2019-05-31

    Abstract: 本发明提出了一种基于深度哈希的符号社交网络嵌入方法,属于网络社交媒体技术领域。本方法利用三元组,同时保存网络中的正边和负边信息,并设计了端到端的深度哈希模型对三元组数据进行训练,最终得到标记社交网络中每个节点在汉明空间中的哈希码表示。通过对应哈希码在链接预测任务中的AUC值,评价网络嵌入方法的好坏。本发明方法对比现有技术,首次将深度哈希应用于网络嵌入任务当中,可以同时考虑标记网络中正边和负边信息,在两个真实标记社交网络中进行连接预测任务,显著提高了标记社交网络分析任务的效果。

    一种基于目标检测的无监督深度哈希方法

    公开(公告)号:CN110196918A

    公开(公告)日:2019-09-03

    申请号:CN201910449029.0

    申请日:2019-05-28

    Abstract: 本发明涉及一种基于目标检测的无监督深度哈希方法,属于计算机信息检索技术以及图片检索技术领域。利用目标检测获得图片中存在的物体标签,并将这些标签作为图片的伪标签,基于伪标签训练设计好的端到端深度哈希模型,得到每张图片在汉明空间中的哈希码表示;再通过对应哈希码在图片检索任务中的平均准确率均值来评价深度哈希模型的好坏;其中,平均准确率均值即MAP;所依托的无监督深度哈希模型包括目标检测算法单元以及哈希网络单元。所述方法能获得更有指导性的信息;能充分利用深度模型的能力来学习高质量的保持相似度的哈希码;在真实图片数据集中进行图片检索取得了最好的效果,即MAP值最高。

    一种基于局部敏感哈希的主题标签快速赋予方法

    公开(公告)号:CN105354264A

    公开(公告)日:2016-02-24

    申请号:CN201510697460.9

    申请日:2015-10-23

    CPC classification number: G06F17/30864 G06F17/28

    Abstract: 本发明提出了一种基于局部敏感哈希的主题标签快速赋予方法,属于文本挖掘技术领域。此方法将主题标签赋予问题转换成求K近邻的问题,包含离线数据库构建和在线查询两个部分。其中,离线部分利用标签主题模型对带标签的文档进行处理,得到一个“主题-标签”数据库。在线部分通过局部敏感哈希在已经构建好的“主题-标签”数据库中快速查找与待查主题最相似的主题,并把该主题的标签赋给待查主题,并进一步通过2种哈希采用序列融合技术优化结果。本发明能够实现主题标签的自动赋予,使得传统主题模型的结果变得可理解;对比现有技术,使用局部敏感哈希进行查找的方法使得效率大大提高,能够在大数据上获得较快较好的主题标签赋予效果。

    一种基于网页正文内容的问题式查询推荐方法

    公开(公告)号:CN113836408B

    公开(公告)日:2024-07-16

    申请号:CN202111074829.2

    申请日:2021-09-14

    Abstract: 本发明提出了一种基于网页正文内容的问题式查询推荐方法,属于计算机网络信息检索查询推荐技术领域。所述基于网页正文内容的问题式查询推荐方法依托的查询推荐系统包括问题式查询生成模块和问题式查询推荐模块,包括以下步骤:S1,生成问题式查询,具体为:以网页正文文本段和关键字作为输入,使用神经网络模型生成一个基于网页正文文本段与关键字相关的问题式查询,重复该过程,得到N个问题式查询。S2,以问题式查询之间的相似度作为衡量标准筛选由S1得到的N个问题式查询,作为查询推荐的最终结果。所述方法在摆脱了对用户检索日志的依赖的同时,能更好的帮助用户表达信息需求。

    一种基于大规模语言模型的低资源实体关系联合抽取方法

    公开(公告)号:CN116933792A

    公开(公告)日:2023-10-24

    申请号:CN202310804621.4

    申请日:2023-07-03

    Abstract: 本发明涉及一种基于大规模语言模型的低资源实体关系联合抽取方法,属于计算机自然语言处理信息抽取技术领域。本方法包括命名实体识别和关系抽取,首先将待抽取的文本和实体类别列表填充到命名实体识别提示模板中,将填充好的提示模板输入到大规模语言模型中,得到实体列表。然后将关系列表填充到关系抽取提示模板中,将命名实体识别的输入、抽取出的实体列表和填充好的关系抽取提示模板输入到大规模语言模型中,从而得到三元组列表。本发明简化了抽取过程,降低了资源消耗,避免了错误传播,提高了抽取效果。

Patent Agency Ranking