一种基于门控主题模型的无监督关键词抽取方法

    公开(公告)号:CN117390157B

    公开(公告)日:2025-05-06

    申请号:CN202311341725.2

    申请日:2023-10-17

    Abstract: 本发明涉及一种基于门控主题模型的无监督关键词抽取方法,属于人工智能、大数据、自然语言处理领域。本发明提出了一种语义自适应的文档语义表示方法,在整个语料库上训练一个神经主题模型来挖掘该领域的相关主题,并采用门控机制对文档主题进行独立加权,使具有较高语义丰富度的文档被分配相对更多的主题;利用文档主题信息设计了一种新的关键词评分算法,同时考虑了主题相似度与主题重要度对关键词评判的影响。通过这两方面因素的折衷,避免了对文本核心主题的过度关注,从而提高了所抽取关键词的多样性。

    基于LDA主题模型的文档推荐方法
    2.
    发明公开

    公开(公告)号:CN115017293A

    公开(公告)日:2022-09-06

    申请号:CN202210566870.X

    申请日:2022-05-23

    Abstract: 本发明涉及一种基于LDA主题模型的文档推荐方法,属于信息技术领域。本发明使用了LDA主题模型将每个文档进行向量化,并输出该文档的主题概率,将推荐系统中的所有文档主题概率结合起来便能得到一个文档对主题的矩阵。另一方面,通过给新用户初始化来赋予每个用户一个主题概率,并使用户主题概率的维度与文档主题概率的维度保持一致,然后将所有用户主题概率结合起来得到一个用户对主题的矩阵。最后,通过用户和文档的两个主题概率矩阵,计算出用户对文档的兴趣值并将相应文档推荐给用户。这种推荐方法可以广泛运用在文档推荐系统中,并适用于各类文档。

    基于多任务学习的层次类别命名实体识别模型设计方法

    公开(公告)号:CN114881032A

    公开(公告)日:2022-08-09

    申请号:CN202210462583.4

    申请日:2022-04-28

    Abstract: 本发明涉及一种基于多任务学习的层次类别命名实体识别模型设计方法,属于自然语言处理技术领域。本发明通过在命名实体识别模型中加入对于类别关系的建模,使得模型能够同时识别出命名实体的多个类别,同时,本发明提出了基于多任务学习的模型来解决具有层次类别的命名实体识别问题。模型使用多任务学习机制同时学习多个层次的命名实体识别任务,这些任务共享同一个编码层,这样可以使得编码层学习到的编码向量可以同时适应多个层次的命名实体识别而不是过拟合于某一个单独的层次。最后,还分别设计了两种信息传递机制传递不同层次间的识别信息,以提高模型的识别效果。

    基于多任务学习的层次类别命名实体识别模型设计方法

    公开(公告)号:CN114881032B

    公开(公告)日:2025-05-06

    申请号:CN202210462583.4

    申请日:2022-04-28

    Abstract: 本发明涉及一种基于多任务学习的层次类别命名实体识别模型设计方法,属于自然语言处理技术领域。本发明通过在命名实体识别模型中加入对于类别关系的建模,使得模型能够同时识别出命名实体的多个类别,同时,本发明提出了基于多任务学习的模型来解决具有层次类别的命名实体识别问题。模型使用多任务学习机制同时学习多个层次的命名实体识别任务,这些任务共享同一个编码层,这样可以使得编码层学习到的编码向量可以同时适应多个层次的命名实体识别而不是过拟合于某一个单独的层次。最后,还分别设计了两种信息传递机制传递不同层次间的识别信息,以提高模型的识别效果。

    一种军事领域标注数据修正与事件检测方法

    公开(公告)号:CN117217222A

    公开(公告)日:2023-12-12

    申请号:CN202310746380.2

    申请日:2023-06-25

    Abstract: 本发明涉及一种军事领域标注数据修正与事件检测方法,属于信息抽取技术领域。本发明使用原始数据集训练模型,并对原始标注数据进行预测,对于预测得分大于一定阈值的样本,将原始数据集的标注结果修改为模型预测结果,从而修正数据集中的错误标注数据和污染数据,提高训练集的质量。本发明在模型训练时引入了分层学习率策略,为靠近下游任务的模型层参数设置更大的学习率,提高预训练模型对于下游任务的适配能力;在模型推理时采用基于投票修正的模型融合方法,通过模型集成的方式提升少样本类别事件的召回率和准确率,融合多个模型的投票结果确定最终预测结果,从而提升模型的鲁棒性。

    融合命名实体频繁模式特征的篇章级文本事件分类方法

    公开(公告)号:CN115062147A

    公开(公告)日:2022-09-16

    申请号:CN202210690741.1

    申请日:2022-06-17

    Abstract: 本发明涉及一种融合命名实体频繁模式特征的篇章级文本事件分类方法,属于信息处理技术领域。本发明旨在挖掘出长文档中的核心特征并发现其关键词,并通过这些特征来对篇章级文本事件进行分类。同时本发明提出了融合命名实体频繁模式特征的分类模型来解决篇章级文本事件分类问题。分类模型通过泛化实体语义信息以增强提取到的特征的鲁棒性,同时结合频繁项集挖掘算法和信息增益指数来挖掘篇章级文本的关键特征。最后,使用朴素贝叶斯分类法对篇章级文本事件进行分类。

    一种基于GOMS模型改进的软件可用性量化评估方法

    公开(公告)号:CN113535573A

    公开(公告)日:2021-10-22

    申请号:CN202110841584.5

    申请日:2021-07-26

    Abstract: 本发明涉及一种基于GOMS模型改进的软件可用性量化评估方法,属于软件评估领域。本发明基于GOMS模型改进的软件可用性量化评估方法,对于软件的不同业务采用专家打分法对业务的使用频率、重要程度进行打分,从而确定各个业务的权重;将业务目标分为几个子目标,子目标可以继续细分,直到分解成不能分解的基本操作;以GOMS模型基本操作时间为基础,计算出不同基本操作的复杂度;根据基本操作的复杂度,计算业务复杂度;根据软件系统各个业务的复杂度,得到软件系统的复杂度。本发明对于软件系统的不同设计方案,通过计算各方案的软件界面设计复杂度,软件界面设计的复杂度越高,软件可用性越差,由此即可实现各设计方案的软件可用性的量化评估。

    一种基于领域数据配比的大语言模型知识注入方法

    公开(公告)号:CN119831030A

    公开(公告)日:2025-04-15

    申请号:CN202411730689.3

    申请日:2024-11-29

    Abstract: 本发明涉及一种基于领域数据配比的大语言模型知识注入方法,属于大语言模型、领域知识、自然语言处理技术领域。本发明设计了一个自我监督的持续预训练框架,该框架能够在不增加额外人工标注成本的情况下,利用选定的知识对LLMs进行知识增强;提出了一个基于同质性度量的知识筛选机制,用于从大规模知识图谱中精选与目标任务相关的高质量知识,有效提升了LLMs的领域感知。在多个低资源垂直领域的NER任务上进行了广泛的实验,实验结果验证了本方法的有效性,尤其是在提升模型对复杂实体类型识别能力方面表现出色。

    一种基于门控主题模型的无监督关键词抽取方法

    公开(公告)号:CN117390157A

    公开(公告)日:2024-01-12

    申请号:CN202311341725.2

    申请日:2023-10-17

    Abstract: 本发明涉及一种基于门控主题模型的无监督关键词抽取方法,属于人工智能、大数据、自然语言处理领域。本发明提出了一种语义自适应的文档语义表示方法,在整个语料库上训练一个神经主题模型来挖掘该领域的相关主题,并采用门控机制对文档主题进行独立加权,使具有较高语义丰富度的文档被分配相对更多的主题;利用文档主题信息设计了一种新的关键词评分算法,同时考虑了主题相似度与主题重要度对关键词评判的影响。通过这两方面因素的折衷,避免了对文本核心主题的过度关注,从而提高了所抽取关键词的多样性。

Patent Agency Ranking