利用二次互信息的中文文本术语抽取方法

    公开(公告)号:CN106445921A

    公开(公告)日:2017-02-22

    申请号:CN201610868390.3

    申请日:2016-09-29

    CPC classification number: G06F17/277

    Abstract: 本发明涉及一种利用二次互信息的中文文本术语抽取方法,属于计算机科学与自然语言处理技术。本发明首先基于核心词前后扩展,结合二次互信息、词频、词长和词性特征,将核心词扩展成多个候选术语,然后根据术语间的嵌套关系、词长、词频特征去除候选集中的冗余术语并对术语进行打分排序。本发明综合考虑了术语的语言规则和统计特征,提高了术语抽取的准确性。

    概念关系推理的双视角知识追踪方法

    公开(公告)号:CN117634551A

    公开(公告)日:2024-03-01

    申请号:CN202311665971.3

    申请日:2023-12-06

    Abstract: 本发明涉及概念关系推理的双视角知识追踪方法,属于计算机与信息科学技术领域。本发明首先基于学习者答题记录,通过因果GRU构建概念关系矩阵和知识状态矩阵;然后以两个矩阵为基础构建知识状态图,利用图卷积网络提取邻居节点特征,得到概念关联视角的知识状态图嵌入;同时依据概念关系矩阵将知识状态矩阵序列加权求和,得到时间依赖视角的历史知识状态矩阵;最后结合新问题概念嵌入,预测学习者是否回答正确。本发明针对现有方法未充分挖掘概念关联关系和知识状态时间依赖的问题,提出概念关系推理的双视角知识追踪方法,提升知识追踪预测正确率。

    网络安全CTF竞赛多种类作弊识别与溯源分析方法

    公开(公告)号:CN115759811A

    公开(公告)日:2023-03-07

    申请号:CN202211327519.1

    申请日:2022-10-27

    Abstract: 本发明涉及一种网络安全CTF竞赛多类作弊识别与溯源分析方法,属于网络安全技术领域。本发明首先对选手比赛答题过程进行监测并记录日志;然后使用有限状态机分析答题步骤的逻辑异常的选手,基于正态分布判断答题步骤用时异常的选手,并依据flag提交时间提出选手关联度计算方法,发现可疑高相似性选手,对选手作弊来源进行分析追溯;最后收集并综合判别可疑选手Writeup、新旧环境下答题日志,输出作弊识别结果及分析报告。方法有效识别了CTF竞赛中代替参赛、一人多号、抄袭其他选手flag或解题思路的作弊行为,定位到可疑的相似选手;同时能够收集可疑选手多维度特征综合对比分析,输出更具说服力的判别结果和作弊分析报告,保证比赛的公平性。

    融合知识提示的法律文本小样本命名实体识别方法

    公开(公告)号:CN115062104A

    公开(公告)日:2022-09-16

    申请号:CN202210535070.1

    申请日:2022-05-17

    Abstract: 本发明涉及融合知识提示的法律文本小样本命名实体识别方法,属于自然语言处理与机器学习领域。本发明首先定义裁判文书的提示性模板、标签集和自然词集的映射关系,从中国裁判文书网平台获取了2760篇裁定书和判决书文档;然后采用Bert模型对案件陈述和判决结果句子的嵌入向量进行编码,通过注意力加权得到句子的特征表示,结合构造的模板指导生成式预训练模型GPT生成词的类别向量;最后,利用全连接层将句子向量转化为跨度向量,生成语义标签,最小化其与标签向量的损失函数。本发明有效缓解了在法律领域下,由于其标注样本较少、与通用领域的实体类型分布不同造成的过拟合与分类不准确的问题,提升了法律实体识别的准确率和模型的迁移能力。

    基于预测位置注意力的双向LSTM命名实体识别方法

    公开(公告)号:CN109933801B

    公开(公告)日:2022-03-29

    申请号:CN201910225622.7

    申请日:2019-03-25

    Abstract: 本发明涉及基于预测位置注意力的双向LSTM命名实体识别方法,属于自然语言处理与机器学习领域。主要为了解决现有的基于注意力机制的命名实体识别方法输入文本组成要素单一的问题和特征抽取过程中未利用字符序列前后顺序位置信息的问题。本发明首先利用LSTM学习得到字符、词、句三种不同级别的特征向量表示,组合构成混合特征向量;再使用BLSTM模型对混合特征向量进行编码提取全局文本信息,在解码阶段使用基于预测对齐位置的注意力机制的CNN模型来提取文本局部信息,得到的特征向量序列用于判别标签值;最后根据标签值输出文本中的命名实体。在SIGHAN bakeoff‑3 MSRA中文命名实体识别语料上实验,结果表明本发明能达到较好的识别效果。

    结合词聚合与词组合语义特征的文本相似性度量方法

    公开(公告)号:CN108399163B

    公开(公告)日:2021-01-12

    申请号:CN201810234539.1

    申请日:2018-03-21

    Abstract: 本发明涉及结合文本集词聚合与词组合分布式语义特征的文本相似性度量方法,属于自然语言处理与机器学习领域。本方法首先联合文本集中词聚合、词组合分布式语义特征进行自编码填词预测,通过自编码的训练过程建立词嵌入编码网络;然后通过词嵌入编码网络构建词嵌入表示,再计算词嵌入的最大加权匹配作为文本相似性度量。本发明具有准确度高、分布式语义特征丰富的特点。构建的词嵌入编码网络可以有效利用词语的语义联系,建立分布式语义信息更加丰富的词嵌入表示,更好的描述词语之间的语义相似性,进一步提升文本相似性度量的准确性。

    融合DOM拓扑和文本属性的产品URL自动定位方法

    公开(公告)号:CN112199613A

    公开(公告)日:2021-01-08

    申请号:CN202011099728.6

    申请日:2020-10-13

    Abstract: 本发明涉及融合DOM拓扑和文本属性的产品URL自动定位方法,属于计算机与信息科学技术领域。本发明首先将网站转成DOM解析树结构,获取DOM解析树下各节点的文本属性并给节点添加标签属性;然后通过递归遍历DOM标签树,构建出节点带有产品标签属性的树形图,将树形图转换为包含DOM解析树拓扑结构的节点向量集w;并通过doc2vec将各节点下的文本属性转换成文本向量h;最后用学习到的融合DOM拓扑信息的节点向量、文本向量[w,h]结合标签属性,训练节点分类模型,完成URL自动定位。本发明融合DOM拓扑、文本属性,在现有方法的基础上自动学习页面的提取规则,提高方法的自适应能力,有效的解决了现有方法鲁棒性差、准确率低、工作量大的缺点,具有较高的实用价值和社会价值。

    融合ICT供应链网络拓扑和产品商业信息的节点风险评估

    公开(公告)号:CN111489065A

    公开(公告)日:2020-08-04

    申请号:CN202010227192.5

    申请日:2020-03-27

    Abstract: 本发明涉及融合ICT供应链网络拓扑和产品商业信息的节点风险评估,属于计算机与信息科学技术领域。主要为了解决ICT供应链网络安全风险评估指标体系以及评估方法不完备的问题,针对该问题本发明提出综合考虑ICT供应链网络拓扑信息、供应商节点产品信息以及供应商节点商业信息的ICT供应链网络节点安全风险评估模型。本发明首先将11维指标进行量化处理;然后将量化指标通过集成学习stacking模型进行训练;最后利用训练好的三分类集成学习stacking模型测试输出节点安全风险等级和F1值。在ICT招投标项目数据集上进行实验,供应商节点安全风险评级任务达到较高F1值,表明本发明能较好的实现对供应链网络节点安全风险的综合评价。

    基于预测位置注意力的双向LSTM命名实体识别方法

    公开(公告)号:CN109933801A

    公开(公告)日:2019-06-25

    申请号:CN201910225622.7

    申请日:2019-03-25

    Abstract: 本发明涉及基于预测位置注意力的双向LSTM命名实体识别方法,属于自然语言处理与机器学习领域。主要为了解决现有的基于注意力机制的命名实体识别方法输入文本组成要素单一的问题和特征抽取过程中未利用字符序列前后顺序位置信息的问题。本发明首先利用LSTM学习得到字符、词、句三种不同级别的特征向量表示,组合构成混合特征向量;再使用BLSTM模型对混合特征向量进行编码提取全局文本信息,在解码阶段使用基于预测对齐位置的注意力机制的CNN模型来提取文本局部信息,得到的特征向量序列用于判别标签值;最后根据标签值输出文本中的命名实体。在SIGHAN bakeoff-3 MSRA中文命名实体识别语料上实验,结果表明本发明能达到较好的识别效果。

    结合词聚合与词组合语义特征的文本相似性度量方法

    公开(公告)号:CN108399163A

    公开(公告)日:2018-08-14

    申请号:CN201810234539.1

    申请日:2018-03-21

    Abstract: 本发明涉及结合文本集词聚合与词组合分布式语义特征的文本相似性度量方法,属于自然语言处理与机器学习领域。本方法首先联合文本集中词聚合、词组合分布式语义特征进行自编码填词预测,通过自编码的训练过程建立词嵌入编码网络;然后通过词嵌入编码网络构建词嵌入表示,再计算词嵌入的最大加权匹配作为文本相似性度量。本发明具有准确度高、分布式语义特征丰富的特点。构建的词嵌入编码网络可以有效利用词语的语义联系,建立分布式语义信息更加丰富的词嵌入表示,更好的描述词语之间的语义相似性,进一步提升文本相似性度量的准确性。

Patent Agency Ranking