融合DOM拓扑和文本属性的产品URL自动定位方法

    公开(公告)号:CN112199613B

    公开(公告)日:2023-03-03

    申请号:CN202011099728.6

    申请日:2020-10-13

    Abstract: 本发明涉及融合DOM拓扑和文本属性的产品URL自动定位方法,属于计算机与信息科学技术领域。本发明首先将网站转成DOM解析树结构,获取DOM解析树下各节点的文本属性并给节点添加标签属性;然后通过递归遍历DOM标签树,构建出节点带有产品标签属性的树形图,将树形图转换为包含DOM解析树拓扑结构的节点向量集w;并通过doc2vec将各节点下的文本属性转换成文本向量h;最后用学习到的融合DOM拓扑信息的节点向量、文本向量[w,h]结合标签属性,训练节点分类模型,完成URL自动定位。本发明融合DOM拓扑、文本属性,在现有方法的基础上自动学习页面的提取规则,提高方法的自适应能力,有效的解决了现有方法鲁棒性差、准确率低、工作量大的缺点,具有较高的实用价值和社会价值。

    结合网络拓扑和商业属性的ICT供应链关键节点识别方法

    公开(公告)号:CN112288495A

    公开(公告)日:2021-01-29

    申请号:CN202011238426.2

    申请日:2020-11-09

    Abstract: 本发明涉及结合网络拓扑和商业属性的ICT供应链关键节点识别方法,属于自然语言处理与机器学习领域。主要为了解决ICT供应链网络节点关键性受到节点本身商业属性和在网络中的拓扑结构的双重影响的问题。本发明首先,利用doc2vec从句子嵌入得到ICT供应链网络供应商节点公司类型、登记状态、住所和经营范围的向量表示,并将注册资本进行归一化,将这四种商业属性的向量和注册资本归一化的数值拼接得到融合五种商业属性的句子向量S1;其次利用Deepwalk算法得到ICT供应链网络节点拓扑嵌入向量S2;最后向量S1和S2进行拼接,并通过线性分类实现ICT供应链网络关键节点识别。在ICT供应链网络的供应商节点信息数据集上实验,结果表明本发明能达到较好的分类效果,准确率达71.4%。

    基于预测位置注意力的双向LSTM命名实体识别方法

    公开(公告)号:CN109933801B

    公开(公告)日:2022-03-29

    申请号:CN201910225622.7

    申请日:2019-03-25

    Abstract: 本发明涉及基于预测位置注意力的双向LSTM命名实体识别方法,属于自然语言处理与机器学习领域。主要为了解决现有的基于注意力机制的命名实体识别方法输入文本组成要素单一的问题和特征抽取过程中未利用字符序列前后顺序位置信息的问题。本发明首先利用LSTM学习得到字符、词、句三种不同级别的特征向量表示,组合构成混合特征向量;再使用BLSTM模型对混合特征向量进行编码提取全局文本信息,在解码阶段使用基于预测对齐位置的注意力机制的CNN模型来提取文本局部信息,得到的特征向量序列用于判别标签值;最后根据标签值输出文本中的命名实体。在SIGHAN bakeoff‑3 MSRA中文命名实体识别语料上实验,结果表明本发明能达到较好的识别效果。

    融合DOM拓扑和文本属性的产品URL自动定位方法

    公开(公告)号:CN112199613A

    公开(公告)日:2021-01-08

    申请号:CN202011099728.6

    申请日:2020-10-13

    Abstract: 本发明涉及融合DOM拓扑和文本属性的产品URL自动定位方法,属于计算机与信息科学技术领域。本发明首先将网站转成DOM解析树结构,获取DOM解析树下各节点的文本属性并给节点添加标签属性;然后通过递归遍历DOM标签树,构建出节点带有产品标签属性的树形图,将树形图转换为包含DOM解析树拓扑结构的节点向量集w;并通过doc2vec将各节点下的文本属性转换成文本向量h;最后用学习到的融合DOM拓扑信息的节点向量、文本向量[w,h]结合标签属性,训练节点分类模型,完成URL自动定位。本发明融合DOM拓扑、文本属性,在现有方法的基础上自动学习页面的提取规则,提高方法的自适应能力,有效的解决了现有方法鲁棒性差、准确率低、工作量大的缺点,具有较高的实用价值和社会价值。

    基于预测位置注意力的双向LSTM命名实体识别方法

    公开(公告)号:CN109933801A

    公开(公告)日:2019-06-25

    申请号:CN201910225622.7

    申请日:2019-03-25

    Abstract: 本发明涉及基于预测位置注意力的双向LSTM命名实体识别方法,属于自然语言处理与机器学习领域。主要为了解决现有的基于注意力机制的命名实体识别方法输入文本组成要素单一的问题和特征抽取过程中未利用字符序列前后顺序位置信息的问题。本发明首先利用LSTM学习得到字符、词、句三种不同级别的特征向量表示,组合构成混合特征向量;再使用BLSTM模型对混合特征向量进行编码提取全局文本信息,在解码阶段使用基于预测对齐位置的注意力机制的CNN模型来提取文本局部信息,得到的特征向量序列用于判别标签值;最后根据标签值输出文本中的命名实体。在SIGHAN bakeoff-3 MSRA中文命名实体识别语料上实验,结果表明本发明能达到较好的识别效果。

    利用拓扑依存关系多视角图编码器的论元抽取方法

    公开(公告)号:CN113222119A

    公开(公告)日:2021-08-06

    申请号:CN202110594279.0

    申请日:2021-05-28

    Abstract: 本发明涉及利用拓扑依存关系多视角图编码器的论元抽取方法,属于自然语言处理与机器学习领域。主要为了解决采用单类型特征建模提取论元时,造成多种角色的论元特征表示易受到与候选论元无语义关联信息的干扰,导致多角色论元的特征表示不准确的问题。本发明首先利用BERT预训练模型对数据集实现文本嵌入,得到文本嵌入向量,触发词类别嵌入向量和实体类别嵌入向量;然后对候选论元、实体类别和触发词之间的拓扑关系进项建模,构建多视角图信息网络;最后利用图卷积网络分别对多视角图编码,聚合得到候选论元多视角图嵌入向量,经过SoftMax全连接层从候选论元中分类抽取事件论元。在ACE2005英文语料上进行实验,结果表明本发明能达到较好的论元抽取效果。

    利用拓扑依存关系多视角图编码器的论元抽取方法

    公开(公告)号:CN113222119B

    公开(公告)日:2022-09-20

    申请号:CN202110594279.0

    申请日:2021-05-28

    Abstract: 本发明涉及利用拓扑依存关系多视角图编码器的论元抽取方法,属于自然语言处理与机器学习领域。主要为了解决采用单类型特征建模提取论元时,造成多种角色的论元特征表示易受到与候选论元无语义关联信息的干扰,导致多角色论元的特征表示不准确的问题。本发明首先利用BERT预训练模型对数据集实现文本嵌入,得到文本嵌入向量,触发词类别嵌入向量和实体类别嵌入向量;然后对候选论元、实体类别和触发词之间的拓扑关系进项建模,构建多视角图信息网络;最后利用图卷积网络分别对多视角图编码,聚合得到候选论元多视角图嵌入向量,经过SoftMax全连接层从候选论元中分类抽取事件论元。在ACE2005英文语料上进行实验,结果表明本发明能达到较好的论元抽取效果。

    融合ICT供应链网络拓扑特征的产品份额趋势预测方法

    公开(公告)号:CN111489192A

    公开(公告)日:2020-08-04

    申请号:CN202010233687.9

    申请日:2020-03-27

    Abstract: 本发明涉及融合ICT供应链网络拓扑特征的产品份额趋势预测方法,属于自然语言处理与机器学习领域。主要解决市场趋势受到供应链网络行业特征和份额分布的双重影响,且历史敏感性强的问题。首先利用霍克斯过程对时序属性信息进行建模,学习得到时间拓扑嵌入向量表示;其次对多行业复用供应链网络拓扑结构进行嵌入,学习得到供应商节点份额拓扑嵌入向量表示;最后供应商节点的时间拓扑嵌入向量和供应商节点份额拓扑嵌入向量,训练市场趋势预测模型,实现对市场趋势的预测。对招投标平台收集到的265家供应商近三年来的数据进行了实验,结果表明本发明能达到较好的分类效果,进一步提升了产品份额趋势预测的准确率。

Patent Agency Ranking