-
公开(公告)号:CN113420560A
公开(公告)日:2021-09-21
申请号:CN202110703349.1
申请日:2021-06-24
Applicant: 杭州电子科技大学
IPC: G06F40/295 , G06F16/215 , G06F16/35 , G06F16/36 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于跨度表示的实体抽取方法,首先获取互联网语料库,并将其整理得到 格式的数据集;然后对训练集数据进行预处理,采集训练样本;再构建实体抽取模型;最后通过训练集训练实体抽取模型,使用训练好的实体抽取模型完成预测。本发明方法加强了模型对语义的理解,提升了准确率。将位置信息进行二次添加,防止在训练过程中位置信息丢失,从而无法正确理解语义,导致准确率下降;在span的头尾引入不同的残差连接,进一步增强了文本信息的表示能力,有利于改善抽取效果。
-
公开(公告)号:CN112632421B
公开(公告)日:2022-05-10
申请号:CN202011560863.6
申请日:2020-12-25
Applicant: 杭州电子科技大学
IPC: G06F16/955 , G06F16/957 , G06F40/194 , G06F40/216 , G06F40/289
Abstract: 本发明公开了一种自适应结构化的文档抽取方法。本发明首先从互联网中采集原始网页并存储,然后对采集到的原始网页中的原文进行通用无意义清洗,接下来根据Xpath定位网页中的元素,自动对比抽取出网页中有价值的内容,最后将抽取到的内容按照结构化的格式存储起来;通过改进的抽取规则实现不需要先验知识和人工标注数据,而是通过挖掘网页之间的语义相似性,自动生成适用的抽取模式。本发明抽取规则由目标网站自身特点决定,对不同站点兼容性较强,具有较高的可扩展性。通过同站点下相似数据的关联和对比,自动实现过滤冗余内容。实现了基于网页结构和基于文本特征抽取的有效结合。
-
公开(公告)号:CN113486181A
公开(公告)日:2021-10-08
申请号:CN202110820329.2
申请日:2021-07-20
Applicant: 杭州电子科技大学
IPC: G06F16/35 , G06F40/216 , G06F16/28 , G06N20/20
Abstract: 本发明公开了一种多关系的同步抽取方法。本发明具体实现步骤如下:步骤1:获取互联网语料库,并将其整理得到 格式的数据集;步骤2:对数据进行预处理,主要对所得数据集进行清洗和结构化整理,以便后续作为模型的输入;步骤3:构建关系抽取模型;该模型由主体关系抽取模型和客体抽取模型两部分组成;步骤4:关系抽取模型的训练;通过梯度下降算法,求得损失函数的最小化来训练模型;步骤5:模型预测;对需要预测的文本内容,利用求得的概率的最大值来确定文本包含的关系;使用维特比算法,得到文本的主体标注序列、客体标注序列。本发明将相同主体和关系合并,有助于减少计算次数,提升模型的运行效率并改善表现。
-
公开(公告)号:CN113420548A
公开(公告)日:2021-09-21
申请号:CN202110704680.5
申请日:2021-06-24
Applicant: 杭州电子科技大学
IPC: G06F40/279 , G06F16/35 , G06F40/237 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于知识蒸馏和PU学习的实体抽取采样方法,首先获取互联网语料库,经并将其整理得到 格式的数据集;然后对训练集数据进行预处理,构建教师网络,生成训练集的候选实体集D1;再构建PU学习分类器,生成训练集的候选实体集D2;构建学生网络训练样本集;最后进行学生网络模型训练,使用训练好的学生网络模型进行预测。本发明通过知识蒸馏,将多个模型的知识压缩到单一神经网络的训练采样过程中,并辅以PU学习分类器,保证了知识的准确性。在实体数据漏标严重的情况下,本发明能够有效减少样本集中的噪音数据,降低漏标实体数据对抽取结果的影响,改善抽取效果。
-
公开(公告)号:CN113435201A
公开(公告)日:2021-09-24
申请号:CN202110704691.3
申请日:2021-06-24
Applicant: 杭州电子科技大学
IPC: G06F40/295 , G06F16/35 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种Span标注框架下的实体抽取采样方法首先获取互联网语料库,经并将其整理得到 格式的数据集;然后对训练集数据进行预处理,采集训练样本;再构建实体抽取模型,通过训练集对实体抽取模型进行训练;最后进行模型预测。本发明训练样本数量适中、质量高,有助于模型较快收敛,提升模型的训练效率。本发明设置了与训练过程相配适的动态采样策略。在训练初期,通过增加与正例有相似边界的负样本占比,使得模型更好地学习实体边界切分。在训练中后期,增大负样本随机采样的比例,以便模型更好地学习上下文语义。加大了模型学习的难度,以达到锻炼模型的目的,有利于提高模型的鲁棒性。
-
公开(公告)号:CN118429056A
公开(公告)日:2024-08-02
申请号:CN202410573418.5
申请日:2024-05-10
Applicant: 杭州电子科技大学
IPC: G06Q30/0601 , G06F16/9535 , G06Q40/04 , G06F17/10
Abstract: 本发明公开了一种基于优先级的二手车交易匹配方法及系统,该方法首先买家和卖家向二手车交易平台提供交易涉及的信息。其次根据买家和卖家提供的信息,得出每对买家和卖家的属性满意度,平台向买家提供潜在匹配卖家推荐列表。然后每个买家提供买家修改后偏好排序列表;平台收到买家反馈后,计算考虑顾客优先级的调整后匹配满意度。最后根据调整后匹配满意度,建立匹配模型,生成匹配结果。该系统包括买家信息收集模块、卖家信息收集模块、模型建立模块和匹配模块。本发明使得平台得以根据偏好排序和顾客优先级调整匹配满意度,以更快速地实现买卖双方匹配,加速市场交易效率。
-
公开(公告)号:CN103838908B
公开(公告)日:2017-08-25
申请号:CN201310418675.3
申请日:2013-09-14
Applicant: 电子科技大学
IPC: G06F17/50
Abstract: 本发明提供了一种基于AIG和SAT求解器的GSTE模型检测方法,其特征在于包括以下步骤:步骤1,使用ABC工具建立AIG模型;将该AIG转化成FRAIG,同时使用逻辑综合算法化简该FRAIG,减小AIG规模;步骤2,计算每条边上的状态集不动点Ψ*,步骤3:将算得的每条边上的不动点和相应边上的cons做验证,若则报错,并通过反向迁移找到反例;步骤4:判断每条边上的状态集是否到达不动点,若到达不动点,完成本次验证,否则返回步骤2,进行下一轮状态集的计算。
-
公开(公告)号:CN112632421A
公开(公告)日:2021-04-09
申请号:CN202011560863.6
申请日:2020-12-25
Applicant: 杭州电子科技大学
IPC: G06F16/955 , G06F16/957 , G06F40/194 , G06F40/216 , G06F40/289
Abstract: 本发明公开了一种自适应结构化的文档抽取方法。本发明首先从互联网中采集原始网页并存储,然后对采集到的原始网页中的原文进行通用无意义清洗,接下来根据Xpath定位网页中的元素,自动对比抽取出网页中有价值的内容,最后将抽取到的内容按照结构化的格式存储起来;通过改进的抽取规则实现不需要先验知识和人工标注数据,而是通过挖掘网页之间的语义相似性,自动生成适用的抽取模式。本发明抽取规则由目标网站自身特点决定,对不同站点兼容性较强,具有较高的可扩展性。通过同站点下相似数据的关联和对比,自动实现过滤冗余内容。实现了基于网页结构和基于文本特征抽取的有效结合。
-
公开(公告)号:CN103838908A
公开(公告)日:2014-06-04
申请号:CN201310418675.3
申请日:2013-09-14
Applicant: 电子科技大学
IPC: G06F17/50
Abstract: 本发明提供了一种基于AIG和SAT求解器的GSTE模型检测方法,其特征在于包括以下步骤:步骤1,使用ABC工具建立AIG模型;将该AIG转化成FRAIG,同时使用逻辑综合算法化简该FRAIG,减小AIG规模;步骤2,计算每条边上的状态集不动点Ψ*,步骤3:将算得的每条边上的不动点和相应边上的cons做验证,若则报错,并通过反向迁移找到反例;步骤4:判断每条边上的状态集是否到达不动点,若到达不动点,完成本次验证,否则返回步骤2,进行下一轮状态集的计算。
-
-
-
-
-
-
-
-