一种基于两阶段训练策略的术语抽取方法

    公开(公告)号:CN115965010A

    公开(公告)日:2023-04-14

    申请号:CN202211365738.9

    申请日:2022-10-31

    Abstract: 本发明公开了一种基于两阶段训练策略的术语抽取方法。本方法为:1)获取目标领域的多篇文档并对其中的术语进行标注,得到该目标领域的术语训练集;2)基于中文预训练语言模型构建术语抽取模型,并利用所述术语训练集对所述术语抽取模型进行训练,得到术语知识模型;3)使用教师学生网络对所述政务术语知识模型进行自训练调优,获得术语抽取模型;4)将所述目标领域的一篇文档a输入所述术语抽取模型,得到该文档a中的术语。本发明通过两阶段训练策略和泛化交叉熵损失函数来缓解远程监督标注数据带来的错误标签问题,从而提升术语抽取模型的泛化能力,最后通过实验论证了该方法的可行性和高效性。

    一种面向评价性文本的核心实体识别方法及装置

    公开(公告)号:CN106570179B

    公开(公告)日:2019-11-19

    申请号:CN201610991857.3

    申请日:2016-11-10

    Abstract: 本发明涉及一种面向评价性文本的核心实体识别方法及装置。该方法包括以下步骤:1)输入评价性文本,基于专家规则和行业专有词典识别该评价性文本中的核心实体;2)对步骤1)未识别出核心实体的评价性文本,使用训练好的基于词的双向LSTM模型进行核心实体识别;3)对步骤2)未识别出核心实体的评价性文本,通过对已有实体集的统计并结合文本分词和词性标注,生成候选实体作为核心实体。该装置包括规则匹配模块、模型识别模块和候选实体生成模块。本发明针对多类型混杂的评价性文本,能够准确有效地提取文本中的核心实体,为用户决策判断提供有力依据。

    一种基于视觉的字符串相似度计算方法及相似性判断方法

    公开(公告)号:CN106127222B

    公开(公告)日:2019-06-04

    申请号:CN201610420846.X

    申请日:2016-06-13

    Abstract: 本发明公开了一种基于视觉的字符串相似度计算方法及相似性判断方法。本发明的字符串相似度计算方法为:1)将两待比较字符串中的每一字符分别转化为一对应灰度图片;2)将步骤1)得到的图片的每一行灰度值进行拼接,得到对应图片的一维向量;3)对两待比较字符串中任意两不同字符,计算这两个字符对应的两一维向量的相似度,根据该相似度确定所选两字符的字符相似度;4)基于上述得到的字符相似度和字符位置计算两待比较字符串的视觉相似度。该方法考虑到了不同的字符在人的视觉方法所呈现的不同差异,所计算得到的字符串相似度更加符合人的主观感受。

    一种基于中文字符词性特征的目标实体识别方法及装置

    公开(公告)号:CN108959242A

    公开(公告)日:2018-12-07

    申请号:CN201810431801.1

    申请日:2018-05-08

    CPC classification number: G06F17/278 G06K9/6256

    Abstract: 本发明涉及一种基于中文字符词性特征的目标实体识别方法及装置。该方法包括:1)在训练文本中标记目标实体并进行分词及词性标注;2)将训练文本拆分为字符,得到字符序列,每个字符保留拆分之前的词性;3)将字符的词性与字符在分词中的位置进行拼接作为字符词性,得到字符词性序列;4)将对目标实体的标记映射至目标实体中的各个字符上,得到字符标注序列;5)将字符序列与字符词性序列作为特征,将字符标注序列作为训练目标值,输入机器学习模型中进行训练;6)将待识别文本的字符序列与字符词性序列输入训练好的机器学习模型,得到目标实体识别结果。本发明能够根据需求在中文文本中准确有效地对所需特定目标实体进行识别与提取。

    一种确定文本视觉相似度的方法

    公开(公告)号:CN104375982A

    公开(公告)日:2015-02-25

    申请号:CN201410564469.8

    申请日:2014-10-21

    Abstract: 本发明涉及一种确定文本视觉相似度的方法,实现步骤如下:(1)计算两个字符串直接的视觉距离;(2)计算两个字符串直接相似度;(3)将以前发邮件记录中的邮件记录最大值与当前电子邮件的最大值作为分类器的特征,来检测特定字符串即电子邮件地址的相似度;(4)将利用随机森林分类器对误发送邮件进行分类训练和检测,以用于检测误发邮件。本发明达到了比传统的检测技术更高的准确率和召回率。

    一种通信网络模拟数据生成方法

    公开(公告)号:CN103763151A

    公开(公告)日:2014-04-30

    申请号:CN201410005380.8

    申请日:2014-01-06

    Abstract: 本发明涉及一种通信网络模拟数据生成方法,包括获取一个通讯网络预定量的真实数据,并按预定规则划分为一系列网络快照,记为训练集G;依据活跃度等级对训练集G进行训练,得到通信网络的各个分布参数,其中活跃度等级为节点作为发信者在训练集的各快照中出现的频度;根据通信网络的分布参数随机生成一系列模拟快照G'n,构成所需的通信网络模拟数据;本发明通过引入活跃度这一隐含属性,提出一种线性的通信网络生成算法,利用已有的通信网络数据来快速生成大量模拟通信网络数据,同时能保证生成的模拟网络既能体现通信网络的宏观性质又可保留个体的通信行为特征。

    一种基于布局感知的文档合成方法及装置

    公开(公告)号:CN118586373A

    公开(公告)日:2024-09-03

    申请号:CN202410335145.0

    申请日:2024-03-22

    Abstract: 本发明公开了一种基于布局感知的文档合成方法及装置,涉及文档数据处理领域,对布局生成模型生成的布局进行质量评估、筛选和校正,根据校正的布局创建文档融合模板,根据文档融合模板进行文本容量预估;基于约束条件构建提示语,输入到LLM模型学习生成符合约束条件的文本;根据文档融合模板的布局元素进行文本自适应处理和图表自适应选择;将文本和图表按照文档融合模板的布局结构进行填充融合,生成合成文档。本发明从布局结构和语义信息两方面对合成文档的仿真性和可用性进行了提高,解决了当前合成文档技术中存在的问题,具有良好的效果。

    一种最小距离字符串计算查找方法

    公开(公告)号:CN105913094B

    公开(公告)日:2019-06-21

    申请号:CN201610286111.2

    申请日:2016-05-03

    Abstract: 本发明公开了一种最小距离字符串计算查找方法。本方法为:1)判断判断字符串集合是否满足加速条件,如果满足,则计算该字符串集合中任意两字符串之间的距离,得到加速索引;2)从该字符串集合中找到与待计算字符串t最相似的字符串t’并计算两者之间的距离D(t,t’);然后根据该加速索引判断该字符串集合中的字符串是否满足D(t’,r)≥2D(t,t’);如果满足,则淘汰字符串r;3)根据步骤2)处理结果,确定出与该字符串t距离最小的字符串。本方法大大提高了查找效率。

Patent Agency Ranking