一种基于多元文本特征的中文语法查错方法及系统

    公开(公告)号:CN112183094B

    公开(公告)日:2023-06-16

    申请号:CN202011209481.9

    申请日:2020-11-03

    Abstract: 本发明公开了一种基于多元文本特征的中文语法查错方法及系统,方法包括:(1)分别利用预训练模型和语法先验知识对文本进行向量表示,得到语义特征向量和词性特征向量,词性特征向量和语义特征向量首尾拼接得到文本的向量序列;(2)利用Bi‑LSTM模型抽取文本的特征向量序列;(3)对特征向量序列进行基于语义和词性搭配信息的注意力增强;(4)对注意力增强后的特征向量序列进行线性变换,得到标签预测序列;(5)对标签预测序列进行基于词序关系特征的信息增强;(6)捕获信息增强后的标签预测序列的约束信息,基于约束信息判别语法错误边界位置。经过验证,本发明表现出较好的查错效果,优于其他现有同类方法。

    一种多特征融合的微博中社会安全事件检测方法

    公开(公告)号:CN109325117B

    公开(公告)日:2022-10-11

    申请号:CN201810970734.0

    申请日:2018-08-24

    Abstract: 本发明公开了一种多特征融合的微博中社会安全事件检测方法,包括获取微博文本数据后对获取到的微博文本进行预处理、提取微博文本中的社会安全事件特征词、基于语境的词语语义相关度计算方法计算社会安全事件特征词的相关度、构建社会安全事件侦测模型。本发明在对特征词进行相关度计算时,充分考虑了事件侦测过程中的领域性需求,利用大规模语料建立词语共现关系图实现特征词的相关度计算,在对事件进行识别的过程中,采用层次聚类和增量聚类相结合,充分考虑了事件随时间不断变化的过程,同时,采用特征词进行聚类,有效减小了特征维度,提升了模型的运行效率。

    一种物流仓储中心优化选址方法及系统

    公开(公告)号:CN114742593A

    公开(公告)日:2022-07-12

    申请号:CN202210428659.1

    申请日:2022-04-22

    Abstract: 本发明公开了一种物流仓储中心优化选址方法及系统,该方法包括:获取数据集,包括目标地区各行政区域的政务中心位置数据及经济适应量;采用K均值聚类法对数据集中数据点进行基于位置数据的聚类;构建物流仓储中心的选址模型,基于选址模型,对各聚类区域分别采用帝王蝶优化法优化选取物流仓储中心地址。本发明更能契合实际问题的解决,可进一步降低物流运输时间和成本。

    一种领域评审专家行为轨迹的知识图谱构建方法

    公开(公告)号:CN114297404A

    公开(公告)日:2022-04-08

    申请号:CN202111637269.7

    申请日:2021-12-29

    Abstract: 本发明提供一种领域评审专家行为轨迹的知识图谱构建方法,采用自顶向下与自底向上相结合的方法完成构建。通过爬虫进行数据采集并预处理;定义领域本体,建立模式结构;利用自然语言处理技术进行知识抽取;针对同名专家的多类属性特征,提出基于地点一致性与时间重合性相结合的行为轨迹相似度匹配算法,结合编辑距离和余弦相似度确定消歧专家,实现知识融合;最后将知识存储在图数据库neo4j中,查找专家间建立的直接关系路径和间接关系路径,完成亲密度计算。本发明的方法同名专家消歧的F1值为93%,相比现有技术提高16%,解决了知识图谱中实体歧义问题。该知识图谱可有效表示专家行为轨迹及社会关系等,计算专家亲密度,为评审专家的遴选提供知识基础。

    一种基于多元文本特征的中文语法查错方法及系统

    公开(公告)号:CN112183094A

    公开(公告)日:2021-01-05

    申请号:CN202011209481.9

    申请日:2020-11-03

    Abstract: 本发明公开了一种基于多元文本特征的中文语法查错方法及系统,方法包括:(1)分别利用预训练模型和语法先验知识对文本进行向量表示,得到语义特征向量和词性特征向量,词性特征向量和语义特征向量首尾拼接得到文本的向量序列;(2)利用Bi‑LSTM模型抽取文本的特征向量序列;(3)对特征向量序列进行基于语义和词性搭配信息的注意力增强;(4)对注意力增强后的特征向量序列进行线性变换,得到标签预测序列;(5)对标签预测序列进行基于词序关系特征的信息增强;(6)捕获信息增强后的标签预测序列的约束信息,基于约束信息判别语法错误边界位置。经过验证,本发明表现出较好的查错效果,优于其他现有同类方法。

    一种基于网络爬虫和新浪API相结合的微博数据的采集方法

    公开(公告)号:CN109241380A

    公开(公告)日:2019-01-18

    申请号:CN201810970733.6

    申请日:2018-08-24

    Abstract: 本发明公开了一种基于网络爬虫和新浪API相结合的微博数据的采集方法,基于新浪API从微博名人榜获取种子用户及其对应的粉丝用户和关注用户,加入到种子列表;将种子列表转换为种子URL,并判断种子用户列表是否为空,若为空则结束,否则遍历种子列表,采用网络爬虫的方法,爬取种子用户的相关微博信息、微博评论信息和用户个人信息,并将微博评论用户加入到种子列表中。与现有技术相比,本发明通过将新浪API和针对新浪微博平台的网络爬虫相结合,既可以获取格式比较规范的微博数据,又能进行大规模的数据爬取,并且爬取的数据格式更加规范,噪声数据比较少,进而能够为开展微博中社会安全事件的侦测提供重要的数据基础。

    一种中文微博评价对象的抽取方法

    公开(公告)号:CN104915443B

    公开(公告)日:2018-11-23

    申请号:CN201510366805.2

    申请日:2015-06-29

    Inventor: 张仰森 李景玉

    Abstract: 本发明提供一种中文微博评价对象的抽取方法,包括步骤:对中文微博的文本进行预处理,所述预处理包括删除冗余信息、分词;构建中文微博的评价对象的候选库;以及利用支持向量机模型和加权模型对候选库进行筛选以实现中文微博评价对象的抽取。本发明的中文微博评价对象的抽取方法具有较高的准确率和较好的召回率。

    一种微博谣言识别方法及系统

    公开(公告)号:CN108228853A

    公开(公告)日:2018-06-29

    申请号:CN201810027189.1

    申请日:2018-01-11

    Abstract: 本发明公开一种微博谣言识别方法和系统,所述方法包括:获取微博文本特征、微博用户特征和微博传播特征;确定微博评论情感倾向、关键词频率和评论数差值;利用证据理论,根据所述微博评论情感倾向、所述关键词频率和所述评论数差值确定微博评论异常度;根据所述微博文本特征、所述微博用户特征、所述微博传播特征以及所述微博评论异常度确定训练集微博特征向量和测试集微博特征向量;将所述训练集微博特征向量作为分类器的输入,通过调节分类器的参数训练出最优分类模型;将所述测试集微博特征向量作为分类器的输入,利用所述最优分类模型对测试集中的微博进行分类,获得分类结果,提高了微博谣言识别的准确度。

    一种领域术语抽取方法
    60.
    发明授权

    公开(公告)号:CN103778243B

    公开(公告)日:2017-02-08

    申请号:CN201410047277.X

    申请日:2014-02-11

    Inventor: 张仰森 蒋琳

    Abstract: 本发明提供一种领域术语抽取方法,包括步骤:对当前待抽取领域文本与背景领域文本依次进行预处理、分词处理;对当前格式化领域文本进行词频统计;采用左右信息熵扩展方法从当前格式化领域文本中抽取候选领域术语得到第一候选领域术语集;根据候选领域术语边界信息与候选领域术语组成部分的词性搭配进行成词度筛选,得到第二候选领域术语集;对第二候选领域术语集中的候选领域术语与格式化背景领域文本进行领域度筛选处理,得到第三候选领域术语集;对第三候选领域术语集进行通用词库过滤处理,得到领域术语。本发明具有抽取效果较好的特点,可广泛应用于词语抽取领域。

Patent Agency Ranking