一种考虑文本语义信息的实体识别方法及系统

    公开(公告)号:CN113971403B

    公开(公告)日:2024-08-02

    申请号:CN202111116386.9

    申请日:2021-09-23

    Inventor: 宗威 林松涛 李兵

    Abstract: 本发明属于数据清洗、数据集成应用技术领域,公开了一种考虑文本语义信息的实体识别方法及系统,对于待识别记录集合A与B,所述实体识别方法包括:数据读取与预处理;创建关于数据集的倒排索引;加载SBERT模型;计算数据集中词语的IDF值;生成待匹配记录对;计算记录相似性;处理与返回识别结果。本发明基于倒排索引与SBERT模型,通过倒排索引与计算数据源中单词的IDF值快速生成待匹配记录对,提高了识别效率;通过SBERT模型充分提取文本记录中的语义信息,利用余弦相似度计算记录间的相似性,提高识别准确性,由此达到高效准确的实体识别效果;相较于传统实体识别方法,本方法在论文数据集上实体识别结果的查全率提升了20%左右,查准率提升10%左右。

    基于工业大数据产品工期的约束条件分析系统与方法

    公开(公告)号:CN108491991B

    公开(公告)日:2021-08-06

    申请号:CN201810086663.8

    申请日:2018-01-30

    Abstract: 一种基于工业大数据产品工期的约束条件分析系统与方法,可对影响产品工期的约束条件进行定量分析。基于Spark大数据分析平台的二次开发;对约束条件数据进行预处理;运用随机森林重要度方法筛选产品工期的约束条件,得到重要约束条件;运用PCA特征提取方法获得线性约束条件;运用K‑means聚类方法对组合得到的非线性约束条件进行筛选;运用随机选择方法与多元线性回归方法结合,对预测工期进行误差分析,实现产品工期的约束条件或组合约束条件的定量分析。本发明还具有海量数据的存储能力和高效分析能力,为企业缩短产品的工期、优化生产计划提供建议和参考。

    一种考虑文本语义信息的实体识别方法及系统

    公开(公告)号:CN113971403A

    公开(公告)日:2022-01-25

    申请号:CN202111116386.9

    申请日:2021-09-23

    Inventor: 宗威 林松涛 李兵

    Abstract: 本发明属于数据清洗、数据集成应用技术领域,公开了一种考虑文本语义信息的实体识别方法及系统,对于待识别记录集合A与B,所述实体识别方法包括:数据读取与预处理;创建关于数据集的倒排索引;加载SBERT模型;计算数据集中词语的IDF值;生成待匹配记录对;计算记录相似性;处理与返回识别结果。本发明基于倒排索引与SBERT模型,通过倒排索引与计算数据源中单词的IDF值快速生成待匹配记录对,提高了识别效率;通过SBERT模型充分提取文本记录中的语义信息,利用余弦相似度计算记录间的相似性,提高识别准确性,由此达到高效准确的实体识别效果;相较于传统实体识别方法,本方法在论文数据集上实体识别结果的查全率提升了20%左右,查准率提升10%左右。

    基于工业大数据产品工期的约束条件分析系统与方法

    公开(公告)号:CN108491991A

    公开(公告)日:2018-09-04

    申请号:CN201810086663.8

    申请日:2018-01-30

    Abstract: 一种基于工业大数据产品工期的约束条件分析系统与方法,能够对影响产品工期的约束条件进行定量分析。基于Spark大数据分析平台的二次开发;对约束条件数据进行预处理;运用随机森林重要度方法筛选产品工期的约束条件,得到重要约束条件;运用PCA特征提取方法获得线性约束条件;运用K-mean方法对组合得到的非线性约束条件进行筛选;运用随机选择方法与多元线性回归方法结合,对预测工期进行误差分析,实现产品工期的约束条件或组合约束条件的定量分析。本发明还具有海量数据的存储能力和高效分析能力,为企业缩短产品的工期、优化生产计划提供建议和参考。

Patent Agency Ranking