一种基于倒排索引的工业大数据搜索优化方法

    公开(公告)号:CN113553491A

    公开(公告)日:2021-10-26

    申请号:CN202110715972.9

    申请日:2021-06-25

    Abstract: 本发明属于检索技术领域,公开了一种基于倒排索引的工业大数据搜索优化方法,基于倒排索引的工业大数据搜索优化方法包括:建七个工业文档,利用默认分词器将文档切分成多个单词序列,所有的单词序列形成单词数据流;对不同的单词编号,并记录所述单词的存储文档,得到基础倒排索引;在基础倒排索引的基础上,记录不同单词在文档中出现的次数即单词信息频率,得到二级倒排索引;在基础倒排索引或二级倒排索引的基础上,记录单词在每个文档中出现的具体位置信息,得到三级倒排索引。本发明能够直接减少分析人员在数据检索的时间,同时还能够在搜索专业术语有误的情况下提供对专业书籍检索结果的补充。

    一种工业大数据搜索优化方法、系统、设备、介质、终端

    公开(公告)号:CN113553408A

    公开(公告)日:2021-10-26

    申请号:CN202110714891.7

    申请日:2021-06-25

    Abstract: 本发明属于工业数据处理技术领域,公开了一种工业大数据搜索优化方法、系统、设备、介质、终端,所述工业大数据搜索优化方法包括:首先收集工业领域专业词汇形成相关集合,将内容存入新文档并放在ik分词器配置文件夹中,然后在XML文档中配置工业扩展字典,形成工业分词器后,重启Elasticsearch搜索引擎,此时工业分词器构建完毕。本发明提出一种专门应用于工业的分词器,通过分析分词器的技术原理,构建工业分词器,在工业领域上对比工业分词器与主流通用中文分词器jieba、Ansj的分词结果的差异,结果表明,本发明提供的基于工业分词器的分词取得了更优秀的分类性能和鲁棒性,通过扩展工业专业词汇,使得分词效果和搜索效率得到有效提升。

Patent Agency Ranking