一种文本搜索方法及装置

    公开(公告)号:CN114996439A

    公开(公告)日:2022-09-02

    申请号:CN202210913444.9

    申请日:2022-08-01

    Abstract: 本发明涉及一种文本搜索方法及装置,属于数据检索技术领域,通过分词处理得到较为全面的分词文本集;根据预设语料库的标准向量,将待检索文本的分词文本集进行向量转换和编码,得到分词文本集的向量;获取与最高余弦相似度向量对应的待检测文本地址,从而根据待检测文本的地址,获取目标文本。其中,无需限定连续重复字符,无论词语置换或者字段调整,在全面分词后,均可以得到较为全面的分词,余弦相似度根据向量坐标计算,在获取到全面分词后,在进行向量转换和编码时,以固定的预设语料库的标准向量为基准,转换编码得到的向量更加准确,在向量确定后,对应的余弦相似度为唯一,计算过程简单、方便且准确,提升了相似性计算的准确性。

Patent Agency Ranking