-
公开(公告)号:CN109241246A
公开(公告)日:2019-01-18
申请号:CN201811294293.3
申请日:2018-11-01
Applicant: 北京京航计算通讯研究所
Abstract: 本发明属于数据处理技术领域,具体涉及一种基于质量文本相似性的数据查询系统。本发明利用TF公式做词频权重统计;同时在相似度匹配算法中采用基于余弦相似度的方法,通过学习样本空间,得到空间转移矩阵,使得相同的样本空间更加紧密,不同的样本空间更加分散,从而快速、准确的匹配数据库的数据。与现有技术相比,本发明提出的技术方案中解决了数据库模糊查询需要依靠苛刻的查询条件(逐字匹配、无语义性)从而造成数据匹配准确度低的问题,克服了传统sql语句无法解决复杂数据匹配的问题。同时,基于余弦相似度算法特性,也保证了其计算速度快、运转效率高的特点。