一种用于对文本文件进行智能聚类的方法及系统

    公开(公告)号:CN112612888A

    公开(公告)日:2021-04-06

    申请号:CN202011572805.5

    申请日:2020-12-25

    Abstract: 本发明涉及一种用于对文本文件进行智能聚类的方法及系统,方法包括:确定符合预设文件类型的每个文本文件的至少一个语言种类,将每个文本文件中不符合至少一个语言种类的符号块组进行删除;对去除了符号块组的每个文本文件中的内容进行分词,对分词所获得的所有词语进行停用词过滤,以去掉去除了符号块组的每个文本文件中的所有的停用词;为去除了停用词的每个文本文件构建文本向量,将去除了停用词的每个文本文件上传到文件服务器的临时文件夹内;将所上传的每个文本文件封装成报文,利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类,以生成初始的分类类型,根据用户输入从多个候选的分类类型中确定文本文件的目标分类类型。

    一种数据查询方法、装置、系统和存储介质

    公开(公告)号:CN111159213A

    公开(公告)日:2020-05-15

    申请号:CN201811317310.0

    申请日:2018-11-07

    Abstract: 本发明公开了一种数据查询方法、装置、系统和存储介质,用以针对大数据应用场景下,提高数据查询效率,减少数据查询响应延迟。数据查询系统包括数据查询客户端、第一数据处理平台和第二数据处理平台,其中,第一数据处理平台中存储有用户数据,第二数据处理平台中存储有用户属性信息;数据查询客户端,用于接收第一数据查询请求,所述数据查询请求中携带有第一数据查询条件;根据第一数据查询条件从第一数据处理平台中查找满足第一数据查询条件的用户数据;以及根据查询到的用户数据中携带的用户标识,从第二数据处理平台中查找所述用户标识对应的用户属性信息;根据查找到的用户数据及其对应的用户属性信息,确定数据查询结果。

    一种用于对文本文件进行智能聚类的方法及系统

    公开(公告)号:CN112612888B

    公开(公告)日:2023-06-16

    申请号:CN202011572805.5

    申请日:2020-12-25

    Abstract: 本发明涉及一种用于对文本文件进行智能聚类的方法及系统,方法包括:确定符合预设文件类型的每个文本文件的至少一个语言种类,将每个文本文件中不符合至少一个语言种类的符号块组进行删除;对去除了符号块组的每个文本文件中的内容进行分词,对分词所获得的所有词语进行停用词过滤,以去掉去除了符号块组的每个文本文件中的所有的停用词;为去除了停用词的每个文本文件构建文本向量,将去除了停用词的每个文本文件上传到文件服务器的临时文件夹内;将所上传的每个文本文件封装成报文,利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类,以生成初始的分类类型,根据用户输入从多个候选的分类类型中确定文本文件的目标分类类型。

    一种用于预警企业虚开发票的方法及系统

    公开(公告)号:CN111222766A

    公开(公告)日:2020-06-02

    申请号:CN201911385915.8

    申请日:2019-12-29

    Abstract: 本发明公开了一种用于预警企业虚开发票的方法及系统,属于税务监控技术领域。本发明方法,包括:获取目标企业税务原始数据,并抽取原始数据表;对原始数据表中的多个数据表进行预处理,获取目标企业进项/销项汇总表;根据进项/销项汇总表,确定目标企业进项省外总金额、进项总金额、销项省外总金额、销项总金额、当前本月省外销项总金额和当前本月的前三个月的每月销项平均额;定义风险纳税企业,预警目标企业虚开发票。本发明可有效的监控疑点纳税人,是有效监控和分析不法企业偷逃税款、保障税务收入的重要手段,提高了税务机关纳税评估、税务稽查等方面的工作效率。

Patent Agency Ranking