数据处理方法及装置
    2.
    发明公开

    公开(公告)号:CN116467427A

    公开(公告)日:2023-07-21

    申请号:CN202310323580.7

    申请日:2023-03-29

    Abstract: 本申请提供一种数据处理方法及装置,所述方法包括:得到原始医学知识数据集对应的各类簇;对所述各类簇进行离群检测处理,如果类簇中数据点的总数小于设定阈值或类簇中不包含标签为医学教材的医学数据,则将类簇中的所有医学数据放入离群点候选集中;根据离群点候选集中数据点的标签对所述离群点候选集进行剪枝处理;对剪枝后的离群点候选集中的数据点进行离群处理。本发明实施例提供的数据处理方法及装置,通过专门适用于该应用场景的改进聚类和离群算法,对原始医学知识数据中的离群数据进行筛选处理,还通过专门适用于该应用场景数据特点的剪枝算法,既保证离群处理的计算效率,也最大限度地保留了可用的医学知识数据。

    一种文本分类方法
    3.
    发明授权

    公开(公告)号:CN116127079B

    公开(公告)日:2023-06-20

    申请号:CN202310425424.1

    申请日:2023-04-20

    Abstract: 本发明提供一种文本分类方法,基于待分类文本段的文本特征向量与各个文本类别的支持文本特征向量之间的语义相似度,确定该待分类文本段所属的文本类别,即使部分文本类别的支持文本段数量较少,仍能根据该文本类别的支持文本段的文本特征向量准确地归纳出该文本类别的支持文本特征向量,从而根据上述语义相似度识别出属于该文本类别的待分类文本段,减少多标签分类场景下遗漏类别标签的概率;此外,在进行文本特征提取时,充分运用了对应文本段的语法结构,从而提取更准确、更丰富的上下文信息,以结合各个非停用词本身的语义信息以及上下文语义信息进行整体语义提取,有助于提升政务文本分类的准确性。

    数据处理方法及装置
    4.
    发明公开

    公开(公告)号:CN115292303A

    公开(公告)日:2022-11-04

    申请号:CN202211221664.1

    申请日:2022-10-08

    Abstract: 本发明公开了一种数据处理方法及装置,该方法包括:对数据集中的数据进行聚类,得到各类簇;对各类簇进行离群检测处理,所述离群检测处理包括:如果所述类簇中数据点的总数小于设定阈值,则将所述类簇中的所有数据点放入离群点候选集中;否则,依次计算所述类簇中各数据点到类簇中心的距离,并将所述距离大于等于半径的数据点放入离群点候选集中;对所述离群点候选集进行剪枝处理,得到剪枝后的离群点候选集;对剪枝后的离群点候选集中的数据点进行离群处理,确定数据点是否为离群点。利用本发明方案,可以有效提升大数据的数据质量。

    一种文本分类方法
    8.
    发明公开

    公开(公告)号:CN116127079A

    公开(公告)日:2023-05-16

    申请号:CN202310425424.1

    申请日:2023-04-20

    Abstract: 本发明提供一种文本分类方法,基于待分类文本段的文本特征向量与各个文本类别的支持文本特征向量之间的语义相似度,确定该待分类文本段所属的文本类别,即使部分文本类别的支持文本段数量较少,仍能根据该文本类别的支持文本段的文本特征向量准确地归纳出该文本类别的支持文本特征向量,从而根据上述语义相似度识别出属于该文本类别的待分类文本段,减少多标签分类场景下遗漏类别标签的概率;此外,在进行文本特征提取时,充分运用了对应文本段的语法结构,从而提取更准确、更丰富的上下文信息,以结合各个非停用词本身的语义信息以及上下文语义信息进行整体语义提取,有助于提升政务文本分类的准确性。

Patent Agency Ranking