一种对文本序列进行分词的方法、装置和电子设备

    公开(公告)号:CN108038103A

    公开(公告)日:2018-05-15

    申请号:CN201711364208.1

    申请日:2017-12-18

    Abstract: 本发明公开了一种文本的分词方法、装置和电子设备,所述方法包括:确定与所述文本序列对应的概率矩阵,所述概率矩阵记录有所述文本序列中的每个字符与预设的每个标注字符相匹配的概率值,所述标注字符用于对所述文本序列进行分词;确定与所述概率矩阵对应的转移矩阵,所述转移矩阵记录了所述每个标注字符之间的转移概率;根据所述概率矩阵和转移矩阵,对所述文本序列进行分词。本发明可以避免在中文分词过程中,存在分词特征抽取受限以及领域适应性较差的问题。

    命名实体识别方法及装置
    33.
    发明公开

    公开(公告)号:CN107797992A

    公开(公告)日:2018-03-13

    申请号:CN201711102742.5

    申请日:2017-11-10

    CPC classification number: G06F17/278

    Abstract: 本申请实施例提供一种命名实体识别方法及装置,该方法包括:获取输入序列;对所述输入序列中的字符进行向量化处理,得到所述输入序列对应的字符向量序列;使用神经网络算法处理所述字符向量序列,得到所述输入序列的文本特征序列;使用条件随机场处理所述文本特征序列,得到所述输入序列对应的命名实体识别结果。由于字符能够表征更细粒度的特征、且字符数量远小于词语的数量,神经网络算法能够考虑到输入序列中各字符的上下文信息,以及条件随机场能够避免标记偏置问题,因此,本申请技术方案通过将字符向量化、神经网络算法及条件随机场这三者进行结合的方式,来实现命名实体识别,可以达到较好的识别效果。

    一种用户特征数据的处理方法和装置

    公开(公告)号:CN106022800A

    公开(公告)日:2016-10-12

    申请号:CN201610323618.0

    申请日:2016-05-16

    CPC classification number: G06Q30/01

    Abstract: 本发明提供一种用户特征数据的处理方法,包括:从数据源获取用户行为数据和数据项信息数据;根据不同的业务逻辑,对所述获取的用户行为数据和数据项信息数据进行数据整合,得到与所述业务逻辑对应的用户特征数据;采用与所述用户特征数据相对应的封装模型对所述用户特征数据进行处理得到与所述业务逻辑对应的处理结果数据。本发明实施例通过建立多个封装模型,采用与用户特征数据相对应的封装模型对所述用户特征数据进行处理得到与业务逻辑对应的处理结果数据,可以为企业提供全量数据挖掘的模型封装,为企业提供更加精确的用户行为特征信息。

    一种商品评论数据的口碑分析方法和装置

    公开(公告)号:CN106021433A

    公开(公告)日:2016-10-12

    申请号:CN201610321688.2

    申请日:2016-05-16

    CPC classification number: G06F17/30705 G06F17/2785

    Abstract: 本发明实施例提供一种商品评论数据的口碑分析方法及装置,包括:接收输入的待分析商品评论数据,并对所述待分析商品评论数据进行分句处理;当判定所述待分析商品评论数据中具有匹配所述规则文件的规则的子句时,则根据匹配的规则提取所述待分析商品评论数据的属性词和评价词;其中,所述规则文件是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapp i ng算法得到的;判断所述属性词是否存在属性树文件中,判断所述评价词是否存在评价文件中;当判定所述属性词存在所述属性树文件中且所述评价词存在所述评价词文件中时,从聚类映射文件中匹配所述属性词和评价词对应的口碑数据,获得目标口碑数据。

    一种基于多个数据交互中心的数据进行信息推送的方法

    公开(公告)号:CN103118111A

    公开(公告)日:2013-05-22

    申请号:CN201310039741.6

    申请日:2013-01-31

    Abstract: 本发明公开了一种基于多个数据交互中心的数据进行信息推送的方法,包括:从多个数据交互中心获取用户行为数据和数据项信息数据,通过统一数据平台进行数据整合得到用户的特征数据;根据得到的所述用户特征数据及该用户的当前行为信息判断得到该用户的行为意图数据;根据所述用户的用户行为意图数据生成与该用户当前行为匹配的推荐信息;向该用户发送推荐信息。本发明解决了如何将多个数据交互中心的数据进行数据统一并发送个性化信息给用户的问题。

    文本的知识结构化处理方法、装置、设备和可读存储介质

    公开(公告)号:CN112241458A

    公开(公告)日:2021-01-19

    申请号:CN202011089921.1

    申请日:2020-10-13

    Abstract: 本申请实施例提供了一种文本的知识结构化处理方法、装置、设备和可读存储介质,其中,方法包括:对待处理文本根据业务特征进行分类处理,得到所述待处理文本的业务类型;根据所述待处理文本的业务类型,对所述待处理文本进行实体提取处理,得到所述待处理文本的实体要素;基于所述实体要素在有向连接实体关系图中的入度值和在所述待处理文本中的相对距离值,对所述待处理文本进行关系抽取处理,确定所述待处理文本的实体关系对,得到所述待处理文本的知识结构化信息。本申请实施例不需要大量的数据标注和较高的硬件资源,可以有效提升关系抽取的准确性,节约人工和成本,满足实际业务的需求。

    文本校对方法、装置、计算机可读存储介质及电子设备

    公开(公告)号:CN110929514A

    公开(公告)日:2020-03-27

    申请号:CN201911144534.0

    申请日:2019-11-20

    Abstract: 本公开涉及一种文本校对方法、装置、计算机可读存储介质及电子设备。方法包括:确定待校对文本中各句子的纠错信息,纠错信息包括错误词和其对应的至少一个纠错词;针对各错误词,分别确定错误词与其前、后词在预设语料库中的第一共现频次、第二共现频次;针对错误词对应的各纠错词,获取语义特征;至少根据第一共现频次、第二共现频次及语义特征,判定纠错词是否正确。判定纠错词的正确性,可提升文本校对准确率。对纠错词的正确性进行判定时,综合考虑了前后词的搭配及上下文语义特征,可保证纠错词的正确性判定的精度,从而进一步提升文本校对准确率。此外,使得校对工作智能化、自动化,减轻人工校对的压力,提升工作效率,降低人工成本。

Patent Agency Ranking