-
公开(公告)号:CN111191421A
公开(公告)日:2020-05-22
申请号:CN201911396882.7
申请日:2019-12-30
Applicant: 出门问问信息科技有限公司
IPC: G06F40/151
Abstract: 本发明公开一种文本处理方法,用于文本正则化分析的TN规则由n级构成,n为大于等于2的整数,方法包括:获得待分析文本;根据TN规则中的第一级规则匹配待分析文本,获得待分析文本命中的第一级规则;根据命中的第一级规则对应的第二级规则继续匹配待分析文本,获得待分析文本命中的第二级规则;以此类推,根据命中的第m-1级规则对应的第m级规则匹配待分析文本,获得待分析文本命中的第m级规则,m为小于等于n的整数;在待分析文本匹配TN规则结束时,根据待分析文本所命中的各级规则,将待分析文本转换为标准文本输出。本发明还公开一种文本处理装置、计算机存储介质和电子设备。本发明让TN系统更加简洁清晰,规则覆盖更全,规则匹配效率更高。
-
公开(公告)号:CN111145722A
公开(公告)日:2020-05-12
申请号:CN201911394467.8
申请日:2019-12-30
Applicant: 出门问问信息科技有限公司
IPC: G10L13/08 , G06F40/253
Abstract: 本发明公开了一种文本处理方法,包括:获得待处理的原始文本;对原始文本基于预设的TN规则进行文本正则化处理,获得经TN处理后的第一输出文本和原始转写列表;其中,原始转写列表中包括至少一项原始转写记录,每一项原始转写记录对应第一输出文本中的一处转写文本,且第一输出文本中对各转写文本进行标记。本发明还公开了一种文本处理装置、计算机可读存储介质和电子设备。
-
公开(公告)号:CN111178042B
公开(公告)日:2023-04-28
申请号:CN201911409695.8
申请日:2019-12-31
Applicant: 出门问问信息科技有限公司
IPC: G06F40/205 , G10L13/10
Abstract: 本发明实施例公开了一种数据处理方法、装置及计算机存储介质,方法包括:获取初始文本;根据目标正则化系统对所述初始文本进行文本分析,得到标准文本以及对应于所述标准文本的置信度,所述目标正则化系统至少包括最优规则和备选规则,以及对应于最优规则的最优概率信息和对应于备选规则的备选概率信息;根据所述置信度对所述标准文本进行标记处理,得到标记文本。本发明实施例提供的数据处理方法、装置及计算机存储介质,通过计算文本分析的置信度,并根据不同文本的置信度对文本进行不同程度的标记处理,优化编辑系统,提高了用户体验感,增加了文本编辑效率。
-
公开(公告)号:CN111145722B
公开(公告)日:2022-09-02
申请号:CN201911394467.8
申请日:2019-12-30
Applicant: 出门问问信息科技有限公司
IPC: G10L13/08 , G06F40/253
Abstract: 本发明公开了一种文本处理方法,包括:获得待处理的原始文本;对原始文本基于预设的TN规则进行文本正则化处理,获得经TN处理后的第一输出文本和原始转写列表;其中,原始转写列表中包括至少一项原始转写记录,每一项原始转写记录对应第一输出文本中的一处转写文本,且第一输出文本中对各转写文本进行标记。本发明还公开了一种文本处理装置、计算机可读存储介质和电子设备。
-
公开(公告)号:CN111178042A
公开(公告)日:2020-05-19
申请号:CN201911409695.8
申请日:2019-12-31
Applicant: 出门问问信息科技有限公司
IPC: G06F40/205 , G10L13/10
Abstract: 本发明实施例公开了一种数据处理方法、装置及计算机存储介质,方法包括:获取初始文本;根据目标正则化系统对所述初始文本进行文本分析,得到标准文本以及对应于所述标准文本的置信度,所述目标正则化系统至少包括最优规则和备选规则,以及对应于最优规则的最优概率信息和对应于备选规则的备选概率信息;根据所述置信度对所述标准文本进行标记处理,得到标记文本。本发明实施例提供的数据处理方法、装置及计算机存储介质,通过计算文本分析的置信度,并根据不同文本的置信度对文本进行不同程度的标记处理,优化编辑系统,提高了用户体验感,增加了文本编辑效率。
-
公开(公告)号:CN111079428A
公开(公告)日:2020-04-28
申请号:CN201911374500.0
申请日:2019-12-27
Applicant: 出门问问信息科技有限公司
IPC: G06F40/289 , G06F40/242 , G06F40/216
Abstract: 本发明公开了一种分词和行业词典构建方法、装置以及可读存储介质,包括:获取文本信息;根据所获取的文本信息中字词所对应的领域,选取若干个对应的行业词典;利用所选取的行业词典,对所述文本信息进行分词处理,得到分词结果。通过文本中字词的领域选取所对应领域的行业词典,利用所选取的行业词典对文本信息进行分词处理,相比较于现有中使用通用词典来说,能够节省空间资源、减少系统运算量和提升系统性能的效果。
-
-
-
-
-