-
公开(公告)号:CN106528605A
公开(公告)日:2017-03-22
申请号:CN201610853820.4
申请日:2016-09-27
Applicant: 武汉工程大学
CPC classification number: G06F16/9537 , G06F17/2765
Abstract: 一种基于规则的中文地址解析方法,其包括以下步骤:1)输入中文地址信息字符串;2)对于一条中文地址串address,从地址第一个字开始,到地址最后一个字结束,每一个字与特征字集合Q进行一一对应匹配,若匹配成功,则记录地址信息中该特征字P与其位置i,地址遍历结束后,将每个地址信息中存在的特征字P与其对应的位置i放入链表ArrayList中保存;3)若链表ArrayList的大小为size,从ArrayList中的第一个值j=1开始,到j=size结束,提取出链表中所有特征字,然后从j=1到size-1循环,若特征字j到j+1的转移概率大于特定阀值d时,则转移,此时提取出j所对应的特征字Pi和位置值i,在address中位置i处切分,如此循环,直到判断完最后一个特征字是否切分。
-
公开(公告)号:CN107329950B
公开(公告)日:2021-01-05
申请号:CN201710441735.1
申请日:2017-06-13
Applicant: 武汉工程大学
IPC: G06F40/289
Abstract: 本发明公开了一种基于无词典的中文地址分词方法,包括以下步骤:1)通过统计得到训练语料中任意长度大于1小于等于8的字符串的词频,互信息,信息熵;2)通过正则表达式对地址字符串进行预处理;对输入地址字符串进行全切分;3)根据互信息和信息熵算法得到弧段花费最小的分词方案;4)根据置信度方法对该分词方案的字符串集合进行二次计算,判断该字符串是否为真实词条,得到最优的分词方案。
-
公开(公告)号:CN107329950A
公开(公告)日:2017-11-07
申请号:CN201710441735.1
申请日:2017-06-13
Applicant: 武汉工程大学
IPC: G06F17/27
Abstract: 本发明公开了一种基于无词典的中文地址分词方法,包括以下步骤:1)通过统计得到训练语料中任意长度大于1小于等于8的字符串的词频,互信息,信息熵;2)通过正则表达式对地址字符串进行预处理;对输入地址字符串进行全切分;3)根据互信息和信息熵算法得到弧段花费最小的分词方案;4)根据置信度方法对该分词方案的字符串集合进行二次计算,判断该字符串是否为真实词条,得到最优的分词方案。
-
-
-