Patent search ap:("武汉工程大学") AND inv:"张懿" Page 1

1.

发明公开
一种基于规则的中文地址解析方法无效

公开(公告)号：CN106528605A

公开(公告)日：2017-03-22

申请号：CN201610853820.4

申请日：2016-09-27

Applicant: 武汉工程大学

Inventor： 李晓林 , 段艳会 , 黄爽 , 张玉敏 , 谢婷婷 , 严苛 , 刘志杰 , 张懿

IPC: G06F17/30 , G06F17/27

CPC classification number: G06F16/9537 , G06F17/2765

Abstract: 一种基于规则的中文地址解析方法，其包括以下步骤：1）输入中文地址信息字符串；2）对于一条中文地址串address，从地址第一个字开始，到地址最后一个字结束，每一个字与特征字集合Q进行一一对应匹配，若匹配成功，则记录地址信息中该特征字P与其位置i，地址遍历结束后，将每个地址信息中存在的特征字P与其对应的位置i放入链表ArrayList中保存；3）若链表ArrayList的大小为size，从ArrayList中的第一个值j=1开始，到j=size结束，提取出链表中所有特征字，然后从j=1到size-1循环，若特征字j到j+1的转移概率大于特定阀值d时，则转移，此时提取出j所对应的特征字Pi和位置值i，在address中位置i处切分，如此循环，直到判断完最后一个特征字是否切分。

2.

发明授权
一种基于无词典的中文地址分词方法失效

公开(公告)号：CN107329950B

公开(公告)日：2021-01-05

申请号：CN201710441735.1

申请日：2017-06-13

Applicant: 武汉工程大学

Inventor： 谢婷婷 , 李晓林 , 严柯 , 张懿 , 刘志杰

IPC: G06F40/289

Abstract: 本发明公开了一种基于无词典的中文地址分词方法，包括以下步骤：1)通过统计得到训练语料中任意长度大于1小于等于8的字符串的词频，互信息，信息熵；2)通过正则表达式对地址字符串进行预处理；对输入地址字符串进行全切分；3)根据互信息和信息熵算法得到弧段花费最小的分词方案；4)根据置信度方法对该分词方案的字符串集合进行二次计算，判断该字符串是否为真实词条，得到最优的分词方案。

3.

发明公开
一种基于无词典的中文地址分词方法失效

公开(公告)号：CN107329950A

公开(公告)日：2017-11-07

申请号：CN201710441735.1

申请日：2017-06-13

Applicant: 武汉工程大学

Inventor： 谢婷婷 , 李晓林 , 严柯 , 张懿 , 刘志杰

IPC: G06F17/27

Abstract: 本发明公开了一种基于无词典的中文地址分词方法，包括以下步骤：1)通过统计得到训练语料中任意长度大于1小于等于8的字符串的词频，互信息，信息熵；2)通过正则表达式对地址字符串进行预处理；对输入地址字符串进行全切分；3)根据互信息和信息熵算法得到弧段花费最小的分词方案；4)根据置信度方法对该分词方案的字符串集合进行二次计算，判断该字符串是否为真实词条，得到最优的分词方案。

4.

发明公开
一种基于网页特征的正文信息抽取方法无效

公开(公告)号：CN107247742A

公开(公告)日：2017-10-13

申请号：CN201710346591.1

申请日：2017-05-17

Applicant: 武汉工程大学

Inventor： 李晓林 , 刘志杰 , 谢婷婷 , 严柯 , 张懿

IPC: G06F17/30

Abstract: 本发明涉及信息抽取技术领域，尤其涉及一种基于网页特征的正文信息抽取方法，它根据页面布局等特征将页面源码预处理行号和文本的集合，然后通过行文本阈值以及行间距阈值来提取页面正文部分，最后根据标点符号来优化提取结果。本方法对于不同类型的页面有较好的效果，具有一定的通用性。

Patent Agency Ranking