-
公开(公告)号:CN102103594A
公开(公告)日:2011-06-22
申请号:CN200910242975.4
申请日:2009-12-22
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司 , 北京北大方正电子有限公司
Abstract: 本发明提供了字符数据识别及处理的方法和装置,本发明的方法包括:根据基准语料和基准模板对特征字符数据进行识别,获得各个命名实体所分别对应的不同的实体名称;获得各个实体名称的特征缀频数;根据所述特征缀频数、所述基准模板和预定义语料对待处理的字符数据进行识别,获得所述各个命名实体所分别对应的不同的实体名称;将从所述待处理的字符数据中识别出的实体名称作为数据参数执行后续分析处理。本发明加入了特征缀作为识别特征列,避免了后期检索、翻译时预定义字符数据识别误差较大的问题,提高了命名实体的识别精度,避免表达自由或不足够规范而未被识别或被错误识别出的命名实体。
-
公开(公告)号:CN102087648A
公开(公告)日:2011-06-08
申请号:CN200910242055.2
申请日:2009-12-03
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种新闻评论页面的爬取方法及系统,属于信息检索和数据集成技术领域。该方法及系统首先从新闻网站起始页面出发,对页面进行广度遍历,在遍历过程中获取满足深度限制的页面信息;然后计算页面的特征值,根据特征值和预设阈值之间的大小关系,从页面中识别出新闻评论页面;最后获取新闻评论页面的翻页链接,并根据翻页链接获取其他新闻评论页面。本发明所述方法及系统,能够从新闻网站的网页中自动爬取出新闻评论页面,而且爬取的速度快,爬取的新闻评论页面全面。
-
公开(公告)号:CN101989256A
公开(公告)日:2011-03-23
申请号:CN200910090195.2
申请日:2009-07-31
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司
IPC: G06F17/25
Abstract: 本发明公开了一种文书文件的排版方法及装置,用以解决现有技术排版过程中需要较多人工参与,效率低以及排版软件较难操作的问题。该方法排版装置根据用户输入的文书模板文件,解析获得对应的文书规则子文件、文书式样子文件及文书要素式样子文件;根据用户导入的文本文件,解析获得文本文件中的每个要素内容;将每个要素内容与文书要素式样子文件中的要素属性匹配,将匹配成功的要素内容传给要素属性对应的显现对象,根据该显现对象采用的文书式样子文件中的式样及文书规则子文件中的规则,对该显现对象中的要素内容进行排版。如本发明提出的方案,根据该显现对象采用的规则和式样,对该显现对象中的要素内容进行排版,从而提高排版的效率。
-
公开(公告)号:CN101739426A
公开(公告)日:2010-06-16
申请号:CN200810226101.5
申请日:2008-11-13
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司
Abstract: 本发明公开了一种多文档摘要的生成方法及装置,用以解决现有技术中生成的多文档摘要的可读性差的问题。该方法从多篇文档中选择若干个摘要句;按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性设置。如本发明提出的方案,充分考虑了摘要句间的连续性和与主题内容的相关性,从而可以有效的提高生成的多文档摘要的可读性。
-
公开(公告)号:CN101727462A
公开(公告)日:2010-06-09
申请号:CN200810224334.1
申请日:2008-10-17
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司
Abstract: 本发明公开了一种中文比较句分类器模型生成、中文比较句识别方法及装置,包括:将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列,并为序列建立与其对应分句所属句子相同的类别标记;得到序列集;采用序列模式挖掘算法从序列集中挖掘出若干比较模式,组成比较模式集;用每一个序列逐一匹配比较模式集中的各比较模式,根据匹配结果及比较模式总数量,得到与每一个序列对应的一组特征向量;根据所述特征向量及与其对应的所述序列的类别标记,生成分类器模型;然后通过得到的比较模式集和分类器模型,识别读入的未知类别的句子,确定其是否是比较句。通过自动学习比较句的模式特征,生成分类器模型,自动、有效地识别文本中的比较句。
-
公开(公告)号:CN101676910A
公开(公告)日:2010-03-24
申请号:CN200810222829.0
申请日:2008-09-19
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种面向Web应用系统的页面自动生成方法,该方法借助统一建模语言(UML)建模技术和扩展标记语言(XML)技术,采用FMDP模型,其步骤包括:生成Web应用系统的功能模型、内部模型、数据库接口模型、表示模型;根据所述模型生成系统可定制信息并以XML格式的文档集中保存于系统服务器端;并提供客户端用户根据定制需要方便地修改原定制信息的功能。采用本发明实现了真正意义上的Web应用系统的可定制,而且利用本发明能够快速地生成可定制的web应用系统,且能在避免重新编译整个系统的前提下实现系统需求的调整,提高了Web软件的开发效率。
-
-
-
-
-