一种面向e-Science环境的多领域Web文本特征抽取系统及方法

    公开(公告)号:CN102073647B

    公开(公告)日:2013-12-11

    申请号:CN200910223524.6

    申请日:2009-11-23

    Abstract: 本发明涉及一种面向e-Science环境的多领域Web文本特征抽取系统及方法。该方法包括:步骤1,统计目标文本中的字符频度;步骤2,以字符为基本处理单位,逐一抽取以该字符为起点,以频度为1的字符为终点间的字符串;步骤3,统计每个字符串出现频度,按照出现频度对特征词串进行降序排列并输出。本发明将无词典分词技术引入领域文本的特征发现,有效摆脱了传统方法对于领域词典的依赖,一定程度上增强了本发明在多领域科学数据中的移植性和实用价值。

    一种面向e-Science环境的多领域Web文本特征抽取系统及方法

    公开(公告)号:CN102073647A

    公开(公告)日:2011-05-25

    申请号:CN200910223524.6

    申请日:2009-11-23

    Abstract: 本发明涉及一种面向e-Science环境的多领域Web文本特征抽取系统及方法。该方法包括:步骤1,统计目标文本中的字符频度;步骤2,以字符为基本处理单位,逐一抽取以该字符为起点,以频度为1的字符为终点间的字符串;步骤3,统计每个字符串出现频度,按照出现频度对特征词串进行降序排列并输出。本发明将无词典分词技术引入领域文本的特征发现,有效摆脱了传统方法对于领域词典的依赖,一定程度上增强了本发明在多领域科学数据中的移植性和实用价值。

    一种面向博客群的主题倾向性处理方法及系统

    公开(公告)号:CN102073646A

    公开(公告)日:2011-05-25

    申请号:CN200910223523.1

    申请日:2009-11-23

    Abstract: 本发明涉及一种面向博客群的主题倾向性处理方法及系统。该方法包括:步骤1,计算目标文本T中每个中文字Ci符倾向性权重SCi,如果SCi的绝对值小于或等于中性中文字符倾向性阈值,则将SCi置零;步骤2,如果Ncount<ThLongText,计算目标文本的倾向性;如果Ncount≥ThLongText,则查询预先设置的倾向性案例知识库中的倾向性案例,如果存在相似的倾向性案例,则复用该相似的倾向性案例的倾向性;如果不存在相似的倾向性案例,则计算目标文本的倾向性;Ncount和ThLongText分别为字符总数量和篇幅长度阈值。本发明有效实现了网络虚拟社会环境中不同层次评论人群对于某确定主题事件的倾向挖掘,为进一步网络舆情分类检索提供良好的语义参考解决方案。

Patent Agency Ranking