基于概念衍生树的关键词层次聚类方法

    公开(公告)号:CN101281530A

    公开(公告)日:2008-10-08

    申请号:CN200810037727.1

    申请日:2008-05-20

    Applicant: 上海大学

    Abstract: 本发明涉及一种基于概念衍生树的关键词层次聚类方法,它是提取同一领域的多篇文本的领域关键词若干,并依照语义关系将其层次化为一颗树状模型。通过此方法可以自动获取关键词之间的语义关联关系,并计算关键词之间的语义关联关系的强度。该方法可以分层次、简捷高效地为关键词聚类,便于计算机掌握和进行理解处理。本发明能有效提高知识获取的性能,这将为大规模网络环境下资源的个性化智能搜索、自动推荐、创新知识的辅助发现与获取、相关知识的聚集及融合等提供技术支持。

    文本可理解性的度量方法

    公开(公告)号:CN101520774A

    公开(公告)日:2009-09-02

    申请号:CN200910048310.X

    申请日:2009-03-26

    Applicant: 上海大学

    Abstract: 本发明涉及一种文本可理解性的度量方法,它是通过定义单篇文本为一个若干关键词和句子组成的矩阵;再对矩阵中句子之间的关联关系进行计算来度量该文本的可理解性。本发明其核心是把文本的理解过程看作是对该文本中句子之间关联关系的提取和计算过程,从而来度量文本的可理解性。该方法可以计算文本中句子之间的逻辑关系,从而便于计算机进行处理。本发明可以为实现基于机器的文本理解提供技术解决方案。

    文本认知难度的度量方法

    公开(公告)号:CN101520773A

    公开(公告)日:2009-09-02

    申请号:CN200910048309.7

    申请日:2009-03-26

    Applicant: 上海大学

    Abstract: 本发明涉及一种文本认知难度的度量方法。它先定义单篇文本为一个若干关键词和句子组成的布尔表达式,再对该布尔表达式进行逻辑运算来度量该文本的认知难度。本发明其核心是把文本的理解过程抽象为一个概念学习的认知过程,通过对概念中的对象(句子)和属性(关键词)的逻辑运算来度量文本的认知难度。本方法以计算文本中句子之间的逻辑关系,从而便于计算机进行处理。

    基于语义矩阵的网络用户行为个性化的表达方法

    公开(公告)号:CN101334783A

    公开(公告)日:2008-12-31

    申请号:CN200810037724.8

    申请日:2008-05-20

    Applicant: 上海大学

    Abstract: 本发明涉及一种网络用户行为个性化的表达方法,它是通过定义网络用户的行为的影响因素为:操作内容、操作类型和操作权值;根据用户行为类型构建语义矩阵;语义矩阵中的项表示用户感兴趣的概念,而语义矩阵中的值表示用户所感兴趣的概念与概念间的关联关系及其强度;用户行为的语义矩阵由用户偏好的变化而更新和进化。本发明其核心是从用户游览的行为和内容分析出发,构建语义矩阵,在矩阵运算的推理规则的基础上描述网络用户行为的个性化特征。该方法可以简捷高效地表示网络用户的个性化行为,便于计算机掌握和进行理解处理。本发明可以为实现个性化搜索和主动推送提供技术解决方案。

    文本关键词的提取方法
    5.
    发明公开

    公开(公告)号:CN101067808A

    公开(公告)日:2007-11-07

    申请号:CN200710041150.7

    申请日:2007-05-24

    Applicant: 上海大学

    Abstract: 本发明涉及一种文本关键词的提取方法,它是改进TF-IDF方法,通过篇频修正法提取单篇文本的关键词,提高从单篇文本中提取关键词的精度;通过词频修正法或对比选择法,提取同类文本集合中共同的领域关键词。本发明的方法有效地提高单篇文本的关键词提取精度,能够提取领域关键词,从而提高文本领域知识获取的性能与领域知识本体建立的效果,提高网络资源服务的质量与效果。

    文本关键词的提取方法
    6.
    发明授权

    公开(公告)号:CN101067808B

    公开(公告)日:2010-12-15

    申请号:CN200710041150.7

    申请日:2007-05-24

    Applicant: 上海大学

    Abstract: 本发明涉及一种文本关键词的提取方法,它是改进TF-IDF方法,通过篇频修正法提取单篇文本的关键词,提高从单篇文本中提取关键词的精度;通过词频修正法或对比选择法,提取同类文本集合中共同的领域关键词。本发明的方法有效地提高单篇文本的关键词提取精度,能够提取领域关键词,从而提高文本领域知识获取的性能与领域知识本体建立的效果,提高网络资源服务的质量与效果。

    文本语义的可视化表示与获取方法

    公开(公告)号:CN101067807A

    公开(公告)日:2007-11-07

    申请号:CN200710041147.5

    申请日:2007-05-24

    Applicant: 上海大学

    Abstract: 本发明涉及一种文本语义的可视化表示与获取方法,它是将文本语义划分为三个层次:离散的关键词的集合构成的文本低层语义、文本段落构成的文本主题作为文本的中层语义和由文本主题之间相互链接而构成文本篇章的高层语义;通过提取关键词和基于关键词权重的矩阵运算生成文本主题的语义矩阵,再通过文本主题的链接形成文本篇章语义。本发明能有效地利用文本数据中的上下文依赖关系进行更有效的语义提取,从而能有效提高复杂数据对象的语义提取的准确率;通过根据数据对象的内部结构将其分解为具有不同粒度结点的多层描述,通过建模结点间的上下文结构来刻画结点间的主题相关关系;用权重来度量关键词之间、关键词对文本主题之间、以及文本主题之间的相关程度。该方法可以分层次、简捷高效地获取和表示文本的语义,便于计算机掌握和进行理解处理。

Patent Agency Ranking