汉语依存树库中未登录词的处理方法

    公开(公告)号:CN103678272A

    公开(公告)日:2014-03-26

    申请号:CN201210344884.3

    申请日:2012-09-17

    Abstract: 本发明属于计算语言学的自然语言处理领域,公开了一种汉语依存树库中未登录词的处理方法,该方法包括步骤:A,利用同义词词林,查找未登录词的所有同义词;B,根据汉字字形特征,计算未登录词与其所有同义词之间的字形相似度;C,当未登录词与多个同义词的字形相似度相同时,抽取所映射的词及其对应的词性的信息量,改进字形相似度计算模型;D,抽取字形相似度最大的词为未登录词的最优映射词,作为树库中对未登录词的解释。本发明可以再不扩大树库规模的前提下,令依存句法分析中的单元对 回升到 或 ,从而达到细化信息粒度,缓解数据稀疏问题,改进依存句法分析性能。

    汉语依存树库中未登录词的处理方法

    公开(公告)号:CN103678272B

    公开(公告)日:2016-04-06

    申请号:CN201210344884.3

    申请日:2012-09-17

    Abstract: 本发明属于计算语言学的自然语言处理领域,公开了一种汉语依存树库中未登录词的处理方法,该方法包括步骤:A,利用同义词词林,查找未登录词的所有同义词;B,根据汉字字形特征,计算未登录词与其所有同义词之间的字形相似度;C,当未登录词与多个同义词的字形相似度相同时,抽取所映射的词及其对应的词性的信息量,改进字形相似度计算模型;D,抽取字形相似度最大的词为未登录词的最优映射词,作为树库中对未登录词的解释。本发明可以再不扩大树库规模的前提下,令依存句法分析中的单元对 回升到 或 ,从而达到细化信息粒度,缓解数据稀疏问题,改进依存句法分析性能。

Patent Agency Ranking