-
公开(公告)号:CN1570923A
公开(公告)日:2005-01-26
申请号:CN03147553.1
申请日:2003-07-22
Applicant: 中国科学院自动化研究所
Abstract: 一种基于双向N-gram模型和Maximum Entrpy模型的句子边界切分方法包括训练和切分两个过程,所述的训练过程包括步骤:获得口语语料库;对口语语料库进行替代等预处理;统计n-gram模型的n元同现频率;估计n元正向依存概率和n元逆向依存概率;获得n元正、逆向依存概率数据库;设定Maximum Entropy模型的特征函数;循环计算特征函数参数;获得特征函数参数数据库。基于双向n-gram模型和Maximum Entropy模型的句子边界切分方法属于纯统计方法,其实施只需要一个后台口语语料库,语料库不需要进行任何深层地切分或者标注等处理。该方法不受语言的限制,通过更换训练语料库,可以运用于任何一种语言的句子边界切分。
-
公开(公告)号:CN1271550C
公开(公告)日:2006-08-23
申请号:CN03147553.1
申请日:2003-07-22
Applicant: 中国科学院自动化研究所
Abstract: 口语会话中句子边界识别方法,包括:获得口语语料库;对口语语料库进行替代处理;统计n-gram模型的n元同现频率;估计n元正向依存概率和n元逆向依存概率,其中,所述依存概率采用Modified Kneser-Ney Smoothing数据平滑算法估计;获得n元正、逆向依存概率数据库;设定Maximum Entropy模型的特征函数;循环计算特征函数参数,其中,采用Generalized Iterative Scaling算法计算特征函数参数;获得特征函数参数数据库;所述切分过程包括步骤:用基于正向n-gram模型的切分方法对文本进行切分;用基于逆向n-gram模型的切分方法对文本进行切分;抽取切分点的上下文,用Maximum Entropy模型的特征函数的参数对正、逆向切分结果进行加权综合。本发明不受语言的限制,通过更换训练语料库,可以运用于任何一种语言的句子边界切分。
-