-
公开(公告)号:CN101261623A
公开(公告)日:2008-09-10
申请号:CN200710086030.9
申请日:2007-03-07
Applicant: 国际商业机器公司
CPC classification number: G06F17/2863
Abstract: 本发明提供了一种基于搜索的用于无词边界标记语言文本的分词方法和装置。根据本发明,将包括至少一个片段的该文本的一个片段提供给至少一个搜索引擎;通过该至少一个搜索引擎对该一个片段进行搜索,并返回搜索结果;根据返回的搜索结果的至少一部分选取该一个片段的分词方式。本发明更好地解决了无词边界标记语言的分词问题,克服了现有技术在灵活性、依赖于字典的覆盖度、可以获得的训练数据语料库、处理新词汇等方面的局限。