-
-
公开(公告)号:CN101324878B
公开(公告)日:2012-06-13
申请号:CN200710111842.4
申请日:2007-06-15
Applicant: 夏普株式会社
Abstract: 公开了一种适用于包括单词词典的对象语言文字输入系统的新单词自动学习方法,包括:采集步骤,从输入的对象语言语料中采集新单词词典和单词词典中没有的字串作为采集字串,所述新单词词典用于保存所述单词词典中没有的单词;第一保存步骤,将所述采集字串中没有存在于临时新字串词典中的采集字串作为临时新字串保存在临时新字串词典中,以及将存在于所述临时新字串词典中但没有存在于新字串词典中的采集字串作为新字串保存在新字串词典中;以及第二保存步骤,在利用对象语言文字输入系统进行对象语言文字输入过程中用户选择被作为输入候选项呈现的、所述新字串词典中的新字串时,将该新字串作为新单词保存在所述新单词词典中。
-
公开(公告)号:CN101226596B
公开(公告)日:2012-02-01
申请号:CN200710000961.2
申请日:2007-01-15
Applicant: 夏普株式会社
CPC classification number: G06K9/4671 , G06K9/481 , G06K2209/01
Abstract: 本发明的文档图像处理装置,抽取出文档图像中的文字数为M的文字列的图像,将其按单个文字进行分割图像,并抽出各文字图像的图像特征,基于该图像特征,从以单个文字为单位的储存有字库中所有文字图像的图像特征的字形特征字典中,按照匹配度从高到低的顺序,选择出N个文字图像作为候补文字,其中N为N>1的整数,并制作成抽取出的文字列的文字数M×N维索引矩阵。在检索时,以所输入的检索式中的构成检索关键词的单个检索文字为单位,检索索引信息储存部,并取出具有包含检索文字的索引矩阵的文档图像。由此,可提供一种具有不需要用户的手动操作的索引制作功能,且不需要采用OCR识别即可进行高精度检索的文档图像处理装置以及方法。
-
公开(公告)号:CN101526938B
公开(公告)日:2011-12-28
申请号:CN200810006557.0
申请日:2008-03-06
Applicant: 夏普株式会社
IPC: G06F17/30
Abstract: 本发明提供一种文档处理装置。根据该文档处理装置,若通过输入部(11)输入文档,则预处理部(12)将所输入的文档分离成多个单词。重要度算出部(14)算出基于单词的频度的特征值,并基于算出的特征值来算出每一个由多个单词构成的句子的重要度。用户可以直接输入关键词,也可以通过预处理部分离的单词中选择关键词,由用户确定了关键词后,可以算出基于单词的频度以及关键词的特征值,并基于算出的特征值来算出句子的重要度。摘要生成部(15)基于所算出的重要度,并依照句子重要度从高到低的顺序选择规定数量的句子,生成所输入的文档的摘要,显示部(16)显示所生成的摘要。
-
公开(公告)号:CN101276363B
公开(公告)日:2011-02-16
申请号:CN200710090670.7
申请日:2007-03-30
Applicant: 夏普株式会社
CPC classification number: G06K9/4604 , G06K9/00456 , G06K2209/01
Abstract: 本发明提供一种可提高以文字和图表为主要内容的文档图像的检索精度的文档图像的检索装置及检索方法。本发明的文档图像的检索装置在图像的特征区段的信息中包含有用于图像彼此之间的识别中的特征矢量。具体地讲,将文档图像页中的文字部分连接,而抽出矩形图像,基于该矩形图像的信息,分析页的几何构造,并将文档图像页分割成多个区段,且从其中选择表现文档图像页的特征的多个特征区段,由所选择的这些特征区段的信息构成特征矢量。
-
公开(公告)号:CN101526938A
公开(公告)日:2009-09-09
申请号:CN200810006557.0
申请日:2008-03-06
Applicant: 夏普株式会社
IPC: G06F17/30
Abstract: 本发明提供一种文档处理装置。根据该文档处理装置,若通过输入部(11)输入文档,则预处理部(12)将所输入的文档分离成多个单词。重要度算出部(14)算出基于单词的频度的特征值,并基于算出的特征值来算出每一个由多个单词构成的句子的重要度。用户可以直接输入关键词,也可以通过预处理部分离的单词中选择关键词,由用户确定了关键词后,可以算出基于单词的频度以及关键词的特征值,并基于算出的特征值来算出句子的重要度。摘要生成部(15)基于所算出的重要度,并依照句子重要度从高到低的顺序选择规定数量的句子,生成所输入的文档的摘要,显示部(16)显示所生成的摘要。
-
公开(公告)号:CN101354749A
公开(公告)日:2009-01-28
申请号:CN200710130196.6
申请日:2007-07-24
Applicant: 夏普株式会社
Abstract: 公开了一种制作字典的方法、手写输入方法和设备。该制作字典的方法能够预测笔划要输入的文字,以便减轻使用者的负担。该方法包括步骤:提取文字的整字样本的整字特征,和笔划数大于预定值的文字的部分笔划样本的部分笔划特征;以及通过用机器学习算法对所述整字特征和所述部分笔划特征进行学习来生成文字的整字模板和/或部分笔划模板,作为字典中的项目。本系统具有结构简单、硬件要求低、识别速度快,识别率高等优点,可在嵌入式系统等上实现。
-
公开(公告)号:CN101354746A
公开(公告)日:2009-01-28
申请号:CN200710129605.0
申请日:2007-07-23
Applicant: 夏普株式会社
CPC classification number: G06K9/34 , G06K9/342 , G06K9/348 , G06K2209/01
Abstract: 本发明提供一种文字图像抽出方法及文字图像抽出装置。在抽出步骤中,通过抽出部(401),对排列两个或两个以上文字的文字列区域,求出由相互连接的两个或两个以上像素构成的连接成分,并从其中抽出由与连接成分外接的外接图形划分的划分要素。在改变步骤中,通过第一改变部(402),在上述抽出的划分要素中,将至少一部分相互重合的划分要素进行综合而作为新的划分要素。在下面的第一选择步骤中,通过第一选择部(403),预先确定基准大小,在第一改变步骤中改变的划分要素中,选择比上述基准大小还大的划分要素。之后,可以按该顺序执行第二改变步骤及第二选择步骤。由此,可以从排列两个或两个以上文字的文字列区域中高精度地抽出各文字的图像。
-
公开(公告)号:CN101354705A
公开(公告)日:2009-01-28
申请号:CN200710129608.4
申请日:2007-07-23
Applicant: 夏普株式会社
CPC classification number: G06F17/30253 , G06F17/30017
Abstract: 本发明提供一种可减少从文档图像中检索出所希望的标题所需的时间和劳力的文档图像处理装置。其中,由标题区域抽出部(301)检索索引信息DB(17),并抽出包含检索关键词的标题区域。顺序设定部(302)对由标题区域抽出部(301)抽出的标题区域,按照预定的规则来自动地设定顺序。显示部(303)中,显示文档图像,而且在所显示的文档图像上,按照由顺序设定部(302)设定的顺序,来强调显示由标题区域抽出部(301)抽出的标题区域。也可以基于抽出的标题关键词的个数及文字图像的特征来判断重要性,并设定所显示的检索结果的顺序。
-
公开(公告)号:CN101354703A
公开(公告)日:2009-01-28
申请号:CN200710129606.5
申请日:2007-07-23
Applicant: 夏普株式会社
CPC classification number: G06F17/30253 , G06K9/723 , G06K2209/01 , G06K2209/011
Abstract: 本发明提供一种文档图像处理装置及文档图像处理方法。其中,抽取出文档图像中的文字数为M的文字列的图像,将其以1个文字为单位进行分割,并抽出各文字图像的图像特征,基于该图像特征,从以单个文字为单位储存有文字图像的图像特征的字形特征字典(15)中,按照匹配度从高到低的顺序选择N(N>1的整数)个文字图像作为候补文字,而制作抽取出的文字列的文字数为M×N维的第1索引矩阵。并且,对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列,通过适用基于预定的语言模型的词汇解析,来制作出调整成有意义的文字列的第2索引矩阵,并在语言模型的基础上统计后进行词汇解析。
-
-
-
-
-
-
-
-
-