图标识别方法和装置
    81.
    发明授权

    公开(公告)号:CN102129562B

    公开(公告)日:2014-07-09

    申请号:CN201010004433.6

    申请日:2010-01-15

    Abstract: 本发明公开了一种图标识别方法和装置。该方法包括:获取待识别图像的前景边缘密度特征;以及分类步骤,根据所述前景边缘密度特征对所述待识别图像是否为图标进行分类。获取待识别图像的前景边缘密度特征的步骤包括下述两步骤:获取整个待识别图像的前景边缘密度作为第一前景边缘密度特征;和获取待识别图像的前景边缘密度的离散程度作为第二前景边缘密度特征。分类步骤被配置为根据所述第一前景边缘密度特征和所述第二前景边缘密度特征对所述待识别图像是否为图标进行分类。相应的图标识别装置能够实现该方法。

    用于将简体汉语句子转换为繁体汉语句子的方法和设备

    公开(公告)号:CN103853706A

    公开(公告)日:2014-06-11

    申请号:CN201210519822.1

    申请日:2012-12-06

    Inventor: 房璐 孟遥 于浩

    Abstract: 本发明公开了一种用于将简体汉语句子转换为繁体汉语句子的方法和设备。所述方法包括:由基于简体-繁体字符一对多转换表的序列标注模型,对输入的简体汉语句子进行序列标注,以得到多组序列标注结果及其组概率;对所述简体汉语句子进行分词和词性标注;根据所述简体汉语句子中的歧义字的词性和歧义词的转换概率中的至少一个以及所述组概率,从所述多组序列标注结果中选择最佳标注结果;以及按照所述最佳标注结果,基于所述一对多转换表,将所输入的简体汉语句子中的、所述一对多转换表中出现的简体字符转换为繁体字符;其中在所述一对多转换表中,每一个简体字符对应于按顺序排列的多个候选繁体字符。

    形成用于生成文档模板的合并树的方法以及装置

    公开(公告)号:CN102375847B

    公开(公告)日:2014-06-04

    申请号:CN201010260747.2

    申请日:2010-08-17

    Abstract: 本发明涉及一种形成用于生成文档模板的合并树的方法以及装置,所述方法包括以下步骤:相似度计算步骤,用于当从由多个页面解析成的多棵树中每颗树与另一颗树进行比较时计算两颗被比树中位于同一层的子树的相似度,以从两颗被比树中提取相似度大于或等于预定第一阈值的相似子树和该些相似子树的公共根节点,其中从所述多棵树的节点能够提取所需特征;合并步骤,使用提取的所有树的相似子树来形成初始合并树,其中初始合并树的根节点是所有树的相似子树的公共根节点;以及后处理步骤,用于对初始合并树进行后处理,以通过去除初始合并树的无效子树来获得合并树。

    对序列进行处理的装置和方法

    公开(公告)号:CN103729530A

    公开(公告)日:2014-04-16

    申请号:CN201210391204.3

    申请日:2012-10-15

    Abstract: 本发明涉及一种对序列进行处理的装置和方法。对序列进行处理的装置包括:划分单元,被配置用于以多个不同的子序列长度,分别将序列划分为多个子序列;相似度计算单元,被配置用于针对每一个子序列长度,计算每两个子序列之间的相似度;周期确定单元,被配置用于确定使相似度的平均值最大的子序列长度作为序列的周期;识别单元,被配置用于在与周期对应的多个子序列中识别异常子序列;以及校正单元,被配置用于对异常子序列进行校正以获得新的序列。

    文档处理方法和装置
    86.
    发明公开

    公开(公告)号:CN103631789A

    公开(公告)日:2014-03-12

    申请号:CN201210299975.X

    申请日:2012-08-21

    CPC classification number: G06F17/30705 G06F17/30707

    Abstract: 一种文档处理方法和装置,该方法包括:从多个文档中提取词汇,并且针对每个文档计算词汇的术语度并根据术语度确定术语;对该多个文档进行聚类,其中基于针对每个文档类最近确定的术语及其术语度来确定文档类间的相似度;基于最近的聚类结果重新计算词汇对于相应文档类的术语度,并针对每个文档类重新确定术语;以及重复进行聚类和重新确定术语的过程,直到满足预定截止条件为止。

    用于推荐应用组合中使用的应用的设备和方法

    公开(公告)号:CN103473244A

    公开(公告)日:2013-12-25

    申请号:CN201210189518.5

    申请日:2012-06-08

    Abstract: 本发明公开了一种用于推荐应用组合中使用的应用的设备和方法,所述设备包括:候选应用集合获取装置,被配置为基于当前用户的应用组合中已经确定的至少一个应用以及在前用户使用过的应用组合,获得作为当前用户的应用组合的下一个应用的候选的候选应用的集合;用户信息获取装置,被配置为获取当前用户以及候选应用对应的在前用户的环境信息、用户关系信息和兴趣信息中的至少一个;相似度计算装置,被配置为计算当前用户与候选应用对应的在前用户的环境信息、社会关系信息和兴趣信息中的至少一个的相似度;排序装置,被配置为按照相似度对候选应用进行排序。

    文件图像处理方法和设备
    88.
    发明授权

    公开(公告)号:CN102375988B

    公开(公告)日:2013-12-25

    申请号:CN201010257650.6

    申请日:2010-08-17

    CPC classification number: G06K9/3283 G06K9/00456 G06K9/00463

    Abstract: 本发明公开了一种文件图像处理方法和设备,其中文件图像处理方法包括:对文件图像进行水平文本行提取;对文件图像进行垂直文本行提取;设置重叠矩阵,所述重叠矩阵的元素的值指示了水平文本行和垂直文本行之间的重叠关系;在垂直方向上对重叠矩阵进行合并;在水平方向上对重叠矩阵进行合并;基于合并后的重叠矩阵的元素的值,确定文件图像中的一个或多个文本重叠区域;在一个或多个文本重叠区域中的一个内,分别对水平文本行和垂直文本行的笔画或像素点总数进行计数;以及如果水平文本行的笔画或像素点总数大于垂直文本行的笔画或像素点总数,则确定该文本重叠区域的取向是水平取向,反之则确定该文本重叠区域的取向是垂直取向。

    选择参数的方法和装置
    89.
    发明公开

    公开(公告)号:CN103377298A

    公开(公告)日:2013-10-30

    申请号:CN201210122746.0

    申请日:2012-04-24

    Abstract: 本发明涉及选择参数的方法和装置。选择参数的方法包括:在已知时间序列中,提取最能指示目标时间序列的第一子已知时间序列;在已知时间序列中,提取与第一子已知时间序列最相似的多个第二子已知时间序列;针对每个第二子已知时间序列,在已知时间序列中,提取第三子已知时间序列作为测试数据,第三子已知时间序列的长度与目标时间序列的长度相同,并且第三子已知时间序列相对于第二子已知时间序列的位置关系与目标时间序列相对于第一子已知时间序列的位置关系相同;预先限定不同的多个参数集合;根据第三子已知时间序列来计算多个参数集合中的每个参数集合的预测准确度;根据预测准确度从多个参数集合中选择适当的参数集合。

    处理语言数据的装置、方法以及设备

    公开(公告)号:CN103377184A

    公开(公告)日:2013-10-30

    申请号:CN201210110614.6

    申请日:2012-04-16

    Inventor: 葛乃晟 孟遥 于浩

    Abstract: 本发明的实施例涉及处理语言数据的装置、方法以及设备,以至少克服现有的语言处理技术所存在的不能消除语句结构歧义的问题。上述处理语言数据的装置包括:用于识别能够符合至少两种句法关系的至少两个词法单元的识别模块;用于分别针对每种句法关系得到候选语句的转换模块;用于对各个候选语句进行评分的评分模块;以及用于将上述识别的词法单元确定为具有与得分最高的候选语句相对应的句法关系的确定模块。上述处理语言数据的方法用于执行能够实现上述处理语言数据的装置的功能的处理。上述设备包括上述处理语言数据的装置。应用本发明的上述技术,能够消除语言数据中的具有句法歧义的结构的歧义,可以应用于自然语言处理领域。

Patent Agency Ranking