数据处理装置和为值串形式索引值建立索引的方法

    公开(公告)号:CN102193941A

    公开(公告)日:2011-09-21

    申请号:CN201010124847.2

    申请日:2010-03-12

    Abstract: 本发明涉及一种数据处理装置和为值串形式索引值建立索引的索引方法。该数据处理装置包括为值串形式的索引值建立前缀树索引的索引部分,索引部分包括:中间索引值获取单元,用于将索引值补位到预定长度,并基于补位后的各索引值的相应位以及相应位的组合来获取中间索引值;中间索引项产生单元,用于产生针对中间索引值的索引数据作为中间索引数据,并建立中间索引值与中间索引数据之间的对应关系,中间索引数据是中间索引值覆盖的各索引值的索引数据或索引数据的变形的集合;在该集合中,索引数据或索引数据的变形按照与索引值的各位相关的预定顺序排列,且每一个索引值的索引数据或索引数据的变形各自包含表示本身在何处结束的结束标志。

    从评论性文本中提取评价性信息的方法和装置

    公开(公告)号:CN102163189A

    公开(公告)日:2011-08-24

    申请号:CN201010120101.4

    申请日:2010-02-24

    Abstract: 一种提取评价性信息的方法和装置。该方法包括:预处理步骤,对所收集的评论性文本进行预处理,以便获得与评论性文本中包含的至少一个被评价对象相关的评论性成分以及至少一个被评价对象在评论性文本中的位置;第一提取步骤,对经过预处理的评论性文本进行初始匹配处理,以便提取得到包含至少一个评价向量的第一评价向量集合;第二提取步骤,通过扩展所述至少一个被评价对象的作用域来进行扩展的匹配处理,以便为所述第一评价向量集合中的、缺少被评价对象的至少一个评价向量获得相应的被评价对象,从而获得第二评价向量集合。根据本发明的方法可使得从评论性文本中提取有意义的评价性信息的覆盖率得到提高,且提升提取处理的准确性。

    生成与维护网页内容抽取模板的方法和设备

    公开(公告)号:CN102073654A

    公开(公告)日:2011-05-25

    申请号:CN200910226108.1

    申请日:2009-11-20

    Abstract: 本发明提供了生成与维护网页内容抽取模板的方法和设备。所述生成网页内容抽取模板的装置包括:输入单元;权重计算单元,被配置成计算各个输入树中的每种类型的节点的权重;最大对齐关系计算单元;合并单元;确定单元;和选择单元。所述维护网页内容抽取模板的装置包括:相似度计算单元,计算出相似度序列;统计量计算单元,利用预定大小的窗口遍历所述相似度序列并计算窗口中的统计量;统计量判断单元,根据计算的统计量来判断网页内容抽取模板是否已不适应输入网页;和重新计算单元。本发明可以高效地自动生成网页内容抽取模板,并在由于网页发生变化而导致抽取模板失效或者准确度下降时,可以快速地自动重新生成网页内容抽取模板。

    对消费者生成媒体信息进行处理的方法、装置和程序

    公开(公告)号:CN102073641A

    公开(公告)日:2011-05-25

    申请号:CN200910221886.1

    申请日:2009-11-19

    Abstract: 本发明提供了一种对消费者生成媒体信息进行处理的方法,所述方法包括步骤:从不同的信息供应源收集并抽取消费者生成媒体信息;根据与抽取得到的消费者生成媒体信息相对应的过滤策略对所述消费者生成媒体信息进行过滤,以获得与预定主题相关的消费者生成媒体信息;以及基于用户定制的规则来对过滤得到的消费者生成媒体信息进行整合,以便获得定制的消费者生成媒体信息。本发明还提供用于实现这种方法的装置及其程序。根据本发明的方法和装置根据用户的特定需求而提供定制的CGM信息,从而显著提高了CGM信息的处理和使用效率,且不会对用户增加额外的操作负担。

    构建级联分类器的方法、识别对象的方法及装置

    公开(公告)号:CN101964059A

    公开(公告)日:2011-02-02

    申请号:CN200910161237.7

    申请日:2009-07-24

    Abstract: 公开了构建级联分类器的方法、识别对象的方法以及装置。该方法包括:基于第一级样本集来构建第一级节点分类器作为临时级联分类器,循环执行以下步骤:基于下级样本集来构建下级节点分类器,下级样本集是上级样本集中针对上级节点分类器的上级识别分数小于与上级节点分类器相对应的上级识别分数阈值与大于或等于0的识别分数阈值偏量之和的样本的集合;将下级节点分类器与临时级联分类器级联以构建新的临时级联分类器;比较增加该下级节点分类器前后的临时级联分类器的识别精度;如果增加下级节点分类器后识别精度不变或降低,则将删除下级节点分类器后的临时级联分类器确定为最终的级联分类器并终止循环,否则继续构建下一个下级节点分类器。

    三维模型分割方法、装置以及包含该装置的图像处理系统

    公开(公告)号:CN101944239A

    公开(公告)日:2011-01-12

    申请号:CN200910152258.2

    申请日:2009-07-08

    Abstract: 提供一种用于对三维模型进行分割的方法,包括:有界平面生成步骤,用于根据输入的三维模型的三角形网格数据对所述三维模型中包含的所有三角形进行处理,以生成至少一个适用于对所述三维模型进行分割的有界平面;轮廓图提取步骤,用于通过所述生成的有界平面来提取出所述三维模型的轮廓图;和轮廓图分割步骤,用于根据所述生成的有界平面的信息以及所述三维模型的顶点邻接图的信息,将所述提取出的轮廓图分割成一个子图或者至少两个相互不重叠的子图。还提供对三维模型进行分割的装置及其具有该装置的图像处理系统。通过本发明的方法、装置和系统,可提高三维模型分割的精确性和效率。

    网页正文抽取方法和装置
    127.
    发明公开

    公开(公告)号:CN101872350A

    公开(公告)日:2010-10-27

    申请号:CN200910137364.3

    申请日:2009-04-24

    Abstract: 本发明公开了一种网页正文抽取方法和装置。根据本发明一个实施例的网页正文抽取方法包括:将网页表示为树状结构;判断树状结构中的每一个节点是否为有效节点;以及组合作为有效节点的叶子节点中所包含的正文信息,以得到所述网页的正文,其中,对于树状结构中的给定节点,如果在所述给定节点的儿子节点中预定类型的节点所占的比例小于或等于第一阈值,则判定所述给定节点为有效节点。

    图像增强方法和设备
    128.
    发明公开

    公开(公告)号:CN101814179A

    公开(公告)日:2010-08-25

    申请号:CN200910005695.1

    申请日:2009-02-19

    Abstract: 本发明提供了一种图像增强方法和设备,其中该图像增强方法包括以下步骤:计算图像中每个像素的全漫射亮度;根据计算出的每个像素的全漫射亮度,将每个像素分类为高亮像素或非高亮像素;以及对于每个非高亮像素,根据其全漫射亮度来增强其饱和度。根据上述技术方案,可以有效地提高诸如白板图像这样的图像的可视性和/或可读性。

    一种基于语素标注的自然语言成分识别、校正装置及方法

    公开(公告)号:CN100533431C

    公开(公告)日:2009-08-26

    申请号:CN200510103566.8

    申请日:2005-09-21

    Abstract: 本发明为一种基于语素标注的自然语言成分识别、校正装置及方法,包括:输入部,用于输入待分析符号序列;语素学习部,用于生成语素属性,并从待分析自然语言成分的标注样本中学习得到语素与所述语素属性之间的关系规律;语素属性标注部,用于对输入的待分析符号序列进行语素属性标注,生成语素属性标注序列;分析成分合成部,用于从语素属性标注序列中识别出需要的自然语言成分及该自然语言成分的分类标记;输出部,用于输出所述分析成分合成部的识别结果。用以从输入的汉语、日语等自然语言或基因组等符号序列中识别出需要的语言成分或遗传因子等符号组,并标注出识别成分的分类属性。从而解决诸如汉语的未登录词等问题。

    基于数据挖掘获取词或词组单元译文信息的系统和方法

    公开(公告)号:CN100474301C

    公开(公告)日:2009-04-01

    申请号:CN200510102518.7

    申请日:2005-09-08

    Abstract: 本发明为基于数据挖掘获取词或词组单元译文信息的系统和方法。包括:输入装置,用于输入词或词组单元;候选译文统计装置,根据输入所述的词或词组单元收集有效的电子文档和网页,在此基础上构建候选译文、发现候选译文的边界、统计候选译文的特征;候选译文噪声处理装置,用于对所述候选译文统计装置形成的噪声进行识别和处理;候选译文评价装置,根据所述候选译文统计装置得到的候选译文的特征,对每个可能的候选译文进行评价排序;候选译文典型例句挖掘装置,用于在Web上挖掘出候选译文的典型例句,并根据其典型程度排序;输出装置。使用户输入任意词典未收录的词或词组单元系统返回在另一种语言中按权值大小排列的翻译候选列表及其典型用法。

Patent Agency Ranking