数据处理方法和数据处理装置

    公开(公告)号:CN104036335A

    公开(公告)日:2014-09-10

    申请号:CN201310067968.1

    申请日:2013-03-04

    Abstract: 提供了一种数据处理方法和装置,该方法包括:工作流分析步骤,对输入的工作流进行分析,以得到表示工作流中的各个部分的执行顺序的顺序执行链以及顺序执行链中的各个部件之间的数据依赖性,工作流包括循环控制结构和条件控制结构,并且循环控制结构和条件控制结构被解构成顺序执行链中的部件;中介器布置步骤,为顺序执行链中的每个部件分配中介器并根据数据依赖性来布置每个中介器,中介器用于调用各自的网络服务,并且顺序执行链中的各个部件之间的数据传输通过所分配的中介器来实现;以及工作流执行步骤,根据顺序执行链执行工作流。根据本发明,能够以去中心化的方式实现工作流执行,从而减轻了中央执行引擎的处理负荷并减少了网络数据传输。

    一种获取韵律边界信息的方法及系统

    公开(公告)号:CN102881282B

    公开(公告)日:2014-08-20

    申请号:CN201110204282.3

    申请日:2011-07-15

    Inventor: 张洁 孟遥 于浩

    Abstract: 本发明实施例公开了提供一种获取韵律边界信息的方法及系统,其中,所述方法包括:获取待标注的文本数据,并获得所述文本数据对应的音频数据;向第一组标注者播放所述音频数据,根据各个标注者的标注结果,获取基于该第一组标注者确定的韵律边界信息;向第二组标注者展现根据所述文本数据生成的句法树,根据各个标注者的标注结果,获取基于该第二组标注者确定的韵律边界信息;将所述基于第一组标注者确定的韵律边界信息与所述基于第二组标注者确定的韵律边界信息进行比对,根据比对结果,确定各个位置的韵律边界信息。通过本发明,能够有效地获取到韵律边界信息,进而提高语音合成结果的自然度。

    句法分析装置及句法分析方法

    公开(公告)号:CN101814065B

    公开(公告)日:2014-07-30

    申请号:CN200910118104.1

    申请日:2009-02-23

    Inventor: 孟遥 于浩

    Abstract: 本发明公开了一种句法分析装置和句法分析方法。根据本发明的使用正则表达式规则的句法分析装置包括训练树库、规则获取模块、规则应用模块、句法树生成模块和规则集。规则获取模块通过统计学习的方法从已经标注好的训练树库学习句法分析规则,生成在对输入句子进行分析时使用的规则集。对于产生式规则的后项中的重复部分,规则获取模块应用正则表达式来表示。规则获取模块所学习的句法分析规则还可以包含上下文信息。规则应用模块使用规则获取模块学习获得的句法分析规则集分析输入句子,识别出输入句子的语法成份及成份间的关系。句法树生成模块根据规则应用模块输出的分析结果,按照用户的需求生成输入句子的依存句法关系图或者短语结构型句法分析树。

    信息处理设备和信息处理方法

    公开(公告)号:CN103914447A

    公开(公告)日:2014-07-09

    申请号:CN201310008659.7

    申请日:2013-01-09

    Inventor: 郑仲光 孟遥 于浩

    Abstract: 本公开涉及信息处理设备和信息处理方法。信息处理设备包括:互译关系获取单元,其获取双语平行语料中语料在两种语言之间的互译关系;名词性成分确定单元,其对语料在第二语言中进行词性标注,并确定语料在两种语言中的名词性成分和非名词性成分;归一化单元,其将语料在两种语言中的名词性成分替换为指代符号,从而形成在两种语言中的结构化语料;结构化模式生成单元,其生成两种语言之间的结构化模式;和短语化模式生成单元,其生成两种语言之间的短语化模式。通过根据公开的信息处理设备和信息处理方法,可以提供两种语言之间的结构化模式和短语化模式,从而有可能更好地在两种语言之间转换语料。

    网页信息提取方法和装置
    225.
    发明授权

    公开(公告)号:CN101944094B

    公开(公告)日:2014-06-18

    申请号:CN200910158803.9

    申请日:2009-07-06

    Abstract: 本发明提供了网页信息提取方法和装置。所述方法包括:获取网站中的网页的源代码;根据所获取的源代码来建立所述网页的文档对象模型树结构,所述网页的文档对象模型树结构包括一个或多个节点;获取所述网站的至少一个模板,所述模板是文档对象模型树结构的;从所述模板中选择要抽取内容的路径信息;以及将所述要抽取内容的路径信息与所述网页的文档对象模型树结构中的各节点进行匹配,如果匹配成功,则提取所述网页中的与所述路径信息对应的内容信息。

    校正语料中的成语错误的装置和方法

    公开(公告)号:CN103853702A

    公开(公告)日:2014-06-11

    申请号:CN201210520870.2

    申请日:2012-12-06

    Abstract: 本申请公开了一种校正语料中的成语错误的装置和方法,该装置包括:变形成语检测单元,检测语料中成语的变形;第一判断单元,判断成语的变形是否存在于近义词词典或易混淆词词典中;语义相似确定单元,在确定成语的变形不在近义词词典和易混淆词词典中时,确定其与原成语之间的语义是否相似;第二判断单元,在确定成语的变形与原成语之间的语义不相似时,确定其不正确,否则确定其正确;语音相似度计算单元,在确定成语的变形不正确的情况下,计算成语的变形与原成语之间的语音相似度;字形相似度计算单元,在确定成语的变形不正确的情况下,计算其与原成语之间的字形相似度;以及校正单元,在确定成语的变形不正确的情况下,校正成语的变形。

    射频识别标签定位方法和装置

    公开(公告)号:CN102435990B

    公开(公告)日:2014-05-14

    申请号:CN201010505219.9

    申请日:2010-09-29

    Inventor: 陆应亮 于浩

    Abstract: 本发明公开一种射频识别RFID标签定位方法和装置。所述方法包括:使用RFID阅读器的天线分别在多个指定的发射功率下读取线性排列的对象标签预定次数;记录每个对象标签在每一个指定的发射功率下被所述天线成功读取的次数;计算每个对象标签被所述天线成功读取的次数之和;通过对每个对象标签被成功读取的次数之和进行排序,来确定各个对象标签相对于所述天线的排列顺序;计算每个对象标签相对于所述天线的归一化读取概率;以及通过根据每个对象标签相对于所述天线的归一化读取概率查询读取概率地图,来确定每个对象标签相对于所述天线的距离.其中,读取概率地图记录标签相对于天线的归一化读取概率与标签相对于天线的距离的对应关系。

    对序列进行处理的装置和方法

    公开(公告)号:CN103729528A

    公开(公告)日:2014-04-16

    申请号:CN201210390510.5

    申请日:2012-10-15

    Abstract: 本发明涉及对序列进行处理的装置和方法。对序列进行处理的装置包括:指示性子序列提取单元,被配置用于从序列中提取待预测子序列之前的、对待预测子序列有指示性作用的指示性子序列;种子提取单元,被配置用于从序列中提取与指示性子序列最相似的子序列作为种子;第一子序列提取单元,被配置用于从序列中提取跟随在种子之后的以下第一子序列:该第一子序列和种子之间的位置关系与待预测子序列和指示性子序列之间的位置关系相同,且该第一子序列与待预测子序列等长;以及类似子序列提取单元,被配置用于从序列中提取与第一子序列有类似的变化趋势的多个子序列,以用于预测待预测子序列。

    机器翻译方法和机器翻译系统

    公开(公告)号:CN103678285A

    公开(公告)日:2014-03-26

    申请号:CN201210320544.7

    申请日:2012-08-31

    Abstract: 本发明公开了一种机器翻译方法和机器翻译系统。所述机器翻译方法包括:利用多个机器翻译设备,分别将源语言的原文翻译为目标语言,以得到多个候选译文;利用语言模型,针对多个候选译文分别计算语言模型得分;分别获得多个机器翻译设备给出的关于多个候选译文的设备得分;基于原文的长度和候选译文的长度,针对多个候选译文分别计算长度得分;基于语言模型得分、设备得分、长度得分的至少一个,分别计算多个候选译文的总得分;以及选择总得分最高的候选译文作为机器翻译的结果。

Patent Agency Ranking