数据处理方法和设备
    81.
    发明公开

    公开(公告)号:CN103514167A

    公开(公告)日:2014-01-15

    申请号:CN201210202800.2

    申请日:2012-06-15

    Inventor: 张波 孟遥 于浩

    CPC classification number: G06F17/30864

    Abstract: 本发明公开了一种数据处理方法和设备,该方法可以包括:活跃时间区间确定步骤,用于确定具有相似活跃习惯的微博用户群,并且基于所确定的微博用户群中的关注用户发布的微博来确定各个微博用户群的活跃时间区间;关键词提取步骤,用于从所确定的活跃时间区间内的所有微博提取关键词;以及话题确定步骤,用于基于所提取的关键词,确定所确定的活跃时间区间内的相应话题。根据本发明,可以挖掘特定微博用户群在不同的活跃时间区间内所关注的话题,从而有针对性地进行信息发布和获取,大大提高了信息处理的效率。

    依存句法分析方法、装置及辅助分类器训练方法

    公开(公告)号:CN103514151A

    公开(公告)日:2014-01-15

    申请号:CN201210226930.X

    申请日:2012-06-29

    Inventor: 郑仲光 孟遥 于浩

    Abstract: 公开了依存句法分析方法、装置及辅助分类器训练方法。该依存句法分析方法包括初步分析步骤,使用通用的依存句法分析器对目标领域的句子进行依存句法分析,生成预定数量的分析结果;特征提取步骤,从作为所述分析结果的依存关系树中提取至少部分边的高阶特征;分类步骤,使用辅助分类器基于所述高阶特征对所述预定数量的分析结果进行分类,依据分类结果从所述预定数量的分析结果中选取最终的依存句法分析结果。

    识别具有组合型歧义的歧义词的方法和装置

    公开(公告)号:CN103514150A

    公开(公告)日:2014-01-15

    申请号:CN201210211767.X

    申请日:2012-06-21

    Inventor: 郑仲光 孟遥 于浩

    Abstract: 本发明公开了一种识别具有组合型歧义的歧义词的方法和装置。该方法包括:利用核心词表对第一语言句子进行粗粒度切分;利用核心词表在粗粒度切分后的分词结果中检测能够被分解成更小粒度的多个词的候选歧义词;通过分解候选歧义词对第一语言句子进行细粒度切分;从与第一语言句子对应的第二语言句子中分别抽取候选歧义词的译文、和候选歧义词所分解成的更小粒度的多个词的译文;以及判断所抽取的候选歧义词和更小粒度的多个词的译文是否出现在通过第一语言与第二语言词典得到的候选歧义词和更小粒度的多个词的译文中,以确定候选歧义词是真歧义词还是伪歧义词。

    射频识别标签定位方法和装置

    公开(公告)号:CN102890765A

    公开(公告)日:2013-01-23

    申请号:CN201110209834.X

    申请日:2011-07-20

    Abstract: 本发明涉及射频识别标签定位方法和装置,其中该射频识别标签定位方法包括:使用RFID阅读器的天线在当前发射功率下读取多个标签第一预定次数;记录每个标签在天线的当前发射功率下被成功读取的次数;根据天线的当前发射功率、标签的最低反应功率以及标签之间距离的最小分辨率确定天线的下一发射功率;将确定的天线的下一发射功率作为天线的当前发射功率,重复执行以上步骤第二预定次数;计算每个标签被成功读取的次数的总和;以及根据每个标签被成功读取的次数的总和对多个标签进行排序,来确定各个标签相对于天线的排列顺序。

    一种韵律标注的方法及专用标注设备

    公开(公告)号:CN102881285A

    公开(公告)日:2013-01-16

    申请号:CN201110204284.2

    申请日:2011-07-15

    Inventor: 张波 孟遥 于浩

    Abstract: 本发明实施例公开了一种韵律标注的方法及专用标注设备,所述方法包括:接收模块,用于接收待标注的音频数据标识,所述音频数据标识包括音频数据的批次和/或数据条目号;播放模块,用于依据所述音频数据标识向标注者播放相对应的音频数据;记录模块,用于在检测到所述标注者触发了标注过程的情况下,记录与所述标注者的标注行为相关的信息;生成模块,用于根据所述与标注者的标注行为相关的信息生成所述音频数据的音频标注信息。通过本发明实施例,能够使标注的音频标注数据更准确,进而也使得采用音频标注数据进行语音合成的准确度或者流畅程度都能够满足实际需求。本发明实施例提供的专用标注设备也更适合盲人使用。

    基于扩展的层次化短语模型的统计机器翻译装置和方法

    公开(公告)号:CN102402503A

    公开(公告)日:2012-04-04

    申请号:CN201010286534.7

    申请日:2010-09-15

    Inventor: 何中军 孟遥 于浩

    Abstract: 本发明公开了一种基于扩展的层次化短语模型的统计机器翻译装置和方法,其中该统计机器翻译装置包括:翻译规则提取单元,用于从双语语料库中提取包括短语规则和层次化短语规则的翻译规则;粘合规则规定单元,用于规定包括顺序规则和逆序规则的粘合规则;以及解码单元,用于利用所述翻译规则将源语言句子翻译成目标语言短语序列,以及不断地利用所述粘合规则中的顺序规则顺序地结合相邻的目标语言短语,以及利用所述粘合规则中的逆序规则逆序地结合相邻的目标语言短语,直至产生候选目标语言句子,然后根据每个候选目标语言句子的得分确定最终的目标语言句子。根据本发明的技术方案,可以有效地提高翻译的准确度。

    用于构建极性词素数据库以及确定词的极性的方法和装置

    公开(公告)号:CN102375838A

    公开(公告)日:2012-03-14

    申请号:CN201010257635.1

    申请日:2010-08-17

    Inventor: 张洁 孟遥 于浩

    Abstract: 用于构建极性词素数据库以及确定词的极性的方法和装置。用于确定词的极性的方法包括:对于要确定极性的词,计算其与预定的极性词素数据库中的每个极性为褒义的词之间的互信息、与所述极性词素数据库中的每个极性为贬义的词之间的互信息;根据所计算的词与极性词素数据库中的每个极性为褒义的词之间的互信息,计算词与极性词素数据库中的所有极性为褒义的词之间的关联性,根据所计算的词与极性词素数据库中的每个极性为贬义的词之间的互信息,计算词与极性词素数据库中的所有极性为贬义的词之间的关联性;以及对以上两种关联性进行比较,根据比较结果判定词的极性。

    从评论性文本中提取评价性信息的方法和装置

    公开(公告)号:CN102163189A

    公开(公告)日:2011-08-24

    申请号:CN201010120101.4

    申请日:2010-02-24

    Abstract: 一种提取评价性信息的方法和装置。该方法包括:预处理步骤,对所收集的评论性文本进行预处理,以便获得与评论性文本中包含的至少一个被评价对象相关的评论性成分以及至少一个被评价对象在评论性文本中的位置;第一提取步骤,对经过预处理的评论性文本进行初始匹配处理,以便提取得到包含至少一个评价向量的第一评价向量集合;第二提取步骤,通过扩展所述至少一个被评价对象的作用域来进行扩展的匹配处理,以便为所述第一评价向量集合中的、缺少被评价对象的至少一个评价向量获得相应的被评价对象,从而获得第二评价向量集合。根据本发明的方法可使得从评论性文本中提取有意义的评价性信息的覆盖率得到提高,且提升提取处理的准确性。

    网页正文抽取方法和装置
    90.
    发明公开

    公开(公告)号:CN101872350A

    公开(公告)日:2010-10-27

    申请号:CN200910137364.3

    申请日:2009-04-24

    Abstract: 本发明公开了一种网页正文抽取方法和装置。根据本发明一个实施例的网页正文抽取方法包括:将网页表示为树状结构;判断树状结构中的每一个节点是否为有效节点;以及组合作为有效节点的叶子节点中所包含的正文信息,以得到所述网页的正文,其中,对于树状结构中的给定节点,如果在所述给定节点的儿子节点中预定类型的节点所占的比例小于或等于第一阈值,则判定所述给定节点为有效节点。

Patent Agency Ranking