信息提取方法和装置

    公开(公告)号:CN101833555B

    公开(公告)日:2016-05-04

    申请号:CN200910127243.0

    申请日:2009-03-12

    Abstract: 本发明涉及信息提取方法和装置。用于从输入的信息源中提取涉及特定主题的有用信息的信息提取方法,包括:基于描述了各类训练语素的组合概率的分类模板,从所述信息源中定位感兴趣的各类目标语素;按照预定的匹配规则对所述定位的各类目标语素进行匹配,并提取符合所述预定匹配规则的目标语素以组合成描述向量;以及基于所述提取出的描述向量,生成全局性信息以作为所述涉及特定主题的有用信息。

    在文本中确定语义关键词的方法和装置

    公开(公告)号:CN105138523A

    公开(公告)日:2015-12-09

    申请号:CN201410239148.0

    申请日:2014-05-30

    Inventor: 缪庆亮 孟遥

    Abstract: 本发明涉及一种在文本中确定语义关键词的方法和装置。该方法包括:在网络资源中进行挖掘,获得词或词组与词或词组作为语义关键词的概率的二元组集合;在文本中抽取样本集合,基于所获得的二元组集合在样本集合中获取正样本集合;将样本集合去除正样本集合后的集合中的每一个样本与正样本集合中的正样本进行比较,根据比较的相似度结果来获得负样本集合;从样本集合去除正样本集合后的集合中再去除负样本集合来获得未标注样本集合;基于正样本集合、负样本集合和未标注样本集合,利用分类算法来迭代训练语义关键词识别模型,基于语义关键词识别模型来获得语义关键词集合和/或非语义关键词集合。

    用户分类装置、用户分类方法以及电子设备

    公开(公告)号:CN105095324A

    公开(公告)日:2015-11-25

    申请号:CN201410222082.4

    申请日:2014-05-23

    Abstract: 本公开提供一种用户分类装置、用户分类方法和电子设备。该用户分类装置用于针对预定领域的用户进行分类,包括:内容搜索单元,用于在预定数据源中搜索包含该预定领域的主题词的内容作为预定领域内容,并将发布该预定领域内容的用户作为待分类用户;以及用户分类单元,用于根据所述预定领域内容的、与用户相关的属性,对所述待分类用户进行分类。根据本公开的用户分类装置、用户分类方法和电子设备至少能够对预定领域的用户进行更精准的分类。

    识别音译名的方法及装置
    114.
    发明公开

    公开(公告)号:CN104657343A

    公开(公告)日:2015-05-27

    申请号:CN201310575092.1

    申请日:2013-11-15

    Abstract: 本发明提供一种识别音译名的方法和装置。该方法包括:对于当前语言的字符串,获取源语言的与所述字符串对应的至少一种发音单元序列;确定所述至少一种发音单元序列为所述源语言中的名称的概率;根据所述至少一种发音单元序列为所述源语言中的名称的概率判断所述当前语言的字符串是否为音译名。本发明中,对于当前语言的字符串,根据其对应的源语言的发音单元序列为源语言中的名称的概率判断当前语言的字符串是否为源语言音译名,能够准确识别出当前语言的字符串是否为源语言音译名。

    生成单语解析模型的方法和装置以及语言转换装置

    公开(公告)号:CN104572629A

    公开(公告)日:2015-04-29

    申请号:CN201310491909.7

    申请日:2013-10-18

    Abstract: 本发明涉及一种生成单语解析模型的方法和装置以及语言转换装置。生成单语解析模型的方法包括:按照双语平行语料中的以目标语言撰写的目标语句的语序来调整双语平行语料中的以源语言撰写的源语句的语序;按照以下助词在目标语句中的位置将该助词插入调整了语序的源语句中以得到作为参考的中间语句,其中,在目标语句中存在该助词而在源语句中没有与该助词对应的助词;根据目标语言和源语言的双语平行语料,利用源语句与目标语句之间的空对齐信息以预定策略生成用于调整源语句的语序的候选结构表示;根据作为参考的中间语句从所生成的候选结构表示中选择用于生成单语解析模型的结构表示;以及对所选择的结构表示进行建模以生成单语解析模型。

    一种实体链接方法及装置
    116.
    发明公开

    公开(公告)号:CN104462126A

    公开(公告)日:2015-03-25

    申请号:CN201310432213.7

    申请日:2013-09-22

    Inventor: 缪庆亮 孟遥

    CPC classification number: G06F17/30705

    Abstract: 本发明提供一种实体链接方法及装置,该方法包括:获取实体提及的潜在链接实体;扩展所述实体提及所在的原始文本得到所述实体提及对应的第一文本,计算所述第一文本与所述潜在链接实体对应的第二文本的文本相似度;根据所述文本相似度计算所述潜在链接实体与所述实体提及的匹配度;以及将所述实体提及链接到具有满足预设条件的匹配度的潜在链接实体。本发明中,对实体提及所在的原始文本进行扩展,利用扩展后的文本筛选潜在链接实体,从而能够提高链接实体的准确性。

    无歧义日本人名列表构建方法、人名识别方法及装置

    公开(公告)号:CN104424332A

    公开(公告)日:2015-03-18

    申请号:CN201310412289.3

    申请日:2013-09-11

    CPC classification number: G06F17/30684 G06F17/30705

    Abstract: 本发明公开了无歧义日本人名列表构建方法、人名识别方法及装置。构建列表的方法包括:利用日本姓氏列表对日本常见人名列表进行姓名分离以得到日本名字列表;将带有日本人名相关标记的训练语料划分为日本人名相关词语集合和其他词语集合;将所述日本人名相关词语集合与所述日本常见人名列表、日本姓氏列表和从日本常见人名列表进行姓名分离而得到日本名字列表合并为日本人名相关词语总集合;针对日本人名相关词语总集合中的每一个日本人名相关词语判断该词语是否为无歧义日本人名相关词语以建立无歧义日本人名相关词语列表。利用该列表进行分词和人名角色标注,能够提高中文分词的整体准确率、整体的人名角色标注性能以及最终的人名识别结果。

    带反馈的功能模块组合方法和装置、数据处理方法和设备

    公开(公告)号:CN104142914A

    公开(公告)日:2014-11-12

    申请号:CN201310170904.4

    申请日:2013-05-10

    Abstract: 公开了一种带有反馈控制的功能模块组合方法和装置以及数据处理方法和设备。该带有反馈控制的功能模块组合方法可以包括:领域本体库构建步骤,对于特定领域中存在的所有功能模块,根据各个功能模块的输入和输出来构建关于该特定领域的领域本体库;功能模块封装步骤,基于所构建的领域本体库对功能模块进行封装,以使得封装后的功能模块具有能够相互组合的格式;功能模块组合步骤,基于所构建的领域本体库,根据功能模块的输入和输出之间的关系,从封装后的功能模块中选择能够相互组合的两个或更多个功能模块并将所选择的两个或更多个功能模块组合在一起以供用于执行预定处理,其中,两个或更多个功能模块中的至少两个功能模块之间存在反馈控制。

    信息处理方法和信息处理设备

    公开(公告)号:CN103678418A

    公开(公告)日:2014-03-26

    申请号:CN201210362152.7

    申请日:2012-09-25

    Inventor: 缪庆亮 孟遥 于浩

    CPC classification number: G06F17/2765 G06F17/2785

    Abstract: 公开了信息处理方法和信息处理设备,该方法包括:候选语义关键词提取步骤,用于对输入文本进行分词以从文本提取候选语义关键词;权重计算步骤,用于计算提取的候选语义关键词的权重;语义关键词选择步骤,用于基于算出的权重,根据预定规则从提取的候选语义关键词中选择语义关键词;链接关系确定步骤,用于确定选择的语义关键词与预定语义知识库中的概念间的链接关系;及文本语义图构建步骤,用于基于确定的链接关系、语义知识库中的概念间的语义关系及根据预定推理规则确定的语义关键词与语义知识库中其他概念间的关系,构建表示文本中的语义关键词与语义知识库中的概念间的关系的文本语义图。根据本发明,能够高效地进行信息集成、检索和共享。

    多词单元提取方法和设备及人工神经网络训练方法和设备

    公开(公告)号:CN103678318A

    公开(公告)日:2014-03-26

    申请号:CN201210320806.X

    申请日:2012-08-31

    CPC classification number: G06F17/2705 G06F17/2785 G06N3/08

    Abstract: 本申请公开了一种多词单元提取方法和设备及人工神经网络训练方法和设备。提取多词单元的方法包括:针对将语句进行分词得到的多个分词块中的每个分词块,获取每个分词块中的分词的语言学特征作为特征量;将特征量作为参数输入到人工神经网络中;采用人工神经网络计算每个分词块中的分词是多词单元的一部分的第一可能性和该分词不是多词单元的一部分的第二可能性,并且根据第一和第二可能性判断该分词是否为多词单元的一部分;提取相邻的两个或更多个被判断为多词单元的一部分的分词以形成多词单元;以及获取与当前分词块相邻的先前分词块的判断的结果作为反馈信息,并且将反馈信息也作为当前分词块中的分词的特征量。

Patent Agency Ranking