生成有限状态自动机的方法和装置以及识别方法

    公开(公告)号:CN112560470A

    公开(公告)日:2021-03-26

    申请号:CN201910842145.9

    申请日:2019-09-06

    Abstract: 本公开内容涉及生成用于识别文本中的化学名称的有限状态自动机的方法、装置及识别方法。根据本公开内容的一个实施例,该方法包括以下步骤:将有机物名称集中出现的字符片段的类别的表示常量代入所述有机物名称集以得到转换名称集;基于转换名称集中重复出现的转换名称片段更新转换名称集;以及基于更新的转换名称集生成有限状态自动机。本公开内容的方法、装置和存储介质至少能有助于实现如下效果之一:自动生成识别规则、生成有限状态自动机的方法简单、识别化学名称效率高、识别率高。

    提取网页内容的方法和网页内容提取装置

    公开(公告)号:CN110020302A

    公开(公告)日:2019-07-16

    申请号:CN201711137446.9

    申请日:2017-11-16

    Inventor: 郑仲光 孟遥 孙俊

    Abstract: 这里公开的示例性实施例涉及提取网页的内容的方法、提取网页的内容的装置及计算机程序介质。根据提取网页的内容的方法,包括:将输入网页转换为文档对象模型树;确定文档对象模型树中的每个叶节点是否内容叶节点,其中如果叶节点在文档对象模型树中的路径与包括至少一个参考路径的第一集合中的一个参考路径匹配,则叶节点被确定为内容叶节点;识别文档对象模型树中的至少一个内容非叶节点,其中每个内容非叶节点的所有下属叶节点均为内容叶节点;选择内容非叶节点中所有下属叶节点的文本内容的总长度最长的内容非叶节点;以及提取所选择的内容非叶节点中所有下属叶节点的文本内容。

    多词单元提取方法和设备及人工神经网络训练方法和设备

    公开(公告)号:CN103678318B

    公开(公告)日:2016-12-21

    申请号:CN201210320806.X

    申请日:2012-08-31

    Abstract: 本申请公开了一种多词单元提取方法和设备及人工神经网络训练方法和设备。提取多词单元的方法包括:针对将语句进行分词得到的多个分词块中的每个分词块,获取每个分词块中的分词的语言学特征作为特征量;将特征量作为参数输入到人工神经网络中;采用人工神经网络计算每个分词块中的分词是多词单元的一部分的第一可能性和该分词不是多词单元的一部分的第二可能性,并且根据第一和第二可能性判断该分词是否为多词单元的一部分;提取相邻的两个或更多个被判断为多词单元的一部分的分词以形成多词单元;以及获取与当前分词块相邻的先前分词块的判断的结果作为反馈信息,并且将反馈信息也作为当前分词块中的分词的特征量。

    描述短文本的作者的方法和设备

    公开(公告)号:CN106156091A

    公开(公告)日:2016-11-23

    申请号:CN201510151745.2

    申请日:2015-04-01

    Abstract: 本发明公开了一种描述短文本的作者的方法和设备。该描述短文本的作者的方法包括:根据作者的多个短文本,确定作者感兴趣的类别;以及提取作者感兴趣的类别的代表性短文本,作为对作者的描述。根据本发明的方法和设备能够容易地、准确地让读者了解作者的兴趣爱好。

    用户分类装置、用户分类方法以及电子设备

    公开(公告)号:CN105095324A

    公开(公告)日:2015-11-25

    申请号:CN201410222082.4

    申请日:2014-05-23

    Abstract: 本公开提供一种用户分类装置、用户分类方法和电子设备。该用户分类装置用于针对预定领域的用户进行分类,包括:内容搜索单元,用于在预定数据源中搜索包含该预定领域的主题词的内容作为预定领域内容,并将发布该预定领域内容的用户作为待分类用户;以及用户分类单元,用于根据所述预定领域内容的、与用户相关的属性,对所述待分类用户进行分类。根据本公开的用户分类装置、用户分类方法和电子设备至少能够对预定领域的用户进行更精准的分类。

    识别音译名的方法及装置
    47.
    发明公开

    公开(公告)号:CN104657343A

    公开(公告)日:2015-05-27

    申请号:CN201310575092.1

    申请日:2013-11-15

    Abstract: 本发明提供一种识别音译名的方法和装置。该方法包括:对于当前语言的字符串,获取源语言的与所述字符串对应的至少一种发音单元序列;确定所述至少一种发音单元序列为所述源语言中的名称的概率;根据所述至少一种发音单元序列为所述源语言中的名称的概率判断所述当前语言的字符串是否为音译名。本发明中,对于当前语言的字符串,根据其对应的源语言的发音单元序列为源语言中的名称的概率判断当前语言的字符串是否为源语言音译名,能够准确识别出当前语言的字符串是否为源语言音译名。

    生成单语解析模型的方法和装置以及语言转换装置

    公开(公告)号:CN104572629A

    公开(公告)日:2015-04-29

    申请号:CN201310491909.7

    申请日:2013-10-18

    Abstract: 本发明涉及一种生成单语解析模型的方法和装置以及语言转换装置。生成单语解析模型的方法包括:按照双语平行语料中的以目标语言撰写的目标语句的语序来调整双语平行语料中的以源语言撰写的源语句的语序;按照以下助词在目标语句中的位置将该助词插入调整了语序的源语句中以得到作为参考的中间语句,其中,在目标语句中存在该助词而在源语句中没有与该助词对应的助词;根据目标语言和源语言的双语平行语料,利用源语句与目标语句之间的空对齐信息以预定策略生成用于调整源语句的语序的候选结构表示;根据作为参考的中间语句从所生成的候选结构表示中选择用于生成单语解析模型的结构表示;以及对所选择的结构表示进行建模以生成单语解析模型。

    无歧义日本人名列表构建方法、人名识别方法及装置

    公开(公告)号:CN104424332A

    公开(公告)日:2015-03-18

    申请号:CN201310412289.3

    申请日:2013-09-11

    CPC classification number: G06F17/30684 G06F17/30705

    Abstract: 本发明公开了无歧义日本人名列表构建方法、人名识别方法及装置。构建列表的方法包括:利用日本姓氏列表对日本常见人名列表进行姓名分离以得到日本名字列表;将带有日本人名相关标记的训练语料划分为日本人名相关词语集合和其他词语集合;将所述日本人名相关词语集合与所述日本常见人名列表、日本姓氏列表和从日本常见人名列表进行姓名分离而得到日本名字列表合并为日本人名相关词语总集合;针对日本人名相关词语总集合中的每一个日本人名相关词语判断该词语是否为无歧义日本人名相关词语以建立无歧义日本人名相关词语列表。利用该列表进行分词和人名角色标注,能够提高中文分词的整体准确率、整体的人名角色标注性能以及最终的人名识别结果。

    带反馈的功能模块组合方法和装置、数据处理方法和设备

    公开(公告)号:CN104142914A

    公开(公告)日:2014-11-12

    申请号:CN201310170904.4

    申请日:2013-05-10

    Abstract: 公开了一种带有反馈控制的功能模块组合方法和装置以及数据处理方法和设备。该带有反馈控制的功能模块组合方法可以包括:领域本体库构建步骤,对于特定领域中存在的所有功能模块,根据各个功能模块的输入和输出来构建关于该特定领域的领域本体库;功能模块封装步骤,基于所构建的领域本体库对功能模块进行封装,以使得封装后的功能模块具有能够相互组合的格式;功能模块组合步骤,基于所构建的领域本体库,根据功能模块的输入和输出之间的关系,从封装后的功能模块中选择能够相互组合的两个或更多个功能模块并将所选择的两个或更多个功能模块组合在一起以供用于执行预定处理,其中,两个或更多个功能模块中的至少两个功能模块之间存在反馈控制。

Patent Agency Ranking