提取网页内容的方法、装置和计算机存储介质

    公开(公告)号:CN111339396B

    公开(公告)日:2024-04-16

    申请号:CN201811549846.5

    申请日:2018-12-18

    Abstract: 本发明涉及一种提取网页内容的方法,包括:计算网页特征与至少一个网页特征聚类的代表集合的相似度,代表集合包括相应网页特征聚类中彼此间相似度较高的网页特征的样本;确定与网页特征的相似度最高的代表集合;用网页特征更新与所确定的代表集合关联的网页特征聚类;重新计算所更新的网页特征聚类的代表集合;以及根据与所更新的网页特征聚类关联的提取模板从网页中提取内容。

    用于识别文本的方法、设备和存储介质

    公开(公告)号:CN113496116A

    公开(公告)日:2021-10-12

    申请号:CN202010256902.7

    申请日:2020-04-01

    Inventor: 郑仲光 孙俊

    Abstract: 本申请公开了一种用于识别文本的方法和设备以及存储介质。该方法包括:将原始文本库中的每个文本拆解成字串集合,以与所述原始文本库中的每个文本的对应字串合并成新的文本库;以待识别文本中的每个字为起始,识别所述新的文本库中的以该字为起始的、与该待识别文本具有最长匹配的字串;和根据识别出的匹配的字串在所述待识别文本中的位置信息,对所述匹配的字串的集合内的相邻或部分重叠的字串迭代地扩展和合并,以得到最终识别结果。

    信息处理方法和信息处理设备

    公开(公告)号:CN111966932A

    公开(公告)日:2020-11-20

    申请号:CN201910418790.8

    申请日:2019-05-20

    Inventor: 孟遥 郑仲光

    Abstract: 本公开提供了信息处理方法和信息处理设备。信息处理方法用于对网页中的文本进行标记,并且包括:接收对网页中的目标文本的选择操作;在与所述网页对应的文档对象模型中,确定所选择的文本的范围,按照文本节点将所选择的文本的范围划分为多个区间,并对划分得到的每个区间进行标记处理。

    信息处理方法和装置
    14.
    发明公开

    公开(公告)号:CN108694206A

    公开(公告)日:2018-10-23

    申请号:CN201710232826.4

    申请日:2017-04-11

    Inventor: 郑仲光 孟遥 孙俊

    Abstract: 本公开涉及信息处理方法和信息处理装置。根据本公开的信息处理方法包括:从用户的服务器获取第一网页;基于所述第一网页中的重复性结构自动地在所述第一网页上添加资源描述框架属性以生成第二网页,其中所述第二网页存储在本地服务器上;以及通过所述第二网页将对所述第一网页的访问重定向到用户的服务器。通过根据本公开的技术,可以自动地在网页中添加资源描述框架属性。

    辅助翻译输入方法和辅助翻译输入设备

    公开(公告)号:CN106980390A

    公开(公告)日:2017-07-25

    申请号:CN201610031192.1

    申请日:2016-01-18

    Inventor: 郑仲光 孟遥 孙俊

    CPC classification number: G06F3/0233 G06F17/289

    Abstract: 公开了一种辅助翻译输入方法和辅助翻译输入设备。该辅助翻译输入方法包括:输入由第一语言的一个或多个词的拼音表示构成的拼音串;将拼音串转换成以第一语言表示的第一语言文字串;利用从第一语言的拼音表示到第二语言的文字串的统计机器翻译模型,以词为单位对拼音串和第一语言文字串两者进行处理,得到翻译后的以第二语言表示的第二语言文字串,统计机器翻译模型包括从第一语言的拼音表示到第二语言的文字串的多条翻译规则、基于第一语言的第一语言模型以及基于第二语言的第二语言模型,多条翻译规则至少包括从第一语言的拼音表示到第一语言的文字串的转换及其转换概率。根据本公开的实施例,能够进行容错的翻译。

    信息处理设备和信息处理方法

    公开(公告)号:CN103914447B

    公开(公告)日:2017-04-19

    申请号:CN201310008659.7

    申请日:2013-01-09

    Inventor: 郑仲光 孟遥 于浩

    Abstract: 本公开涉及信息处理设备和信息处理方法。信息处理设备包括:互译关系获取单元,其获取双语平行语料中语料在两种语言之间的互译关系;名词性成分确定单元,其对语料在第二语言中进行词性标注,并确定语料在两种语言中的名词性成分和非名词性成分;归一化单元,其将语料在两种语言中的名词性成分替换为指代符号,从而形成在两种语言中的结构化语料;结构化模式生成单元,其生成两种语言之间的结构化模式;和短语化模式生成单元,其生成两种语言之间的短语化模式。通过根据公开的信息处理设备和信息处理方法,可以提供两种语言之间的结构化模式和短语化模式,从而有可能更好地在两种语言之间转换语料。

    评估用户的兴趣倾向的方法和装置

    公开(公告)号:CN106326228A

    公开(公告)日:2017-01-11

    申请号:CN201510336777.X

    申请日:2015-06-17

    Inventor: 郑仲光 孟遥 孙俊

    CPC classification number: G06F16/9535 G06Q50/01

    Abstract: 本发明公开了一种评估用户的兴趣倾向的方法和装置。该方法包括:计算所述用户与其好友列表中的目标好友的关系分数;计算所述目标好友的自身倾向分数;以及根据所述关系分数和所述自身倾向分数计算所述用户关于所述目标好友的兴趣倾向程度。通过该方法,可评估用户的兴趣倾向,从而准确地为用户推送相关领域的内容或信息,以提升用户体验。

    语义单元抽取方法和语义单元抽取设备

    公开(公告)号:CN103678270B

    公开(公告)日:2016-08-24

    申请号:CN201210320606.4

    申请日:2012-08-31

    Abstract: 本发明公开了一种语义单元抽取方法和语义单元抽取设备。所述语义单元抽取方法包括:输入经过分词的目标语言的句子;获得与目标语言的句子对应的参考语言的句子;对参考语言的句子进行词性标注;获得目标语言的句子和参考语言的句子之间的词对齐关系;以及根据参考语言的句子的词性标注结果,借助于词对齐关系,抽取目标语言的句子的语义单元。

    确定证书类型的方法和装置以及翻译证书的方法和装置

    公开(公告)号:CN102402684B

    公开(公告)日:2015-02-11

    申请号:CN201010291958.2

    申请日:2010-09-15

    Abstract: 本发明公开了一种自动确定证书类型的方法和装置以及一种自动翻译证书的方法和装置。该自动确定证书类型的方法,包括:获取证书图像;提取证书图像的外观特征和/或几何特征;以及根据证书图像的外观特征和/或几何特征来确定证书类型;其中所述外观特征包括证书图像的色彩特征、纹理特征和版面布局特征,所述几何特征包括证书图像的大小特征和长宽比例特征。

    信息处理设备和信息处理方法

    公开(公告)号:CN103914447A

    公开(公告)日:2014-07-09

    申请号:CN201310008659.7

    申请日:2013-01-09

    Inventor: 郑仲光 孟遥 于浩

    Abstract: 本公开涉及信息处理设备和信息处理方法。信息处理设备包括:互译关系获取单元,其获取双语平行语料中语料在两种语言之间的互译关系;名词性成分确定单元,其对语料在第二语言中进行词性标注,并确定语料在两种语言中的名词性成分和非名词性成分;归一化单元,其将语料在两种语言中的名词性成分替换为指代符号,从而形成在两种语言中的结构化语料;结构化模式生成单元,其生成两种语言之间的结构化模式;和短语化模式生成单元,其生成两种语言之间的短语化模式。通过根据公开的信息处理设备和信息处理方法,可以提供两种语言之间的结构化模式和短语化模式,从而有可能更好地在两种语言之间转换语料。

Patent Agency Ranking