用于统计目标观众的收视率的方法和装置

    公开(公告)号:CN102655607B

    公开(公告)日:2016-03-30

    申请号:CN201110062124.9

    申请日:2011-03-04

    Abstract: 本发明涉及用于统计目标观众的收视率的方法和装置。用于统计目标观众的收视率的方法包括:分类体系构建步骤,构建分类体系;知识库构建步骤,对分类体系进行组织以构建知识库;收视数据获取步骤,获取收视数据;收视数据表示步骤,按照所述分类体系中所包括的与目标观众相关联的分类体系,基于知识库将收视数据表示成相应特征空间中的点;分类器构造步骤,按照与目标观众相关联的分类体系,在特征空间中通过小样本学习来构造分类器;以及收视率统计步骤,利用所构造的分类器统计目标观众的收视率。通过本发明,可以提高收视率的准确性并可以统计针对目标观众的收视率。

    训练神经网络的方法和装置以及确定稀疏特征向量的方法

    公开(公告)号:CN104765728A

    公开(公告)日:2015-07-08

    申请号:CN201410009183.3

    申请日:2014-01-08

    Abstract: 本发明涉及对神经网络进行训练的方法和装置以及确定语料库中的词的稀疏特征向量的方法和装置。神经网络包括输入层、隐含层和输出层,输入层表示语料库中的作为当前词的词的原始特征向量,隐含层表示当前词的中间特征向量,输出层表示语料库中的下一词的预测概率。对神经网络进行训练的方法包括:将语料库中的每个词作为当前词,并将当前词的原始特征向量输入到输入层;以及训练神经网络使得下一词的预测概率总体上最高并利用惩罚项使得隐含层的中间特征向量的元素稀疏。

    数据聚类方法和装置
    13.
    发明授权

    公开(公告)号:CN101989289B

    公开(公告)日:2014-05-07

    申请号:CN200910161158.6

    申请日:2009-08-06

    Inventor: 吴科 夏迎炬 于浩

    Abstract: 本发明提供了数据聚类方法和装置。所述数据聚类方法可包括:初始聚类步骤:对多个数据样本进行初始聚类;标注对象选取步骤:根据初始聚类的结果选取所述多个数据样本中的一个或多个作为标注对象;标注信息获取步骤:获取针对所述标注对象的标注信息;及二次聚类步骤:将所述标注信息作为约束信息对所述多个数据样本进行二次聚类。

    挖掘图片中的主题关键词的方法和设备

    公开(公告)号:CN103544186A

    公开(公告)日:2014-01-29

    申请号:CN201210246688.2

    申请日:2012-07-16

    CPC classification number: G06F16/5846 G06K9/6814

    Abstract: 本发明涉及一种挖掘图片中的主题关键词的方法和设备。挖掘图片中的主题关键词的方法包括:初始检索词识别步骤,识别图片中的关键词作为初始的检索词;候选关键词提取步骤,利用检索词检索与图片相关的主题网页以从中提取候选关键词;检索词选择步骤,根据候选关键词和搜索候选关键词所用的检索词之间的链接关系,从候选关键词中选择一部分候选关键词作为下次的候选关键词提取步骤所用的检索词;以及重复候选关键词提取步骤和检索词选择步骤直到满足预定条件。

    分布式计算方法和分布式计算系统

    公开(公告)号:CN103403698A

    公开(公告)日:2013-11-20

    申请号:CN201180069012.4

    申请日:2011-03-04

    CPC classification number: G06F9/46 G06F9/5061 G06F15/17318 G06F2209/5017

    Abstract: 本发明公开一种分布式计算方法和分布式计算系统。根据一个实施例的分布式计算方法包括:对输入任务流进行分布式计算;将所述分布式计算的计算结果进行归约;以及将所归约的计算结果存储到归约缓存中。根据一个实施例的分布式计算系统包括:分布式计算装置,用于进行分布式计算;多个归约单元,所述归约单元用于对所述分布式计算的计算结果进行归约处理;一个或更多个归约缓存,用于存储归约的计算结果;以及归约控制装置,用于控制所述计算结果到所述归约缓存的归约及对归约缓存的访问。

    产生抽取模板的方法、设备和抽取网页内容的方法和设备

    公开(公告)号:CN101833554B9

    公开(公告)日:2013-04-03

    申请号:CN200910127231.8

    申请日:2009-03-09

    Inventor: 夏迎炬 张姝 于浩

    Abstract: 产生抽取模板的方法、设备和抽取网页内容的方法和设备。生成网页内容抽取模板的方法包括:根据一个网页建立文档对象模型树,以作为初始的联合树;根据与所述网页结构相似的多个输入网页中的每个输入网页,建立文档对象模型树,以作为输入树;计算每个所述输入树和所述联合树之间的最大对齐关系;将所述输入树中每个对齐节点的内容累计到所述联合树中的相应对齐节点,并且根据所述输入树中的每个对齐节点在联合树中的相应对齐节点的位置以及输入树中的未对齐节点和对齐节点的位置关系,将所述输入树的未对齐节点插入到联合树中;确定所述联合树中最可能具有期望文本内容的节点;和选择所述联合树中包含所确定的节点的子树作为所述网页内容抽取模板。

    预测给定话题的未来发展趋势的方法和装置

    公开(公告)号:CN102999539A

    公开(公告)日:2013-03-27

    申请号:CN201110279874.1

    申请日:2011-09-13

    Abstract: 本发明涉及预测给定话题的未来发展趋势的方法和装置。该方法包括:确定给定话题在多个过去时间段中的每个过去时间段被一个或多个博文提及的次数;根据提及给定话题的博文的博主到多个过去时间段中的每个过去时间段为止发表的博文中所提及的话题,确定博主到多个过去时间段中的每个过去时间段为止的兴趣;估计给定话题与博主到多个过去时间段中的每个过去时间段为止的兴趣之间的相似度;确定博主到多个过去时间段中的每个过去时间段为止的粉丝数量;根据到多个过去时间段中的每个过去时间段为止的相似度和粉丝数量,确定到多个过去时间段中的每个过去时间段为止的粉丝指数;以及根据提及次数和粉丝指数,预测给定话题的未来发展趋势。

    信息检索方法和系统
    18.
    发明授权

    公开(公告)号:CN101520785B

    公开(公告)日:2012-09-05

    申请号:CN200810081556.2

    申请日:2008-02-29

    Abstract: 本发明提供了信息检索方法和系统,根据用户输入的查询请求从大量信息构成的信息集合中搜索所希望的信息,其中,确定影响用户对网页与查询请求相关性判断的多个因素,作为个性化特征;对于各个个性化特征设定相关的权重,且分别基于各个所述个性化特征建立反映用户的查询请求与信息集合中的信息之间的相关性的检索模型,通过所述的权重将所述检索模型组合成用户兴趣模型;接受用户的查询请求,分别通过各个所述的检索模型对所述信息集合中的信息进行检索,分别生成一个有序网页列表;通过所述的用户兴趣模型,计算每个所述检索模型得到的有序信息列表中的每一条信息与所述查询请求的相关度;根据所述用户兴趣模型输出的相关度,输出最终的检索结果。

    搜索网页的方法和计算机可读存储介质

    公开(公告)号:CN111666479A

    公开(公告)日:2020-09-15

    申请号:CN201910167209.X

    申请日:2019-03-06

    Abstract: 本公开内容涉及信息提取和信息检索技术,更特别地,涉及网页内容的提取以及针对网页内容的检索。提出了一种通过至少一个处理器搜索网页的方法,包括:接收限定待搜索内容的信息;识别该信息中涉及的实体并确定实体的类别和属性;基于实体的类别和属性生成搜索条件;使用搜索条件在数据集中搜索以获得满足搜索条件的网页地址,其中从搜索所针对的网页集合中的每个网页中提取具有预设结构的网页部分以形成数据集。

Patent Agency Ranking