一种文档检索的方法及装置

    公开(公告)号:CN103678412A

    公开(公告)日:2014-03-26

    申请号:CN201210360872.X

    申请日:2012-09-21

    Inventor: 洪毅虹 杨建武

    CPC classification number: G06F17/30935 G06F17/30938

    Abstract: 本发明提供一种文档检索的方法及装置,属于信息检索领域,包括:使用目标查询关键词在预先建立的倒排索引中对目标文档集合进行检索,得到第一目标文档集合,进行相关性打分,得到第一目标文档的相关性打分结果,并进行重排序得到第二目标文档集合;通过伪相关反馈模型对当前目标查询关键词进行扩展,得到新的目标查询关键词,进而得到第三目标文档集合;对第三目标文档集合中的目标文档进行分句处理,计算每个句子的标签权重总和;根据目标查询关键词对每个句子的内容进行相关性打分,得到每个句子的最终得分,从而得到目标句子;在目标句子中获取长度在预设长度范围内的句子作为检索结果片段。通过本发明,提高XML文档的检索性能和准确率。

    一种网页数据信息的定向采集方法及装置

    公开(公告)号:CN102339290B

    公开(公告)日:2013-12-11

    申请号:CN201010236363.7

    申请日:2010-07-22

    Inventor: 吴新丽 杨建武

    Abstract: 本发明公开了一种网页数据信息的定向采集方法,用以解决现有技术中搜索引擎在进行信息采集时,造成的资源浪费及信息采集不准确的问题。该方法确定列表页当前的页面更新率,根据列表页所属网站的标准更新率,确定的所述列表页当前的页面更新率,及当前的信息采集时间间隔,确定针对所述网站当前信息采集与下一次信息采集的时间间隔,在等待该确定的时间间隔后,进行信息采集。本发明还提供了一种网页数据信息的定向采集装置。如本发明提出的方案,通过确定列表页的页面更新率,动态的确定信息采集的时间间隔,因此可以在网页刷新时准确的获取到信息,并且减少了网络资源的浪费。

    一种发送数据信息的方法及系统

    公开(公告)号:CN103368857A

    公开(公告)日:2013-10-23

    申请号:CN201210082604.6

    申请日:2012-03-26

    Abstract: 本申请提供了一种发送数据信息的方法及系统,所述方法包括Java服务器获取T1时刻时浏览日志以及操作日志中的第一数据信息,将获取的所述第一数据信息中的参数信息与预存的数据信息中的数据阈值进行比较,若所述第一数据信息大于所述预存的数据信息阈值,则将所述第一数据信息通过自身的数据发送端与所述Flex终端的数据接收端之间的数据通道发送给所述Flex终端。从而提高了监控系统的工作效率,大幅度提高了系统的运行速度,减少了服务器端与客户端之间的信息交互频繁度,节省了大量的系统资源以及网络带宽资源。

    舆情事件的实体关系抽取方法和装置

    公开(公告)号:CN103207860A

    公开(公告)日:2013-07-17

    申请号:CN201210007694.2

    申请日:2012-01-11

    Abstract: 本发明提供了一种舆情事件的实体关系抽取方法,包括:对舆情事件的文本集合进行分词;从分词得到的切分单元中抽取主题短语;基于聚类方法从主题短语中获取子主题;从子主题中获取实体关系。本发明还提供了一种舆情事件的实体关系抽取装置,包括:分词模块,用于对舆情事件的文本集合进行分词;主题短语模块,用于从分词得到的切分单元中抽取主题短语;子主题模块,用于基于聚类方法从主题短语中获取子主题;实体关系模块,用于从子主题中获取实体关系。本发明提高了抽取舆情事件的实体关系的性能。

    一种网络数据的采集方法和系统

    公开(公告)号:CN103164435A

    公开(公告)日:2013-06-19

    申请号:CN201110415356.8

    申请日:2011-12-13

    Inventor: 吴新丽 杨建武

    CPC classification number: H04L43/06 G06F17/30864

    Abstract: 本发明公开了一种网络数据的采集方法和系统。该方法用于采集发布于一网站上的与M个主题分别相关的网络文档的数据,其中M为大于等于1的整数,所述方法包括:根据待采集链接地址所对应的类型,将所述待采集链接地址配置到对应类型的队列中,所述待采集链接地址为与所述M个主题分别相关的网络文档的数据所在页面的链接地址;获取所述对应类型的队列中的所述待采集链接地址对应的网页源代码;根据所述网页源代码对应的URL信息及所述URL的采集深度值抽取所述URL对应的网络文档的数据。

    一种命名实体识别的方法及装置

    公开(公告)号:CN103164426A

    公开(公告)日:2013-06-19

    申请号:CN201110414467.7

    申请日:2011-12-13

    CPC classification number: G06N5/022 G06F17/278 G06F17/30604 G06F17/30646

    Abstract: 本申请公开了一种用于识别命名实体的识别模型生成方法及装置、以及一种命名实体识别的方法及装置,所述命名实体识别方法包括:获得待训练文本的第一特征信息集;基于第一识别模型对待训练文本的第一特征信息集进行识别,获得第二特征信息集,所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体,所述M为大于或等于零的整数;基于错误驱动模型对所述第二特征信息集中的所述M个命名实体进行错误纠正,获得K个命名实体,所述K为大于或等于零、但小于等于M的整数。

    一种从网页中抽取评论内容的方法和装置

    公开(公告)号:CN102117289A

    公开(公告)日:2011-07-06

    申请号:CN200910244539.0

    申请日:2009-12-30

    Abstract: 本发明公开了一种从网页中抽取评论内容的方法和装置,涉及信息处理技术,通过建立评论页面的DOM树,并选择符合评论区抽取规则的子树抽取出评论区,再利用评论记录间的结构相似性,抽取出评论区中的评论记录,利用包含评论内容的子树的差异性,选择标准差最大的子树作为包含评论内容的子树,最后选取稳定性最小的一条路径中,稳定性差绝对值最大的相邻节点中的孩子节点作为根节点,这个子树就是要抽取的评论内容。由于利用了评论内容的无结构特性来进行抽取,而不是根据网页的模板进行抽取,所以网页的不同不影响抽取的准确性,并且不需要根据网页的模板进行复杂的配置,并通过计算去除了噪声信息,提高了从网页中抽取评论内容的效率和准确性。

    任务分配执行方法及系统

    公开(公告)号:CN106294386B

    公开(公告)日:2019-08-30

    申请号:CN201510256461.X

    申请日:2015-05-19

    Abstract: 本发明提供一种任务分配执行方法及系统,该方法包括:任务分配方将任务文件存入分布式文件服务器并接收其反馈的存储目录,向任务协调服务器发送任务子节点创建请求;任务协调服务器在与所述任务分配方到所述任务执行方对应的父节点下创建以存储目录为标识的任务子节点;任务执行方确定存在需要执行的任务子节点时,从分布式文件服务器中获取任务文件并执行得到执行结果,将执行结果存储在存储目录中,并通知任务协调服务器;任务协调服务器删除任务子节点后通知任务分配方从存储目录中读取执行结果。通过任务协调服务器和分布式文件服务器来实现任务分配方和任务执行方的匿名任务分配、执行过程,保证了任务分配、执行的安全可靠。

Patent Agency Ranking