一种网页信息的抽取方法和系统

    公开(公告)号:CN103870506A

    公开(公告)日:2014-06-18

    申请号:CN201210548678.4

    申请日:2012-12-17

    CPC classification number: G06F17/30864 G06F17/30929

    Abstract: 本发明公开了一种网页信息的抽取方法和系统。包括:获得已标注网页,生成语义结构树,构建信息模式图,生成信息模式图中每个语义属性节点的语义属性节点信息,生成包装器,将包装器导出为包装器文件;构建用于抽取已标注网页的同类网页的抽取器;获得待抽取网页,抽取器在待抽取网页的DOM树中,从信息模式图的根语义属性节点开始逐层递归抽取信息模式图的每个语义属性节点对应的抽取数据区或者抽取迭代数据区;导出每个语义属性节点对应的抽取数据区或者抽取迭代数据区中的数据作为抽取结果。本发明具有较高的通用性、泛化能力、容错性、可扩展性以及较低的人工参与度,同时本发明也保证了在线抽取的效率,从而具有较高的实用性。

    一种用于eMule网络的文件资源信息采集方法

    公开(公告)号:CN103354554A

    公开(公告)日:2013-10-16

    申请号:CN201310204527.1

    申请日:2013-05-28

    Abstract: 本发明提供一种用于eMule网络的文件资源信息采集方法,包括下列步骤:1)初始化文件集合;2)遍历所述文件集合,对于每个文件,搜索共享过该文件的活跃客户端的地址信息,得到活跃客户端集合;3)对于活跃客户端集合中的每个活跃客户端,探测该活跃客户端所共享的文件列表;4)根据所探测的活跃客户端所共享的文件列表,更新所述文件集合,返回执行步骤2);重复执行所述步骤2)~4),得到文件索引表,该文件索引表中记录出现在所述文件集合中的每个文件及其对应的活跃客户端地址信息。本发明能够全面获取eMule网络上所有文件的索引;能够获得eMule网络中各个文件资源的活跃度信息,从而为进一步的监控提供依据。

    社会媒体事件的动态观点演变的可视化方法及设备

    公开(公告)号:CN103324662A

    公开(公告)日:2013-09-25

    申请号:CN201310134433.1

    申请日:2013-04-18

    Abstract: 本发明提供一种社会媒体事件的动态观点演变的可视化方法,该方法首先确定所采集的社会媒体事件信息集合中信息的情感隶属度和情感分类,然后基于所述信息的情感分类,建立情感可视化图形的几何布局并基于所述信息的情感隶属度对所建立的几何布局进行着色。该方法可以直观的显示信息流中事件的情感变化,在事件的变化和发展方面可以显示更多的情感信息,能够帮助用户更好的识别事件的转折点和爆发点,预测事件的发展趋势。

    P2P中资源下载方法及其系统

    公开(公告)号:CN101741750B

    公开(公告)日:2012-04-18

    申请号:CN201010034234.X

    申请日:2010-01-15

    Abstract: 本发明涉及一种P2P中资源下载方法及其系统,方法包括:步骤1,节点根据物理网络信息和预设的节点组划分标准选择加入的节点组;步骤2,发生数据请求的节点为用户节点,用户节点获得拥有请求数据的备选节点,备选节点组成备选节点集合;步骤3,用户节点依据用户节点所属的节点组,以及备选节点同所述用户节点间的连接质量,从备选节点集合中选择备选节点,被选择的备选节点作为资源节点;步骤4,用户节点从所述资源节点下载请求的数据。本发明能够在选择节点进行下载时应用物理层网络拓扑结构。

    一种流媒体数据交换方法与装置

    公开(公告)号:CN101841691B

    公开(公告)日:2011-11-16

    申请号:CN201010118279.5

    申请日:2010-03-04

    Abstract: 本发明涉及一种流媒体数据交换方法与装置。该流媒体数据交换方法包括:步骤1,用户节点建立滑动窗口;步骤2,根据各邻居节点的数据分片广告信息,分配属于滑动窗口内的流媒体数据分片下载任务给一个或多个邻居节点;步骤3,当滑动窗口内的数据符合预设的条件,用户节点提交滑动窗口内的数据给流媒体数据解码与回放模块以进行播放;步骤4,滑动所述滑动窗口,重复执行步骤2-步骤3,直至流媒体数据下载完毕或用户节点终止流媒体的数据交换过程。本发明能够同时考虑到流媒体回放的稳定性、流媒体数据的回放时延、网络带宽资源的变化,为流媒体数据交换提供高效的数据分片下载调度方法,提高流媒体终端的回放质量,提高终端用户的满意度。

    一种基于语义的开放域网页知识抽取方法及系统

    公开(公告)号:CN117131189A

    公开(公告)日:2023-11-28

    申请号:CN202310294820.5

    申请日:2023-03-23

    Abstract: 本发明提出一种基于语义的开放域网页知识抽取方法,包括:获取开放域网页的骨架树,对该骨架树的骨架节点进行分裂,得到该骨架节点的骨架子节点,生成骨架子节点序列;对该骨架子节点和该骨架节点标注分类标签,根据该分类标签对该骨架树进行关系抽取,获得抽取任务的关系子节点序列,并生成关系片段;基于该关系片段对该骨架树进行客体抽取,以抽取到的骨架子节点序列为客体片段;以该关系片段和其对应的客体片段为该抽取任务的抽取结果。本发明还提出一种基于语义的开放域网页知识抽取系统,以及一种用于开放域网页知识抽取的数据处理装置。

    一种网站列表页面的分类方法、系统及存储介质

    公开(公告)号:CN112287272B

    公开(公告)日:2023-05-23

    申请号:CN202011161424.8

    申请日:2020-10-27

    Abstract: 本发明涉及一种网站列表页面的分类方法,所述分类方法基于超文本标记语言标签(HTML Tag),所述分类方法包括:步骤100、获取一组网站网页;步骤200、分别针对每一所述网站网页提取所述网站网页的统计特征和结构特征,得到每一所述网站网页对应的特征序列;步骤300、将所述特征序列输入神经网络进行所述神经网络的训练,得到网站列表页面分类器;步骤400、获取待分类的网站网页,根据所述步骤200得到所述待分类的网站网页的特征序列,将所述待分类的网站网页的特征序列输入所述步骤300得到的所述网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。

    一种基于相似话题的流行度预测方法及系统

    公开(公告)号:CN113780569A

    公开(公告)日:2021-12-10

    申请号:CN202110813797.7

    申请日:2021-07-19

    Abstract: 本发明提出一种基于相似话题的流行度预测方法和系统,基于KSC算法对历史话题的流行度序列聚类,得到话题级别的演化模式,按照待预测话题的观测窗口和预测窗口大小,对各历史话题的流行度序列进行切分得到训练数据的输入和输出,使用各类别下的历史话题的训练数据分别训练全连接网络作为预测模型,充分利用了与待预测话题在流行度演化模式上相似的历史话题的数据,降低了预测误差。基于DTW算法对待预测话题进行分类,使用待预测话题所属类别的模型进行流行度预测,保证预测及时,增强预测的时效性。

    一种字符串散列表实现方法和系统

    公开(公告)号:CN110321346B

    公开(公告)日:2021-09-21

    申请号:CN201910450998.8

    申请日:2019-05-28

    Abstract: 本发明涉及一种字符串散列表实现方法,包括:根据字符串长度,将该字符串分发至对应的散列表;其中,该散列表包括数组散列表、数值型散列表和字符型双散列表。本发明使用多种异构散列表存储字符串,针对不同字符串的长度选择合适的散列表;同时针对短字符串,将短字符串划分为固定的几个长度区间,提高内存空间利用率,利用字符串变长的特性,为每种区间的散列槽预留末尾的1字节空间原地存储元数据信息;而针对长字符串,使用二级散列表结构,一级散列表通过仅使用部分前缀值计算字符串散列,减少了散列值的计算量;而二级散列表作为一级散列表的冲突链存储表,解决了一级散列表精简散列计算导致的冲突增大的问题。

Patent Agency Ranking