-
公开(公告)号:CN103064966A
公开(公告)日:2013-04-24
申请号:CN201210592795.0
申请日:2012-12-31
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种从单记录网页中抽取规律噪音的方法,所述方法包括:首先将多个单记录网页转化为DOM树,并且将所述DOM树按照结构进行分类;然后,将同一类别的DOM树进行对齐合并得到站点板块风格树;在所述站点版块风格树中定位网页正文标题节点的近似位置和网页正文主体节点的近似位置,最后根据所述网页正文标题节点和所述网页正文主体节点的近似位置,抽取正文前、正文中和正文后的规律噪音。所述方法减少了建站点版块风格树所需的空间资源、降低了可能出现的漏抽取的情况,加快了抽取速度;此外,本发明的抽取结果具有较高的准确性,取得了较好的效果,并且可靠性高。
-
公开(公告)号:CN101388006B
公开(公告)日:2013-03-20
申请号:CN200810225031.1
申请日:2008-10-24
Applicant: 中国科学院计算技术研究所
IPC: G06F17/27
Abstract: 本发明涉及一种自动化的文摘实验装置与方法。该方法包括:步骤1,对文摘对象数据进行预处理得到文摘数据;步骤2,调用指定的文摘算法生成自动文摘;步骤3,使用预置的标准文摘和指定的评价工具对自动文摘进行评价,并返回文摘性能评价结果;步骤4,依据文摘性能评价结果优化指定的文摘算法的性能。本发明解决了文摘实验过程中文摘算法与评价工具的跨语言无缝衔接,实现了文摘算法参数训练过程与文摘实验的自动化,使技术人员可以自主配置文摘算法与参数取值配置文件,自动地进行算法性能的验证与参数组合的学习。
-
公开(公告)号:CN102546664A
公开(公告)日:2012-07-04
申请号:CN201210047821.1
申请日:2012-02-27
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供用于分布式文件系统的用户和权限管理方法。首先由元数据服务器对用户身份进行验证,以判断用户身份是否合法。然后,由元数据服务器对来自合法用户的操作权限进行验证,以判断该用户对所请求访问的文件是否具有相应的操作权限;如果有,则向数据块服务器发送对该用户的权限确认通知。由数据块服务器基于所收到的权限确认通知中的信息来对来自客户端的操作请求进行验证,并处理来自合法用户的且被元数据服务器所允许的操作请求。通过对上述三项内容的验证能够保证访问分布式文件系统用户的合法性以及操作的合法性,同时能够避免某些不合法用户越过元数据服务器的相关认证直接盗取或破坏数据块服务器的内容。
-
公开(公告)号:CN102289514A
公开(公告)日:2011-12-21
申请号:CN201110263798.5
申请日:2011-09-07
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种社会化标签自动标注的方法。该方法包括计算标签词项在文档中的频率(TF)权重,以及由协同过滤CF、一致性话题模型Corr-LDA方法所得的标签权重,并归一化;对上述权重建立线性融合权值模型,并估计线性融合参数;以及基于线性融合模型对社会标签进行自动标注。该发明同时考虑了社会标签与文档具体内容的一致性和抽象语义层的相关性,因此能够提高社会标签自动标注的准确性。
-
公开(公告)号:CN101464905B
公开(公告)日:2011-03-23
申请号:CN200910076548.3
申请日:2009-01-08
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明涉及网页信息抽取的系统和方法,系统包括:模板生成模块,用于从网页集合中选取待自动标注网页,根据用户标注的训练网页将待自动标注网页分类,生成分类的类别的网页模板;网页同质化模块,用于依据网页模板屏蔽待自动标注网页同其所属类别的网页模板间的差异;自动标注模块,用于解析类别对应的训练网页,生成第一包装器文件,按第一包装器文件对待自动标注网页进行自动标注,以生成新的训练网页;包装器文件生成模块,用于解析所有训练网页,生成第二包装器文件;在线抽取模块,用于应用第二包装器文件对网页集合中未被选取的网页信息进行抽取。本发明能够对应不同类的网页生成多个模板,并对网页中多个记录和每个记录多个属性进行抽取。
-
公开(公告)号:CN101132272B
公开(公告)日:2010-07-28
申请号:CN200610112548.0
申请日:2006-08-23
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种同时支持分布式加密文件下载和使用的系统,该系统包括:至少一个文件发布单元、至少一个目录服务单元和至少一个文件使用单元。利用本发明,有效地解决了P2P文件的安全分发问题,即利用了P2P文件下载的特点,有效保证了长期稳定的文件下载速度,又不影响用户对文件的正常使用,不增加对客户端的存储要求,只需要保存文件的一个拷贝。
-
公开(公告)号:CN101741750A
公开(公告)日:2010-06-16
申请号:CN201010034234.X
申请日:2010-01-15
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种P2P中资源下载方法及其系统,方法包括:步骤1,节点根据物理网络信息和预设的节点组划分标准选择加入的节点组;步骤2,发生数据请求的节点为用户节点,用户节点获得拥有请求数据的备选节点,备选节点组成备选节点集合;步骤3,用户节点依据用户节点所属的节点组,以及备选节点同所述用户节点间的连接质量,从备选节点集合中选择备选节点,被选择的备选节点作为资源节点;步骤4,用户节点从所述资源节点下载请求的数据。本发明能够在选择节点进行下载时应用物理层网络拓扑结构。
-
公开(公告)号:CN101714135A
公开(公告)日:2010-05-26
申请号:CN200910242427.1
申请日:2009-12-11
Applicant: 中国科学院计算技术研究所
IPC: G06F17/27
Abstract: 本发明提供一种跨领域文本情感倾向性分析方法,包括下列步骤:1)确定源领域和目标领域中文本与词的初始情感分;2)根据测试文本集和测试词集分别与所有词集和所有文本集的关系建立测试文本集DU与测试词集WU和训练词集WL间的相似矩阵M、测试词集WU与测试文本集DU和训练文本集DL间的相似矩阵N和测试词集WU与所有词集之间的相似矩阵V中的一个或多个,计算一个或多个相似矩阵的归一化矩阵和邻域矩阵;3)利用所述源领域和目标领域中文本与词的初始情感分和所述一个或多个相似矩阵的邻域矩阵迭代计算测试文本和测试词的情感分并进行归一化。该方法能够大幅提高对新领域的文本进行分类的精度。
-
公开(公告)号:CN101464905A
公开(公告)日:2009-06-24
申请号:CN200910076548.3
申请日:2009-01-08
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明涉及网页信息抽取的系统和方法,系统包括:模板生成模块,用于从网页集合中选取待自动标注网页,根据用户标注的训练网页将待自动标注网页分类,生成分类的类别的网页模板;网页同质化模块,用于依据网页模板屏蔽待自动标注网页同其所属类别的网页模板间的差异;自动标注模块,用于解析类别对应的训练网页,生成第一包装器文件,按第一包装器文件对待自动标注网页进行自动标注,以生成新的训练网页;包装器文件生成模块,用于解析所有训练网页,生成第二包装器文件;在线抽取模块,用于应用第二包装器文件对网页集合中未被选取的网页信息进行抽取。本发明能够对应不同类的网页生成多个模板,并对网页中多个记录和每个记录多个属性进行抽取。
-
公开(公告)号:CN116580265B
公开(公告)日:2025-04-22
申请号:CN202310604430.3
申请日:2023-05-26
Applicant: 中国科学院计算技术研究所
IPC: G06V10/774
Abstract: 本发明提供一种目标检测模型对抗训练方法,所述方法包括:S1、获取目标图像数据集和初始对抗图案,所述目标图像数据集包括多个图像样本,且每个图像样本中设置有目标边界框标注;S2、对初始对抗图案进行分形变换以获得目标对抗图案;S3、将步骤S2得到的目标对抗图案注入所述目标图像数据集中每一图像样本的目标边界框内得到对抗训练集,并采用对抗训练集训练目标检测模型至收敛。本发明引入了引入分形变换损失对对抗图案进行迭代更新,使得生成的对抗图案具有一定的自相似性,采用具有自相似性的对抗图案对目标检测模型进行对抗训练,能够提升目标检测模型的鲁棒性,使得模型具有较强的对抗能力。
-
-
-
-
-
-
-
-
-