-
公开(公告)号:CN106569997A
公开(公告)日:2017-04-19
申请号:CN201610912585.3
申请日:2016-10-19
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
Abstract: 本发明公开了一种基于隐式马尔科夫模型的科技类复合短语识别方法。本方法为:1)采用词性标注工具对输入语料进行词性标注和分词;2)采用隐式马尔科夫模型对步骤1)处理后的语料进行隐状态预测,输出一状态序列;然后对该状态序列进行切分,得到一复合短语集合;3)判断步骤2)得到的复合短语中是否包含特征词集合中的特征词,将含有设定特征词的复合短语作为识别的科技类复合短语结果。本发明缓解了角色标注的巨大人工成本代价。
-
公开(公告)号:CN108228710B
公开(公告)日:2021-09-28
申请号:CN201711237280.8
申请日:2017-11-30
Applicant: 中国科学院信息工程研究所
IPC: G06F16/955 , G06F40/284 , G06F40/289
Abstract: 本发明涉及一种针对URL的分词方法及装置。该方法包括:1)对URL地址按照其内在的层次结构进行分割,得到若干层次部分;2)对所述若干层次部分依次进行符号分割与正则表达式过滤;3)对步骤2)处理后得到字符串进行分割,得到URL分词序列。其中步骤1)将URL地址分割为五个层次部分:协议类型、自由域名、二级域名、顶级域名和路径;步骤3)利用双向最大匹配算法和概率模型对字符串进行分割。本发明充分利用了URL本身的层次结构,能够高效地对URL进行分割,并最大化地保留了URL地址中的有用信息,得到的URL分词序列可用于网页分类、钓鱼URL检测等任务中的特征分析,能够有效提高任务准确率。
-
公开(公告)号:CN107992469A
公开(公告)日:2018-05-04
申请号:CN201710952360.5
申请日:2017-10-13
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种基于词序列的钓鱼URL检测方法及系统,用来检测钓鱼URL。通过对URL字符串进行分词,进而得到词序列的向量表示,然后利用深度学习模型自动学习词序列中的上下文信息和特征,不需要人工提取URL中包含单词相关的文本特征,采用训练好的模型用来检测钓鱼URL。从而,解决前面提到的已有基于词特征的钓鱼URL检测中遇到的问题。
-
-