一种基于神经网络的网页数据智能爬取方法

    公开(公告)号:CN114661973A

    公开(公告)日:2022-06-24

    申请号:CN202210262920.5

    申请日:2022-03-17

    Applicant: 辽宁大学

    Abstract: 一种基于神经网络的网页数据智能爬取方法,本发明包括以下步骤:输入待爬取数据源网址;启动爬虫代码库与网页模板库,遍历网页模板库中的网页样式,若网页模板库中不存在与待爬取网页相同的样式,则将该网页样式添加到网页模板库,否则启动领域知识库将符合条件的网页添加到队列;爬虫程序根据所选择的关键字来爬取队列中的网页,并将数据存入数据队列中;从数据队列中读取数据,将数据输入到神经网络模型进行打分,并将分值大于阈值的数据存入数据库,评分完毕后将所有数据作为样本输入神经网络进行优化。神经网络模型通过新数据的优化来提升未来神经网络模型的评分准确度。通过本发明,有效提高了从网页采集数据的准确性和效率。

    面向金融领域事件抽取的篇章级长文本数据预处理方法及系统

    公开(公告)号:CN113987111B

    公开(公告)日:2025-03-07

    申请号:CN202111403771.1

    申请日:2021-11-24

    Applicant: 辽宁大学

    Abstract: 本发明涉及面向金融领域事件抽取的篇章级长文本数据预处理方法及系统,属于大数据与人工智能技术领域,该方法包括以下步骤:1)选取金融事件的类型,并根据不同的金融事件类型定义事件元素;2)从互联网上公开数据源获取各类金融事件的篇章级长文本类数据,并对文本类数据进行清洗,将清洗后数据格式转换成JSON格式,保存到MongoDB数据库;3)根据不同的金融事件类型进行触发词设定,通过设定的触发词筛选出包含目标金融事件的文本;4)对筛选后的长文本进行数据标注,形成可以训练事件抽取模型的数据集;5)运用构造的数据集训练事件抽取模型,得到的事件抽取结果并检验数据集的效果。本发明通过上述方法,提供了一种发现包含设定类型事件的文本,减少数据标注的成本,为事件抽取提供优质数据集的数据预处理方法及系统。

    面向企业经营活动的多源异构区块链质量评估模型的构建方法

    公开(公告)号:CN114997723A

    公开(公告)日:2022-09-02

    申请号:CN202210758926.1

    申请日:2022-06-30

    Applicant: 辽宁大学

    Abstract: 本发明涉及面向企业经营活动的多源异构区块链质量评估模型的构建方法,该模型首先提出基于CEKGRL模型的实体信息表示方法,在区块链中引入相关实体的三元组结构,并与企业经营活动类别相关联,通过上下文信息进行相似度计算;其次,提出基于信息源、信息评论和信息内容的可信度表征方法,通过融合表征结果,获得经营活动信息的可信度评估;最后,在信息可信度表征基础上,通过价值量对区块链中经营活动信息的总价值进行评估,并构建区块链质量评估模型。该模型在评估区块链块间语义相似度、块内交易信息可信度及价值等方面具有很大优势。

    一种基于数据质量的多模态异构数据存储方法及系统

    公开(公告)号:CN114661832A

    公开(公告)日:2022-06-24

    申请号:CN202210281261.X

    申请日:2022-03-22

    Applicant: 辽宁大学

    Abstract: 本发明是一种基于数据质量的多模态异构数据存储方法及系统,包括以下步骤:1)将原始本文数据以key‑value格式在原始数据库中进行分布式存储;2)针对原始多媒体类数据进行数据建模,以文件的形式在文件数据库中进行分布式存储;3)将key‑value数据转换为关系型数据,构建关系数据库;4)根据关系数据库中实体之间的关系构建图数据库;5)将实体的活动数据以链式的结构进行数据建模,构建链式数据库;6)将多媒体数据转换为文本数据,按数据类型分别存储于多媒体数据库及原始数据库;7)通过构建多级索引结构将各个子数据库的实体数据进行链接;8)针对数据集成方法以及各个子数据库构建多模态数据库的日志文件维护体系。该方法可以大大减少查询数据所需的时间,保证相关人员使用数据时的效率。

    基于众包技术的面向多层次标注者的事件标注系统构建方法

    公开(公告)号:CN114281998A

    公开(公告)日:2022-04-05

    申请号:CN202111624377.0

    申请日:2021-12-28

    Applicant: 辽宁大学

    Abstract: 本发明涉及基于众包技术的面向多层次标注者的事件标注系统的构建方法,包括以下步骤:1、收集领域数据并构建完整的实体库和事件信息库;2、预处理语料库并构建完整的待标注语料库存取机制:过滤掉无效文本,进行分句处理;3、构建完整的标注机制,先进行实体标注再进行事件标注;4、构建完整的众包任务分配机制和众包结果聚合机制;5、构建完整的数据集导出机制,根据下游事件抽取模型所需要的数据集格式动态地调控和构建所需事件抽取数据集。本发明能够有效地将多种众包技术应用于不同专业程度的标注者的标注过程中,从而有效利用标注者的背景知识,最大化地发挥众包的作用。

Patent Agency Ranking