-
公开(公告)号:CN112632421A
公开(公告)日:2021-04-09
申请号:CN202011560863.6
申请日:2020-12-25
Applicant: 杭州电子科技大学
IPC: G06F16/955 , G06F16/957 , G06F40/194 , G06F40/216 , G06F40/289
Abstract: 本发明公开了一种自适应结构化的文档抽取方法。本发明首先从互联网中采集原始网页并存储,然后对采集到的原始网页中的原文进行通用无意义清洗,接下来根据Xpath定位网页中的元素,自动对比抽取出网页中有价值的内容,最后将抽取到的内容按照结构化的格式存储起来;通过改进的抽取规则实现不需要先验知识和人工标注数据,而是通过挖掘网页之间的语义相似性,自动生成适用的抽取模式。本发明抽取规则由目标网站自身特点决定,对不同站点兼容性较强,具有较高的可扩展性。通过同站点下相似数据的关联和对比,自动实现过滤冗余内容。实现了基于网页结构和基于文本特征抽取的有效结合。
-
公开(公告)号:CN113157942B
公开(公告)日:2022-06-24
申请号:CN202110381778.1
申请日:2021-04-09
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种适用于使用与展示的知识图谱可视化的构建方法。本发明从对图数据的获取开始,对图进行分析选择最适合的图谱展示方式,对于复杂实践中常见的重边、布局混乱等问题进行标准化处理,最后配以相关工具以呈现可以投入使用的知识图谱可视化系统。与现有技术相比,本发明的构建方法首先对复杂的知识图谱结构进行标准化处理以适应可视化展示;并且能够适用于各种复杂的图数据情况,动态调整布局决策,并针对经典布局进行优化和处理以获得相对优秀的展示效果。对于图谱展示的美观性也进行了很多探索,诸如结点配色,半径差异等。
-
公开(公告)号:CN113435201A
公开(公告)日:2021-09-24
申请号:CN202110704691.3
申请日:2021-06-24
Applicant: 杭州电子科技大学
IPC: G06F40/295 , G06F16/35 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种Span标注框架下的实体抽取采样方法首先获取互联网语料库,经并将其整理得到 格式的数据集;然后对训练集数据进行预处理,采集训练样本;再构建实体抽取模型,通过训练集对实体抽取模型进行训练;最后进行模型预测。本发明训练样本数量适中、质量高,有助于模型较快收敛,提升模型的训练效率。本发明设置了与训练过程相配适的动态采样策略。在训练初期,通过增加与正例有相似边界的负样本占比,使得模型更好地学习实体边界切分。在训练中后期,增大负样本随机采样的比例,以便模型更好地学习上下文语义。加大了模型学习的难度,以达到锻炼模型的目的,有利于提高模型的鲁棒性。
-
公开(公告)号:CN113158666A
公开(公告)日:2021-07-23
申请号:CN202110381474.5
申请日:2021-04-09
Applicant: 杭州电子科技大学
IPC: G06F40/289 , G06F40/253
Abstract: 本发明公开了一种基于依存句法树的中文问题的关键词抽取方法。本发明在中文句法分词的基础上,对句子进行依存句法分析,构建出依存句法分析树;同时设定新的关键词组合规则,将词与关系节点根据特定中文语法关系组合成新的关键词,并依据词节点权重对关键词赋予检索优先级权重;关系节点包括父节点、子节点、兄弟节点。同时,本发明还采用了全新规则的停用词表,去除了绝大部分无效关键词,有助于提高检索效率。本发明采用关键词的优先级排序优化检索的效率,先去检索优先级高的关键词能够更快地匹配到问题所对应的答案,使得问答系统的交互性得到了一定的提升。
-
公开(公告)号:CN110879934B
公开(公告)日:2023-05-23
申请号:CN201911054827.X
申请日:2019-10-31
Applicant: 杭州电子科技大学
Inventor: 傅啸
IPC: G06F40/117 , G06F40/289 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于Wide&Deep深度学习模型的文本预测方法。本发明旨在解决深度学习模型中对人工特征的充分利用以及Wide&Deep模型预测时的计算消耗问题。本发明的实施方案是:首先对文本数据进行标注,其次构建Wide特征,然后对基于Wide&Deep的深度学习模型添加辅助训练任务,最后对文本内容进行预测。本发明提及的人工特征作为深度学习模型训练过程中的附加任务,为模型提供了更多的有效信息,提高了模型学习效率。并且,在文本内容预测时不需要计算Wide特征,从而提升了模型性能。不同宽度的卷积核卷积后,可以通过一次卷积block获得不同距离上的信息,这有助于提升模型性能。同时,减少调整不同卷积核的时间,通过模型学习能自动适应不同的卷积核宽度。
-
公开(公告)号:CN113420560A
公开(公告)日:2021-09-21
申请号:CN202110703349.1
申请日:2021-06-24
Applicant: 杭州电子科技大学
IPC: G06F40/295 , G06F16/215 , G06F16/35 , G06F16/36 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于跨度表示的实体抽取方法,首先获取互联网语料库,并将其整理得到 格式的数据集;然后对训练集数据进行预处理,采集训练样本;再构建实体抽取模型;最后通过训练集训练实体抽取模型,使用训练好的实体抽取模型完成预测。本发明方法加强了模型对语义的理解,提升了准确率。将位置信息进行二次添加,防止在训练过程中位置信息丢失,从而无法正确理解语义,导致准确率下降;在span的头尾引入不同的残差连接,进一步增强了文本信息的表示能力,有利于改善抽取效果。
-
公开(公告)号:CN113157999A
公开(公告)日:2021-07-23
申请号:CN202110381764.X
申请日:2021-04-09
Applicant: 杭州电子科技大学
IPC: G06F16/951 , G06F8/41 , G06F16/36
Abstract: 本发明公开了一种基于Filter与知识图谱的鉴权认证方法。本发明主要应用于服务端与知识图谱用户之间;客户端对知识图谱用户的信息和时间进行base64编码,并签名生成令牌发放给用户,用户保存访问令牌,并使用token令牌访问接口;服务端对token令牌进行解析验证,并且进行混合参数验证,然后根据token中解析出来的用户ID对用户的权限进行划分;服务端保存用户ID以及该ID在单位时间内的访问次数。本发明对知识图谱接口进行了保护,有效的隔离了无权限账户的使用,同时大大加速复合型参数的检测。
-
公开(公告)号:CN109065032B
公开(公告)日:2020-09-22
申请号:CN201810777097.5
申请日:2018-07-16
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种基于深度卷积神经网络的外部语料库语音识别方法。本发明具体实现如下:步骤1、获取语音标注数据和互联网语料库;步骤2、利用语音信号数据的平均能量对该语音信号数据进行清洗;步骤3、对语音标注数据进行特征抽取和标准化;步骤4、构建神经网络模型步骤5、将待测试的语音数据输入构建的神经网络模型,完成识别后输出识别文本数据。本发明能够根据语音信号数据,构建深度卷积、条件随机场模型,与一般的深度学习模型相比,需要更少的标记语音数据,同时充分利用廉价、大规模的无标注互联网预料数据库加强句子整体的识别率,提升句子识别精度。同时本发明将两个过程融为一体,实现了端到端的语音识别方法。
-
公开(公告)号:CN110866118A
公开(公告)日:2020-03-06
申请号:CN201911053421.X
申请日:2019-10-31
Applicant: 杭州电子科技大学
Inventor: 傅啸
Abstract: 本发明公开了一种深度学习模型的超参数调优方法。本发明步骤如下:步骤1:文本数据的预处理,对文本数据进行标注;步骤2:构建深度学习模型;步骤3:对深度学习模型进行训练,通过增加模型深度的方式使得模型在训练集上对数据过拟合,利用过拟合模型来保证对训练数据充分利用,并逐步减少模型深度来微调模型,最后根据测试集上的表现选择最优的模型深度;步骤4、模型预测;对需要预测的文本内容,利用步骤3训练好的深度学习模型,得到文本数据标记的预测值,可以说明文本内容与业务的相关程度。本发明能够有效检验深度学习模型架构选择的正确性。
-
公开(公告)号:CN118429056A
公开(公告)日:2024-08-02
申请号:CN202410573418.5
申请日:2024-05-10
Applicant: 杭州电子科技大学
IPC: G06Q30/0601 , G06F16/9535 , G06Q40/04 , G06F17/10
Abstract: 本发明公开了一种基于优先级的二手车交易匹配方法及系统,该方法首先买家和卖家向二手车交易平台提供交易涉及的信息。其次根据买家和卖家提供的信息,得出每对买家和卖家的属性满意度,平台向买家提供潜在匹配卖家推荐列表。然后每个买家提供买家修改后偏好排序列表;平台收到买家反馈后,计算考虑顾客优先级的调整后匹配满意度。最后根据调整后匹配满意度,建立匹配模型,生成匹配结果。该系统包括买家信息收集模块、卖家信息收集模块、模型建立模块和匹配模块。本发明使得平台得以根据偏好排序和顾客优先级调整匹配满意度,以更快速地实现买卖双方匹配,加速市场交易效率。
-
-
-
-
-
-
-
-
-