一种适用于金融大模型的文本数据预处理方法及系统

    公开(公告)号:CN118211131B

    公开(公告)日:2024-07-30

    申请号:CN202410627083.0

    申请日:2024-05-21

    Abstract: 本发明公开了一种适用于金融大模型的文本数据预处理方法及系统,属于金融文本自然语言处理技术领域,包括:对金融数据集中的样本添加次数标签和时间标签,其中,时间标签为从样本中抽取的时间信息;将样本转换为文本向量,对文本向量进行小批量聚类,得到多个子集,计算子集中样本间的相似度,删除相似度高且时间标签小的数据;将样本切分为子串,遍历找到包含图片注释信息且长度小于阈值的子串并删除;遍历找到包含表格表达字段的子串并检测错误,结合提示工程和生成模型修复错误,得到高质量金融数据集。本发明通过将金融数据聚类后去重,极大程度上节省了计算开销和时间成本,通过处理图片注释并修复表格,得到高质量的金融数据集。

    一种基于混频数据的交易市场多级情绪分析方法及系统

    公开(公告)号:CN118822613B

    公开(公告)日:2025-02-18

    申请号:CN202411301326.8

    申请日:2024-09-18

    Abstract: 本发明公开了一种基于混频数据的交易市场多级情绪分析方法及系统,包括:实时获取市场交易相关的多源异构混频数据集,包括低频宏观政策数据集、中频市场交易信息数据集、高频交易相关政策新闻语料库、以及专家市场情绪判断数据集;基于低频宏观政策数据集生成长期政策情绪指数;基于中频市场交易信息数据集剔除宏观政策指标的影响后,生成中期交易情绪指数;基于高频交易相关政策新闻语料库生成短期新闻情绪指数;基于长期政策情绪指数、中期交易情绪指数、短期新闻情绪指数、以及专家市场情绪判断数据集预测综合情绪指数;实时存储和展示所有情绪指数,能够实现更加合理和准确的交易市场多级情绪分析。

    一种基于混频数据的交易市场多级情绪分析方法及系统

    公开(公告)号:CN118822613A

    公开(公告)日:2024-10-22

    申请号:CN202411301326.8

    申请日:2024-09-18

    Abstract: 本发明公开了一种基于混频数据的交易市场多级情绪分析方法及系统,包括:实时获取市场交易相关的多源异构混频数据集,包括低频宏观政策数据集、中频市场交易信息数据集、高频交易相关政策新闻语料库、以及专家市场情绪判断数据集;基于低频宏观政策数据集生成长期政策情绪指数;基于中频市场交易信息数据集剔除宏观政策指标的影响后,生成中期交易情绪指数;基于高频交易相关政策新闻语料库生成短期新闻情绪指数;基于长期政策情绪指数、中期交易情绪指数、短期新闻情绪指数、以及专家市场情绪判断数据集预测综合情绪指数;实时存储和展示所有情绪指数,能够实现更加合理和准确的交易市场多级情绪分析。

    基于多模态的银行间资金面情绪指数预测方法及装置

    公开(公告)号:CN118799049A

    公开(公告)日:2024-10-18

    申请号:CN202411292326.6

    申请日:2024-09-14

    Abstract: 本发明公开了一种基于多模态的银行间资金面情绪指数预测方法及装置,以解决单一数据源无法全面反映市场情绪变化的问题。获取金融领域的新闻数据、金融机构内部数据、宏观经济指数数据和市场交易数据;从金融领域的新闻数据和金融机构内部数据中提取文本特征;从宏观经济指数数据和市场交易数据中提取宏观经济指数特征;将所述文本特征和所述宏观经济指数特征进行融合,得到多模态特征;基于所述多模态特征进行资金面情绪指数预测。该方法有效提升了市场情绪的全面感知和预测能力。

    一种适用于金融大模型的文本数据预处理方法及系统

    公开(公告)号:CN118211131A

    公开(公告)日:2024-06-18

    申请号:CN202410627083.0

    申请日:2024-05-21

    Abstract: 本发明公开了一种适用于金融大模型的文本数据预处理方法及系统,属于金融文本自然语言处理技术领域,包括:对金融数据集中的样本添加次数标签和时间标签,其中,时间标签为从样本中抽取的时间信息;将样本转换为文本向量,对文本向量进行小批量聚类,得到多个子集,计算子集中样本间的相似度,删除相似度高且时间标签小的数据;将样本切分为子串,遍历找到包含图片注释信息且长度小于阈值的子串并删除;遍历找到包含表格表达字段的子串并检测错误,结合提示工程和生成模型修复错误,得到高质量金融数据集。本发明通过将金融数据聚类后去重,极大程度上节省了计算开销和时间成本,通过处理图片注释并修复表格,得到高质量的金融数据集。

Patent Agency Ranking