一种基于用户偏好感知的全新商品冷启动方法

    公开(公告)号:CN117422527B

    公开(公告)日:2024-05-03

    申请号:CN202311526419.6

    申请日:2023-11-15

    Abstract: 本发明公开了一种基于用户偏好感知的全新商品冷启动方法,包括:获取用户协同特征、商品协同特征和商品内容特征;基于用户协同特征和商品协同特征,建立用户与商品的关系模型;基于商品协同特征和商品内容特征,将同一商品的内容特征与协同特征进行对齐,获取商品层级特征对齐模型;将同一用户购买记录中除目标商品外的所有商品的协同特征进行聚合,获取用户偏好;将用户偏好与商品内容特征进行对齐,获取群组层级特征对齐模型;将用户与商品的关系模型、商品层级特征对齐模型、群组层级特征对齐模型进行联合损失优化,获取联合损失模型,并将原有商品和全新商品分别通过协同特征和内容特征进行推荐。本发明能够更好的解决全新商品冷启动问题。

    一种基于提示的用户跨域冷启动方法

    公开(公告)号:CN117422526A

    公开(公告)日:2024-01-19

    申请号:CN202311518835.1

    申请日:2023-11-15

    Abstract: 本发明公开了一种基于提示的用户跨域冷启动方法,包括:获取用户特有表征、用户通用表征和商品表征;通过用户特有表征和商品表征,获取场景提示向量;根据场景提示向量和用户通用表征,获取目标场景的特有表征,完成基于提示的用户跨域冷启动。本发明通过提出的场景提示生成方法,通过最大化目标场景的提示与目标场景中所有用户与商品之间的互信息的方式,对每个场景的特征进行全面捕捉;本发明中的基于场景提示的目标场景用户表征生成方法,通过考虑不同场景之间的关系以及每个场景的特征,在仅仅知道用户通用表征的情况下,依然可以实现在不同场景中对同一用户进行精准个性化推荐的效果,进而解决用户跨域冷启动问题。

    一种基于提示学习的自动化数据标注方法

    公开(公告)号:CN116738984A

    公开(公告)日:2023-09-12

    申请号:CN202310748270.X

    申请日:2023-06-25

    Abstract: 本发明公开了一种基于提示学习的自动化数据标注方法,包括:获取有标注数据集和无标注数据集;对所述有标注数据集的实体信息进行提取,获取实体词;基于所述实体词对所述无标注数据集进行筛选,获取筛选后的无标注数据集;构建提示模板组,基于预训练语言模型利用所述提示模板组对所述筛选后的无标注数据集进行测试,获取正向/负向数据;基于所述提示模板组将所述有标注数据集的中性情感数据输入所述预训练语言模型,获取填充完整的提示模板;基于所述填充完整的提示模板和所述正向/负向情感数据,构建完整的扩充数据集,实现基于提示学习的自动化数据标注。

    一种长文本的标签推荐模型构建方法及标签推荐方法

    公开(公告)号:CN116484123A

    公开(公告)日:2023-07-25

    申请号:CN202310486453.9

    申请日:2023-04-28

    Abstract: 本发明提供一种长文本的标签推荐模型构建方法及标签推荐方法,涉及自然语言处理技术领域,该模型构建方法包括:获取历史长文本,对历史长文本进行标注,得到文本标签、标准相似度、历史子句和子句的历史权重;根据历史权重得到历史关键句,对文本标签进行标签扩充,得到历史伪标签,并根据历史伪相得到历史标签序列;以上述数据训练初始预测模型,得到预测模型;以上述数据训练初始排序模型,得到重排序模型;根据预测模型和重排序模型得到标签推荐模型。本发明的有益效果:根据子句权重得到表示长文本含义的关键句,对文本标签进行扩充以得到便于模型理解的伪标签,实现长文本的标签推荐,且有效提升了模型的准确度。

    一种基于Top-n-gram的蛋白质远程同源性检测和折叠识别方法

    公开(公告)号:CN102043910B

    公开(公告)日:2012-12-12

    申请号:CN201010600321.7

    申请日:2010-12-22

    Abstract: 一种基于Top-n-gram的蛋白质远程同源性检测和折叠识别方法,涉及一种蛋白质远程同源性检测和折叠识别方法。本发明为了解决现有的蛋白质远程同源性检测和折叠识别方法中,二进制谱无法找到最优阈值,无法区分氨基酸出现频率的差别的问题。具体步骤:一、运行PSI-BLAST,输入测试蛋白质序列进行多序列比对,计算氨基酸i的伪计数;二、生成频率谱;三、将频率谱转化为Top-n-gram;四、获得测试蛋白质序列对应的潜在语义表达向量;五、将测试蛋白质序列对应的潜在语义表达向量输入SVM分类器进行分类,得到预测结果。应用于蛋白质同源性检测和折叠识别领域。

    语句级中英文混合输入方法

    公开(公告)号:CN102012748A

    公开(公告)日:2011-04-13

    申请号:CN201010566505.6

    申请日:2010-11-30

    Abstract: 语句级中英文混合输入方法,本发明涉及信息输入方法,尤其涉及一种中英文混合语句输入方法。它解决了现有的中英文混合输入方法采用手工标示输入的字母串中哪些需要转换成中文哪些是英文单词,无法保证连续的语句输入的问题。它包括下述步骤:用键盘输入字符串;由输入法管理系统对字符串进行中英文切分;所做的中英文切分是基于中文拼音库和英文词库的自动识别;输入法管理系统对切分后的字符串分别进行相应的中文和英文字符转换,并提供混合语句候选和中英文词语候选;所做出的中文和英文字符转换是基于中文词库和中英文统计库的自动识别;从通过插入、删除、选择等编辑命令,最终从候选列表中选定输出内容;输出中英文混合语句。用于文字输入。

    一种基于自组织映射网络的文档聚类方法

    公开(公告)号:CN100446032C

    公开(公告)日:2008-12-24

    申请号:CN200610009761.9

    申请日:2006-03-02

    CPC classification number: G06K9/6251

    Abstract: 一种基于自组织映射网络的文档聚类方法,本发明涉及一种文档聚类方法。它克服了已有的自组织映射聚类方法难以做到对输入文档数据的自适应以及其固定结构所带来的神经元欠利用、网络映射欠准确以及边缘效应等问题。本发明方法的步骤:找出所有被选文档;将自组织映射网络的输出层初始化为环形结构,并把环形结构至少平分为两半,其中的每个扇形分别作为一个神经元;计算当前输出层的R2聚类准则系数;判断R2聚类准则系数是否大于阈值μ;结果为是,则终止自组织映射网络的训练,把被选文档按照当前自组织映射网络进行分类;结果为否,则在当前输出层中寻找具有最大类内离差平方和的神经元,在其附近插入新的神经元,并对当前输出层的所有神经元进行训练。

Patent Agency Ranking