首页 > 协同过滤系统的稀疏性与冷启动问题研究 > 正文

协同过滤系统的稀疏性与冷启动问题研究

来源:0 2017/3/10 21:26:49

摘要:

东莞市中小企业公共服务平台旨在为东莞市各类企业提供各类企业信息,技术升级,集中采购,政策申报以及企业新三板上市投融资邓相关配套服务,旨在综合各类企业数据,解决企业教育培训,技术升级难题,降低企业库存风险,优化产业供应链

协同过滤系统的稀疏性与冷启动问题研究

推荐系统通过预测用户对项目的喜好程度来为用户进行信息过滤,应用知识发现技术来生成个性化推荐。协同过滤是一种常用的减少信息过载的技术,已经成为了个性化推荐系统的一种主要工具,然而现有大多数协同过滤算法存在着几个主要问题:精确性,数据稀疏和冷启动问题。许多结合协同过滤与基于内容的信息过滤的算法可以解决这些问题,但是这些算法需要预先得到项目的内容信息或者用户的个人信息,而这些信息在很多推荐系统中是无法获得的,因此无法利用基于内容的信息过滤技术。本文提出了在无法得到项目的内容信息和用户个人信息的情况下,在数据稀疏和冷启动情况下提高预测准确性的几种方法。在三个公开的数据集上进行了试验,试验结果显示这些方法比常用的算法效果要好。我们采用了两种方法来提高数据稀疏时预测的准确性,即属于特征递增型的PearAfterSVD方法和属于转换型的LCMSTI方法。在特征递增型方法中,一种方法的输出用来作为另一种方法的输入。PearAfterSVD算法首先利用基于奇异值分解的方法来得到预测的评分,然后采用这些预测结果来获得活动用户的邻居,最后用基于邻居的Pearson算法得到最终提供给用户的预测值。在转换型方法中,推荐系统根据当前的情况决定在不同的推荐方法中进行转换。LCMSTI算法设置了一个阈值来决定如何在基于潜在分类模型的Pearson算法与STIN1算法这两种协同过滤方法中进行转换。在基于潜在分类模型的Pearson算法中,首先使用潜在分类模型的结果来进行邻居选择,然后根据最近邻方法来对活动用户未打分项目的评分进行预测。试验结果表明这两种方法在数据稀疏时准确性较高。冷启动问题包括新项目问题与新用户问题。我们采用了基于统计的众数法以及信息熵法来解决冷启动问题。在基于统计的众数法中,利用人们的从众心理,对新用户问题,我们用所有用户在某一项目上的评分的众数作为新用户在该项目上的评分预测值;对新项目问题,我们用活动用户在他所有已评分项目上的评分的众数作为该活动用户在新项目上的评分预测值。在信息熵方法中,我们利用信息熵来选择一些有意义的用户或者项目,然后采用这些用户或者项目的平均评分来作为新用户或者新项目的预测评分。试验结果表明这些方法在推荐系统无法获取项目的内容信息和用户个人信息的情况下比简单平均法效果要好。最后对协同过滤系统中的隐私保护与安全问题、时间序列问题、特殊项目的推荐问题以及如何解释推荐系统的结果等进行了简单的讨论。


者:孙小华

学科专业:计算机科学与技术

授予学位:博士

学位授予单位:浙江大学

导师姓名:孔繁胜

学位年度:2005

研究方向:

种:chi

分类号:TP182 TP301.6

关键词:协同过滤推荐系统稀疏性冷启动奇异值分类模型

机标分类号:

机标关键词:协同过滤算法过滤系统稀疏性用户方法信息过滤技术推荐系统预测值评分数据稀疏试验结果启动问题内容信息冷启动个人信息分类模型准确性信息熵转换型活动

基金项目: