首页 > 编程 > Python > 正文

用Python实现协同过滤的教程

2020-02-23 00:36:51
字体:
来源:转载
供稿:网友

协同过滤

在 用户 —— 物品(user - item)的数据关系下很容易收集到一些偏好信息(preference),比如评分。利用这些分散的偏好信息,基于其背后可能存在的关联性,来为用户推荐物品的方法,便是协同过滤,或称协作型过滤(collaborative filtering)。

这种过滤算法的有效性基础在于:

    用户的偏好具有相似性,即用户是可分类的。这种分类的特征越明显,推荐的准确率就越高
    物品之间是存在关系的,即偏好某一物品的任何人,都很可能也同时偏好另一件物品

不同环境下这两种理论的有效性也不同,应用时需做相应调整。如豆瓣上的文艺作品,用户对其的偏好程度与用户自身的品位关联性较强;而对于电子商务网站来说,商品之间的内在联系对用户的购买行为影响更为显著。当用在推荐上,这两种方向也被称为基于用户的和基于物品的。本文内容为基于用户的。
影评推荐实例

本文主要内容为基于用户偏好的相似性进行物品推荐,使用的数据集为 GroupLens Research 采集的一组从 20 世纪 90 年代末到 21 世纪初由 MovieLens 用户提供的电影评分数据。数据中包含了约 6000 名用户对约 4000 部电影的 100万条评分,五分制。数据包可以从网上下载到,里面包含了三个数据表——users、movies、ratings。因为本文的主题是基于用户偏好的,所以只使用 ratings 这一个文件。另两个文件里分别包含用户和电影的元信息。

本文使用的数据分析包为 pandas,环境为 IPython,因此其实还默认携带了 Numpy 和 matplotlib。下面代码中的提示符看起来不是 IPython 环境是因为 Idle 的格式发在博客上更好看一些。
数据规整

首先将评分数据从 ratings.dat 中读出到一个 DataFrame 里:

>>> import pandas as pd>>> from pandas import Series,DataFrame>>> rnames = ['user_id','movie_id','rating','timestamp']>>> ratings = pd.read_table(r'ratings.dat',sep='::',header=None,names=rnames)>>> ratings[:3] user_id movie_id rating timestamp0  1  1193  5 9783007601  1  661  3 9783021092  1  914  3 978301968 [3 rows x 4 columns]

ratings 表中对我们有用的仅是 user_id、movie_id 和 rating 这三列,因此我们将这三列取出,放到一个以 user 为行,movie 为列,rating 为值的表 data 里面。(其实将 user 与 movie 的行列关系对调是更加科学的方法,但因为重跑一遍太麻烦了,这里就没改。)
 

>>> data = ratings.pivot(index='user_id',columns='movie_id',values='rating')>>> data[:5]movie_id 1 2 3 4 5 6 user_id                  1   5 NaN NaN NaN NaN NaN ...2  NaN NaN NaN NaN NaN NaN ...3  NaN NaN NaN NaN NaN NaN ...4  NaN NaN NaN NaN NaN NaN ...5  NaN NaN NaN NaN NaN 2 ...            
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表