当前位置：首页 > news >正文

机器学习-08-推荐算法-协同过滤

news 来源：原创 2025/4/22 7:32:11

总结

本系列是机器学习课程的系列课程，主要介绍机器学习中关联规则

参考

机器学习（三）：Apriori算法（算法精讲）

Apriori 算法理论重点

MovieLens:一个常用的电影推荐系统领域的数据集

23张图，带你入门推荐系统

本门课程的目标

完成一个特定行业的算法应用全过程：

懂业务+会选择合适的算法+数据处理+算法训练+算法调优+算法融合
+算法评估+持续调优+工程化接口实现

机器学习定义

关于机器学习的定义，Tom Michael Mitchell的这段话被广泛引用：
对于某类任务T和性能度量P，如果一个计算机程序在T上其性能P随着经验E而自我完善，那么我们称这个计算机程序从经验E中学习。

推荐系统

1.推荐系统概述

1.推荐系统概述

2.推荐算法的基本类型

2.推荐算法的基本类型
推荐系统的核心在于根据用户的历史行为和偏好，为其提供个性化的内容或服务。推荐算法是实现这一目标的关键，主要包括以下几种基本类型：
(1)协同过滤（Collaborative Filtering）
协同过滤是一种基于用户行为的推荐方法，它通过分析用户的历史行为数据，找到具有相似行为的用户或物品，并基于这些相似性进行推荐。
常见的协同过滤算法如下：
①　基于用户的协同过滤（User-based Collaborative Filtering，简称UserCF）。
其中基于用户的协同过滤通过计算用户之间的相似度，推荐与目标用户具有相似行为的其他用户喜欢的物品。比如用户A之前买过T恤，裤子和帽子，并给出了好评。用户B也买过相同的T恤，裤子和帽子，同时用户B也购买了鞋子，也都给出了好评。那么基于用户的协同过滤算法会认为这两位用户相似度较高，从而给用户A推荐用户B买过的鞋子。
基于用户的协同过滤适合做新闻、博客或者微内容的推荐系统，因为其内容更新频率非常高，特别是在社交网络中，基于用户的协同过滤是一个更好的选择，可以增加用户对推荐解释的信服程度。

②　基于物品的协同过滤（Item-based Collaborative Filtering，简称ItemCF）。
基于物品的协同过滤：通过计算物品之间的相似度，推荐与目标用户历史上喜欢的物品相似的其他物品。需要注意的是，基于物品的协同过滤算法并不利用物品的内容属性计算物品之间的相似度，它主要通过分析用户的行为记录计算物品之间的相似度，即基于物品的协同过滤算法认为，物品A和物品B具有很大的相似度是因为喜欢物品A的用户大都也喜欢物品B。比如若多个用户都同时喜欢某T恤和卫衣，那么该算法认为，T恤和卫衣具有较大的相似度。这时如果一个用户初次购买T恤了，该算法会给该用户推荐卫衣。
基于物品的协同过滤使用于购物网站，该场景中用户的数量远远超过物品的数量，同时物品的数据相对稳定，因此计算物品的相似度时不但计算量较小，而且不必频繁更新。

③　基于用户和物品的混合协同过滤（User-Item CF,简称混合CF）。
混合协同过滤算法：它同时考虑了User（用户）和Item（商品）两个方面，用户和商品的关系，可以抽象为如下的三元组：<User,Item,Rating>。其中，Rating是用户对商品的评分，表征用户对该商品的喜好程度。
基于用户的协同过滤和基于物品的协同过滤主要缺点在于用户或物品数量极大的情况下，计算复杂度高。这是可以采取ALS（lternating least squares，交替最小二乘法）算法，本任务采用的ALS算法就是混合协同过滤算法，
假设我们有一批用户数据，其中包含m个用户User和n个物品Item，则我们定义用户物品评分矩阵 Rm×n，如图5-2-1所示，该图中每行都是一个用户，每列都是一个物品，每个单元格对应每个用户对物品的评分。

(2)基于内容的推荐（Content-Based Recommendations）
基于内容的推荐算法通过分析物品的内容特征、用户相关信息及用户对物品的操作行为来构建推荐算法模型。
物品的内容特征可以是对物品文字描述的元信息、标签、用户评论、人工标注的信息等。
用户相关信息是指人口统计学信息(如年龄、性别、偏好、地域、收入等等)。
用户对物品的操作行为可以是评论、收藏、点赞、观看、浏览、点击、加购物车、购买等。
在一个非社交网络的网站中，比如给某个用户推荐一本书，采用基于内容的推荐会比较好。因为基于协同过滤的思路是某某和你有相似兴趣的人也看了这本书，这很难让用户信服，因为用户可能根本不认识那个人;但假如给出的理由是因为这本书和你以前看的某本书相似，这样解释相对合理，用户可能就会采纳你的推荐。
基于内容的推荐需要进行特征提取和构建用户画像。特征提取是利用物品的特征（如商品描述、文章内容等）进行分析，并计算物品间的相似度。用户画像是基于用户对物品特征的偏好，构建用户的兴趣画像。再根据用户画像和物品间的相似度，给用户推荐其感兴趣的物品类似的物品
基于内容的推荐优点为能够解决冷启动问题，因为推荐不依赖于其他用户的数据，同时可以推荐用户感兴趣的具体特征的物品。

“基于内容的推荐算法思路为根据用户喜欢的内容，为用户推荐相似的内容”
“比如，电影A、电影B、电影C都有类型信息，即电影特征
根据电影特征，计算得出电影A和电影C相似度较高”
“用户a、用户b、用户c有对电影的行为数据，如喜欢某电影”
依据用户行为数据和电影间的相似度，推荐算法向用户a推荐与电影A相似的电影C

3.推荐算法的构建理论

推荐算法其实本质上是一种信息处理逻辑，当获取了用户与内容的信息之后，按照一定的逻辑处理信息后，产生推荐结果。热度排行榜就是最简单的一种推荐方法，它依赖的逻辑就是当一个内容被大多数用户喜欢，那大概率其他用户也会喜欢。但是基于粗放的推荐往往会不够精确，想要挖掘用户个性化的，小众化的兴趣，需要制定复杂的规则运算逻辑，由机器完成。
推荐算法主要分为以下几步：
(1)召回：当用户以及内容量比较大的时候，往往先通过召回策略，将百万量级的内容先缩小到百量级。
(2)过滤：对于内容不可重复消费的领域，例如实时性比较强的新闻等，在用户已经曝光和点击后不会再推送到用户面前。
(3)精排：对于召回并过滤后的内容进行排序，将百量级的内容按照顺序推送。
(4)混排：为避免内容越推越窄，将精排后的推荐结果进行一定修改，例如控制某一类型的频次，EE问题（Exploration and Exploitation，探索与开发)处理等。
(5)强规则：根据业务规则进行修改，例如在活动时将某些文章置顶以及热点内容的强插等。

协同过滤算法

协同过滤的基本流程：
首先，要实现协同过滤，需要以下几个步骤
（1）收集用户偏好
（2）找到相似的用户或物品
（3）计算推荐

基于用户的协同过滤

案例：基于用户的协同过滤。

假设有几个人分别看了如图电影并且给电影有如下评分（5分最高，没看过的不评分），我们目的是要向A用户推荐一部电影：

协同过滤的整体思路只有两步，非常简单：寻找相似用户，推荐电影。

（1）寻找相似用户：所谓相似，其实是对于电影品味的相似，也就是说需要将A与其他几位用户做比较，判断是不是品味相似。有很多种方法可以用来判断相似性，我们使用“欧几里德距离”来做相似性判定。当把每一部电影看成N维空间中的一个维度，这样每个用户对于电影的评分相当于维度的坐标，那么每一个用户的所有评分，相当于就把用户固定在这个N维空间的一个点上，然后利用欧几里德距离计算N维空间两点的距离。距离越短说明品味越接近。
本例中A只看过两部电影（《老炮儿》和《唐人街探案》），因此只能通过这两部电影来判断品味了，那么计算A和其他几位用户的距离，如下图所示：

（2）推荐电影：
要做电影加权评分推荐。意思是说，品味相近的人对于电影的评价对A选择电影来说更加重要，具体做法可以列一个表，计算加权分，如图所示：

把相似性和对于每个电影的实际评分相乘，就是电影的加权分，如下图所示：

基于物品协同过滤

基于用户的协同过滤，适用于物品较少，用户也不太多的情况。
如果用户太多了，针对每个用户的购买情况来计算哪些用户和他品味类似，效率很低下。
如果商品很多，每个用户购买的商品重合的可能性很小，这样判断品味是否相似也就变得比较困难了。

“基于物品的协同过滤”。消费者每天都在买买买，行为变化很快，但是物品每天虽然也有变化，但是和物品总量相比变化还是少很多。这样，就可以预先计算物品之间的相似程度，然后再利用顾客实际购买的情况找出相似的物品做推荐。这就是“基于物品的协同过滤”。

由于物品整体变化不大，所以这个相似程度不用每天都算，节省计算资源；同时，可以只给某一样商品只备选5个相似商品，推荐时只做这5个相似物品的加权评分，避免对所有商品都进行加权评分，以避免大量计算。这么说有点抽象，还是看一个例子吧。

还是用上一章节的例子，目的是给A推荐一部电影。

首先是计算电影之间的相似度，方法还是有很多，这次用Pearson相关系数来做，公式为：

公式看起来复杂，其实可以分成6个部分分别计算就好了，我们选《寻龙诀》（X）和《小门神》（Y）作为例子，来算一下相似度，则：
X=（3.5，5.0，3.0）
Y=（3.0，3.5，2.0）
数字就是评分，因为只有三个人同时看了这两个电影，所以X，Y两个向量都只有三个元素。按照公式逐步计算：

相关系数取值为（-1，1），1表示完全相似，0表示没关系，-1表示完全相反。
结合到电影偏好上，如果相关系数为负数，比如《老炮儿》和《唐人街探案》，意思是说，喜欢《老炮儿》的人，存在厌恶《唐人街探案》的倾向。
然后就可以为A推荐电影了，思路是：A只看过两个电影，然后看根据其他电影与这两个电影的相似程度，进行加权评分，得出应该推荐给A的电影具体方法如下图：

协同过滤算法案例

构建数据集

# A dictionary of movie critics and their ratings of a small#
critics = {'A': {'老炮儿':3.5,'唐人街探案': 1.0},'B': {'老炮儿':2.5,'唐人街探案': 3.5,'星球大战': 3.0, '寻龙诀': 3.5,'神探夏洛克': 2.5, '小门神': 3.0},'C': {'老炮儿':3.0,'唐人街探案': 3.5,'星球大战': 1.5, '寻龙诀': 5.0,'神探夏洛克': 3.0, '小门神': 3.5},'D': {'老炮儿':2.5,'唐人街探案': 3.5,'寻龙诀': 3.5, '神探夏洛克': 4.0},'E': {'老炮儿':3.5,'唐人街探案': 2.0,'星球大战': 4.5, '神探夏洛克': 3.5,'小门神': 2.0},'F': {'老炮儿':3.0,'唐人街探案': 4.0,'星球大战': 2.0, '寻龙诀': 3.0,'神探夏洛克': 3.0, '小门神': 2.0},'G': {'老炮儿':4.5,'唐人街探案': 1.5,'星球大战': 3.0, '寻龙诀': 5.0,'神探夏洛克': 3.5}}

STEP1：编写函数计算欧式距离字典数据中两两用户的欧式距离。

from math import sqrt# Returns a distance-based similarity score for person1 and person2
# 返回 person1 and person2基于距离的相似度
def sim_distance(prefs, person1, person2):# Get the list of shared_itemssi = {}for item in prefs[person1]:if item in prefs[person2]: si[item] = 1# if they have no ratings in common, return 0 如果没有共同评分返回0if len(si) == 0: return 0# Add up the squares of all the differences 所有差异平方相加sum_of_squares = sum([pow(prefs[person1][item] - prefs[person2][item], 2)for item in prefs[person1] if item in prefs[person2]])return 1 / (1 + sqrt(sum_of_squares))# 打印'B'对'星球大战'的评分
print(critics['B']['星球大战'])
# 打印相识分数
print(sim_distance(critics, 'A', 'B'))

输出为：
在这里插入图片描述
在STEP1基础上，编写函数依据欧式距离大小以及协同过滤算法（用户）实现电影的推荐。

# Gets recommendations for a person by using a weighted average of every other user's rankings
# 通过加权平均为一个人推荐
def getRecommendations(prefs, person, similarity=sim_distance):# 定义两个空字典totals = {}simSums = {}# 对传入的数据进行循环for other in prefs:# don't compare me to myself# 不与自己比较if other == person: continue# 计算这个人与其它人的评分sim = similarity(prefs, person, other)# ignore scores of zero or lower# 忽略<=0的分数if sim <= 0: continue# 对过滤后的数据再次遍历for item in prefs[other]:# only score movies I haven't seen yet# 只给没看过的电影打分if item not in prefs[person] or prefs[person][item] == 0:# Similarity * Score# 相似度 * 得分totals.setdefault(item, 0)totals[item] += prefs[other][item] * sim# Sum of similarities# 相似度总和simSums.setdefault(item, 0)simSums[item] += sim# Create the normalized list# 创建规范化列表rankings = [(total / simSums[item], item) for item, total in totals.items()]# Return the sorted list# 返回排序后的列表rankings.sort()rankings.reverse()return rankingsprint(getRecommendations(critics, 'A'))

输出为：
在这里插入图片描述

基于surprise的协同过滤算法实现

电影数据集介绍
在这里插入图片描述数据获取：

MovieLens数据集可以从MovieLens网站上免费下载。不同版本的数据集具有不同的规模和数据量，可以根据研究或应用的需求选择适当的版本。
下载地址：https://grouplens.org/datasets/movielens/

按照依赖：

pip install scikit-surprise

STEP1：导入库
导入surprise库中的算法，数据集，网格搜索。

# 导入库
from surprise import SVD
from surprise import Dataset
from surprise import Reader
from surprise.model_selection import GridSearchCV
import os

STEP2：加载数据集
加载movielens-100K数据集，默认在线下载数据集，也可以加载本地数据
在这里插入图片描述

# 加载 movielens-100K
# 定义推荐数据集文件路径 绑定你的数据集地址
file_path = '/xxx/u.data'
# 指定分隔符
reader = Reader(line_format='user item rating timestamp', sep='\t')
# 导入文件
data = Dataset.load_from_file(file_path, reader=reader)

STEP3：网格搜索
设置网格搜索参数

# 网格搜索
param_grid = {'n_epochs': [5, 10], 'lr_all': [0.002, 0.005],'reg_all': [0.4, 0.6]}
gs = GridSearchCV(SVD, param_grid, measures=['rmse', 'mae'], cv=3)

STEP4：训练并获得最佳模型

# 训练模型
gs.fit(data)
# 输出最佳RMSE（均方根误差）得分
print('The best RMSE：',gs.best_score['rmse'])
# 输出最佳RMSE得分的参数组合
print('The best params：',gs.best_params['rmse']) 
# 获得最佳算法
algo = gs.best_estimator['rmse']
algo.fit(data.build_full_trainset())

STEP5：模型预测

# 模型预测
uid = str(196)  # 原始user id (在评分文件中的)
iid = str(302)  # 原始item id （在评分文件中的）
#对某一个具体的user和item给出预测
pred = algo.predict(uid, iid, r_ui=4, verbose=True)

STEP6：输出结果解释

The best RMSE 0.9629441271618542
The best params {'n_epochs': 10, 'lr_all': 0.005, 'reg_all': 0.4}
user: 196        item: 302        r_ui = 4.00   est = 4.01   {'was_impossible': False}
# 说明：user为用户id，item为项目id，r_ui为真实评分，est为预测评分

推荐系统拓展

搜索、推荐、广告三者的异同

搜索和推荐是AI算法最常见的两个应用场景，在技术上有相通的地方。这里提到广告，主要考虑很多没做过广告业务的同学不清楚为什么广告和搜索、推荐会有关系，所以做下解释。

搜索：有明确的搜索意图，搜索出来的结果和用户的搜索词相关。
推荐：不具有目的性，依赖用户的历史行为和画像数据进行个性化推荐。
广告：借助搜索和推荐技术实现广告的精准投放，可以将广告理解成搜索推荐的一种应用场景，技术方案更复杂，涉及到智能预算控制、广告竞价等。

图解经典的协同过滤算法

协同过滤（Collaborative Filtering，CF）是一个简单同时效果很好的算法，只要你有初中数学的基础就能看懂。协同过滤算法的核心就是「找相似」，它基于用户的历史行为（浏览、收藏、评论等），去发现用户对物品的喜好，并对喜好进行度量和打分，最终筛选出推荐集合，它又包括两个分支：

1）基于用户的协同过滤
User-CF，核心是找相似的人。
比如下图中，用户 A 和用户 C 都购买过物品 a 和物品 b，那么可以认为 A 和 C 是相似的，因为他们共同喜欢的物品多。这样，就可以将用户 A 购买过的物品 d 推荐给用户 C。

基于用户的协同过滤示例

2）基于物品的协同过滤
Item-CF，核心是找相似的物品。比如下图中，物品 a 和物品 b 同时被用户 A，B，C 购买了，那么物品 a 和物品 b 被认为是相似的，因为它们的共现次数很高。
这样，如果用户 D 购买了物品 a，则可以将和物品 a 最相似的物品 b 推荐给用户 D。

基于物品的协同过滤示例

如何找相似？

前面讲到，协同过滤的核心就是找相似，User-CF是找用户之间的相似，Item-CF是找物品之间的相似，那到底如何衡量两个用户或者物品之间的相似性呢？
我们都知道，对于坐标中的两个点，如果它们之间的夹角越小，这两个点越相似，这就是初中学过的余弦距离，它的计算公式如下：

举个例子，A坐标是（0，3，1），B坐标是（4，3，0），那么这两个点的余弦距离是0.569，余弦距离越接近1，表示它们越相似。

除了余弦距离，衡量相似性的方法还有很多种，比如：欧式距离、皮尔逊相关系数、Jaccard 相似系数等等，这里不做展开，只是计算公式上的差异而已。

Item-CF的算法流程

清楚了相似性的定义后，下面以Item-CF为例，详细说下这个算法到底是如何选出推荐物品的？

第一步：整理物品的共现矩阵
假设有 A、B、C、D、E 5个用户，其中用户 A 喜欢物品 a、b、c，用户 B 喜欢物品 a、b等等。

所谓共现，即：两个物品被同一个用户喜欢了。比如物品 a 和 b，由于他们同时被用户 A、B、C 喜欢，所以 a 和 b 的共现次数是3，采用这种统计方法就可以快速构建出共现矩阵。

第二步：计算物品的相似度矩阵
对于 Item-CF 算法来说，一般不采用前面提到的余弦距离来衡量物品的相似度，而是采用下面的公式：

其中，
N(u) 表示喜欢物品 u 的用户数，N(v) 表示喜欢物品 v 的用户数，
两者的交集表示同时喜欢物品 u 和物品 v 的用户数。
很显然，如果两个物品同时被很多人喜欢，那么这两个物品越相似。
基于第1步计算出来的共现矩阵以及每个物品的喜欢人数，便可以构造出物品的相似度矩阵：

第三步：推荐物品
最后一步，便可以基于相似度矩阵推荐物品了，公式如下：

其中，Puj 表示用户 u 对物品 j 的感兴趣程度，值越大，越值得被推荐。N(u) 表示用户 u 感兴趣的物品集合，S(j,N) 表示和物品 j 最相似的前 N 个物品，Wij 表示物品 i 和物品 j 的相似度，Rui表示用户 u 对物品 i 的兴趣度。

上面的公式有点抽象，直接看例子更容易理解，假设我要给用户 E 推荐物品，前面我们已经知道用户 E 喜欢物品 b 和物品 c，喜欢程度假设分别为 0.6 和 0.4。那么，利用上面的公式计算出来的推荐结果如下：

因为物品 b 和物品 c 已经被用户 E 喜欢过了，所以不再重复推荐。最终对比用户 E 对物品 a 和物品 d 的感兴趣程度，因为 0.682 > 0.3，因此选择推荐物品 a。

从0到1搭建一个推荐系统

有了上面的理论基础后，我们就可以用 Python 快速实现出一个推荐系统。

选择数据集

这里采用的是推荐领域非常经典的 MovieLens 数据集，它是一个关于电影评分的数据集，官网上提供了多个不同大小的版本，下面以 ml-1m 数据集（大约100万条用户评分记录）为例。

下载解压后，文件夹中包含：ratings.dat、movies.dat、users.dat 3个文件，共6040个用户，3900部电影，1000209条评分记录。各个文件的格式都是一样的，每行表示一条记录，字段之间采用 :: 进行分割。

以ratings.dat为例，每一行包括4个属性：UserID, MovieID, Rating, Timestamp。通过脚本可以统计出不同评分的人数分布：

在这里插入图片描述

读取原始数据

程序主要使用数据集中的 ratings.dat 这个文件，通过解析该文件，抽取出 user_id、movie_id、rating 3个字段，最终构造出算法依赖的数据，并保存在变量 dataset 中，它的格式为：dict[user_id][movie_id] = rate
在这里插入图片描述

构造物品的相似度矩阵
基于第 2 步的 dataset，可以进一步统计出每部电影的评分次数以及电影的共生矩阵，然后再生成相似度矩阵。
基于相似度矩阵推荐物品
最后，可以基于相似度矩阵进行推荐了，输入一个用户id，先针对该用户评分过的电影，依次选出 top 10 最相似的电影，然后加权求和后计算出每个候选电影的最终评分，最后再选择得分前 5 的电影进行推荐。
调用推荐系统
下面选择UserId=1 这个用户，看下程序的执行结果。由于推荐程序输出的是 movieId 列表，为了更直观的了解推荐结果，这里转换成电影的标题进行输出。