电影推荐大有学问

作者: 来源:L生活居 时间:2020-07-25 02:22:25 浏览(144)

電影推薦大有學問

推荐系统在现今社会可说是无处不在。当你在亚马逊浏览网路书店时,网站上的推荐清单让你更有机会找到有兴趣的书籍;影音串流网站Netflix根据你看过的影集及电影给你专属化推荐,让你不必烦恼如何选片。推荐系统流派与方法的发展虽已趋于成熟,但在现今科技蓬勃发展、凡事讲求快狠準的时代,如何兼顾速度与準确度,有效满足社会需求,不被企业及消费者淘汰,仍有很大的进步空间。

推荐系统

1990年代中期,由于「评分结构」的研究逐渐受到重视,「推荐系统」于是演变成一门独立的学问;在多数情况下,其可以被概括为「估计用户对未知商品评分的问题」。一旦我们可以估计用户对未知商品的评分,就可以找出分数最高的商品推荐给用户。

假设:

C:所有用户形成的集合;
S:所有潜在物品形成的集合;
u:为评估商品(s)对用户(c)的效用函数(utility function),

针对某用户c,我们希望能推荐一项在S集合中对用户c效用最大的商品s。上述想法可简单表示如下:

电影推荐大有学问

针对一用户c,我们可以用一系列例如年龄、性别、所得的特徵来表示;同样地,我们也可以用一系列的商品特徵来定义一商品s,以电影推荐系统为例,电影名称、类型、导演与演员等,都可被用以定义s。

效用函数通常只在一部分的集合中有完整的对应值。例如在电影推荐系统中,一般收视户可能只为一小部分的电影评过分,我们可以简单的用户-评分表格表示:

电影推荐大有学问

推荐系统的目标,就是以各种方法推估表格内空集合(Ø)的值。如此,我们才能从所有商品中选出最高分的前几种商品推荐给用户。

需要注意的是:所推荐的商品虽应与用户喜好相似,却也需与用户过往的浏览纪录有一定的区别,带有一些新意,而非旧调重弹,例如针对同一事件但不同叙述的报导。依据估计评分的方式,可以将推荐系统大致分为「基于内容」、「偕同过滤」或「混和过滤」等三类(以下皆以电影推荐系统为例)。

基于内容的推荐(Content-Based Recommendations)

此方法只运用用户c评分过的电影资讯,去推测他(她)对未评分过的电影s的评分。核心概念是从该用户已评分的电影中,找出n项与s最相似的电影,并推荐这些电影给该用户。此方法可以透过两种方式实践:启发式学习以及模型学习。

前者主要是运用一系列的关键字去代表用户及电影,并计算用户及不同电影之间的相似程度,相似程度的衡量可以用相关係数等指标量化;后者则是将模型套用到现有资料,学习并进而预测电影评分,许多模型都可以运用在推荐系统,诸如决策树、贝氏分类器、类神经网路等。

协同过滤推荐(Collaborative Recommendations)

此方法利用与用户c相似的用户群的资料,来推估c对电影s的评分。至于如何找到与用户c有相似品味的用户群,则可分为两种方法─记忆式学习及模型学习。前者藉由两用户共同评分过的电影,来计算两者间的相似度(可以用相关係数或余弦相似性表示),并以此将中每位用户对电影s的评分做加权平均,得到评分估计。后者则是直接将模型套用到所有用户对该电影s的评分资料,学习并预测电影评分。

混和推荐(Hybrid Recommendations)

上述两种方法可以下列四种方式结合,截长补短,使得即使在评分资料稀少,如新用户或新电影时,仍可适用:

更省时的推荐演算法

上述方法奠定了推荐演算法的基础,但却有一个共同问题:运算时间。无论是基于内容、协同过滤或混合推荐法,都必须在浏览过所有电影及用户资料后,方可开始计算。随着资料量增长,计算时间也势必大幅拉长,如何降低运算时间因而成为重要议题。今年(2018)7月12日机器学习研讨会中,由哈佛大学电脑科学家Yaron Singer 与Eric Balkanski提出的演算法,能在短时间内找出最佳解,更聪明也更快速地解决问题。

相较于传统电影推荐系统,需在浏览所有电影资料库的电影后,方能列出推荐清单;新的演算法一开始只选取一定数量的电影,在这些电影之中找出最符合推荐标準的几部电影,并捨弃未选上的电影,而后再由缩小后的资料库中随机选取一定数量的电影,保留最符合标準的电影,并捨弃其他,持续重複上述步骤。如此做法,创建推荐清单的速度是传统演算法的10倍以上。

而其应用範围,也不仅限于电影推荐。在另一个试验中,这种新的演算法能迅速找出纽约计程车的最佳路径,速度是传统方法的六倍以上。除此之外,也可以加速资料处理的速度,并拓广运用到如社群媒体或基因资料的分析。

参考资料

(本文由教育部补助「AI报报─AI科普推广计画」执行团队编译)


上一篇:
下一篇:

相关文章