Netflix让国人广泛关注莫过于利用大数据分析技术“算出来”的自制原创剧《纸牌屋》的火爆。纸牌屋有多火,网上搜一下。而实际上Netflix最擅长的是它非常厉害的视频推荐算法,估计这也是Netflix作为全球十大视频网站中唯一收费站点的重要原因。
提到推荐算法,很容易想到搜索引擎的相关搜索推荐,各类网站相关推荐插件(百度的百度推荐、阿里的云推荐等),各自网站开发的相关文章阅读推荐等,多基于关键词广泛匹配来推荐,各类在线视频网站,大部分“你可能喜欢看”、“看xxx的还喜欢看”等推荐,也多根据演员、导演及视频所属标签等推荐。
为了打造比搜索引擎更精准的推荐引擎,Netflix曾两次公开悬赏百万美元,只为提供更精准的推荐算法。推荐引擎也成为Netflix的一个标志。很多人都想要了解在浩如烟海的大数据及评分星级的背后,Netflix是如何利用其算法来向用户作出推荐的?
Netflix个性化算法副总裁卡洛斯·葛梅兹-乌里韦(Carlos Gomez-Uribe)的一些回答整理:
1、查找相似性
通过查阅元数据找到各种各样的相似性。比如两部电影是不是在同一时间被创作的?是不是倾向于拥有相同的评分?此外,你还可以查看用户行为——浏览、播放和搜索等,从而找到它们之间的相似性。
2、鉴别视频特点并标记分类
有员工专门负责以人工方式来对电视剧和电影进行标记。
3、个性化追踪用户观看历史
我们能知道你播放和搜索过哪些视频,对哪些视频进行了评分。我们还知道你播放视频的时间、日期和使用的设备。我们甚至还会追踪用户交互活动,如浏览或滚动等行为。
4、推荐引入上下文环境
在一个星期中的不同日子,在一天的不同时间段,用户的观看行为都会有所不同;此外,他们的观看行为还会随着设备的改变而有所差异,有时候甚至用户所在的位置也会产生影响。
5、预测评分并非最重要指标
问:为什么我会在推荐中看到如此之多的三星级甚至是两星级的电影呢?
答:人们喜欢把《辛德勒的名单》等电影的评分打得很高,而不是我喜欢看的《热浴盆时光机》恶搞喜剧片。如果你只向用户推荐四星级或五星级电影,并不意味着他们工作一天以后还想看那样的电影。
,