搜狐首页 科技 心里的声音

手机搜狐

SOHU.COM

ICML 2016精选论文

本文为《程序员》原创文章,未经允许不得转载,更多精彩请订阅2017年《程序员》

人工智能和机器学习领域的学术论文汗牛充栋。每年的各大顶级会议、研讨班录用好几千篇论文,即便是亲临现场也很难追踪到所有前沿信息。在时间和精力有限的情况下,选择精读哪些论文,学习哪些热门技术就成为了AI学者和从业人员头疼的问题。本栏目就是要帮助大家筛选出有意思的论文,解读出论文的核心思想,为精读提供阅读指导。

6月在纽约举行的国际机器学习顶级大会International Conference on Machine Learning 2016(ICML 2016)引起了很多从业人员的极大关注。其中,有部分深度学习相关的论文已经被不少人详细研读。那么,录取论文多达三百多篇的大会还有哪些论文值得关注呢?笔者从其中精选出5篇有意思的文章,推荐给读者。

?DCM Bandits: Learning to Rankwith Multiple Clicks

这篇文章来自Adobe Research团队的Branislav Kveton和Zheng Wen。他们在最近一两年做了一系列尝试结合Click Model和Multi-Armed Bandit(MAB)的工作。以前的MAB专注于从一个物品集合中选择合适的单个物品,无法直接应用到对一个Ranked List进行推荐。而在IR传统中,Click Model又是对Ranked List建模的利器。因此,把两个方向结合起来就成为了一个挑战。

这篇文章提出了一个如何把Dependent Click Model(DCM)应用到MAB框架下的思路,基于之前的一篇采用Cascade Model(CM)与MAB结合的文章扩展而来。简单来说,CM假设用户从上到下查看列表结果,一旦找到一个满意的结果,点击之后就结束了整个浏览过程。CM的核心就是整个列表有一个点击。虽然这个模型非常流行,也是最简单的用户点击模型,但用户只有一个点击的假设明显不符合现实情况。于是DCM就把CM扩展到了多个点击的情况。

DCM的假设,是用户有一定概率被某个物品所吸引,然后点击离开;也可以点击之后继续浏览;除此之外,用户也可以不被吸引而选择离开。相比CM,DCM更能反映现实,但参数也更多,更难学习。基于DCM的MAB,是把点击模型和MAB结合起来,从而为用户提供一个列表结果。用户按照DCM的假设和这组排序结果交互,产生一个或者多个点击。点击虽然是可见的,但是真正的Reward是不可见的。于是整个问题就是如何在和系统的长期交互中最大化Reward,并且能够估计DCM的一些参数。整个算法比较容易理解。和其他MAB的论文一样,文章大部分的篇幅是证明。虽然这篇文章没有比较复杂的实验,但其基本思路对做推荐系统的研究人员应该有一定的启发。

精选