Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba(KDD 2018)

Abstract 本文的贡献是在传统的word2vec基础上,为了减轻数据系数和冷启动问题,将辅助信息和合并到图embedding框架中。为了将辅助信息合并到图embedding中,本文提出了两种方法,离线的实验结果表明包含了辅助信息的方法要由于不包含辅助信息的方法。在淘宝的A/B测试中也验证的模型的有效性和可行性。 Introduction 本文抽取的关键问题是:淘宝上有10亿用户和20亿件商品,如何帮助用户快速找到所需有趣的商品。尽管当前在学术界和工业界各种推荐方法已经取得了成功。淘宝面临的三大技术挑战:大规模、数据稀疏、冷启动问题。为了解决这些问题,淘宝设计了一个两阶段的推荐框架,召回和排序。在召回阶段,为用户生成一组候选的商品集合;在排序阶段,训练一个深度神经网络模型, 根据用户的偏好对候选商品集合排序。每个阶段有不同独特的问题,每个阶段的目标也不同,这也导致了不同的技术解决方案。 去看看~

CoNet: Collaborative Cross Networks for Cross-Domain Recommendation(CIKM 2018)

模型复现: import torch from torch import nn import numpy as np import pandas as pd from torch import nn from torch.nn import functional as F class CoNet(nn.Module): def __init__(self, n_users, n_source_item, n_target_item, n_factors=80): super().__init__() self.user_factors = nn.Embedding(n_users + 1, n_factors, sparse=True) self.source_item_factors = nn.Embedding(n_source_item + 1, n_factors, sparse= 去看看~

Interpreting User Inaction in Recommender System(Recsys 2018)

Abstract 用户与推荐系统的交互有三个方面:浏览,产生点击行为,不作为.在这项工作中,我们在推荐系统中布置了一项调查,根据人类心理上决策理论,中用户和推荐系统的角度解释用户不作为的意义.本文进一步推断用户不作为的原因,并使用离线数据集进行验证,实验表明这种模型能够为推荐系统在用户行为预测等方面为推荐系统提供益处.这篇文章有一些意思,将实证研究和推荐系统结合推断人们不点击推荐系统推荐商品的原因.问卷调查对于周围偏向文科的同学来说不是一个新鲜事,但是”文理结合”这对于我来说还是有一些新鲜感的. Introduction 想想一下实际的业务场景:你的一个朋友向你寻求餐馆推荐.你告诉她附近有一家寿司店, 但是她下周没有去那里.我们需要考虑的是,经过这个事情,对寿司店的偏好是什么?为什么没有选择去你推荐的寿司店呢? * 如果她在一周后再次向你寻求参观推荐,你会再次向她推 去看看~

Explainable Cross-Domain Recommendations through Relational Learning(AAAI 2018)

Abstract 这篇文章是我见到的发表在AAAI上的一篇短论文,本文提出了一种可以生成关于跨领域问题的可解释推荐规则.本文的贡献是:使用关系生成规则,这些规则能够解释为什么把商品推荐给特定用户. 2. 使用用户在不同领域的商品偏好, 不同领域的商品偏好能够为用户提供全新的建议. 为了说明我们的方法确实可行和适用,本文在音乐和电影领域进行了实验. Introduction 本文在开头的部分引出了推荐系统的几大关键问题:推荐准确性,冷启动问题,商品新属性,推荐新颖性与多样性,同时解决一个问题会导致另一个问题,这是一种权衡.在作者看来,这些问题之所以没有得到良好解决的原因是因为当前主流推荐算法似乎被放入了一个黑盒中,算法产生推荐结构后,很难解释为什么会对一组数据输入给出这个推荐结果.如果我们能够理解推荐背后的原因,我们相信我们将能够找到更有效地处理此类问题的方法.如果我们能够理解推荐背后的原因 去看看~

A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems(2015)

Abstract 在这项工作中,本文提出了一个基于内容的推荐系统,以解决推荐质量和系统可扩展性.根据用户的浏览历史记录和搜索查询,文章提出了一些能够完美刻画用户的特征表示.本文使用深度学习方法将用户和项目映射到潜在空间,在该潜在空间中用户与其首选项目之间的相似性最大化.引入基于多视图的深度学习模型来学习跨领域和用户特征的项目特征. 该用户的特征表示能够使得模型在没有产生购买交易的情况下,通过它们足够的搜索和历史行为来为用户产生推荐.将不同领域的数据组合成一个单个模型有助于提高所有领域数据下的推荐质量,以及具有更丰富的用户潜在向量表示. Introduction 本文在开始部分指出了协同过滤算法不足之处:在提供高质量推荐之前需要相当多的历史记录.这个问题被称为冷启动问题.因此,传统的CF方法通常无法为新用户提供高质量的推荐.另一方面,基于内容的推荐方法从每个用户和/或项目中提取特征,并使用这 去看看~

Learning to Rank using Gradient Descent

Abstract 本文提出了 RankNet, 引出pairwise排序方法梯度下降法来学习排序. 我们使用神经网络来实现这个 idea本文使用 toy data来测试结果.这是第一篇关于 AUC 优化 pairwise 方法的论文, 虽然已经过去了几年,但是对于初学者的我来说仍然具有很大的意义. Introduction 我们使用神经网络来学习排序函数, 一个常见的例子是搜索引擎排名.对于此问题,数据由一组查询关键字组成,对于每个查询关键字,都包含一组返回的文档.在训练阶段,一些查询关键词/文档对对被标记为相关性(“优秀匹配”,“良好匹配”等).因此所有的数据集中的数据都会参与排名,只有满足召回条件的文档才会参加排名.本文的贡献在于1.不需要向 point wise 那样需要回归预测相关性,而是直接进行排序. 2. 提出 pair wise 的概率代价函数,这种方法不是特定于基础学习算法 去看看~

One The Direct Maximization of Quadratic Weighted Kappa

Preliminaries Quadratic Weighted Kappa最初的原则是用来做评分者信度,评分者信度主要用于小样本检验中, 用于两个评分者对同一批测试者进行测试获得两组检验结果,检测这两组检测结果是否可信, 被广泛用于离散 整数标签(例如测试样本,李克特量表打分等)的机器学习问题. Quadratic Weighted Kappa的一个问题是”等间隔”假设,例如,当评分学生论文的等级从1到5时,1和2之间的差异可能不等于4和5之间的差异。但是 Quadratic Weighted Kappa的先验没有对这种情况进行假设. 标准定义 Quadratic Weighted Kappa(写作\mathcal{k})最初被用以做评分者信度,在这一章节中,我们有两个评分者 A 和 B,分别由 n 个整数评分向量a和b ,有a,b \in \mathbb{L}^ 去看看~

Leveraging Long and Short-term Information in Content-aware Movie Recommendation

Introduction 论文动机:RNN 可以捕捉用户短期的兴趣偏好变化,矩阵分解推荐方法基于用户的长期兴趣进行电影预测,其长期变化相对于时间变化非常缓慢.此外,大多数现有的推荐系统在进行推荐时只考虑用户过去的行为。与语料库中成千上万的电影相比,历史评级集太稀疏,无法学习表现良好的模型.在本文中,我们提出了一种新的LSIC模型,该模型利用对抗性训练在内容感知电影推荐中利用长期和短期信息。LSTC模型采用对抗框架将基于MF和RNN的模型结合起来进行前n个电影推荐,充分利用每个模型提高最终推荐性能.在对抗过程中,我们同时训练两个模型:生成模型G和判别模型D. 生成器的作用是把用户 i 和时间 t 作为输入, 根据用户历史行为为用户 i 在 t 时刻生成推荐列表. 在判别式 D 中结合了长期和基于情景的排名模型(这里不太懂).推荐系统两个重要的数据集:Netflix Prize Contest 去看看~