Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba(KDD 2018)

Abstract 本文的贡献是在传统的word2vec基础上,为了减轻数据系数和冷启动问题,将辅助信息和合并到图embedding框架中。为了将辅助信息合并到图embedding中,本文提出了两种方法,离线的实验结果表明包含了辅助信息的方法要由于不包含辅助信息的方法。在淘宝的A/B测试中也验证的模型的有效性和可行性。 Introduction 本文抽取的关键问题是:淘宝上有10亿用户和20亿件商品,如何帮助用户快速找到所需有趣的商品。尽管当前在学术界和工业界各种推荐方法已经取得了成功。淘宝面临的三大技术挑战:大规模、数据稀疏、冷启动问题。为了解决这些问题,淘宝设计了一个两阶段的推荐框架,召回和排序。在召回阶段,为用户生成一组候选的商品集合;在排序阶段,训练一个深度神经网络模型, 根据用户的偏好对候选商品集合排序。每个阶段有不同独特的问题,每个阶段的目标也不同,这也导致了不同的技术解决方案。 去看看~

面试时候需要做的准备(持续更新~)

快速排序 class Solution { public: const int N = 1e6+10; void quickS(int l, int r, vector &v) { if(l >= r) return; int mid = v[l], i = l – 1, j = r + 1; while(i < j) { do i++; while(v[i] < mid); do j--; while(v[j] > mid); if(i < j) std::swap(v[i], v[j]); } quickS(l, j, v); quickS(j+1, r, v); } vector sortArray(vector& nums) { quickS(0, nums.size() - 1, nums); return nums; } }; KL散度 KL散度不能作为距离,因为不满足距离的对 去看看~

复旦暑期学校有感

学术视野的差距 前两天去了一趟复旦,能感受到好学校和坏学校的在学术视野上面有很大的差距。发现问题比解决问题重要得多,在能力方面的差距可以弥补,但是在学术视野方面如果能够有有格局 视野的导师给你指点是最好不过的,但是TOP 1%的导师都在好学校,更重要的是这波人相互关系还不错…,所以深处偏远地区的我,还是要多多搜集大牛公开的演讲和ppt,买一些大牛的书,借此希望自己的研究能够紧跟时代的步伐,了解到大牛是如何思考和考虑问题的。现在还是先搬砖,了解到大牛的思考逻辑 这样才是解决之道。 一语点醒梦中人 在暑期学校的过程中,老师讲的知识有不少我都自己读在线的pdf了解过,但是理解的不够深刻。这次暑期学习的意义就在于老师只通过只言片语就把我脑中的“知识孤岛”联系在了一起,让我惊叹老师的水平高超。比如在EM算法中,我只是知道要先写Q函数,然后梯度计算求出\theta^{(0)},然后再带入Q函数中。但是 去看看~