电商商品嵌入表示分类方法

引用本文

龙柏, 曾宪宇, 李徵, 刘淇. 电商商品嵌入表示分类方法[J]. 山东大学学报(工学版), 2018, 48(3): 17-24,33. DOI: 10.6040/j.issn.1672-3961.0.2017.411.

LONG Bai, ZENG Xianyu, LI Zhi, LIU Qi. Item embedding classification method for E-commerce[J]. Journal of Shandong University (Engineering Science), 2018, 48(3): 17-24,33. DOI: 10.6040/j.issn.1672-3961.0.2017.411.

基金项目

国家自然科学基金资助项目(No. 61403358, 61672483, U1605251)；中科院青年创新促进会会员专项基金资助项目(会员编号2014299)

作者简介

龙柏(1980—)，男，安徽桐城人，高级工程师，博士，主要研究方向为高性能计算，数据挖掘及其应用. E-mail: blong@ustc.edu.cn

通讯作者

刘淇(1986—)，男，山东临沂人，副教授，博士，主要研究方向为数据挖掘与知识发现、机器学习方法及其应用.E-mail: qiliuql@ustc.edu.cn

文章历史

收稿日期：2017-05-17
网络出版时间：2018-01-25 16:21:03

Contents Abstract Full text Figures/Tables PDF

电商商品嵌入表示分类方法

龙柏¹, 曾宪宇¹, 李徵^1,2, 刘淇¹

1. 中国科学技术大学计算机科学与技术学院大数据分析与应用安徽省重点实验室，安徽合肥 230000;
2. 中国科学技术大学软件学院，安徽合肥 230000

收稿日期：2017-05-17；网络出版时间：2018-01-25 16:21:03

基金项目：国家自然科学基金资助项目(No. 61403358, 61672483, U1605251)；中科院青年创新促进会会员专项基金资助项目(会员编号2014299)

作者简介：龙柏(1980—)，男，安徽桐城人，高级工程师，博士，主要研究方向为高性能计算，数据挖掘及其应用. E-mail: blong@ustc.edu.cn

通讯作者：刘淇(1986—)，男，山东临沂人，副教授，博士，主要研究方向为数据挖掘与知识发现、机器学习方法及其应用.E-mail: qiliuql@ustc.edu.cn

摘要：借鉴近些年来在自然语言处理领域卓有成效的一种词嵌入模型word2vec，提出两种商品嵌入表示模型item2vec和w-item2vec。提出的两种模型通过对用户在每次购买时对商品的比较和选择行为进行建模，将商品表示为一个低维空间的向量，该向量可以有效地对不同商品之间的关系和性质进行度量。应用这一性质，使用item2vec和w-item2vec得到的向量对商品进行分类，试验结果表明：在仅使用10%数据训练的基础上，w-item2vec对商品分类的准确率可以接近50%。两种模型分类准确性均显著优于其他模型。

关键词：电子商务商品分类商品嵌入词嵌入行为建模

Item embedding classification method for E-commerce

LONG Bai¹, ZENG Xianyu¹, LI Zhi^1,2, LIU Qi¹

1. Anhui Province Key Laboratory of Big Data Analysis and Application, School of Computer Science and Technology, University of Science and Technology of China, Hefei 230000, Anhui, China;
2. School of Software Engineering, University of Science and Technology of China, Hefei 230000, Anhui, China

Abstract: Inspired by the Word Embedding Model word2vec, which proved higly successful in the field of Natural Language Processing in recent years, two Item Embedding models item2vec and w-item2vec were proposed. By modeling users' behaviour sequences, both item2vec and w-item2vec projected the items to distributed representations in vector space. The vectors of items represented the properties of items and could be used to measure the relations between items. By means of this property, we could categorize products effectively and efficiently. Experimental results showed that methods were conducted on a real-world dataset and w-item2vec achieved an accuracy of nearly 50% for item categorization by using only 10% of the items for training. Two proposed models outperformed other methods obviously.

Key words: E-commerce item categorization item emebedding word embedding behavior modeling

0 引言

随着电子商务经济的飞速发展，以淘宝、京东等为代表的电子商务平台正逐渐成为人们生活中不可缺少的一部分，据2016年《中国电子商务报告》显示，该年度电商交易总额达到26.1万亿元人民币^[1]。琳琅满目的商品在丰富人们的消费生活的同时也给电商网站的后台和管理带来了一定的困难和挑战，传统的使用人工标注的方式对商品进行类别划分的方法已经不再适用，需要用一种自动化的手段对商品类别进行有效的标注。一种常见的标注方法是使用商品的文字描述对商品类别进行划分^[2-5]。利用文字描述信息时通常的做法是首先对文字描述做分词处理，然后根据描述词得到商品的特征从而对不同的商品进行分类，例如，文献[2]提出一个层次化的分类模型，该模型首先使用简单的分类器将商品进行粗粒度的分类，接下来在每个大类中对不同类型的商品进行划分，同时该方法能够自动生成一个层次化的目录树。文献[3]认为错分类会带来商家销售利润的降低，提出以最大化收益损失为准则的目录树生成方法。这些方法在商品的文本语料充足的情况下能够较准确的对商品类别进行划分，但是在缺失文本信息或者文本描述不准确时会对准确性造成影响。这种分类方式的准确性非常依赖商品文字描述的准确性以及从描述词生成特征的方法，因此若商品的文字描述错误、不当或者生成特征的方式不准确, 分类的准确性将会受到较大影响。另一方面，近些年来图像处理技术的飞速发展使得结合图像信息的分类方法成为可能^[6-7]，然而由于图像处理的复杂性以及商品图片的多样性，从图像中提取高效特征并对商品做出高准确率分类仍面临巨大挑战。

随着用户量的急速增加，电商网站在其后台也逐渐积累了海量的用户行为日志，其中记录用户在网站上何时对哪些商品进行操作(点击、购买等)，这些结构化的用户日志中包含着多样的用户行为模式和商品特征^[8]，本研究的内容是充分地利用这些用户行为日志中包含的特征和模式进行自动化地商品分类，在保证较高正确率的情况下极大的减少人工标注量, 降低人力成本。其中，所借鉴的词嵌入表示方法是自然语言理解领域里一个基础且重要的工作^[9]，其目的是将单词表示为一个高维空间中的向量，使该向量能够有效地表示词语之间的关系，例如文献[10-11]提出一种词向量表示方法word2vec, 在自然语言处理领域训练的高效性和单词表示的有效性已经广泛地研究和讨论, 同时在其他领域内也有研究者尝试利用word2vec对领域内相关问题进行建模和研究^[12-14]。在社交网络和图相关的研究中，文献[12]将图中的节点看做单词，将通过随机游走产生的节点序列看作自然语言中的句子，在此基础上应用word2vec模型将节点用向量进行表示，该节点向量可以用在社交网络中社团发现、节点相关性度量之类的任务上并取得很好的效果；文献[14]将嵌入表示学习的方法应用在搜索引擎的查询改写中，也取得了很好的效果。

在对用户行为进行建模前，首先对用户的操作行为进行session阶段划分，一个session表示用户在某个时间段内的商品操作情况；接下来，通过借鉴自然语言领域内卓有成效的词嵌入(word embedding)方法，提出两种商品的嵌入表示(item embedding)模型item2vec和w-item2vec。假设在用户的一个购买周期内出现的商品大都是一个类别的，item2vec和w-item2vec建立一个映射模型，该模型从用户序列中学习得到商品之间的关系并将商品投影到一个统一的特征空间中。不同商品之间的结构化关系能够在该高维空间中被有效地保存下来，例如相似的商品在该空间中相距也较近；最后，可以使用得到的商品向量作为特征利用经典的分类方法(例如逻辑回归^[15]，支持向量机^[16]等), 高效地对商品进行类别划分。

1 问题场景与定义 1.1 问题场景

用户在电商购物网站上购物时, 会对许多商品进行浏览和点击，这些浏览和点击序列通常会被电商网站的后台作为日志记录以提升用户的使用体验。表 1为Tmall网站在后台记录的用户行为数据日志示例，共包含5个字段，分别为用户(User)记录用户ID、商品(Item)记录商品ID、商品类别(Category)记录商品所属类别、用户操作类型(Action)记录用户的操作、时间戳(Timestamp)记录用户操作的时间点，其中Action字段共包含点击(Click)、收藏(Collect)、放入购物车(Cart)、购买(Buy)4种不同的操作类型。这些用户行为日志完整的记录了用户在网站上的操作情况，对于用户意图的挖掘、商品属性研究等具有重要作用。

表 1 日志数据示例 Table 1 Log data samples

用户在浏览电商网站时，通常是带有购买某种或某类商品的目的性，因此其在一定时间段内进行操作的商品有较大的概率是同种或同类的商品，为了更好地利用这一性质, 首先对用户的操作序列进行不同session的划分，在每个session中，用户具有一个消费意图。例如，用户想要购买手机时，浏览或操作的商品是不同的手机品牌或者其他周边商品。在session的划分原则上，本研究采用在搜索引擎研究中常用的按照时间段的划分方法^[17]。针对用户某两次在时间上连续的操作，如果其间隔时间大于某个阈值，则将其划分到两个不同的session中。在进行session的划分处理后，即可得到用户在不同session的操作序列，如表 2所示，其第一行表示用户u₁的一个session，u₁在这个session中操作的商品依次为a、b、a、a、c，在后续部分，直接使用session的符号表示该session中的商品操作序列，即s₁={a, b, a, a, c}。

表 2 Session示例 Table 2 Session samples

1.2 问题定义和符号说明

在对问题场景进行刻画后，可以将所要解决的问题概括如下：通过用户的行为日志记录挖掘商品之间的潜在关系，将商品投影到特征空间，从而使用商品的特征表示对商品进行有效地聚类或者分类。后续所用到的符号说明见表 3。在后续的模型构建中，均遵循一条假设：用户在一个session中操作的商品大都属于一个类型。在后续的试验部分，也将对该假设进行说明和验证。

表 3 符号说明 Table 3 Summary of notation

2 模型描述

针对上述的问题，在2.1节中，首先建立item2vec模型，item2vec模型考虑到每个session中出现的商品具有相似性，借鉴word2vec的方法建模该相似性得到商品的向量表示。进一步，2.2节中在item2vec的基础上，增加在每个session中商品出现次数的影响，建立weight-item2vec(w-item2vec)模型，得到更精确地商品向量表示。

2.1 item2vec

item2vec模型基于在同一session中出现的商品在类别上具有相似性这一假设，通过建模该相似性关系将商品映射到特征空间中，使得类别相似的商品在空间距离的度量上也相似。接下来将对item2vec进行具体说明，在2.1.1节中介绍如何将Skip-Gram模型引入到session的建模中，在2.1.2中介绍如何使用负采样进行快速的求解。

2.1.1 Skip-Gram

Skip-Gram模型是自然语言处理领域中一个经典的语言模型^[18]，其假设一个句子中出现在词w周围的词语的条件概率是相互独立的，在已知w的情况下通过最大化w的上下文词语的条件概率来构建语言模型，形式化描述如下：

$ r\left( {{\rm{Context}}\left( w \right)|w} \right) = \prod\limits_{{w_i} \in {\rm{Context}}\left( w \right)} {\Pr \left( {{w_i}{\rm{|}}w} \right)} , $

式中：Context(w)表示w在句子中相邻小于一定间隔的词语, Pr表示条件概率。

在商品分类的任务中，记一个session序列s中出现在商品集合为C_s={p₁, p₂, p₃, ...}，同样可以有类似Skip-Gram的假设, 在已知s中存在商品p_i的情况下，s中出现其他商品的条件概率是相互独立的。因此可以得到：

$ \Pr \left( {{\rm{Set}}\left( s \right)|{\mathit{\boldsymbol{p}}_i}} \right){\rm{ = }}\prod\limits_{{p_j} \in {\rm{Set}}\left( s \right)} {\Pr \left( {{\mathit{\boldsymbol{p}}_j}{\rm{|}}{\mathit{\boldsymbol{p}}_i}} \right)} , $

(1)

将商品p在商品p_i所在的session出现的条件概率用如下softmax函数的方式表示

$ \Pr \left( {\mathit{\boldsymbol{p}}|{\mathit{\boldsymbol{p}}_i}} \right){\rm{ = }}\frac{{\exp \left( {\mathit{\boldsymbol{p}}_i^{\rm{T}}\mathit{\boldsymbol{p'}}} \right)}}{{\sum\limits_{{p_c} \in P} {\exp \left( {\mathit{\boldsymbol{p}}_i^{\rm{T}}{{\mathit{\boldsymbol{p'}}}_c}} \right)} }}, $

(2)

式中：p′表示商品p作为式(4)的条件概率中被预测商品时的向量表示，其与p作为已知商品时的向量表示是不同的。

最终，将式(1)扩展到所有的可以得到在所有的session中可以得到使用Skip-Gram模型对session进行建模后的优化算式

$ \arg \;\min \;{\rm{Opt = }} - \log \prod\limits_{{s_k} \in {S_{pi}}, } {\prod\limits_{{\mathit{\boldsymbol{p}}_j} \in {\rm{Set}}\left( {{s_k}} \right)} {Pr\left( {{\mathit{\boldsymbol{p}}_j}|{\mathit{\boldsymbol{p}}_i}} \right) = - \sum\limits_{{s_k} \in {S_{pi}}, } {\sum\limits_{{p_j} \in {\rm{Set}}\left( {{s_k}} \right)} {\log \frac{{\exp \left( {\mathit{\boldsymbol{p}}_i^{\rm{T}}\mathit{\boldsymbol{p'}}} \right)}}{{\sum\limits_{{p_c} \in P} {\exp \left( {\mathit{\boldsymbol{p}}_i^{\rm{T}}\mathit{\boldsymbol{p'}}} \right)} }}, } } } } $

(3)

通过最小化式(3)，可以得到每个商品在向量空间表示，从而对商品进行有效的分类。然而，由于商品数量通常是极大(＞10⁴)的，导致式(2)的计算非常耗时，因此对式(3)直接进行优化通常是不可取的，在本文中使用负采样^[19]的方式对式(3)进行求解。

2.1.2 负采样

利用噪声对抗估计(noise contrastive estimation，NCE)对上下文词语的条件概率进行替换的方法已应用在训练神经语言模型的任务中^[20-21]，同时，通过负采样(Negative Sampling)来对词向量的训练进行加速的方式也运用在word2vec中^[10]。在item2vec模型中，负采样的原理是通过区分正样本(同类商品，在一个session中出现)出现概率和负样本的(不同类商品，在不同的session中出现)出现概率来代替式(2)中面对海量的商品时耗时的计算。

式(3)的目的是在已知session中存在某商品时, 最大化其他商品出现的条件概率。在采用负采样求解时，商品对(p, p_i)存在于session s中的概率为Pr((p_i, p)∈s|p, p_i)=$\frac{1}{{1 + \exp \left( { - \mathit{\boldsymbol{p}}_i^{\rm{T}}\mathit{\boldsymbol{p'}}} \right)}}$，不存在的概率为Pr((p_i, p)∉s|p, p_i)=1-Pr((p_i, p)∈s|p, p_i)=$\frac{1}{{1 + \exp \left( { - \mathit{\boldsymbol{p}}_i^{\rm{T}}\mathit{\boldsymbol{p'}}} \right)}}$，记σ(x)=$\frac{1}{{1 + \exp \left( x \right)}}$则可以采用式(4)代替式(2)。

$ NS\left( {s, {\mathit{\boldsymbol{p}}_i}} \right) = \prod\limits_{p{ \in _{{\rm{Set}}}}\left( s \right)} {\sigma \left( {\mathit{\boldsymbol{p}}_i^{\rm{T}}\mathit{\boldsymbol{p}}} \right)} \prod\limits_k {\sigma \left( { - \mathit{\boldsymbol{p}}_i^{\rm{T}}{\mathit{\boldsymbol{p}}_n}} \right), } $

(4)

式中：p_n为所有商品集合中按照某种分布随机抽样选取的不属于s的商品，共选取k次，在实践中按照商品的热门程度进行抽样，越热门的商品被选为负样本的概率越高。

最终使用负采样得到的优化目标为

$ \begin{array}{l} \arg \min {\rm{Opt = log}}\prod\limits_{{s_k}} {\prod\limits_{{p_j} \in {\rm{Set}}\left( {{s_k}} \right)} {\Pr \left( {{\mathit{\boldsymbol{p}}_j}|{\mathit{\boldsymbol{p}}_i}} \right)} } = \\ - \sum\limits_{{s_k} \in {S_{pi}}, } {\sum\limits_{{p_j} \in {\rm{Set}}\left( {{s_k}} \right)} {\left( {\log \;\sigma \left( {\mathit{\boldsymbol{p}}_i^{\rm{T}}\mathit{\boldsymbol{p'}}} \right) + \sum\limits_k {\log \;\sigma \left( { - \mathit{\boldsymbol{p}}_i^{\rm{T}}{{\mathit{\boldsymbol{p'}}}_n}} \right)} } \right)} , } \end{array} $

(5)

对式(5)可以采用随机梯度下降法进行求解，商品p_i的梯度为

$ \frac{{\partial {\rm{Opt}}}}{{\partial {p_i}}} = - \sum\limits_{p' \in {\rm{Set}}\left( s \right)} {\sigma \left( {\mathit{\boldsymbol{p}}_i^{\rm{T}}\mathit{\boldsymbol{p'}}} \right)} \mathit{\boldsymbol{p'}} - \sum\limits_k {\sigma \left( { - \mathit{\boldsymbol{p}}_i^{\rm{T}}{{\mathit{\boldsymbol{p'}}}_n}} \right)} {{\mathit{\boldsymbol{p'}}}_n}, $

正样本对应的p′梯度为

$ \frac{{\partial {\rm{Opt}}}}{{\partial {p_i}}} = - \sigma \left( {\mathit{\boldsymbol{p}}_i^{\rm{T}}\mathit{\boldsymbol{p'}}} \right){{\mathit{\boldsymbol{p}}}_i}, $

负样本对应的p′_n梯度为

$ \frac{{\partial {\rm{Opt}}}}{{\partial {\mathit{\boldsymbol{p}}_i}}} = - \sigma \left( {\mathit{\boldsymbol{p}}_i^{\rm{T}}{{\mathit{\boldsymbol{p'}}}_n}} \right){{\mathit{\boldsymbol{p'}}}_n}。$

2.2 w-item2vec

在item2vec的模型中，通过假设一个session中出现的商品具有相同的类别建模，同时使用负采样的方式求解。然而在实际的session序列中，通常用户操作的商品中有较大一部分属于同一类，其他为相关或者相似的商品。例如，用户在想要购买手机时，除了会浏览许多不同品牌和型号的手机外，可能还会顺便点击手机壳、耳机等相关商品，这构成item2vec建模的噪声。

用户在一个session中可能浏览多个类型的商品，其中出现次数较多的商品应当属于同一类，出现次数较少可能是相关商品。基于这种假设，提出改进的w-iten2vec模型，通过在item2vec中增加商品在session中出现的次数作为权重因子，提升模型的准确度。

具体来说，w-item2vec将式(4)修正为如下形式

$ {\rm{NS}}\left( {s, {\mathit{\boldsymbol{p}}_i}} \right) = {\left( {\prod\limits_{p \in {\rm{Set}}\left( s \right)} {{\sigma ^{\mathit{\Theta }\left( {s, p} \right)}}\left( {\mathit{\boldsymbol{p}}_i^{\rm{T}}p'} \right)} \prod\limits_k {\sigma \left( { - \mathit{\boldsymbol{p}}_i^{\rm{T}}{{p'}_n}} \right)} } \right)^{\mathit{\Theta }\left( {s, {p_i}} \right)}}, $

(6)

从式(6)可以看到，w-item2vec通过将出现次数多的商品进行加权的方法来减少噪声的影响，可以得到其优化目标为

$ \begin{array}{l} \arg \min {\rm{Opt = }} - {\rm{log}}\prod\limits_{{s_k} \in S,} {\prod\limits_{{p_j} \in {\rm{Set}}\left( {{s_k}} \right)} {{\rm{NS}}\left( {s, {p_i}} \right)} } = \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\; - \sum\limits_{{s_k} \in S, } {\sum\limits_{{p_j} \in {\rm{Set}}\left( {{s_k}} \right)} {\mathit{ \varTheta}\left( {s, {\mathit{\boldsymbol{p}}_i}} \right)\left( {\sum\limits_{p \in {\rm{Set}}\left( s \right)} {\mathit{\varTheta}\left( {s, p} \right)\log \;\sigma \left( {\mathit{\boldsymbol{p}}_i^{\rm{T}}\mathit{\boldsymbol{p'}}} \right)} +\\ \sum\limits_k {\log \;\sigma \left( { - \mathit{\boldsymbol{p}}_i^{\rm{T}}{{\mathit{\boldsymbol{p'}}}_n}} \right)} } \right)} , } \end{array} $

(7)

同样可以按照梯度下降的方式对式(7)求解。

3 试验 3.1 数据处理 3.1.1 数据集

本研究使用阿里巴巴集团天池平台的比赛所提供的离线数据集对试验进行验证。该数据集是提供2万名用户在移动端的行为数据，其中包含百万级的商品信息以及超过2 000万行的用户操作记录，其格式见表 1。表 4是对该数据的一些统计分析结果。从表 4中可以看到，电商网站在运营过程中积累海量的商品和用户行为信息，充分的利用这些行为信息将会对商品的有效分类形成极大助力。同时，图 1显示本研究中使用的电商网站数据集中商品出现的次数分布和英语语料中单词出现次数分布的对比。

表 4 数据统计 Table 4 Statistics of dataset

图 1 电商网站商品出现次数的分布和英语语料中单词出现次数分布 Figure 1 The distribution of the item and word shown times in the E-commerce website

由图 1可以看到，两者有着很强的相似性：在双对数坐标系中均为线性；呈现着长尾分布的特征，有很多商品/单词出现的次数极少。这些相似性质为item2vec模型的有效性提供了有力的支持。

3.1.2 预处理

首先对试验数据进行预处理，过滤掉出现次数小于50的商品，接下来进行session的划分，经过试验和比较，选择12 h作为session的划分间隔，即如果两个商品操作的时间间隔大于12 h，它们就被分在两个不同的session中。在划分session后，对长度小于10和大于100的session进行过滤，因为较短的sesion可能带有较大随机性，较长的session很可能是爬虫的记录。表 5列出在进行预处理后的一些数据统计。可以看到，在划分session之后，session的平均长度为26.1，而其中平均有5.7个类，这说明本研究建立item2vec模型的假设具有合理性。

表 5 预处理后的相关数据 Table 5 Statistics of dataset after preprocessing

3.2 试验设置

本研究试验软硬件环境如下：Intel Xeon(R) E5-2630 v4 @ 2.20 GHz CPU，256 GB内存，Linux Debian 64位操作系统。

在试验中，除了实现提出的item2vec和w-item2vec模型外，还使用如下3种方法作为对比得到商品的特征向量：

(1) 随机划分(Random)。对商品特征进行随机赋值得到商品的特征向量。

(2) 基于商品的协同过滤(I-CF)^[22]。基于协同过滤是推荐系统中经典的方法，其假设同一用户选择的商品具有相似性。因此本研究中按照基于商品的协同过滤方法使用用户作为商品的特征。

(3) 概率矩阵分解(PMF)^[23]。PMF也是推荐系统中的一种经典方法，其通过分解用户的评分矩阵来得到用户和商品向量。本研究中使用PMF对用户对商品的操作矩阵进行分解，得到商品的特征向量

对于得到的特征向量，使用逻辑回归分类器^[8]进行训练和预测，以在测试集上的预测准确率为标准对几种方法做出评判。同时，为了验证特征向量维度的影响，试验中将向量维度设置为不同取值分别进行试验。

3.3 结果分析

首先从分类结果的准确性对提出的两种模型和3种对比方法进行比较，接下来分析比较提出的两种模型的参数敏感性。

3.3.1 分类准确性

为了验证模型分类的准确性，首先将item2vec，w-item2vec和PMF的投影向量维度均被设置为100，同时使用两种指标进行衡量，分别是

(1) 分类准确率(Accuracy)：计算公式为acc=$\frac{{{\rm{\# True}}}}{{\# {\rm{All}}}}$，式中：#True为被正确分类的商品数，#All为所有的商品数。

(2) F1-macro：表示每一类分类结果F1得算术平均，即F1-macro=$\frac{{\sum\limits_M {{F_i}} }}{M}$，式中：F_i表示第i个类的F1，M表示类别个数。

表 6中是几种方法在分类准确性上的试验结果。首先可以看出，在几种对比方法中，随机方法结果显然不具有任何效果, 因为其没有用到任何信息；本研究提出的w-item2vec模型在准确度Accuracy和F1-macro上的结果均显著优于其他方法，说明所提出模型的合理性；在训练集比例较小时，item2vec在Accuracy上也取得不错的效果，但是训练集比例的增大对item2vec的增益较小；与之相反，随着训练集比例的增大，I-CF在两种指标上都有很大的提升，这可能是由于user-item矩阵的稀疏性，在直接使用用户作为特征时，I-CF更能刻画出商品数较少的类别的特征；另一方面，PMF方法将user-item矩阵进行分解，随着训练集的提升，在两种指标上的提升都不大，说明这种方法仅能刻画部分商品的特征。

表 6 各个方法的在测试集上的分类结果比较 Table 6 Performance comparison among each method on test set

3.3.2 参数敏感性

为了验证投影空间维度对结果的影响，分别将空间维度设置为25，50，75，100，125，150，计算不同情况下在不同比例训练集情况下的分类准确率，结果见图 2。

图 2 向量空间维度的影响 Figure 2 The influence of vector space dimension

从结果可以看到，特征维度对分类准确性的影响跟使用训练集的比例有关，在不同的训练集比例时，对item2vec和w-item2vec均存在不同的最优特征空间维度。同时，不同的特征维度对分类结果的影响不大，这说明在空间维度为25时已经能够刻画商品特征。

4 结论

根据商品在用户操作序列中的共现关系，提出item2vec模型将商品表示为特征空间的向量形式。item2vec将在性质和类别上相似的商品表示为特征空间中相距较近的向量，使用商品的嵌入特征向量可以很好地对商品进行分类。考虑权重信息和用户商品序列中不同商品之间出现次数所带来的影响，提出的w-item2vec，w-item2vec能够更好地模拟商品特征。在Tmall网站提供的真实数据集上进行试验，试验证明所提出模型的有效性。

在未来工作中，研究如何将更多不同类型的信息综合考虑到模型之中。例如：(1)将用户的点击、收藏等不同操作行为区分考虑；(2)用户在不同时间段具有不同的行为模式，对这些不同的行为模式分别进行建模。

参考文献

[1]	中华人民共和国商务部: 中国电子商务报告(2016)[EB/OL]. (2017-06-14)[2017-06-28]. http://images.mofcom.gov.cn/dzsws/201706/20170621110205702.pdf
[2]	SHEN D, RUVINI J D, SARWAR B. Large-scale item categorization for e-commerce[C]//Proceedings of the 21st ACM International Conference on Information and Knowledge Management. Hawaii, USA: ACM, 2012: 595-604. http://dl.acm.org/citation.cfm?id=2396838
[3]	CHEN J, WARREN D. Cost-sensitive learning for large-scale hierarchical classification[C]//Proceedings of the 22nd ACM International Conference on Information and Knowledge Management. San Francisco, USA: ACM, 2013: 1351-1360. http://dl.acm.org/citation.cfm?id=2505515.2505582&coll=DL&dl=GUIDE
[4]	DEKEL O, KESHET J, SINGER Y. Large margin hierarchical classification[C]//Proceedings of the 21st International Conference on Machine Learning. Banff, Canada: ACM, 2004: 27. http://dl.acm.org/citation.cfm?id=1015374
[5]	DAS P, XIA Y, LEVINE A, et al. Large-scale taxonomy categorization for noisy product listings[C]//Proceedings of IEEE International Conference on Big Data. Honolulu, USA: IEEE, 2017: 3885-3894. http://ieeexplore.ieee.org/document/7841063/
[6]	DIMITROVSKI I, KOCEV D, KITANOVSKI I, et al. Improved medical image modality classification using a combination of visual and textual features[J]. Computerized Medical Imaging and Graphics, 2015, 39(1): 14-26
[7]	RUSSAKOVSKY O, DENG J, SU H, et al. Imagenet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252 DOI:10.1007/s11263-015-0816-y
[8]	LIU Q, ZENG X, ZHU H, et al. Mining indecisiveness in customer behaviors[C]// Proceedings of IEEE International Conference on Data Mining. Barcelona, Spain: IEEE, 2016: 281-290. http://doi.ieeecomputersociety.org/10.1109/ICDM.2015.78
[9]	HINTON G E, MCCLELLAND J L, RUMELHART D E. Distributed representations[M]. New York, USA: Encyclopedia of Cognitive Science. John Wiley & Sons, Ltd, 2006: 77-109.
[10]	MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems, 2013, 26(1): 3111-3119
[11]	MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[C]// Proceedings of International Conference on Learning Representations. Scottsdale, USA: ICLR, 2013: 1-12. http://arxiv.org/abs/1301.3781
[12]	PEROZZI B, Al-RFOU R, SKIENA S. Deepwalk: Online learning of social representations[C]//Proceedings of the 20th ACM International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM, 2014: 701-710. http://dl.acm.org/citation.cfm?id=2623732
[13]	GROVER A, LESKOVEC J. node2vec: Scalable feature learning for networks[C]//Proceedings of the 22nd ACM International Conference on Knowledge Discovery and Data Mining. San Francisco, USA: ACM, 2016: 855-864. http://europepmc.org/articles/PMC5108654/table/T5/
[14]	GRBOVIC M, DJURIC N, RADOSAVLJEVIC V, et al. Context-and content-aware embeddings for query rewriting in sponsored search[C]//Proceedings of the 38th International ACM Conference on Research and Development in Information Retrieval. Santiago, Chile: ACM, 2015: 383-392. http://dl.acm.org/citation.cfm?id=2767709&CFID=536221468&CFTOKEN=38040895
[15]	PRESS S J, WELSON S. Choosing between logistic regression and discriminant analysis[J]. Journal of the American Statistical Association, 1978, 73(364): 699-705 DOI:10.1080/01621459.1978.10480080
[16]	SUYKENS J A K, VANDEWALLE J. Least squares support vector machine classifiers[J]. Neural Processing Letters, 1999, 9(3): 293-300 DOI:10.1023/A:1018628609742
[17]	JANSEN Bernard J, SPINK A, BLAKELY C, et al. Defining a session on web search engines: research articles[J]. Journal of the American Society for Information Science and Technology, 2007, 58(6): 862-871 DOI:10.1002/(ISSN)1532-2890
[18]	GUTHRIE D, ALLISON B, LIU W, et al. A closer look at skip-gram modelling[C]//Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC-2006). Genoa, Italy: ELRA, 2006: 1-4. https://www.researchgate.net/publication/266863668_A_Closer_Look_at_Skip-gram_Modelling
[19]	GUTMANN M U, HYVÄRINEN A. Noise-contrastive estimation of unnormalized statistical models, with applications to natural image statistics[J]. Journal of Machine Learning Research, 2012, 13(2): 307-361
[20]	MNIH A, TEH Y W. A fast and simple algorithm for training neural probabilistic language models[C]//Proceedings of International Coference on International Conference on Machine Learning. Omnipress, Scotland: PMLR, 2012: 419-426. http://dl.acm.org/citation.cfm?id=3042630
[21]	MNIH A, KAVUKCUOGLU K. Learning word embeddings efficiently with noise-contrastive estimation[C]//Proceedings of Advances in Neural Information Processing Systems. Lake Tahoe, USA: NIPS, 2013: 2265-2273. http://dl.acm.org/citation.cfm?id=2999865
[22]	SARWAR B, KARYPIS G, KONSTAN J, et al. Item-based collaborative filtering recommendation algorithms[C]//Proceedings of the 10th International Conference on World Wide Web. Hong Kong, China: ACM, 2001: 285-295. http://dl.acm.org/citation.cfm?id=372071
[23]	MNIH A, SALAKHUTDINOV R R. Probabilistic matrix factorization[C]// Proceedings of Advances in Neural Information Processing Systems. Whistler, Canada: NIPS, 2008: 1257-1264. http://dl.acm.org/citation.cfm?id=2981720