Word2vec原理及参数详解

Word2Vec有两种主要的模型架构：连续词袋模型（Continuous Bag of Words，简称CBOW）和跳字模型（Skip-gram）。训练Word2Vec的核心目标是通过调整单词向量的权重，使得模型能够最小化实际上下文单词的预测误差，得到的词向量可用于文本分类、文本相似度、推荐等下游任务。通过多次迭代，模型将学习到单词向量，这些向量在向量空间中能够捕获单词之间的语义关系，使得具有相似

Python风控模型与数据分析

3208人浏览 · 2023-08-30 10:00:00

Python风控模型与数据分析 · 2023-08-30 10:00:00 发布

一、原理介绍

Word2Vec有两种主要的模型架构：连续词袋模型（Continuous Bag of Words，简称CBOW）和跳字模型（Skip-gram）。训练Word2Vec的核心目标是通过调整单词向量的权重，使得模型能够最小化实际上下文单词的预测误差。通过多次迭代，模型将学习到单词向量，这些向量在向量空间中能够捕获单词之间的语义关系，使得具有相似语义的单词在向量空间中距离较近。

1、CBOW

在CBOW模型中，给定上下文单词，目标是预测中心单词。例如，对于句子 "Thou shalt not make a machine in the likeness of a human mind"，如果我们将上下文大小设置为1，那么对于中心单词 "machine"，上下文单词可以是 ["a", "in"]。

结合上图，CBOW训练过程如下：

① 输入层（Input layer）：目标单词上下文的单词，每个单词用ont-hot编码表示，为[1 * V]大小的矩阵，V表示词汇大小；

② 所有的ont-hot矩阵乘以输入权重矩阵W，W是[V * N]大小的共享矩阵，N是指输出的词的向量维数；

③ 将相乘得到的向量（[1 * V] 的ont-hot矩阵乘上[V * N]的共享矩阵W）相加，然后求平均作为隐层向量h，大小为[1 * N]；

④ 将隐层向量h乘以输出权重矩阵W'，W'是[N * V]大小的共享矩阵；

⑤ 相乘得到向量y，大小为[1 * V]，然后利用softmax激活函数处理向量y，得到V-dim概率分布；

⑥ 由于输入的是ont-hot编码，即每个维度都代表着一个单词，那么V-dim概率分布中，概率最大的index所指代的那个单词为预测出的中间词。

⑦ 将结果与真实标签的ont-hot做比较，误差越小越好，这里的误差函数，即loss function一般选交叉熵代价函数。

以上为CBOW生成词向量的全过程。如果我们只是想提取每个单词的向量，那么只需要得到向量y就可以了，但训练过程中要去做预测并计算误差，去求得输入权重矩阵W和输出权重矩阵W'。

2、Skip-gram

在Skip-gram模型中，目标是给定中心单词，预测其周围的上下文单词。

如上图所示，Skip-gram和CBOW模型的训练区别主要在输入层和隐层，Skip-gram输入层仅中心词的one-hot向量、隐藏层也就不需要再进行平均操作。

过程如下：

① 输入层（Input layer）：将中心单词用ont-hot编码表示，为[1 * V]大小的矩阵

② 中心词ont-hot向量乘以输入权重矩阵W得到大小为[1 * N]的隐藏层向量h，W是[V * N]大小的共享矩阵，N是指输出的词的向量维数；

之后就和CBOW一致了

③ 将隐层向量h乘以输出权重矩阵W'，W'是[N * V]大小的共享矩阵；

④相乘得到向量y，大小为[1 * V]，然后利用softmax激活函数处理向量y，得到V-dim概率分布；

⑤由于输入的是ont-hot编码，即每个维度都代表着一个单词，那么V-dim概率分布中，概率最大的index所指代的那个单词为预测出的上下文单词。

⑥ 将结果与真实标签的ont-hot做比较，误差越小越好，这里的误差函数，即loss function一般选交叉熵代价函数。