一文读懂「Embedding」嵌入技术

Embedding 是一种将高维数据（如文本或图像）转换为较低维度的向量表示的技术。这种表示捕捉了数据的关键特征，使得在处理、分析和机器学习任务中更加高效。通常用于将离散的、非连续的数据转换为连续的向量表示，以便于计算机进行处理。“Embedding”直译是嵌入式、嵌入层。通俗讲，我们常见的地图就是对于现实地理的Embedding，现实的地理地形的信息其实远远超过三维，但是地图通过颜色和等高线等来

女王の专属领地

3623人浏览 · 2024-01-31 14:43:25

女王の专属领地 · 2024-01-31 14:43:25 发布

前言：计算机无法直接处理一个单词或者一个汉字，需要把一个token转化成计算机可以识别的向量，这也就是Embedding过程。

一、什么是Embedding？

🚩拓展了解整数编码和独热编码（one-hot）

Embedding 是一种将高维数据（如文本或图像）转换为较低维度的向量表示的技术。这种表示捕捉了数据的关键特征，使得在处理、分析和机器学习任务中更加高效。通常用于将离散的、非连续的数据转换为连续的向量表示，以便于计算机进行处理。

“Embedding”直译是嵌入式、嵌入层。通俗讲，我们常见的地图就是对于现实地理的Embedding，现实的地理地形的信息其实远远超过三维，但是地图通过颜色和等高线等来最大化表现现实的地理信息。

Embedding 技术将原始数据从高维度空间映射到低维度空间，有助于减少数据的复杂性和计算资源的需求，并提高模型的训练和推理效率；
Embedding 向量是连续的，因此可以在数学上进行操作，如向量加法、减法和点积等。这使得模型能够更好地理解数据之间的关系；
Embedding 技术通常会捕获数据的语义信息。在 NLP 中，这意味着相似的单词或短语在嵌入空间中会更接近，而不同的单词或短语会远离彼此。这有助于模型理解语言的含义和语义关系。
嵌入向量通常是可训练的，它们可以通过反向传播算法与模型一起训练。这意味着嵌入可以适应特定任务和数据集，从而提高模型的性能；
Embedding 技术通常是上下文感知的，它们可以捕获数据点与其周围数据点的关系。在 NLP 中，单词的嵌入会考虑其周围的单词，以更好地表示语法和语义；
Embedding 技术通常将高维数据降维到较低维度，但仍然保留了重要的信息。这有助于减少模型的复杂性，并提高模型的泛化能力。

二、原理说明

在这里插入图片描述
Embedding就是用一个低维稠密的向量表示一个对象（将大型稀疏向量转换为保留语义关系的低维空间）这里的对象可以是一个词（Word2vec），也可以是一个物品（Item2vec），亦或是网络关系中的节点（Graph Embedding）。Embedding向量能够表达对象的某些特征，两个向量之间的距离反映了对象之间的相似性。简单的说，Embedding就是把一个东西映射到一个向量X。如果这个东西很像，那么得到的向量x1和x2的欧式距离很小。

Embedding的本质是信息的聚合和解耦，也就是信息的再表达。如下图所示，前一个是1x4的高维embedding，分别表示猫、狗、花、草四种属性值，后一个是1x2的低维embedding，分别表示动物、植物两种属性值。从高维embedding降维成低维embedding是信息的聚合，猫狗聚合成动物，花草聚合成植物；从低维embedding升维成高维embedding是信息的结构，动物解耦成猫狗，植物解耦成花草。

在这里插入图片描述