Embedding是什么

Embedding是一种将离散的符或对象映射到连续向量空间技术。在自然语言处理领域中,Embedding常用于将单词或句子为向量形式,以便计算机可以更好地理解和处理文本数据。

通过使用Embedding,我们可以将每个单词或句子表示为一个固定长度的向量,其中每个维度代表了某种语义特征。这种连续向量表示可以捕捉到单词之间的语义关系,例如相似性和相关性。通过将文本转换为向量表示,我们可以在机器学习和深度学习模型中使用这些向量进行文本分类、情感分析、机器翻译等任务。

Embedding的生成可以通过不同的方法实现,如Word2Vec、GloVe和BERT等。这些方法利用了大规模文本数据的统计信息或上下文关系来学习单词或句子的向量表示。这些向量表示可以在训练过程中被学习到,也可以使用预训练好的模型进行迁移学习

参考学习网址

数元灵夺得全球权威Embedding评测榜单开源模型第一名,开放大模型“知识外挂”,赋能AI Native应用开发 - 知乎近日,北京数元灵科技有限公司开源了语义向量(Embedding)模型:DMeta-Embedding,目前位列 MTEB 中文场景开源模型第一(总榜第一名百川只提供 API 服务,暂未开源模型),并在 Pair Classification Average 单项…icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/680400660DmetaSoul 的中文Embedding模型,该模型号称在 MTEB 中文榜单取得开源第一的成绩: https://huggingface.co/DMetaSoul/Dmeta-embedding-zh/blob/main/README_zh.mdicon-default.png?t=N7T8https://huggingface.co/DMetaSoul/Dmeta-embedding-zh/blob/main/README_zh.md

下载模型

ollama pull shaw/dmeta-embedding-zh

检查是否安装成功

测试API请求

Mac/Linux下执行:

curl 'http://localhost:11434/api/embeddings' \
--data '{
  "model": "shaw/dmeta-embedding-zh",
  "prompt": "天空是灰色的"
}'

 Windows下执行:

curl "http://localhost:11434/api/embeddings" ^
--data "{""model"": ""shaw/dmeta-embedding-zh"", ""prompt"": ""天空是灰色的""}"

执行结果

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐