智能时代 | 合合信息Embedding模型荣获C-MTEB榜单第一

@每天都要敲代码

10972人浏览 · 2024-04-23 09:05:27

@每天都要敲代码 · 2024-04-23 09:05:27 发布

前言

随着人工智能的不断发展，大语言模型吸引着社会各界的广泛关注，支撑模型应用落地的Embedding模型成为业内的焦点，大模型的发展给我们的生活、工作、学术等领域带来了很多的便利。

自从OpenAI正式发布了人工智能聊天机器人ChatGPT，大模型的火热程度直增，它是能基于语言的交互来完成各类人工智能任务的技术，更好的实现人机交互。但目前在商业落地应用，还没有取得非常理想的效果。近期，上海合合信息科技股份有限公司发布了文本向量化模型acge_text_embedding（“acge”模型）荣获MTEB（Massive Text Embedding Benchmark）中文榜单（C-MTEB）第一的成绩，这一成果将推动大模型更快速地在行业中的领域应用。

1. MTEB与C-MTEB

MTEB（Massive Text Embedding Benchmark）是衡量文本嵌入模型（Embedding模型）的评估指标的合集，是目前业内评测文本向量模型性能的重要参考。主要包括涵盖112种语言的58个数据集，针对如下任务：Clustering、Bitext minin、Retrieval、STS、Summarization、Classificationg、Pair classification、Reranking。

对应的C-MTEB则是专门针对中文文本向量的评测基准，C-MTEB被公认为是目前业界最全面、最权威的中文语义向量评测基准之一，涵盖了分类、聚类、检索、排序、文本相似度、STS等6个经典任务，共计35个数据集，为深度测试中文语义向量的全面性和可靠性提供了可靠的实验平台。目前一些知名的大企业如：阿里、腾讯、商汤等都在C-MTEB榜单测评发布模型。目前acge模型能够很好地处理一些需求：如文本分类、语义相似度计算、情感分析等。

文本分类：使用已经预训练好的Embedding模型来提取文本特征，并通过分类器（如SVM、LR等）对文本进行分类。例如，对于新闻文本，我们可以使用Embedding技术将文本转换为向量，然后利用分类器判断新闻的类别（如体育、科技、娱乐等）。

语义相似度计算：通过计算两个文本的Embedding向量之间的余弦相似度来判断它们之间的语义相似度。例如，在搜索引擎中，当用户输入一个查询词时，我们可以使用Embedding技术计算查询词与库中各个文档的语义相似度，从而返回最相关的文档。

情感分析：利用Embedding技术将文本转换为向量，然后利用机器学习算法（如SVM、神经网络等）对文本进行情感分析，判断文本的情感倾向（如正面、负面、中性）。

2. acge模型的优势

合合信息的acge模型在设计上充分考虑了实际应用的需求。与目前C-MTEB榜单上排名前五的开源模型相比，acge模型在保持高性能的同时，具有更小的模型体积和更低的资源占用，且模型输入文本长度为1024，使其更适用于实际生产环境。此外，模型支持的可变输出维度功能，使得企业可以根据具体场景灵活调整资源分配，进一步优化应用效果。

值得一提的是，acge模型不仅在传统文本处理任务中表现出色，还能在不同场景下构建通用分类模型，提升长文档信息抽取精度，为大模型在多个行业中的快速应用提供了有力支持。这一特性使得acge模型在帮助企业实现数字化转型、提升业务效率等方面具有广阔的应用前景。

合合信息发布的acge模型聚类分数比较高，在企业管理、市场营销、医疗、电商、金融、教育、社交网络、旅游等领域都有广泛的应用。聚类分析可以帮助企业提高营销效果；帮助医生提高诊断效果；帮助金融机构了解客户理财需求，提供更好的金融服务；还可以帮助学校评估教学质量和教师表现。

3. Embedding模型应用

在这个大数据的互联网时代，我们每天都会面对大量的数据，这些数据可能包含着很多无用的干扰信息，如何快速抓住“关键信息”，过滤掉“不相干的无用数据”至关重要！Embedding模型凭借对查询深层含义和上下文的深入解析，极大地提升了搜索与问答的品质、速度和精准度，使得搜索和问答引擎不再局限于文字的简单匹配，而是能够深刻洞察并理解用户的真实意图。以贴近生活的学习为例：

如果我们想要在家中学习自制咖啡，可能会在搜索引擎中输入“家庭咖啡制作方法”。对于传统的搜索引擎只会根据关键字引导，简单的匹配一些文章，这些内容可能只是一些与“咖啡”相关的内容而非实用的教学指南，需要用户自己花时间去筛选！借助Embedding模型，引擎便能更准确地理解用户意图，从而提供包括但不限于“选择咖啡豆”、“磨豆技巧”、“不同的冲泡方法”等更专业且细致的内容。

上图是Embedding模型原理示意图，当我们掌握了这些向量嵌入技术之后，它可以帮我们完成一些更加广泛的任务，如：相似性搜索、聚类与分类、信息检索推荐系统。

相似性搜索：通过比较嵌入之间的相似度，我们可以在自然语言处理（NLP）领域找出内容相近的文档或是互有关联的单词。

聚类与分类：将嵌入作为机器学习模型中的输入特征，帮助算法学会如何将相似的事物归为一组，并对各种对象进行分类。

信息检索：运用向量嵌入，我们可以打造出强大的搜索引擎，快速地根据用户的搜索需求找到他们想要的文档或多媒体内容。

推荐系统：基于用户以往的喜好和行为数据，通过向量嵌入技术为用户个性化推荐商品、文章或其他媒体内容。

4. 大模型发展的关键技术

在大语言模型的应用场景中，定制化的嵌入模型的训练变得尤为重要，其中一个重要的应用是结合大语言模型进行检索增强生成（RAG）。在RAG中，嵌入帮助寻找和获取与用户输入相关的文档片段，这些文档片段的内容被并入用户输入中，并指导大语言模型基于这些文档片段生成回应。RAG允许大语言模型避免生成不相关或错误信息，并解决需要超出其训练数据集范围信息的任务，RAG的质量极度依赖于嵌入模型的优劣。如果嵌入未能正确抓取文档特征与用户输入相匹配，那么RAG系统就无法获取到相关文档片段内容。根据上述的问题，合合信息ACG算法团队在数据集与训练策略两个方面专门针对Embedding模型进行优化。

①在数据集方面，技术人员收集构造了大量的数据集，保证训练的质量与场景覆盖面。

②在模型训练方面，引入多种有效的模型调优技术，比如Matryoshka训练方式，能够实现一次训练，获取不同维度的表征提取；为了不同任务针对性学习，使用策略学习训练方式，显著提升了检索、聚类、排序等任务上的性能；引入持续学习训练方式，克服了神经网络存在灾难性遗忘的问题，使模型训练迭代能够达到最优收敛空间。

结语

上海合合信息科技股份有限公司基于自主研发的领先的智能文字识别及商业大数据核心技术，为全球C端用户和多元行业B端客户提供数字化、智能化的产品及服务。未来，随着大语言模型和Embedding技术的进一步发展，合合信息将继续在人工智能领域取得更多的创新和突破。更多其它的产品和应用可以到官网去自行了解：合合TextIn - 合合信息旗下OCR云服务产品