Kimi+Langchain+FastGPT:文档转LLM微调数据集 / QA问答对生成、Kimi 128KAPI免费接入!
今天我将介绍:如何使用Kimi API将文档转换为LLM指令监督微调数据集(Alpaca 格式)以及 如何部署FastGPT并接入Kimi API:我会使用两种方式来完成QA问答对生成这个需求,第一种是使用Langchain这个框架编码实现,第二种是将Kimi API接入FastGPT中,再利用他的“文档问答”功能实现。实际上,我曾使用Coze很长一段时间,并且在这个平台上我经常使用的基础模型就是
今天我将介绍:如何使用Kimi API将文档转换为LLM指令监督微调数据集(Alpaca 格式)以及 如何部署FastGPT并接入Kimi API:
我会使用两种方式来完成QA问答对生成这个需求,第一种是使用Langchain这个框架编码实现,第二种是将Kimi API接入FastGPT中,再利用他的“文档问答”功能实现。
实际上,我曾使用Coze很长一段时间,并且在这个平台上我经常使用的基础模型就是Kimi-128k,我使用它构建知识库、生成长文本内容、解读我的本地文档… …
我喜欢Kimi,除了它聊天客户端的各种强大的功能以外,它的API能进行更强大的超长文本、多文档的深度理解任务,且收费标准非常低廉。
最近一段时间我在使用FastGPT这个项目,这个项目需要我们自己借助One-API去接入其他第三方模型,我想要接入Kimi,就像在Coze平台上使用它一样~
一、使用Kimi+Langchain生成QA问答对
1、我们首先导入依赖包
主要包括一些结构化的处理库,还有langchain的依赖库。
记得先下载Langchain~
pip install langchain
import os``import json``from typing import List``from tqdm import tqdm``from langchain_community.chat_models.moonshot import MoonshotChat``from langchain_core.prompts import ChatPromptTemplate``from langchain_core.pydantic_v1 import BaseModel, Field``from langchain_core.output_parsers import JsonOutputParser``from langchain_community.document_loaders import UnstructuredFileLoader``from langchain_text_splitters import RecursiveCharacterTextSplitter
2、然后去官网获取Kimi API
新用户注册送15元免费额度(文末我还会介绍免费获取Kimi API的方式,仅供个人测试):
▲ https://platform.moonshot.cn/console/api-keys
以moonshot-v1-128k为例,每1,000,000 tokens价格为60元,对于一段通常的中文文本,1 个 Token 大约相当于 1.5-2 个汉字。《甄嬛传》小说第一部20 万字,所以一本小说消耗约6块钱,而moonshot-v1-8k相对于128k会便宜5倍。
假设你已经获取了API Key,那么现在我们在代码中设置它:
# 设置 Moonshot API Key``os.environ["MOONSHOT_API_KEY"] = "eyJhbGciOixxx"
▲Kimi兼容OpenAI接口
3、输入给大模型的是一个个分块
Kimi会针对分块来建立QA问答对。所以我们要先对传入的文档进行分块,这里假定输入的文档格式为txt,当然借助Kimi或者Langchain你可以编码以支持更多格式。
我们将使用Langchain的RecursiveCharacterTextSplitter函数对加载文档进行分块:
# 文档处理函数``def split_document(filepath):` `loader = UnstructuredFileLoader(filepath)` `text_spliter = RecursiveCharacterTextSplitter(` `chunk_size=2048,` `chunk_overlap=128` `)` `documents = loader.load_and_split(text_spliter)` `return documents
我们都知道Kimi的一大特点是拥有大海捞针的超长文本提取信息能力,用来做文档转QA非常合适。
并且假设这个数据集是对小模型微调的数据集,那么生成它的微调数据的LLM应该是性能比它更好的。
▲ Kimi 文件API支持全格式
4、编写结构化输出提示词
我们需要使用系统提示词明确他是在做文本转问答对这件事情,所以我们需要编写针对于Kimi的系统提示词:QA_PAIRS_SYSTEM_PROMPT
其中“ ”会出现在后面的用户提示词中,同时下面这段提示词也是Fastgpt的官方示例。
QA_PAIRS_SYSTEM_PROMPT = """` `<Context></Context> 标记中是一段文本,学习和分析它,并整理学习成果:``- 提出问题并给出每个问题的答案。``- 答案需详细完整,尽可能保留原文描述。``- 答案可以包含普通文字、链接、代码、表格、公示、媒体链接等 Markdown 元素。``- 最多提出 30 个问题。``"""
除此以外,如果你的原始文档中包含大量的链接或者公示内容,你可以参考使用我的这个有针对性性的结构化提示词。
Role: 文档分块嵌入模型提示词生成器`` ``Profile``- author: Aitrainee``- version: 1.0``- language: 中文``- description: 生成用于RAG索引的QA问答对,确保分块后的文档内容能够生成包含完整Markdown元素的QA问答对。`` ``Skills``1. 能够分析文档内容并生成相关问题与答案。``2. 保留并提取文档中的链接、表格、图片及其他Markdown元素。``3. 生成覆盖文档内容关键要点的详细QA问答对。``4. 确保生成的QA对适合后续处理与引用。`` ``Rules``1. 对文档内容进行分析,并提取出主要信息。``2. 针对每个分块的文档内容,生成相关问题,问题和答案中必须保留并正确提取文中的链接、表格、图片及其他Markdown元素。``4. 确保生成的答案详细完整,并准确反映源内容的描述。``5. 在QA对的答案中,使用Markdown格式表示图片和表格的链接。` `- 例如:![表格描述](表格链接)或![图片描述](图片链接)。``6. 如果某段内容包含多种类型的信息(如文字、表格、图片等),确保在QA对的答案中体现每种信息。`` ``Workflows``1. 分析文档内容,识别出需要保留的关键元素(如链接、表格、图片等)。``2. 针对识别出的每个元素和上下文,生成问题并构建详细的答案。``3. 对生成的QA对进行审核,确保所有Markdown元素均被正确处理并保留。``4. 将最终的QA对嵌入到模型中,确保在后续的问答环节中能够准确调用。`` ``Init``<Context></Context> 标记中是一段文档内容,要求模型学习和分析这段内容,并整理出有效的QA问答对。为确保信息完整,请遵循以下要求:`` ``- 针对文档内容提出尽可能多且相关的问题,每个问题的答案需要完整且详细。``- 尽可能保留原文中的描述,并且注意保留任何涉及的链接、表格、图片及其他相关Markdown元素。``- 如文档中包含图片、表格或其他媒体内容,请将其转换为适当的Markdown格式,并确保将链接或嵌入代码包括在内。``- 对每个段落,最多提出30个问题,确保覆盖文档内容的关键要点。``- 确保QA对中每个答案都准确反映源内容,并包括任何必要的上下文,以便后续处理和引用。`` ``例子:``- 问题:此段落描述了什么内容?``答案:段落描述了...[具体描述],并包含表格如下:[表格链接或Markdown格式]。`` ``- 问题:文中引用的图片是什么?``答案:文中引用了一个相关图片,链接如下:[![图片描述](图片链接)]。
然后我们准备用户提示词(QA_PAIRS_HUMAN_PROMPT),这里主要告诉模型,你希望明确输出的数据格式,比如我们选择Alpaca 格式(省略了system和history):
QA_PAIRS_HUMAN_PROMPT = """` `请按以下格式整理学习成果:``[` `{{` `"instruction": "人类指令/问题(必填)",` `"input": "人类输入(选填)",` `"output": "模型回答(必填)"` `}}``]`` ``我们开始吧!` `<Context>` `{text}` `<Context/>``"""
5、提示词编写好之后
我们构建Langchain 链。根据 Langchain 的ICEL语法,我们分别将提示词大模型和解析参数,组成 prompt | llm | parser 链。
提示词选择上面两个,大模型我们指定Kimi的128 k,结构化解析参数输出我们指定为:JasonJsonOutputParser。
# LLM部分替换为MoonshotChat``def create_chain():` `prompt = ChatPromptTemplate.from_messages([` `("system", QA_PAIRS_SYSTEM_PROMPT),` `("human", QA_PAIRS_HUMAN_PROMPT)` `])` `llm = MoonshotChat(model="moonshot-v1-128k") # 使用MoonshotChat` `parser = JsonOutputParser(pydantic_object=QaPairs)` `chain = prompt | llm | parser` `return chain
对于结构化输出这一部分,我们可以参考langchain官方这一篇教程:
▲ https://python.langchain.com/v0.2/docs/how_to/structured_output/
6、上面的还没结束
上面代码中JsonOutputParser传入的参数,也就是结果模型(QaPairs),我们需要定义一下。
# 结果模型定义``class QaPair(BaseModel):` `instruction: str = Field(description='问题内容')` `#"input": "人类输入(选填)",` `input: str = Field(description='人类输入(针对问题内容,选填)')` `output: str = Field(description='问题的回答')`` ``class QaPairs(BaseModel):` `qas: List[QaPair] = Field(description='问答对列表')
7、最后一步
我们把上面的代码写在main里面,并且增加一些辅助代码用于将大模型生成的问答对存储在json文件中:
def main():` `chain = create_chain()` `documents = split_document('data/12.txt') # 替换为你的文档路径`` ` `# # 打印分块结果` `# for i, doc in enumerate(documents):` `# print(f"Document chunk {i + 1}:")` `# print(doc.page_content)` `# print("-" * 80)`` ` `# 继续处理文档` `with open('dataset.json', 'a', encoding='utf-8') as f: # 打开文件,使用 'a' 模式进行追加写入` `bar = tqdm(total=len(documents))` `for idx, doc in enumerate(documents):` `print(doc.page_content)` `# 调试API响应` `print(f"Processing document chunk {idx + 1}")` `out = chain.invoke({'text': doc.page_content})` `print(f"API response for chunk {idx + 1}: {out}")`` ` `# 无论返回什么,直接写入文件` `f.write(json.dumps(out, ensure_ascii=False, indent=2) + ",\n") # 实时写入并添加换行` `f.flush() # 确保数据立即写入磁盘` `bar.update(1)` `bar.close()`` ``if __name__ == '__main__':` `main()
8、我们运行一下,看一下效果。
输入一个关于kimi介绍的文档:
点击运行,代码会先进行分块,然后一个一个分块的去生成问答对:
控制台按照每一个分块被处理后显示进度:
最终输出我们需要的文件格式。
目前这个代码,三块是按照最大2048token,以及每一块重复为128 token来分块的(重复是为了增加块与块之间的联系),后续考虑给原文的增加分割符。
其实在编写代码的过程中,遇到了很多关于结构的错误,包括模型输出内容写入json里面。
至此,第一部分结束~
二、Kimi API接入FastGPT
FastGPT:一个免费、开源且功能强大的 AI 知识库平台,提供开箱即用的数据处理、模型调用、RAG 检索和可视化 AI 工作流。轻松构建复杂的 LLM 应用程序。
我们使用docker部署它,先确保你安装了Docker环境:
1、运行FastGPT部署指令:
mkdir fastgpt``cd fastgpt``curl -O https://raw.githubusercontent.com/labring/FastGPT/main/projects/app/data/config.json`` ``# pgvector 版本(测试推荐,简单快捷)``curl -o docker-compose.yml https://raw.githubusercontent.com/labring/FastGPT/main/files/docker/docker-compose-pgvector.yml
好的看来他已经完成了,在浏览器打开3000端口:http://localhost:3000/
2、Fastgpt内部集成了One-API项目:
我们要把Kimi的api接入进去,所以我们打开One-API:http://localhost:3001
点击渠道
把箭头上面的这些配好就行,密钥用前面Kimi官网生成的(免费密钥获取的Kimi API我会写在最后)。
点击测试,可以看到右上角测试通过
然后向config文件加入moonshot-v1-128k模型
配置好后,由于配置了新的渠道,所以我们得重启一下:
docker-compose restart
备注:如果启动后发现one-api测试通过,但是fastgpt前端测试不通过,那么请运行
#先关闭删除容器``docker-compose down``#再运行``docker-compose up -d
我们可以看到fastgpt多了一个:moonshot-v1-128k 模型,接入成功!
3、在fastgpt中新建一个知识库,文本处理模型就选择moonshot-v1-128k
嵌入模型默认用的是Openai的(用不了),你可以选择去Ollama中下载一个,然后和上面配置Kimi API一样的步骤,把这个本地嵌入模型配置到One-API中。
记得config.json也要配置,fastgpt才有显示
两个模型都有之后,然后选择新建文本数据
现在选择问答拆分+自动:
问答拆分的自定义规则是需要你的文本中包含分割符,并且输入拆分引导词:
选择之后点击提交下一步,几分钟之后,他就可以得到这样的问答对
选择一个查看:
QA问答对的知识库还可以导出为CSV格式:
至此,第2部分结束~
三、用于学习与测试的免费Kimi API项目
▲ https://github.com/LLM-Red-Team/kimi-free-api
主要是利用Kimi-free-api这个项目来获取免费实验性Kimi API,不要用于生产环境哦~
还要说一点,这个API不支持文件接口,只是Chat接口,
▲ Kimi官方文件接口API
1、你需要准备一台公网服务器:
首先从 kimi.moonshot.cn 获取refresh_token,进入Kimi 随便发起一个对话,然后F12打开开发者工具,从Application > Local Storage中找到refresh_token的值,这将作为API Key。
记录上面的Api Key,然后部署这个项目,只需要运行:
docker run -it -d --init --name kimi-free-api -p 8001:8000 -e TZ=Asia/Shanghai vinlic/kimi-free-api:latest
2、Kimi在本地编码中接入:Langchain实现QA问答对
你需要把API Key替换成上面的refresh_token
然后,你需要将Langchain的moonshot包中的base url替换成服务器IP,比如:http://服务器ip:端口/v1
Langchain Python依赖包下面C:\Users\Aitrainee\anaconda3\Lib\site-packages\langchain_community\llms\moonshot.py,这个文件中找到:MOONSHOT_SERVICE_URL_BASE
3、Kimi 接入FastGPT的OneAPI
也同样很简单,你只需要把服务器ip填入到这个代理里,
或者选择类型的时候选择自定义渠道并填入服务器ip:
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)