搭建自己的私有大模型：使用ollama搭建自己的私有中文大模型

Ollama，一个开创性的开源框架，为本地驾驭庞然大物——大型语言模型（LLM）而生，它赋予用户前所未有的自由，无需云端牵绊，即可在个人设备上自如驾驭Llama 3、Mistral、Dolphin Phi等一众语言巨擘。这不仅仅是对技术边界的勇敢跨越，更是对自主计算时代的深情呼唤。跨平台兼容性是其另一大亮点，无论是苹果优雅的macOS、Windows的广阔天地、Linux的深邃森林，还是Dock

少喝冰美式

1448人浏览 · 2024-09-01 10:15:00

少喝冰美式 · 2024-09-01 10:15:00 发布

谈及Llama 3，这是Meta AI智慧结晶的又一次璀璨绽放，作为Llama系列的第三代传人，它以8B与70B两大参数量级傲视群雄，较之于前辈Llama 2，性能飞跃如同星辰之跃，直指天际。技术革新如同春风化雨，不仅极大削减了误判阴霾，更让模型的一致性如磐石般稳固，响应的多样性则如同万花筒般绚烂多彩。推理的精准、代码生成的流畅、指令追踪的敏捷，无一不彰显着Llama 3的非凡实力。而Meta AI正夜以继日地孕育着更为庞大的4000亿参数巨兽，未来可期。更令人振奋的是，Llama 3的庞大力量，对每一位探索者都敞开了怀抱。无需繁琐注册，无需跨越门槛，只需轻启Meta AI官网之门，Llama 3便如同一位老友，静候您的差遣，真正的‘即下即用’，让AI的魔力触手可及。

如何部署ollama

首先到ollama的官网，或者GitHub链接下载ollama进行安装，其ollama支持window版本，Mac版本，以及Linux版本，根据自己的电脑操作系统下载对应的安装包即可。本文以windows系统来介绍下载安装包：https://ollama.com/download/OllamaSetup.exe

安装：直接双击，下一步下一步就好了；

获取模型：ollama安装完成后，并没有一个可视化的界面，其服务运行在后台。还需要加载模型。首次运行时，ollama会自动检测电脑上是否下载了你需要的模型，若没有相关模型，会自动下载：比如llama3；

在这里插入图片描述

测试：运行下面的命令即可启动：

ollama run llama3

经过测试，简单问题，速度还是可以的：

这里的速度跟自己的电脑配置有很大的关系，毕竟大模型运行在本地，且还是8B的模型，由于自己的电脑内存不大，并没有本地体验70B的模型，这个可以自行尝试。

我的显卡是4090，整体用下来，使用率还不算高，大家如果有好的显卡，可以尝试更大的模型：

linux在线安装：

curl -fsSL https://ollama.com/install.sh | sh
ollama run llama3

docker

docker run -d --gpus=all -v ollama:/root/.ollama -e OLLAMA_ORIGINS="*" -p 11434:11434 --name ollama ollama/ollama
docker exec -it ollama ollama run llama3

硬菜来了：构建自己的Llama3中文模型

下载Llama3-8B-Chinese-Chat-f16-v2.gguf

下载地址：https://huggingface.co/shenzhi-wang/Llama3-8B-Chinese-Chat-GGUF-f16/tree/main，这里可能需要墙一下。

创建文件 Llama3-8B-Chinese-Chat-f16-v2：

FROM C:\Users\WUQY\.ollama\models\Llama3-8B-Chinese-Chat-f16-v2.gguf

创建 Ollama 模型：

cd /d C:\Users\WUQY\.ollama\models
ollama create Llama3-8B-Chinese-Chat-f16-v2 -f Llama3-8B-Chinese-Chat-f16-v2

运行模型：

ollama run Llama3-8B-Chinese-Chat-f16-v2

模型测试：

我的电脑测下来这个还是比较慢的，后面经过实测可以直接用这个：https://github.com/Shenzhi-Wang/Llama3-Chinese-Chat

ollama run wangshenzhi/llama3-8b-chinese-chat-ollama-q4  # to use the Ollama model for our 4bit-quantized GGUF Llama3-8B-Chinese-Chat-v2.1
# or
ollama run wangshenzhi/llama3-8b-chinese-chat-ollama-q8  # to use the Ollama model for our 8bit-quantized GGUF Llama3-8B-Chinese-Chat-v2.1
# or
ollama run wangshenzhi/llama3-8b-chinese-chat-ollama-fp16  # to use the Ollama model for our FP16 GGUF Llama3-8B-Chinese-Chat-v2.1

搭建ollama webUI界面：

Ollama，这位幕后英雄，虽隐居终端幕后，无华丽舞台相衬，但其默默耕耘之力，仍为技术探索者所珍视。诚然，对于偏爱键盘轻舞、终端驰骋的极客而言，此乃乐土。然试想，若披上一袭可视化界面的华服，体验定能再添几分韵味，全凭个人喜好取舍。

谈及Lobe Chat，此乃开源领域的璀璨新星，专为简化聊天机器人创造而生，让每一位开发者都能轻松驾驭，从构想到部署，一气呵成。Lobe Chat不仅是llama系列模型的忠实伴侣，更广泛拥抱各类大型语言模型，其API接口灵活配置，本地模型轻松接入，仿佛为AI语言艺术搭建了无界桥梁。

而作为LLMs WebUI领域的一颗明珠，LobeChat以卓越的设计美学和流畅的交互体验，引领着用户界面的新风尚。它不仅能在本地Docker环境中悠然自得，更能在Vercel、Zeabur等云端舞台大放异彩，灵活部署，随心所欲。尤为值得一提的是，用户只需指尖轻点，配置本地Ollama接口，即可实现与Ollama及其他本地模型的深度整合，让技术协作无界，创意无限延伸。

github地址：https://github.com/lobehub/lobe-chat

使用文档参考：https://lobehub.com/zh/docs/usage/providers/ollama

配置 Ollama 允许跨域访问

由于 Ollama 的默认参数配置，启动时设置了仅本地访问，所以跨域访问以及端口监听需要进行额外的环境变量设置 OLLAMA_ORIGINS。在 Windows 上，Ollama 继承了您的用户和系统环境变量。

1）首先通过 Windows 任务栏点击 Ollama 退出程序。

2）从控制面板编辑系统环境变量。

3）为您的用户账户编辑或新建 Ollama 的环境变量 OLLAMA_ORIGINS，值设为 * 。

4）点击OK/应用保存后重启系统。

5）重新运行Ollama。

docker 部署
在这里插入图片描述

web端访问

如果设置里面连通性检查没问题，但是会话出现下面的错误：

请检查下面ollama的环境变量：

OLLAMA_HOST 0.0.0.0:11434

OLLAMA_ORIGINS *

使用ollama搭建自己的私有中文大模型的文章就介绍到这里了，在此，衷心感谢每一位陪伴的您，期待我们下一次的温馨相聚！😊

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述