一文搞定：LLM并发加速部署方案（llama.cpp、vllm、lightLLM、fastLLM）

llama.cpp、vllm、lightllm、fastllm四种框架的对比：llama.cpp：基于C++，①请求槽，②动态批处理，③CPU/GPU混合推理vllm：基于Python，①PagedAttention高效管理注意力KV内存，②连续动态批处理，③量化GPTQ/AWQ/SqueezeLLM等。lightllm：基于Python，①三进程异步协作，②动态批处理，③FlashAttenti

爱编程的小辞

1624人浏览 · 2024-08-07 21:18:16

爱编程的小辞 · 2024-08-07 21:18:16 发布

llama.cpp、vllm、lightllm、fastllm四种框架的对比：

llama.cpp：基于C++，①请求槽，②动态批处理，③CPU/GPU混合推理
vllm：基于Python，①PagedAttention高效管理注意力KV内存，②连续动态批处理，③量化GPTQ/AWQ/SqueezeLLM等。
lightllm：基于Python，①三进程异步协作，②动态批处理，③FlashAttention，④TokenAttention，⑤高性能Router。
fastllm：基于C++，①ARM平台支持NEON指令集加速，②X86平台支持AVX指令集加速，③NVIDIA平台支持CUDA加速，与llama.cpp很类似。

llama.cpp

vllm

lightLLM

fastLLM

随着大模型的持续爆火，各行各业都在开发搭建属于自己企业的私有化大模型，那么势必会需要大量大模型人才，同时也会带来大批量的岗位？“雷军曾说过：站在风口，猪都能飞起来”可以说现在大模型就是当下风口，是一个可以改变自身的机会，就看我们能不能抓住了。

那么，我们该如何学习大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一、大模型全套的学习路线

学习大型人工智能模型，如GPT-3、BERT或任何其他先进的神经网络模型，需要系统的方法和持续的努力。既然要系统的学习大模型，那么学习路线是必不可少的，下面的这份路线能帮助你快速梳理知识，形成自己的体系。

L1级别:AI大模型时代的华丽登场

L2级别：AI大模型API应用开发工程

L3级别：大模型应用架构进阶实践

L4级别：大模型微调与私有化部署

一般掌握到第四个级别，市场上大多数岗位都是可以胜任，但要还不是天花板，天花板级别要求更加严格，对于算法和实战是非常苛刻的。建议普通人掌握到L4级别即可。