大模型LLM | Llama3.2来了!支持多模态!手机也能用!
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!
一、重要信息总结
新版本: Llama 3.2包括小型和中型视觉大语言模型(11B和 90B),以及适用于边缘和移动设备的轻量级、仅限文本的模型(1B和3B),提供预训练和指令调优版本。
上下文长度支持: Llama 3.2 的1B和3B模型支持128K个token的上下文长度,适用于设备本地的摘要生成、指令执行和重写任务。
硬件优化: 模型自发布首日便支持高通和联发科硬件,并针对Arm处理器进行了优化。
视觉模型优势: Llama 3.2 的11B和90B视觉模型可直接替换对应的文本模型,在图像理解任务上表现优于封闭模型,如Claude 3 Haiku。
开放性与微调: 预训练和对齐模型可通过torchtune进行微调并本地部署,支持定制化应用;用户还可通过Meta AI进行试用。
Llama Stack API: 首次发布官方Llama Stack API,简化了开发者在单节点、本地、云端和设备等不同环境中的部署,支持增强检索生成(RAG)和安全工具集成。
合作伙伴支持: 与AWS、Databricks、戴尔、Fireworks、Infosys和Together AI等合作构建Llama Stack API,设备版本通过PyTorch ExecuTorch发行,单节点版本通过Ollama发行。
多平台可用性: Llama 3.2模型可在llama.com和Hugging Face 下载,并支持在AMD、AWS、戴尔、谷歌云、微软 Azure、NVIDIA等合作平台上开发。
附下载地址:
https://www.llama.com/
https://huggingface.co/meta-llama
二、模型效果评估
Llama 3.2 视觉模型在图像识别和各类视觉理解任务上可与领先的基础模型 Claude 3 Haiku 和 GPT4o-mini 相媲美。3B 模型在指令执行、摘要生成、提示重写和工具使用等任务上表现优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型,而 1B 模型则能够与 Gemma 竞争。
在超过 150 个基准数据集上对模型进行了评估,覆盖了广泛的语言范围。对于视觉大语言模型(LLM),还在图像理解和视觉推理的基准测试中进行了性能评估。
三、Llama系列首款视觉大模型
作为首批支持视觉任务的 Llama 模型,11B 和 90B 模型采用了全新的架构来支持图像推理。
为了实现图像输入功能,Meta训练了一组适配器权重,将预训练的图像编码器与预训练的语言模型集成。适配器由一系列交叉注意力层组成,将图像编码器的表示传递到语言模型中。Meta在训练适配器时使用了文本-图像对数据,确保图像表示与语言表示对齐。在此过程中,Meta只更新了图像编码器的参数,刻意不修改语言模型的参数,从而保持了所有文本功能的完整性,为开发者提供了可以直接替换 Llama 3.1 模型的解决方案。
训练流程分为多个阶段,起始于预训练的 Llama 3.1 文本模型。首先,添加图像适配器和编码器,并在大规模的噪声图像-文本配对数据上进行预训练。随后,在中等规模的高质量领域内数据和知识增强的图像-文本配对数据上进行进一步训练。在后期训练中,采用与文本模型类似的流程,通过几轮监督微调、拒绝采样和直接偏好优化来对模型进行调整。
此外,Meta还利用 Llama 3.1 模型生成的合成数据,过滤并增强与领域内图像相关的问题和答案,并使用奖励模型对所有候选答案进行排序,以生成高质量的微调数据,并加入了安全缓解数据,确保模型在具备高安全性的同时仍然保持实用性。
最终,生成的模型能够同时处理图像和文本提示,并在两者结合的基础上进行深度理解与推理。这标志着 Llama 模型在实现更丰富智能代理能力方面又迈出了重要的一步。
四、模型轻量化技术分析
正如在Meta之前在Llama 3.1中提到的,强大的教师模型可以用于创建更小的模型,从而提升性能。所以他们对1B和3B模型采用了剪枝和蒸馏两种方法,使它们成为首批能够高效适应设备的高性能轻量级模型。
通过剪枝,能够在保留尽可能多的知识和性能的同时,减少现有模型的大小。对于1B和3B模型,Meta采取了从Llama 3.1的8B模型进行一次性结构化剪枝的方法。这一过程包括系统性地移除网络的一部分,并调整权重和梯度的幅度,从而创建一个更小、更高效的模型,同时保留原始网络的性能。
知识蒸馏则利用更大的网络将知识传递给更小的网络,其理念是小模型在借助教师模型的情况下能够实现更好的性能,而非从零开始学习。在 Llama 3.2的1B和3B模型中,Meta在模型开发的预训练阶段融入了 Llama 3.1的8B和70B模型的logits,将这些较大模型的输出(logits)用作逐标记的目标。知识蒸馏则是在剪枝之后用于恢复性能的。
在后期训练中,采用了与Llama 3.1相似的流程,通过对预训练模型进行多轮对齐来生成最终的聊天模型。每一轮的训练包括监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO)。将上下文长度的支持扩展至128K 个token,同时保持与预训练模型相同的质量。
此外,还进行了合成数据生成,通过精细的数据处理和过滤确保数据的高质量,仔细融合数据,以优化摘要生成、重写、指令执行、语言推理和工具使用等多种能力的表现。
为了使社区能够在这些模型上进行创新,Meta与全球两大移动系统芯片(SoC)公司高通和联发科,以及提供99%移动设备基础计算平台的Arm进行了紧密合作。
今天发布的权重基于BFloat16数字格式。Meta也在积极探索量化变体,以实现更快的运行速度。
五、Llama Stack API
今年七月,Meta发布了关于Llama Stack API的征求意见,旨在为标准化的工具链组件(如微调和合成数据生成)提供一个接口,以便于定制 Llama 模型并构建智能应用。用户们反馈非常积极。
自那以来,Meta一直在努力使该 API 成为现实。所以构建了推理、工具使用和增强检索生成(RAG)API 的参考实现。
此外,Meta还与合作伙伴合作,帮助他们成为这些 API 的提供者,将多个高效协作的 API 提供者打包在一起,为开发者提供一个统一的端点。
现在用户可以在多个环境中使用Llama模型,包括本地、云端、单节点和设备上。
完整的发布内容包括:
Llama CLI(命令行界面): 用于构建、配置和运行 Llama Stack API
支持多种编程语言: 包括 Python、Node、Kotlin 和 Swift
多种发行版本:
- Meta内部实现和Ollama提供的单节点Llama Stack API
- AWS、Databricks、Fireworks和Together提供的云端Llama Stack API
- 通过PyTorch ExecuTorch实现在iOS 设备上的Llama Stack API
- 由Dell支持的本地部署Llama Stack API
最近半个月AI圈真的是过年了,继OpenAI发布o1系列模型,阿里发布Qwen2.5之后,Meta正式用Llama3.2接招。大模型领域发展依旧是这么日新月异。
我们一起期待后续更多功能炸裂的模型和AI产品登场吧!
最后分享
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
5. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费
】
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)