关键字: [Amazon Web Services re:Invent 2023, Snowflake, Snowflake, Large Language Models, Fine Tuning, Enterprise Data, Applications]

本文字数: 1200, 阅读完需: 6 分钟

视频

如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1bM411d7gL

导读

生成式 AI 和大语言模型(LLMs)正在破坏我们在全球范围内的工作方式。Snowflake 很高兴宣布一个创新的产品阵容,将其平台的易用性、安全性和治理带到生成式 AI 的世界。通过这些新的 Snowflake 产品,任何用户都可以在几秒钟内将大语言模型整合到分析过程中,开发人员可以在几分钟内创建生成式 AI驱动的应用程序,或者在几小时内运行强大的工作流,如在受管企业数据上微调基础模型。加入本论坛以了解更多信息,并观看最新功能的演示,包括 Streamlit 和 Snowpark Container Services。本演示文稿由亚马逊云科技合作伙伴 Snowflake 为您带来。

演讲精华

以下是小编为您整理的本次演讲的精华,共900字,阅读时间大约是4分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

迈尔斯·阿特金斯首先阐述了Snowflake的诞生背景。随着数据量的持续指数级增长,传统设备上的数据仓库逐渐达到容量瓶颈,使得公司难以承担庞大的基础设施成本。第一代云数据湖的查询性能也较差。公共云的发明实现了按需支付的基础设施租赁及存储和计算的弹性扩展。

Snowflake彻底重塑了传统技术,以解决可扩展性、可管理性和多样化数据摄入等方面的问题。这使得Snowflake成为了一个完整的名为Snowflake Data Cloud的数据平台,能够处理七种不同的负载:数据仓库、数据湖、AI/ML、数据应用程序、网络安全、具有Unistore处理的每秒超过1亿笔交易的在线交易处理和数据共享。

Snowflake的云原生架构允许客户与合作伙伴、客户和供应商安全地共享数据,以增强他们的数据分析能力。Snowflake应用市场包含了超过350个合作伙伴应用程序,客户可以在受Snowflake安全控制的条件下部署到他们的账户中。

对于AI/ML工作负载,Snowflake关注“企业数据的生成性AI”,旨在实现易用且安全的AI应用。Snowflake认为,拥有超过21亿字节已加载的企业数据是生成性AI应用程序的关键差异。

这种策略分为两个部分:一是提供由Snowflake完全管理的即插即用式AI体验,以提高生产力并降低成本;二是为开发者提供构建自定义LLM应用程序的企业数据的组件模块。所有这些都是在Snowflake的安全、治理和合规能力保护数据和模型的基础上构建的。

在第一个类别“AI在秒级别”中,Snowflake处理所有LLM的复杂性,并提供提高生产力并降低成本的体验:

  • 文档AI - 于2022年6月推出,允许用户通过自然语言提问从非结构化PDF、图像、电子邮件和其他文档中提取结构化数据。它可以更优雅地处理可变文档架构,而不需要依赖固定的模板。还具有无需代码的精细调整功能,以改进特定文档类型的准确性,这些文档占据了企业80%以上的非结构化数据。这使从非结构化数据中产生更多结构化数据成为可能,用于下游分析。

以下是关于Snowflake Copilot、Universal Search、Snowflake Cortex以及Vectors和Streamlit的详细概述。这些产品均由Snowflake在2023年1月推出,它们采用自然语言处理(NLP)技术,将用户提出的自然语言问题转化为可执行的数据查询语句。这些产品的核心竞争力在于它们在市场上提供了最佳的从自然语言到SQL的机器学习模型体验。这使得非技术人员也能轻松地访问和分析Snowflake中的数据,而无需具备深入的SQL知识。尽管这些系统能够自动处理元数据,但仍需提供一定的明确上下文以便更好地提供服务。

Snowpark Container Services,由Atkins在2022年6月宣布推出,提供了一种基于GPU(例如Nvidia A10G)的Kubernetes平台,专门用于模型微调和部署。合作伙伴还可以部署专用的LLM模型。这一服务的目标是简化数据科学开发人员的工作,掩盖Kubernetes的复杂性。

通过Snowpark的Model Registry,用户可以将自定义模型注册并为实时推理部署到Snowflake中,从而实现低延迟和高吞吐量。该服务支持主要的机器学习框架,如PyTorch和TensorFlow。

Atkins在Snowpark中展示了一个例子,说明如何使用GPU对SBERT句子嵌入模型进行微调,将相关句子之间的相似度分数从0.55提高到0.75。他们使用一个标记样本数据集来调整模型,并通过Model Registry进行部署,然后在通过SQL对微调后的模型进行推理时展示了提高的相似度分数。

总的来说,Snowflake提供了一套完整的安全的企业级数据功能,从无代码AI体验到开发者构建模块再到定制化。这使得组织能够在其单一体平台上使用Snowflake的数据跨越多种工作负载,同时利用LLM和AI。Snowflake的目标是成为在企业数据上启用生成性AI的领导者,解决易用性、定制和管理问题。

下面是一些演讲现场的精彩瞬间:

亚马逊云科技凭借其先进的市场技术,为用户带来了简单、安全的数据共享和协作体验。

近日,雪崩公司与英伟达宣布展开合作,共同通过Snowpark容器服务提供GPU访问,这一举措具有重要意义。

业界领导者公布了雪崩公司在亚马逊云科技上的一项新功能,即能够快速启动GPU计算池以执行机器学习任务。

此外,领导者还展示了如何通过简单的操作在亚马逊ECS上启动Jupiter笔记本,以便运行一个机器学习演示。

在谈到检索增强生成应用程序时,演讲者指出了一个问题,即在仅使用0.55的余弦相似度的情况下,可能导致性能不佳。

总结

雪花数据云平台正将其大型语言模型(LLM)整合至其平台中,为企业客户提供AI驱动的体验、应用程序和定制服务。通过雪花Copilot,用户可使用自然语言进行SQL翻译。此外,雪花Cortex提供了无服务器LLM功能,如翻译和摘要等功能。用户还可对开源模型进行微调并部署,以实现低延迟推理。雪花还提供构建模块,如向量存储和Streamlit应用程序,以帮助用户快速构建自定义LLM应用程序。雪花的一个重要优势是其专注于安全性,所有模型和数据均保留在客户管理的单一租户账户内。此外,雪花允许合作伙伴通过其市场将LLM应用程序分发给客户。总之,雪花致力于使LLM易于用于分析,同时确保对企业专有数据的治理。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134831655

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐