摘要:随着人工智能(AI)技术的飞速发展,数据治理在AI领域的重要性日益凸显。AI系统的训练和推理依赖于大量高质量数据,这就要求我们必须对数据进行有效的管理和控制,以确保AI应用的准确性、可靠性和安全性。本文探讨面向AI的数据治理的主要步骤和内容。

  • 面向人工智能的数据治理的主要步骤

  • 面向人工智能的数据治理的主要内容

01.面向人工智能的数据治理的主要步骤

20 世纪 80 年代,随着数据库技术的发展,企业开始意识到数据的重要性,伴随着数据仓库的建设,主数据管理与商务智能平台的实施,国内也逐步开始接受并利用数据治理的概念进行推广实践。而到了21 世纪 20 年代,以大模型为代表的生成式模型成为推动人工智能发展的重要驱动力。大模型的兴起对数据治理提出了新的挑战和需求。主要体现在三个方面:

(1)非机构化数据的量大,质量低,大部分数据治理是基于结构化数据治理,而AIGC主要是面向非结构化数据,而非结构化数据多源于互联网数据,我们面对多模态、非结构化数据缺乏理论与技术的支撑来客观评价数据质量的高低。

(2)安全与隐私泄露频发,随着人工智能大模型对数据依赖的不断加深,确保数据安全和保护隐私成为了一个至关重要的议题。在整个大模型的开发、管理和应用的全过程中,从数据采集到最终应用的每一个环节,都可能面临安全和隐私方面的挑战和风险。这些问题可能包括数据的无节制收集、样本选择的不均衡、以及数据被恶意篡改等,这些都可能对个人隐私、企业利益甚至整个社会的安全带来严重的威胁。

(3)偏见与歧视随处可见,由于大模型的训练的数据来源多来源互联网,而由于来源多,不可避免存在输入大模型的语料存在偏见或者歧视,也会对大模型的输出产生极大的影响。‍

基于以上的需求,提出了面向人工智能的数据治理内涵。面向人工智能的数据治理(DG4AI,DataGovernance for Artificial Intelligence)是指在人工智能应用中管理和控制数据的过程与实践,用以确保数据的质量、可靠性、安全性与合规性,数据能够被准确地用于训练和部署 AI 模型,同时保护数据的隐私和安全。

如上图所示,人工智能整体流程分为七个关键步骤:收集数据,预处理,特征工程、标注、增强、划分、训练、验证、推理。而在这关键的七个步骤设计主要的数据治理包含数据质量,数据安全隐私,数据伦理 三个方面的内容。

02.面向人工智能的数据治理的主要内容

‍‍‍‍‍

基于人工智能数据处理步骤,下面详细说明在每一步数据治理需要完成的内容。‍‍‍‍‍‍‍‍‍

(1)在数据采集阶段,治理的焦点覆盖了结构化、非结构化、半结构化数据,以及空间地理和时间序列等多模态数据集。选择数据来源和制定收集策略是影响后续数据质量的关键因素。从一开始,就必须确保数据的有效性和代表性,这是构建高质量数据集的基石。

为了在数据的起点就把控好质量,实施"规范化输入、标准化输出"的策略至关重要。这不仅涉及到验证数据来源的可靠性,还需确保所收集的数据能够全面覆盖必要的维度和场景,以实现数据的广泛性和多样性。

此外,对采集源的原始数据进行标准化处理,以及对采集源的质量进行严格筛选,是确保数据集满足人工智能应用需求的关键步骤。通过这些措施,可以为后续的数据预处理、特征工程等环节打下坚实的基础。

(2)数据预处理/清洗阶段:此阶段数据治理对象是数据收集阶段所采集的多模态数据。此阶段对收集到的数据进行初步处理,去除无关信息,修正错误数据,处理缺失值、异常值、重复值等问题,确保数据质量。数据必须具备高度的质量和准确性,保证训练模型时使用的样本数据能够反映真实世界的情况。

a. 数据清洗:此阶段聚焦于消除数据中的错误、不完整、不一致和重复等问题。具体措施包括:

1、 缺失值处理:通过填充(如使用平均值、中位数、众数等)、插值或其他方法处理缺失值。

2、 异常值检测与处理:识别并移除或者替换那些明显偏离正,常范围的数据点,防止其对模型训练产生不良影响。例如非结构化文本中的语言一致性检测,特殊符号检测等内容,保障数据内容的正常性。

3、数据一致性校验:对同一实体在不同数据源中的记录进行比对和整合,保证数据的一致性。当对于不同采集源的内容进行相似度对别,如果出现相似度为60%以上的内容,则保留一份数据,保障一致性。

4、 去重处理:识别并移除非唯一标识的重复数据记录,避免因重复样本导致的模型训练偏差。

b. 数据标注:在某些 AI 任务中,尤其是监督学习场景下,模型需要依赖带有标签的高质量数据进行训练。高质量的数据标注能有效提高模型理解和学习数据的能力,为后续模型训练奠定基础。一般情况下数据标准通过特定的标签算法进行打标签操作,而有时候算法的标签内容的准确性不是100%的情况下,还需要人工校验和修订。

c. 数据增强:即使经过精心标注,实际可用的数据量也可能受限,这可能会导致模型过拟合等问题。数据增强技术旨在通过一系列规则或算法人为地扩增训练数据,如在图像识别任务中采用翻转、旋转、裁剪、色彩变换等方式生成新的训练样本;在文本数据上,可通过同义词替换、句式变换等方式生成不同的表达形式。数据增强不仅可以有效扩大训练样本空间,还可以提高模型的泛化能力和鲁棒性,降低过拟合的风险。

数据清洗和预处理的操作步骤可以跟进当前的操作内容标准化,作为数据进入的标准清洗规则,每个采集进入的数据都经过这些标准化的处理之后进入数据存储,提高数据的准确性。

(3)特征工程阶段:此阶段治理对象包括:原始数据集,中间数据和特征变量、标签数据集等。此阶段将原始数据转化为适合机器学习算法使用的特征表示,包括特征提取、特征选择、特征构造等。对于非结构化数据,可能需要进行特征提取,如文本分词、图像特征提取等。特征的选择、构造与转换过程决定了模型能否有效捕捉到数据中的有用信息,特征的质量直接影响模型的表现力和泛化能力。

(4)数据标注阶段:此阶段治理对象主要是标注数据集。对于监督学习任务,需要人工或半自动方式对数据进行标注。高质量的标注数据对于模型的学习至关重要。准确、一致且全面的标注能显著提升模型训练效果。

(5)数据划分阶段:此阶段治理对象主要是训练集、验证集和测试集三类。本阶段将数据集划分为训练集、验证集和测试集,训练集用于训练模型。数据划分阶段的质量治理重点在于保障数据分布和数据平衡,合理地将数据划分为训练集、验证集和测试集,确保每个集合都能代表总体数据分布,有助于避免过拟合或欠拟合。

(6)数据增强阶段:此阶段治理对象主要是合成数据。为了提高模型的泛化能力和应对不平衡数据问题,合成数据是通过模拟或生成技术生成的人工数据,用于模型训练、隐私保护等目的。虽然对合成数据的质量治理不是直接改善原始数据质量,但能间接提高模型对各种情况的适应性和泛化能力。合成数据质量治理包括对合成数据的生成过程、使用限制等方面进行规范和管理。

(7)模型训练阶段:此阶段治理对象主要是训练数据。使用高质量的数据训练模型,会得到更准确、稳定的结果。训练过程中,如果数据质量不佳,模型容易学得有偏差或者过拟合。训练数据的数据质量治理重点保障数据的完整性、准确性、一致性、多样性和代表性。

(8)模型验证与测试阶段:此阶段治理对象主要是验证数据和测试数据,包括对抗性样本、稀有事件或者小样本数据等。模型的性能验证和测试依赖于独立的高质量测试集,只有当测试数据具有良好的代表性时,才能准确评估模型在新样本上的真实性能。在模型验证与测试阶段,对数据的要求和活动更加聚焦于检验模型在未知数据上的表现和鲁棒性,确保模型不仅在训练集上表现出色,而且在新的、未见过的数据上也能维持良好的性能。

(9)模型推理阶段:此阶段治理对象主要是推理数据集。在模型推理阶段,除了确保模型自身的性能以外,还要关注用于推理的实时数据的质量,通过一系列的数据处理活动来保证模型在实际应用中的效果和稳定性。推理数据集质量治理的关注点主要包括推理数据集的数据格式兼容性、数据质量监控、数据有效性验证、实时数据更新与维护、在线特征提取与转换等。

总结一下,面向AIGC的数据治理基于当前的处理流程,治理内容主要包含3方面:

1、数据质量的处理,例如标准化数据,采集源质量评分,缺失值填充,数据偏见校验等,以及在训练前对训练数据进行数据伦理的校验和处理。保障进入到AIGC后续数据处理和训练的数据是符合要求的。

2、数据质量监控,数据质量监控贯穿整个AIGC数据训练流程中,尽量对每个环节提出关键指标进行实时监控,特别是针对训练前的训练数据和推理前的推理数据进行质量监控。

3、数据安全处理,在整个AIGC的数据处理流程,特别是采集、预处理、以及数据发布流程需要使用到相关的数据安全操作:匿名化,安全对抗,加密脱敏,同态加密,概念擦除、异常数据校验,安全水印等。

基于以上的分析,面向AIGC的数据治理过程和传统的结构化的数据治理过程区别很大。结构化的数据治理过程可以参考前期的数据治理体系文章一到七。

在这里插入图片描述

在这里插入图片描述

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐