MediaPipe概述

谷歌开源MediaPipe于2019年6月首次推出。它的目标是通过提供一些集成的计算机视觉和机器学习功能,使我们的生活变得轻松。

MediaPipe是用于构建多模态(例如视频、音频或任何时间序列数据)、跨平台(即eAndroid、IOS、web、边缘设备)应用ML管道的框架。

Mediapipe还促进了机器学习技术在各种不同硬件平台上的演示和应用程序中的部署。

应用

  • 人脸检测

  • 多手跟踪

  • 头发分割

  • 目标检测与跟踪

  • 目标:三维目标检测与跟踪

  • AutoFlip:视频裁剪管道

  • 其他

为什么需要MediaPipe

有效管理资源(CPU和GPU)以实现低延迟性能,处理时间序列数据(如音频和视频帧)的同步。

MediaPipe将每个感知模型抽象为一个模块,并将它们与维护图连接起来。

除上述功能外,MediaPipe还支持TensorFlow和TF Lite推理引擎。任何TensorFlow和TF Lite模型均可用于MediaPipe。同时,在移动和嵌入式平台上,MediaPipe还支持设备本身的GPU加速。

现在是时候向MediaPipe的应用迈进了,人脸检测。


人脸检测

考虑一个场景,“零售商要求你计算访客数量,并跟踪访客的移动。”

看起来很难!!我们怎样才能解决这个问题?嗯…

哦,是的!我们将使用人脸检测来解决这个问题。

人脸检测是计算机视觉中的一个问题,即在照片中定位和定位一个或多个人脸。

问题的一般陈述可以定义如下:给定一幅静止或视频图像,检测并定位未知数量(如果有)的人脸。

使用MediaPipe执行人脸检测:

要执行人脸检测,可以使用三种模型:

  1. 近景模型(最适合距离相机2米以内的人脸)

  2. 全范围模型(密集型,最适合距离相机5米以内的人脸)

  3. 全范围模型(稀疏,最适合距离相机5米以内的人脸)

全范围密集模型和稀疏模型在F分数方面具有相同的质量,但在基础度量方面有所不同。

密集型模型的召回率略高于稀疏模型,而稀疏模型的精确度高于稠密模型。

现在是时候使用MediaPipe的人脸检测模型了。

安装必要的库

要执行人脸检测,首先必须在机器中安装MediaPipe。如果你是windows用户,则可以在计算机的命令提示符下运行以下代码。

pip install mediapipe

有关详细说明,你可以访问以下链接:

https://google.github.io/mediapipe/getting_started/python.html

你还需要为网络摄像头或图像输入安装OpenCV。如果你是windows用户,可以在命令提示符下运行以下代码。

pip install opencv-python

有关详细说明,你可以访问以下链接:

https://pypi.org/project/opencv-python/

编写代码以了解API的使用:

我们使用Google Colab来运行代码。你可以选择使用它。

我们需要cv2,能够读取和显示图像,以及MediaPipe模块,它公开了我们执行人脸检测所需的功能

import cv2

import mediapipe as mp

然后我们将访问两个子模块face_detection和drawing_utils。人脸检测用于加载所有功能以执行人脸检测,而绘图工具用于在图像上绘制检测到的人脸。

mp_face_detection = mp.solutions.face_detection

mp_drawing = mp.solutions.drawing_utils

是时候深入研究代码了。首先,我们将图像作为输入。这里我们使用两种类型的图像

(i) 包含2米以内的人脸的图像

(ii)包含5米以内的人脸的图像。

我们使用colab中的文件直接从本地目录加载图像。你也可以使用cv2.imread用于在本地计算机中工作时加载图像。

(a) 第一张照片

from google.colab import files

uploaded_short_range = files.upload()

(b) 第二张照片

from google.colab import files

uploaded_full_range = files.upload()

在本地PC上工作时,你可以使用

cv2.imread() # 获取输入

单击此处了解有关cv2.imread:https://www.geeksforgeeks.org/python-opencv-cv2-imread-method/

现在我们将调整图像大小并显示图像。为了显示图像,我们必须使用colab或cv2的cv2_imshow模块。

在本地机器中工作时显示cv2.imshow(frame name, iamge)。我们可以使用下面的代码在google colab中调整图像大小并显示图像。

用于调整图像大小和显示图像的代码:

import cv2

from google.colab.patches import cv2_imshow

import math

import numpy as np

 

DESIRED_HEIGHT = 480

DESIRED_WIDTH = 480

def resize_and_show(image):

  h, w = image.shape[:2]

  if h < w:

    img = cv2.resize(image, (DESIRED_WIDTH, math.floor(h/(w/DESIRED_WIDTH))))

  else:

    img = cv2.resize(image, (math.floor(w/(h/DESIRED_HEIGHT)), DESIRED_HEIGHT))

  cv2_imshow(img)

 

# 预览图片.

short_range_images = {name: cv2.imread(name) for name in uploaded_short_range.keys()}

for name, image in short_range_images.items():

  print(name)   

  resize_and_show(image)

 

full_range_images = {name: cv2.imread(name) for name in uploaded_full_range.keys()}

for name, image in full_range_images.items():

  print(name)   

  resize_and_show(image)

上述代码的输出示例

10cb5ebb7526cd84d886df16f718ecbc.png

现在,我们将在脸上画关键点。

我们可以如下更改thickness和circle_radius的值。

drawing_spec = mp_drawing.DrawingSpec(thickness=1, circle_radius=1)

以下代码了解mp.solutions.face_detection的详细信息。

help(mp_face_detection.FaceDetection)

在此之后,我们将创建一个FaceDetection类的对象。该对象将允许我们处理图像并执行人脸关键点检测。此类的构造函数支持以下参数:

(i) 模型选择:整数索引0或1。使用0选择最适合距离摄影机2米以内的面的短距离模型,使用1选择最适合距离摄影机5米以内的面的全范围模型。对于全范围选项,稀疏模型用于提高推理速度。

(ii)最小检测置信度:人脸检测模型中的最小置信值([0.0,1.0]),检测成功。默认值为0.5。

with mp_face_detection.FaceDetection(min_detection_confidence=0.5, model_selection=0) as face_detection:

上面的代码model_selection=0,这意味着我们选择短距离模型进行人脸检测。使用下面的代码,我们使用一个简短的图像模型执行最终的人脸检测,并绘制关键点。

# 运行MediaPipe人脸检测与近距离模型



with mp_face_detection.FaceDetection(

    min_detection_confidence=0.5, model_selection=0) as face_detection:

  for name, image in short_range_images.items():

    # 将BGR图像转换为RGB,并使用MediaPipe人脸检测进行处理。

    results = face_detection.process(cv2.cvtColor(image, cv2.COLOR_BGR2RGB))



    # 绘制每个人脸的检测。

    print(f'Face detections of {name}:')

    if not results.detections:

      continue

    annotated_image = image.copy()

    for detection in results.detections:

      mp_drawing.draw_detection(annotated_image, detection)

    resize_and_show(annotated_image)

短长度(2米以内)图像的人脸检测模型

45ac0ce7e396f244b5ee5162f48eb26f.png

现在对于model_selection=1,这意味着我们选择人脸检测全范围模型。使用下面的代码,我们使用完整的图像模型执行最终的人脸检测,并绘制关键点。

with mp_face_detection.FaceDetection(

    min_detection_confidence=0.5, model_selection=1) as face_detection:

  for name, image in full_range_images.items():

    # 将BGR图像转换为RGB,并使用MediaPipe人脸检测进行处理。

    results = face_detection.process(cv2.cvtColor(image, cv2.COLOR_BGR2RGB))



    # 绘制每个人脸的检测。

    print(f'Face detections of {name}:')

    if not results.detections:

      continue

    annotated_image = image.copy()

    for detection in results.detections:

      mp_drawing.draw_detection(annotated_image, detection)

    resize_and_show(annotated_image)

全范围(5米以内)图像的人脸检测模型

5e4ae9fb18841f1e0ca7dd9ebc58da6e.png

我们还可以使用全范围人脸检测模型的代码对集体照片执行此过程。

161e00a472ce8aab1b6d629f0ee4d5c3.png

下面关于algoscale的文章将向你展示使用OpenCV和MediaPipe姿势估计。

使用OpenCV和MediaPipe进行训练姿势估计:

https://algoscale.com/tech-corner/workout-pose-estimation-using-opencv-and-mediapipe/

结论

人脸检测是计算机视觉中最常见的问题之一。人脸检测和人脸关键点绘制技术有很多种。最有效的技术是在深度学习模型的帮助下产生的。但是,如果我们试图从头开始建立模型,它需要巨大的计算能力、复杂的知识以及数据集。Mediapipe库让我们很容易完成这项艰巨的任务。库提供了一个定制的内置模型。

☆ END ☆

如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 woshicver」,每日朋友圈更新一篇高质量博文。

扫描二维码添加小编↓

76429da716692381750d0d57e2766016.png

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐