大家好,今天继续聊聊科技圈发生的那些事。

一、Champ

三维参数导引下可控一致的人体图像动画生成项目。只需要一张照片,就能让照片里的人物动起来。

给出一个动作视频,Champ 可以让不同的人像复刻出相同的动作。

我们先来看看真实人物照片的效果:

而在虚拟人物和不同风格的照片下,Champ 也有不错的表现:

项目主要依靠于人体网格恢复模型,从输入视频中提取参数化三维人体网格模型 SMPL 序列,渲染不同的信息控制视频的生成。

项目框架

在项目的框架图中,我们可以看到,Champ 采用了一个多层运动融合模块(MLMF),通过深度、骨骼、蒙版、法线、语义几项信息控制视频的细节生成,使其更加真实灵动。这五项信息,也可以通过 comfy 节点的示例工作流生成。

另外,Champ 利用 SMPL 保持了生成视频中人物体型的一致。通过对齐体型参数,Champ 在保持人物的体态和动作方面超过了其他 SOTA 工作。

效果比较

效果比较

项目提供了体验 demo,如果需要本地部署,会根据所生成的分辨率占用显存,分辨率越高,显存占用越大,需要一定硬件支持,感兴趣的小伙伴也可以试试分段生成。

项目地址:

https://github.com/fudan-generative-vision/champ

二、MuseV

基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成项目。

在这个项目里,我们能看到:

  • 会动的永恩和金克斯

  • 跨越多年眨巴大眼睛的杜甫老师

而作为虚拟人视频生成项目,MuseV 在生成场景的方面也有不错的表现。

MuseV 支持以下几种生成方式:图像到视频、文本到图像到视频、视频到视频。另外,它还能兼容 Stable Diffusion 的生态系统。

并行去噪

并行去噪

对于当前的生成方案,如果不对齐视频和图像的首帧条件,首帧的信息可能会被破坏,所以 MuseV 一般有如下的使用流程:

  1. 确定参考视频

  2. 用参考视频的首帧走图生图、controlnet流程,可以使用 MJ 等各种平台

  3. 拿2中的生成图、参考视频用 MuseV 生成视频

由于训练数据类型有限,MuseV 在较低分辨率下具有更大的动作范围,但视频质量较低;在高分辨率下,画质更好、但动作范围较小。可能还需要使用更多类型的数据进行训练,如高质量、高分辨率的视频数据集。

在近期的更新中,作者团队更新了 Huggingface 的 GUI ,可以在线进行体验。

Huggingface地址:

https://huggingface.co/spaces/AnchorFake/MuseVDemo

作者团队的主页上还说到,他们即将发布的 MuseTalk(一个实时高质量的唇同步模型,在 MuseV 项目的主页也已经给出演示 demo 了)可与 MuseV 配合使用,生成的效果会更好,可以期待一手。

项目地址:

https://github.com/TMElyralab/MuseV

三、BrushNet

一个具有分解双分支扩散的图像修复模型。对于画面上的 Mask 区域(蒙版,存在缺失的部分),BrushNet 可以对其进行修复。此外,BrushNet 对于任何已经预先训练好的扩散模型都可以实现“即插即用”。

效果展示

效果展示

模型在给定蒙版和蒙版图像输入的情况下输出一个未绘制的图像。首先,对掩模进行下采样以适应潜空间的大小,并将掩模图像输入 VAE 编码器以对齐潜在空间的分布。然后,将噪声潜伏、掩码图像潜伏和下采样掩码连接起来作为输入。接下来从模型中提取特征,特征去噪后,生成的图像和蒙版图像与模糊蒙版混合,生成图像。

项目框架

BrushNet 不会修改预训练的扩散模型的权重,可以实现保存尺度调整,也可以进一步自定义非 Mask 区域的保存比例。这使得 BrushNet 具有很强的灵活性,实现即插即用。

作者团队还展示了将 BrushNet 与不同的扩散模型相结合的能力,其中有:

  • DreamShaper (DS)

  • epiCRealism (ER)

  • Henmix_Real (HR)

  • MeinaMix (MM)

  • Realistic Vision (RV)

不同模型下的效果

不同模型下的效果

根据用户个人的需求,可以灵活选用已经训练好的 SD 模型进行集成,只需要选择自己满意的效果即可。

项目地址:

https://github.com/TencentARC/BrushNet

四、MediaCrawler

这是一款开源的爬虫项目,用于爬取小红书、抖音、快手、B站、微博的视频、图片、评论、点赞、转发等信息。

MediaCrawler 基于 playwright 库搭桥,保留登录成功后的上下文浏览器环境,通过执行 JS 表达式获取一些加密参数。通过这样的方式,免去了复现核心加密 JS 代码,逆向难度大大降低。在 Python 环境下搭建项目也使得这个项目的可扩展性大大提升,潜力无限。

该项目有以下三种登录态:

  • QRCode (login_by_qrcode)

  • 手机号 (login_by_mobile)

  • Cookie (login_by_cookies)

作者也对登录的准备工作进行了说明,方便用户使用。

而且,MediaCrawler 具备模块化设计,用户可以根据自己的使用需求,定义爬取的关键词、指定目录等。可以实现抓取策略的“私人定制”。

顺提一句,作者曾将这个在几天之内就获取 10k+ star 数的项目亲手删除。当我们再一次看到它的时候,主页上新增了很多免责声明。想必作者自己也不希望这个功能如此便捷的爬虫项目给自己带来什么麻烦吧。

项目地址:

https://github.com/NanmiCoder/MediaCrawler

好了,本期的内容就是这么多,我们下期再见!

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐