Diffusion Models in Vision: A Survey (accepted at IEEE TPAMI 2023)

Denoising diffusion models represent a recent emerging topic in computer vision, demonstrating remarkable results in the area of generative modeling. A diffusion model is a deep generative model that is based on two stages, a forward diffusion stage and a reverse diffusion stage. In the forward diffusion stage, the input data is gradually perturbed over several steps by adding Gaussian noise. In the reverse stage, a model is tasked at recovering the original input data by learning to gradually reverse the diffusion process, step by step. Diffusion models are widely appreciated for the quality and diversity of the generated samples, despite their known computational burdens, i.e. low speeds due to the high number of steps involved during sampling. This repository categorizes the papers about diffusion models, applied in computer vision, according to their target task. The classifcation is based on our survey Diffusion Models in Vision: A Survey, which was accepted for publication in IEEE TPAMI.

Summary

Unconditional Generation
Conditional Generation
Text-to-Image generation
Super-Resolution
Image Editing
Region Image Editing
Inpainting
Image-to-Image Translation
Image Segmentation
Multi-Task
Medical Image-to-Image Translation
Medical Image Generation
Medical Image Segmentation
Medical Image Anomaly Detection
Video Generation
Few-Shot Image Generation
Counterfactual Explanations and Estimations
Image Restoration
Image Registration
Adversarial Purification
Semantic Image Generation
Shape Generation and Completion
Classification
Point Cloud Generation
Theoretical
Graphs
Deblurring
Face Morphing Attack Detection
Trajectory/Motion Prediction
Attacks
Study on data memorization
Out-of-Distribution Detection
Image-to-Text Generation
Quantization
Image/Video anomaly detection
Video-to-Speech
Pose estimation
Graphic layout generation
Image watermarking
Video Editing
Information retrieval from video
Object detection

Content

Unconditional Generation

Conditional Generation

Text-to-Image generation

Super-Resolution

Image Editing

Region Image Editing

Blended diffusion for text-driven editing of natural images

Inpainting

GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models
RePaint: Inpainting using Denoising Diffusion Probabilistic Models
[RGBD2: Generative Scene Synthesis via Incremental View Inpainting using RGBD Diffusion Models] (https://openaccess.thecvf.com/content/CVPR2023/papers/Lei_RGBD2_Generative_Scene_Synthesis_via_Incremental_View_Inpainting_Using_RGBD_CVPR_2023_paper.pdf) 4.SmartBrush: Text and Shape Guided Object Inpainting With Diffusion Model
DINAR: Diffusion Inpainting of Neural Textures for One-Shot Human Avatars
Towards Coherent Image Inpainting Using Denoising Diffusion Implicit Models

Image-to-Image Translation

Image Segmentation

Multi-Task

Medical Image-to-Image Translation

Medical Image Generation

Medical Image Segmentation

Medical Image Anomaly Detection

Video Generation

Few-Shot Image Generation

Few-Shot Diffusion Models

Counterfactual Explanations and Estimations

Image Restoration

Image Registration

DiffuseMorph: Unsupervised Deformable Image Registration Along Continuous Trajectory Using Diffusion Models

Adversarial Purification

Semantic Image Generation

3D Generation

Classification

Point Cloud Generation

Theoretical

Graphs

Generative Diffusion Models on Graphs: Methods and Applications

Deblurring

Face Morphing Attack Detection

Face Morphing Attack Detection with Denoising Diffusion Probabilistic Models

Trajectory/Motion Prediction

Attacks

Study on data memorization

1.Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models

Out-of-Distribution Detection

Image-to-Text Generation

DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion

Quantization

Q-Diffusion: Quantizing Diffusion Models

Image/Video anomaly detection

Video-to-Speech

DiffV2S: Diffusion-Based Video-to-Speech Synthesis with Vision-Guided Speaker Embedding

Pose estimation

Graphic layout generation

Image watermarking

The Stable Signature: Rooting Watermarks in Latent Diffusion Models

Video Editing

Information retrieval from video

Object detection

DiffusionDet: Diffusion Model for Object Detection

About

This repository categorizes the papers about diffusion models applied in computer vision according to their target task. The classifcation is based on our survey: https://arxiv.org/abs/2209.04747v1