awesome-vision-transformer

(Under Construction) A curated list of papers on vision transformers and its applications

ViT for Classification
ViT for Object Detection
ViT for Semantic Segmentation
ViT for Object Tracking
Awesome Researchers
Awesome Resources

ViT for Classification

2020 - An image is worth 16x16 words: Transformers for image recognition at scale
2020 - Pre-Trained Image Processing Transformer

ViT for Object Detection

2020 - UP-DETR: Unsupervised Pre-training for Object Detection with Transformers
2020 - End-to-End Object Detection with Adaptive Clustering Transformer
2020 - Rethinking Transformer-based Set Prediction for Object Detection
2020 - Deformable DETR: Deformable Transformers for End-to-End Object Detection
2020 - DETR for Pedestrian Detection
2020 - RelationNet++: Bridging Visual Representations for Object Detection via Transformer Decodern

ViT for Semantic/Instance Segmentation

2020 - MaX-DeepLab: End-to-End Panoptic Segmentation with Mask Transformers
2020 - End-to-End Video Instance Segmentation with Transformers

ViT for Image-to-Image Problems

2020 - ConvTransformer: A Convolutional Transformer Network for Video Frame Synthesis

ViT for Object Tracking

Awesome Researchers

Awesome Resources

Contributions are always welcomed!

If you have any suggestions (missing papers, projects, source code, new papers, key researchers, dataset, etc.), please feel free to edit and pull a request. (or just let me know the title of paper)

murari023 / awesome-vision-transformer