CVPR 2019 Notes

Following the tradition from the last year CVPR 2018 Notes I've decided to put the list of the papers from this year CVPR 2019. Here is the links to the main conference site with tutorials and workshops:

This year there was also a paper exploration tool from Georgia Tech: CVPR2019 Dashboard

Top Papers

Best Paper Award:

A Theory of Fermat Paths for Non-Line-Of-Sight Shape Reconstruction. Shumian Xin, Sotiris Nousias, Kiriakos N. Kutulakos, Aswin C. Sankaranarayanan, Srinivasa G. Narasimhan, Ioannis Gkioulekas [pdf] [supp]

Honorable Mentions:

A Style-Based Generator Architecture for Generative Adversarial Networks. Tero Karras, Samuli Laine, Timo Aila [pdf] [supp]

Honorable Mentions:

Learning the Depths of Moving People by Watching Frozen People. Zhengqi Li, Tali Dekel, Forrester Cole, Richard Tucker, Noah Snavely, Ce Liu, William T. Freeman [pdf] [supp]

Best Student Paper Award:

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation. Xin Wang, Qiuyuan Huang, Asli Celikyilmaz, Jianfeng Gao, Dinghan Shen, Yuan-Fang Wang, William Yang Wang, Lei Zhang [pdf]

Autonomous Driving Challenges

Challenges related to the autonomous driving at CVPR 2019:

Autonomous Driving Datasets & Sims

Some new, announced and some old but mentioned datasets:

Visual odometry, SLAM, Localization.

BAD SLAM: Bundle Adjusted Direct RGB-D SLAM. Thomas Schops, Torsten Sattler, Marc Pollefeys [pdf] [supp] [poster] [code] (ETH)
Revealing Scenes by Inverting Structure From Motion Reconstructions. Francesco Pittaluga, Sanjeev J. Koppal, Sing Bing Kang, Sudipta N. Sinha [pdf] [supp]
From Coarse to Fine: Robust Hierarchical Localization at Large Scale. Paul-Edouard Sarlin, Cesar Cadena, Roland Siegwart, Marcin Dymczyk [pdf] [supp]
LO-Net: Deep Real-Time Lidar Odometry. Qing Li, Shaoyang Chen, Cheng Wang, Xin Li, Chenglu Wen, Ming Cheng, Jonathan Li [pdf] (lidar)
Selective Sensor Fusion for Neural Visual-Inertial Odometry. Changhao Chen, Stefano Rosa, Yishu Miao, Chris Xiaoxuan Lu, Wei Wu, Andrew Markham, Niki Trigoni [pdf] [supp]
An Efficient Schmidt-EKF for 3D Visual-Inertial SLAM. Patrick Geneva, James Maley, Guoquan Huang [pdf] [supp]
Hybrid Scene Compression for Visual Localization. Federico Camposeco, Andrea Cohen, Marc Pollefeys, Torsten Sattler [pdf] (ETH, Microsoft)
Understanding the Limitations of CNN-Based Absolute Camera Pose Regression. Torsten Sattler, Qunjie Zhou, Marc Pollefeys, Laura Leal-Taixe [pdf] [supp] (ETH, Microsoft)
D2-Net: A Trainable CNN for Joint Description and Detection of Local Features. Mihai Dusmanu, Ignacio Rocco, Tomas Pajdla, Marc Pollefeys, Josef Sivic, Akihiko Torii, Torsten Sattler [pdf] [supp]

Point Clouds, Registration

SDRSAC: Semidefinite-Based Randomized Approach for Robust Point Cloud Registration Without Correspondences. Huu M. Le, Thanh-Toan Do, Tuan Hoang, Ngai-Man Cheung [pdf] [supp] [code] (point cloud)
Supervised Fitting of Geometric Primitives to 3D Point Clouds. Lingxiao Li, Minhyuk Sung, Anastasia Dubrovina, Li Yi, Leonidas J. Guibas [pdf] [supp] (Stanford, Facebook AI)
DeepLiDAR: Deep Surface Normal Guided Depth Prediction for Outdoor Scene From Sparse LiDAR Data and Single Color Image. Jiaxiong Qiu, Zhaopeng Cui, Yinda Zhang, Xingdi Zhang, Shuaicheng Liu, Bing Zeng, Marc Pollefeys [pdf] [supp] (ETH, Google, Microsoft)
Modeling Point Clouds With Self-Attention and Gumbel Subset Sampling. Jiancheng Yang, Qiang Zhang, Bingbing Ni, Linguo Li, Jinxian Liu, Mengdie Zhou, Qi Tian [pdf] [supp]
DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion. Chen Wang, Danfei Xu, Yuke Zhu, Roberto Martin-Martin, Cewu Lu, Li Fei-Fei, Silvio Savarese [pdf] [project page] [code] (Stanford)
JSIS3D: Joint Semantic-Instance Segmentation of 3D Point Clouds With Multi-Task Pointwise Networks and Multi-Value Conditional Random Fields. Quang-Hieu Pham, Thanh Nguyen, Binh-Son Hua, Gemma Roig, Sai-Kit Yeung [pdf]
FilterReg: Robust and Efficient Probabilistic Point-Set Registration Using Gaussian Filter and Twist Parameterization. Wei Gao, Russ Tedrake [pdf] [supp] (MIT)
Dynamicfusion: Reconstruction and tracking of non-rigid scenes in real-time. Richard A. NewcombeDieter FoxSteven M. Seitz [pdf] (CVPR 2015)
Minimal Solvers for Mini-Loop Closures in 3D Multi-Scan Alignment. Pedro Miraldo, Surojit Saha, Srikumar Ramalingam [pdf]
Scan2Mesh: From Unstructured Range Scans to 3D Meshes. Angela Dai, Matthias Niessner [pdf] [supp]
PointPillars: Fast Encoders for Object Detection From Point Clouds. Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, Oscar Beijbom [pdf] (NuTonomy)
Learning Transformation Synchronization. Xiangru Huang, Zhenxiao Liang, Xiaowei Zhou, Yao Xie, Leonidas J. Guibas, Qixing Huang [pdf] [supp]

3D Multiview

Real-Time Self-Adaptive Deep Stereo. Alessio Tonioni, Fabio Tosi, Matteo Poggi, Stefano Mattoccia, Luigi Di Stefano [pdf] [code]
NM-Net: Mining Reliable Neighbors for Robust Feature Correspondences. Chen Zhao, Zhiguo Cao, Chi Li, Xin Li, Jiaqi Yang [pdf] [code]
Coordinate-Free Carlsson-Weinshall Duality and Relative Multi-View Geometry. Matthew Trager, Martial Hebert, Jean Ponce [pdf] [supp]
Deep Reinforcement Learning of Volume-Guided Progressive View Inpainting for 3D Point Scene Completion From a Single Depth Image. Xiaoguang Han, Zhaoxuan Zhang, Dong Du, Mingdai Yang, Jingming Yu, Pan Pan, Xin Yang, Ligang Liu, Zixiang Xiong, Shuguang Cui [pdf]
GA-Net: Guided Aggregation Net for End-To-End Stereo Matching. Feihu Zhang, Victor Prisacariu, Ruigang Yang, Philip H.S. Torr [pdf] [code]
Pushing the Boundaries of View Extrapolation With Multiplane Images. Pratul P. Srinivasan, Richard Tucker, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng, Noah Snavely [pdf]
DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation. Jeong Joon Park, Peter Florence, Julian Straub, Richard Newcombe, Steven Lovegrove [pdf]
3D Local Features for Direct Pairwise Registration. Haowen Deng, Tolga Birdal, Slobodan Ilic [pdf]
GPSfM: Global Projective SFM Using Algebraic Constraints on Multi-View Fundamental Matrices. Yoni Kasten, Amnon Geifman, Meirav Galun, Ronen Basri [pdf] [supp]

3D Reconstruction

What Do Single-View 3D Reconstruction Networks Learn?. Maxim Tatarchenko, Stephan R. Richter, Rene Ranftl, Zhuwen Li, Vladlen Koltun, Thomas Brox [pdf] (Freiburg)
3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans. Ji Hou, Angela Dai, Matthias Niessner [pdf] [supp]
PlaneRCNN: 3D Plane Detection and Reconstruction From a Single Image. Chen Liu, Kihwan Kim, Jinwei Gu, Yasutaka Furukawa, Jan Kautz [pdf] [supp] [project page] [code] (NVIDIA)
Occupancy Networks: Learning 3D Reconstruction in Function Space. Lars Mescheder, Michael Oechsle, Michael Niemeyer, Sebastian Nowozin, Andreas Geiger [pdf] [supp] (Google AI)
H+O: Unified Egocentric Recognition of 3D Hand-Object Poses and Interactions. Bugra Tekin, Federica Bogo, Marc Pollefeys [pdf] [supp] (Microsoft, ETH)
Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion. Zhenpei Yang, Jeffrey Z. Pan, Linjie Luo, Xiaowei Zhou, Kristen Grauman, Qixing Huang [pdf] [supp]
Learning Structure-And-Motion-Aware Rolling Shutter Correction. Bingbing Zhuang, Quoc-Huy Tran, Pan Ji, Loong-Fah Cheong, Manmohan Chandraker [pdf] [supp]
PVNet: Pixel-Wise Voting Network for 6DoF Pose Estimation. Sida Peng, Yuan Liu, Qixing Huang, Xiaowei Zhou, Hujun Bao [pdf] [code]
Pseudo-LiDAR From Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving. Yan Wang, Wei-Lun Chao, Divyansh Garg, Bharath Hariharan, Mark Campbell, Kilian Q. Weinberger [pdf] [supp]

Scenes & Representation

d-SNE: Domain Adaptation Using Stochastic Neighborhood Embedding. Xiang Xu, Xiong Zhou, Ragav Venkatesan, Gurumurthy Swaminathan, Orchid Majumder [pdf] (Amazon)
ContextDesc: Local Descriptor Augmentation With Cross-Modality Context. Zixin Luo, Tianwei Shen, Lei Zhou, Jiahui Zhang, Yao Yao, Shiwei Li, Tian Fang, Long Quan [pdf]
Mitigating Information Leakage in Image Representations: A Maximum Entropy Approach. Proteek Chandan Roy, Vishnu Naresh Boddeti [pdf] [supp]
Learning Spatial Common Sense With Geometry-Aware Recurrent Networks. Hsiao-Yu Fish Tung, Ricson Cheng, Katerina Fragkiadaki [pdf] [supp] (Uber ATG)
Scan2CAD: Learning CAD Model Alignment in RGB-D Scans. Armen Avetisyan, Manuel Dahnert, Angela Dai, Manolis Savva, Angel X. Chang, Matthias Niessner [pdf] [supp] [dataset]
Normalized Object Coordinate Space for Category-Level 6D Object Pose and Size Estimation. He Wang, Srinath Sridhar, Jingwei Huang, Julien Valentin, Shuran Song, Leonidas J. Guibas [pdf] [supp] [project page] [code] (Google, Facebook AI)
Do Better ImageNet Models Transfer Better?. Simon Kornblith, Jonathon Shlens, Quoc V. Le [pdf] [supp] (Google Brain)
Segmentation-Driven 6D Object Pose Estimation. Yinlin Hu, Joachim Hugonot, Pascal Fua, Mathieu Salzmann [pdf]
Panoptic Feature Pyramid Networks. Alexander Kirillov, Ross Girshick, Kaiming He, Piotr Dollar [pdf] (Facebook AI)
Mask Scoring R-CNN. Zhaojin Huang, Lichao Huang, Yongchao Gong, Chang Huang, Xinggang Wang [pdf] [code]
UPSNet: A Unified Panoptic Segmentation Network. Yuwen Xiong, Renjie Liao, Hengshuang Zhao, Rui Hu, Min Bai, Ersin Yumer, Raquel Urtasun [pdf] (Uber ATG)
LaserNet: An Efficient Probabilistic 3D Object Detector for Autonomous Driving. Gregory P. Meyer, Ankit Laddha, Eric Kee, Carlos Vallespi-Gonzalez, Carl K. Wellington [pdf] (Uber ATG)

Other

Video Action Transformer Network. Rohit Girdhar, Joao Carreira, Carl Doersch, Andrew Zisserman [pdf] (CMU, DeepMind)
SelFlow: Self-Supervised Learning of Optical Flow. Pengpeng Liu, Michael Lyu, Irwin King, Jia Xu [pdf]
Taking a Deeper Look at the Inverse Compositional Algorithm. Zhaoyang Lv, Frank Dellaert, James M. Rehg, Andreas Geiger [pdf] [supp]
Deeper and Wider Siamese Networks for Real-Time Visual Tracking. Zhipeng Zhang, Houwen Peng [pdf] [supp]
What Correspondences Reveal About Unknown Camera and Motion Models?. Thomas Probst, Ajad Chhatkuli, Danda Pani Paudel, Luc Van Gool [pdf] [supp] (ETH)
Self-Calibrating Deep Photometric Stereo Networks. Guanying Chen, Kai Han, Boxin Shi, Yasuyuki Matsushita, Kwan-Yee K. Wong [pdf]
Argoverse: 3D Tracking and Forecasting With Rich Maps. Ming-Fang Chang, John Lambert, Patsorn Sangkloy, Jagjeet Singh, Slawomir Bak, Andrew Hartnett, De Wang, Peter Carr, Simon Lucey, Deva Ramanan, James Hays [pdf] [supp] (Argo AI)
Accel: A Corrective Fusion Network for Efficient Semantic Segmentation on Video. Samvit Jain, Xin Wang, Joseph E. Gonzalez [pdf] (Berkeley)
RePr: Improved Training of Convolutional Filters. Aaditya Prakash, James Storer, Dinei Florencio, Cha Zhang [pdf]
Devil Is in the Edges: Learning Semantic Boundaries From Noisy Annotations. David Acuna, Amlan Kar, Sanja Fidler [pdf] [supp] (NVIDIA)
Path-Invariant Map Networks. Zaiwei Zhang, Zhenxiao Liang, Lemeng Wu, Xiaowei Zhou, Qixing Huang [pdf] [supp]
Probabilistic Permutation Synchronization Using the Riemannian Structure of the Birkhoff Polytope. Tolga Birdal, Umut Simsekli [pdf] [supp]
Lifting Vectorial Variational Problems: A Natural Formulation Based on Geometric Measure Theory and Discrete Exterior Calculus. Thomas Mollenhoff, Daniel Cremers [pdf] (TUM)
MAP Inference via Block-Coordinate Frank-Wolfe Algorithm. Paul Swoboda, Vladimir Kolmogorov [pdf] [supp]
A Convex Relaxation for Multi-Graph Matching. Paul Swoboda, Dagmar Kainm"uller, Ashkan Mokarian, Christian Theobalt, Florian Bernard [pdf] [supp]
Machine Vision Guided 3D Medical Image Compression for Efficient Transmission and Accurate Segmentation in the Clouds. Zihao Liu, Xiaowei Xu, Tao Liu, Qi Liu, Yanzhi Wang, Yiyu Shi, Wujie Wen, Meiping Huang, Haiyun Yuan, Jian Zhuang [pdf] [supp]

About

Links and notes to the most interesting paper from CVPR 2019