WendellZ524 / 3D-detection

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

3D-detection

Paper reading templates

Pass1 Pass2 Pass3
Title:是否相关 看全文,忽略证明公式 详细阅读:每一段话,每一句话
Abstract: 如何对比 脑内重复文章的实验:
- 如果让我来做怎么做
- 如果我来做的话怎么做得更好
- 原文有哪些没有往下走的东西
Result: 关心性能 相关文献:前文,总结 回忆细节
Experiments: Charts 要不要继续->Pass3
-> 相关前文
得到结论
- 文章在讲什么
- 质量怎么样
- 是否适合自己
- 要不要继续->Pass2
问题 评论 想法
Title
Abstract
Result
Experiments
------
对比
相关文章
------
实现细节
改进的点
没讨论的点

3D-OVS

问题 评论 想法
Title Weakly Supervised 3D Open-vocabulary Segmentation1. 南阳理工 2.Max Planck Institute for Informations 3.渥太华4.CMU
Abstract 任务是什么:Open-vocabulary segmentation of 3D scenes;
痛点1:lack of large-scale and diverse 3D open-vocabulary segmentation datasets
痛点2:2D open-vocabulary segmentation models helps but it compromises the open-vocabulary feature
解决方法:CLIP and DINO in a weakly supervised
object reasoning capability of CLIP and DINO into a neural radiance field (NeRF)
好处:does not require any manual segmentation annotations
成果:outperforms fully supervised models trained with segmentation annotations in certain scenes
启发:suggesting that 3D open-vocabulary segmentation can be effectively learned from 2D images and text-image pairs
缺失缺少标注数据,怎么办?
能用Nerf就能有3DGS
比全监督更好?
Result 评价指标:mIoU,mAP
mIoU:80~90,mAP:95+
Experiments TensoRF backbone, 3 scales pixel-level CLIP feature
Dataset: 限定场景有限内容,或者单一物体->创建了一个数据集,comprising 10 distinct scenes。LERD和其他数据集。
如何实现弱监督?体现在哪里?
------
对比 比较的其他文章FFD,Semantic-NeRF,LERF
相关文章 数据集相关:自建数据集,
依赖方法:
同类型方法:
------
实现细节 文本->CLIP->token
图像+pos->NeRF ray(RGB value+ CLIP feature, Selection Vector)
图像->CLIP->feature map->pixel-level-feat~ray
图像->DINO->feature map
使用NeRF把目标的Sgmentation Map 当Novel View
Loss
颜色和颜色:L2
特征和Selection*原始特征:cos
------
Distilling Pixel-level CLIUP Features with 3D seletion Volume
用NeRF渲染特征图来做
估计值是特征图和Selection Volume的乘积?
Selection Volume?做Detection?聚类?分割?
DINO在哪里?
改进的点
没讨论的点 这个3D是NeRF的3D
3D的表征有
mesh+texture, 点云+补全+上色,NeRF,3DGSq
其他方向是否有能做的空间?

Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding

问题 评论 想法
Title Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding
北航
zhongguanchun?
Abstract Open-vocabulary querying
Result
Experiments
------ 没有代码,要继续吗?
对比
相关文章
------
实现细节
改进的点
没讨论的点

Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding

About