[논문] Human Pose Estimation
·
Paper Review
What is Pose Estimation?Pose Estimation이라는 말은 컴퓨터가 이미지나 비디오에서 사람의 pose를 예측하는 task를 의미한다. Pose Estimation의 경우 object의 위치를 알아야 하고, 그 object에 대해 estimate를 해야 하기 때문에 localizing과 estimating 과정으로 진행이 된다. 이 분야의 경우 최근에는 사람 뿐 만아니라 동물이나 자동차, 카메라 등 여러 분야에 적용이 되는데 이 review에서는 Human Pose Estimation [HPE]만 다루도록 하겠다.HPE의 종류를 보면 위의 그림과 같다.2D Pose Estimation2D Pose Estimation은 흔히 접할 수 있는 2차원 이미지, 비디오에서 pose esti..
[논문] Transformer in Computer Vision
·
Paper Review
2024.09.10 - [Paper Review] - [논문] Segmentation이번 posting에서는 NLP에서 성능이 매우 좋다는 것이 증명된 Transformer를 vision task로 가져온 논문 3편에 대해 요약을 할 것이다.ViT [Vision Transformer]https://arxiv.org/abs/2010.11929[An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale An Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleWhile the Transformer architecture has become the de-fact..
[논문] Segmentation
·
Paper Review
이번 posting에서 다룰 논문은 Segmentation에 대해 3개의 논문을 다룰 것이다.Segmentation의 경우 크게 3가지로 분류할 수 있는데, Semantic Segmentation, Instance Segmentation, Panoptic Segmentation이 그 3가지 이다.Semantic Segmentationhttps://arxiv.org/abs/1411.4038 Fully Convolutional Networks for Semantic SegmentationConvolutional networks are powerful visual models that yield hierarchies of features. We show that convolutional networks by ..
[논문] Drone Object Detection Using RGB/IR Fusion
·
Paper Review
논문 출처https://arxiv.org/abs/2201.03786 Drone Object Detection Using RGB/IR FusionObject detection using aerial drone imagery has received a great deal of attention in recent years. While visible light images are adequate for detecting objects in most scenarios, thermal cameras can extend the capabilities of object detection to night-tiarxiv.orgAbstract그동안 drone이라고 불리는 공중 비행 장치를 통한 object detectio..
[논문] Masked Autoencoders Are Scalable Vision Learners
·
Paper Review
논문 출처https://arxiv.org/abs/2111.06377 Masked Autoencoders Are Scalable Vision LearnersThis paper shows that masked autoencoders (MAE) are scalable self-supervised learners for computer vision. Our MAE approach is simple: we mask random patches of the input image and reconstruct the missing pixels. It is based on two core designs. First, wearxiv.orgAbstract이 논문에서는 MAE [Masked Autoencoder]가 comput..