[논문] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
·
Paper Review
https://arxiv.org/abs/2103.14030 Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsThis paper presents a new vision Transformer, called Swin Transformer, that capably serves as a general-purpose backbone for computer vision. Challenges in adapting Transformer from language to vision arise from differences between the two domains, such asarxiv.org이번 포스팅은 2021 ICCV에 accept된 Sw..
[논문] SIFU: Side-view Conditioned Implicit Function for Real-world Usable Clothed Human Reconstruction
·
Paper Review
Abstract복잡한 pose를 취하고 있는 사람이나 옷이나 헤어스타일 등을 리얼하게 복구하는 것은 보이지 않는 영역을 예측하는 것 뿐만 아니라 중요한 task들 중 하나로 여겨져 왔다. 하지만 이전의 모델들은 2D image를 3D로 변환하고 texture를 예측하는 것에 있어서 prior guidance가 충분하지 않다는 점이 문제가 되어왔다. 따라서 본 논문에서는 SIFU [Side-view Conditioned Implicit Function for Real-world Usable Clothed Human Reconstruction]이라는 모델을 제안해서 이를 해결하고자 했다.SIFU는 transformer의 cross-mechanism을 사용하였고, SMPL-X를 이용해서 2D feature들을..
[논문] PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization
·
Paper Review
https://shunsukesaito.github.io/PIFuHD/https://www.youtube.com/watch?v=uEDqCxvF5ycAbstractimage-based 3D human shape estimation은 Deep Neural Network의 등장으로 급격히 발전했다. 하지만, real world setting에서는 input image의 detail을 살리는데 어려움을 겪는데, 이 논문의 저자들은 이러한 어려움의 원인을 2가지 conflicting requirements에서 찾았다.Accurate predictions require large context, but precise predictions require high resolutionDue to memory limita..
[논문] PIFu: Pixel-Aligned Implicit Function for High-Resolution Clothed Human Digitization
·
Paper Review
https://shunsukesaito.github.io/PIFu/AbstractWhat if PIFu?An implicit representation that locally aligns pixels of 2D images with the global context of their corresponding 3D object→ End-to-End deep learning method for digitizing highly detailed clothed humans that can infer both 3D surface and texture매우 복잡한 shape [hairstyles, clothing …] 뿐만 아니라 이것들의 변화나 변형도 unified way로 digitize할 수 있다PIFu는 사람의 ..
[논문] Deep Reinforcement Learning with Double Q-learning [a.k.a DDQN]
·
Paper Review
AbstractQ-Learning algorithm의 경우 특정 조건에서 action value를 과대평가하는 것으로 알려져 있다.https://arxiv.org/abs/1312.5602 Playing Atari with Deep Reinforcement LearningWe present the first deep learning model to successfully learn control policies directly from high-dimensional sensory input using reinforcement learning. The model is a convolutional neural network, trained with a variant of Q-learning, whose inp..
[논문] Emerging Properties in Self-Supervised Vision Transformers [a.k.a DINO]
·
Paper Review
이전 Posting에서 Vision Transformer에 대해 다룬 적이 있었다.2024.09.11 - [Paper Review] - [논문] Transformer in Computer Vision [논문] Transformer in Computer Vision2024.09.10 - [Paper Review] - [논문] Segmentation이번 posting에서는 NLP에서 성능이 매우 좋다는 것이 증명된 Transformer를 vision task로 가져온 논문 3편에 대해 요약을 할 것이다.ViT [Vision Transformer]https://arxiv.orgphj6724.tistory.com이번 posting에서는 Vision Transformer에 Self-supervised learni..