본문 바로가기

분류 전체보기

(15)
Scalable Neural Video Representations with Learnable Positional Features https://arxiv.org/abs/2210.06823 최근에 Video Representation에 관심이 많아져서 가져온 주제입니다. 요약 위주로 하다보니, 수식들은 Latex로 작성되어 있어 논문과 비교해서 읽는 걸 추천드립니다!! What is Coordinate-Based Neural Representations? ⇒ Instead of storing signal outputs as a coordinate grid (e.g. image pixels), CNRs represent each signal as a compact, parameterized, continuous neural network. → Why? Coordinate grid’s memory requirement is unfavo..
Graph of Thoughts: Solving Elaborate Problems with Large Language Models GDSC ML 파트 멤버로 처음 쓰는 블로그입니다. 영어로 블로그 작성한 점 양해 부탁드립니다.. 리뷰하고자 하는 논문은 Graph of Thoughts 논문으로, Chain-of-Thought의 후속 논문이며, Graph를 사용해서 Latency, Performance를 개선한 것이 유의미한 결과입니다. https://arxiv.org/pdf/2308.09687.pdf Introduction Chain-Of-Thought → Includes the intermediate steps of reasoning within the prompt Fundamentally more powerful prompting can be achieved by enabling LLM thoughts to form an arbi..
[Paper Review 2] Deep ViT: Towards Deeper Vision Transformer https://arxiv.org/abs/2103.11886 1. Introduction Convolution layer를 몇 개씩 쌓아 올려서 global information을 모아놓는 CNN과 다르게, ViT는 self-attention 메커니즘을 사용하여 layer-wise local feature extraction을 하지 않고도 global information을 모을 수 있다. 이러한 과정을 거쳐, ViT의 성능은 CNN보다 좋다고 할 수 있다. 최근 CNN 연구에 있어, deep model을 학습시키는 과정이 주가 되었기 때문에, 저자들은 "ViT 또한 CNN과 비슷하게 deep하게 만들어서 성능을 개선시킬 수 있지 않을까?"라는 의문을 가지게 되었다. ViT는 self-attention 메..
[Paper Review 1] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale https://arxiv.org/abs/2010.11929 International Conference on Learning Representations(ICLR) 2021 1. Introduction 이 논문은 NLP에서 Transformer의 성공에 따라, 이미지에 Transformer를 적용하는 Vision Transformer를 제안한다. 먼저, 이미지를 patch로 split하고, 해당 patch들의 linear embedding sequence를 Transformer의 input으로 넣는다. CV의 이미지 패치들은 NLP의 token과 거의 유사하게 사용된다. 강하게 Regularization을 하지 않고, ImageNet과 같이 중간 크기의 데이터셋에 학습을 시킬 때, ResNet보다 정확도..
[Paper Review 4] Multimodal Unsupervised Image-to-Image Translation https://arxiv.org/abs/1804.04732 European Conference on Computer Vision (ECCV), 2018 1. Introduction Computer Vision에서 다루는 task 대부분 하나의 domain에서 다른 하나의 domain으로 이미지를 translate 하는 것을 요한다. 따라서, 이러한 cross-domain image-to-image translation은 학계에서도 굉장히 관심도가 높았던 주제이다. 많은 scenario에서 cross-domain mapping은 multimodal이다. 하지만, 많은 모델들은 가능한 output의 full distribution을 무시하는 경우가 많고, noise를 따로 넣어도 모델이 noise를 무시하는..
[Paper Review 3] A Style-Based Generator Architecture for Generative Adversarial Networks https://arxiv.org/abs/1812.04948 Conference on Computer Vision and Pattern Recognition (CVPR), 2019 StyleGAN은 NVIDIA팀이 발표한 논문이고, GAN에 굉장히 큰 영향을 미친 논문이다. 1. Introduction GAN을 기반으로 하는 이미지 합성 기술은 PGGAN과 같은 모델을 포함해서, 지속적으로 발전해 왔다. 하지만, Generator들을 통해서 이미지를 합성하는 과정은 black box으로 여기어 지고, 합성하고자 하는 이미지의 attribute 또한 조절하기 어렵다는 한계가 있다. StyleGAN은 기존 모델들에서 나타나는 문제들을 해결하기 위해서, Style Transfer를 기반으로 하는 Generato..
[Paper Review 2] StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation https://arxiv.org/abs/1711.09020 Conference on Computer Vision and Pattern Recognition (CVPR), 2018 1. Introduction What is image-to-image translation?? 주어진 이미지의 모습을 다른 모습으로 바꾸는 것을 의미한다. 두 개의 다른 도메인에서 학습 데이터가 주어졌을 때, StarGAN은 한 도메인에서 다른 하나의 도메인으로 바꾸는 것을 학습하는 모델이다. CelebA 데이터셋과 같이, labeled 데이터셋을 사용하는 multi-domain image translation 과제를 수행할 때, 기존의 모델들이 비효율적인 것을 확인할 수 있다. k개의 domain 사이에서의 모든 매핑들을 학습..
[Paper Review 1] Perceptual Adversarial Networks for Image-to-Image Transformation https://arxiv.org/abs/1706.09138 Conference on Computer Vision and Pattern Recognition (CVPR), 2017 1. Introduction Image-to-Image Transformation -> Input 이미지를 원하는 output 이미지로 출력하는 것을 목표로 한다. 선행연구에서는 Image-to-Image transformation을 수행하기 위해서, CNN을 supervised manner로 학습시켜왔다. 이는 Input 이미지를 hidden representation으로 인코딩을 하고, output 이미지로 디코딩을 하는 방식이다. 또한, 선행연구는 GAN을 사용하여 Image-to-Image Transformation을 수..