Vision AI/Paper review
-
https://github.com/microsoft/RegionCLIP GitHub - microsoft/RegionCLIP: [CVPR 2022] Official code for "RegionCLIP: Region-based Language-Image Pretraining"[CVPR 2022] Official code for "RegionCLIP: Region-based Language-Image Pretraining" - GitHub - microsoft/RegionCLIP: [CVPR 2022] Official code for "RegionCLIP: Region-based Language-...github.com CLIP 논문을 읽고 CLIP backbone을 이용한 object detection..
[논문 읽기] RegionCLIP: Region-based Language-Image Pretraininghttps://github.com/microsoft/RegionCLIP GitHub - microsoft/RegionCLIP: [CVPR 2022] Official code for "RegionCLIP: Region-based Language-Image Pretraining"[CVPR 2022] Official code for "RegionCLIP: Region-based Language-Image Pretraining" - GitHub - microsoft/RegionCLIP: [CVPR 2022] Official code for "RegionCLIP: Region-based Language-...github.com CLIP 논문을 읽고 CLIP backbone을 이용한 object detection..
2023.12.27 -
https://arxiv.org/pdf/2103.00020.pdf CLIP 모델은 contrastive representation learning을 4억여개의 이미지와 텍스트 쌍으로 사전학습을 진행한 모델이다. 배치는 32,768을 사용하였으며 배치가 클수록 의미가 가까운 이미지-텍스트와 의미가 먼 이미지-텍스트를 더 잘 학습할 수 있다고 한다. 이미지와 텍스트를 인코딩하여 contrastive learning을 통해 embedding space에서 벡터간의 거리를 계산하는 방식으로 같은 의미의 이미지-텍스트의 표현을 유사하게 하고, 다른 의미의 이미지-텍스트는 표현을 다르게 만들도록 유도한다. 사전 훈련 모델로 다양한 downstream task에 적용할 수 있다. 기존의 문제와 CLIP이 해결한 방법..
[논문 읽기] CLIP (Learning Transferable Visual Models From Natural Language Supervision)https://arxiv.org/pdf/2103.00020.pdf CLIP 모델은 contrastive representation learning을 4억여개의 이미지와 텍스트 쌍으로 사전학습을 진행한 모델이다. 배치는 32,768을 사용하였으며 배치가 클수록 의미가 가까운 이미지-텍스트와 의미가 먼 이미지-텍스트를 더 잘 학습할 수 있다고 한다. 이미지와 텍스트를 인코딩하여 contrastive learning을 통해 embedding space에서 벡터간의 거리를 계산하는 방식으로 같은 의미의 이미지-텍스트의 표현을 유사하게 하고, 다른 의미의 이미지-텍스트는 표현을 다르게 만들도록 유도한다. 사전 훈련 모델로 다양한 downstream task에 적용할 수 있다. 기존의 문제와 CLIP이 해결한 방법..
2023.11.28 -
https://arxiv.org/pdf/2304.06790.pdf Segment-Anything 모델과 Stable Diffusion을 붙여 Inpaint Anything이라는 것을 만든 아이디어다. 모델을 붙이는 과정에서 segmentation mask를 조금 수정해주는 것 말고는 큰 작업이 없다. 요즘은 Large model을 붙이는 것 만으로도 논문을 쓰나보다. 모델을 직접 만들고 구조를 고치고 뚝딱뚝딱 하는 것에서 LLM 등장 이후 조금 패러다임이 옮겨가는 듯한 느낌이 든다. LLM 연구가 어려운 소상공인 입장에서는 조금 새로운 유형의 논문이었다. 아이디어라는 것은 정해진 것이 없으니 이런 생각도 충분히 아이디어가 될 수 있다고 생각한다. 그러나 정량적인 성능 측정이 어려운 것도 알겠지만 몇 개 ..
[논문 읽기] Inpaint Anything: Segment Anything Meets Image Inpaintinghttps://arxiv.org/pdf/2304.06790.pdf Segment-Anything 모델과 Stable Diffusion을 붙여 Inpaint Anything이라는 것을 만든 아이디어다. 모델을 붙이는 과정에서 segmentation mask를 조금 수정해주는 것 말고는 큰 작업이 없다. 요즘은 Large model을 붙이는 것 만으로도 논문을 쓰나보다. 모델을 직접 만들고 구조를 고치고 뚝딱뚝딱 하는 것에서 LLM 등장 이후 조금 패러다임이 옮겨가는 듯한 느낌이 든다. LLM 연구가 어려운 소상공인 입장에서는 조금 새로운 유형의 논문이었다. 아이디어라는 것은 정해진 것이 없으니 이런 생각도 충분히 아이디어가 될 수 있다고 생각한다. 그러나 정량적인 성능 측정이 어려운 것도 알겠지만 몇 개 ..
2023.11.13 -
간단하게 요약하면 ResNet의 shortcut block에 ConvRNN을 붙여 사용하는 형태인 것 같습니다. 논문에서 말하는 시공간 정보라는 것이 조금 추상적인 표현이라 100% 와닿지는 않았습니다. 하지만 Feature visualization으로 기존 ResNet보다 더 많은 정보를 가진 feature를 얻을 수 있는 부분은 좋은 아이디어 같습니다. 시공간이라는 표현을 쓴 것은 sequence classification이 가능한 RNN을 적용해보기 위해 쓴 표현일까? 라는 생각이 들었습니다. abstract Resnet은 다양한 computer vision task에서 놀라운 성공을 이루었다. 하지만 shortcut connection 구조는 잠재적이고 보완적인 특징을 재탐색하는 능력을 제한한다...
[논문 읽기] RegNet: Self-Regulated Network for Image Classification간단하게 요약하면 ResNet의 shortcut block에 ConvRNN을 붙여 사용하는 형태인 것 같습니다. 논문에서 말하는 시공간 정보라는 것이 조금 추상적인 표현이라 100% 와닿지는 않았습니다. 하지만 Feature visualization으로 기존 ResNet보다 더 많은 정보를 가진 feature를 얻을 수 있는 부분은 좋은 아이디어 같습니다. 시공간이라는 표현을 쓴 것은 sequence classification이 가능한 RNN을 적용해보기 위해 쓴 표현일까? 라는 생각이 들었습니다. abstract Resnet은 다양한 computer vision task에서 놀라운 성공을 이루었다. 하지만 shortcut connection 구조는 잠재적이고 보완적인 특징을 재탐색하는 능력을 제한한다...
2023.10.27 -
https://arxiv.org/pdf/2210.14748.pdf 이 논문은 제목 그대로 Long-tail 분포를 가지는 food 데이터셋을 분류할 때 어떤 문제가 있고, 그 문제를 해결하기 위해 방법을 제안한 논문입니다. 핵심은 아래 그림입니다. Phase-1에서 vanilla training을 진행하고, Phase-2에서 Phase-1에서 학습한 모델의 feature extractor를 이용합니다. Phase-2는 head class를 herding selection 방법을 이용하여 undersampling, tail class를 visual-aware CutMix 방법을 이용해 oversampling 하여 Phase-1의 모델을 knowledge distillation 하는 방식으로 학습합니다. 결..
[논문 읽기] LONG-TAILED FOOD CLASSIFICATIONhttps://arxiv.org/pdf/2210.14748.pdf 이 논문은 제목 그대로 Long-tail 분포를 가지는 food 데이터셋을 분류할 때 어떤 문제가 있고, 그 문제를 해결하기 위해 방법을 제안한 논문입니다. 핵심은 아래 그림입니다. Phase-1에서 vanilla training을 진행하고, Phase-2에서 Phase-1에서 학습한 모델의 feature extractor를 이용합니다. Phase-2는 head class를 herding selection 방법을 이용하여 undersampling, tail class를 visual-aware CutMix 방법을 이용해 oversampling 하여 Phase-1의 모델을 knowledge distillation 하는 방식으로 학습합니다. 결..
2023.09.08 -
https://cs230.stanford.edu/projects_fall_2019/reports/26233496.pdf Abstact 음식이미지는 SNS를 지배하고 여행과 음식점 선택을 유도하지만, 여전히 엄청난 양의 이미지 때문에 정리가 되지 않고 있다. 음식이미지 분류를 올바르게 활용하면 음식 추천, 다이어트를 위한 음식 선택 같은 것 처럼 전반적으로 음식에 대한 경험을 향상시킬 수 있다. 이 논문에서는 CNN으로 음식이미지 분류를 할 때의 문제를 탐구한다. scratch 학습, pretrained model을 통한 transfer learning을 사용하여 61.4% 정확도, 85.2%의 top-5 정확도를 달성했다. Introduction 흔히 우리는 “눈으로 먹는다”라고 말한다. 인스타그램같은 ..
[논문 읽기] Food Image Classification with Convolutional Neural Networkshttps://cs230.stanford.edu/projects_fall_2019/reports/26233496.pdf Abstact 음식이미지는 SNS를 지배하고 여행과 음식점 선택을 유도하지만, 여전히 엄청난 양의 이미지 때문에 정리가 되지 않고 있다. 음식이미지 분류를 올바르게 활용하면 음식 추천, 다이어트를 위한 음식 선택 같은 것 처럼 전반적으로 음식에 대한 경험을 향상시킬 수 있다. 이 논문에서는 CNN으로 음식이미지 분류를 할 때의 문제를 탐구한다. scratch 학습, pretrained model을 통한 transfer learning을 사용하여 61.4% 정확도, 85.2%의 top-5 정확도를 달성했다. Introduction 흔히 우리는 “눈으로 먹는다”라고 말한다. 인스타그램같은 ..
2023.08.30