Vision AI/Paper review

[논문 읽기] Inpaint Anything: Segment Anything Meets Image Inpainting

https://arxiv.org/pdf/2304.06790.pdf

Segment-Anything 모델과 Stable Diffusion을 붙여 Inpaint Anything이라는 것을 만든 아이디어다. 모델을 붙이는 과정에서 segmentation mask를 조금 수정해주는 것 말고는 큰 작업이 없다. 요즘은 Large model을 붙이는 것 만으로도 논문을 쓰나보다. 모델을 직접 만들고 구조를 고치고 뚝딱뚝딱 하는 것에서 LLM 등장 이후 조금 패러다임이 옮겨가는 듯한 느낌이 든다.

LLM 연구가 어려운 소상공인 입장에서는 조금 새로운 유형의 논문이었다. 아이디어라는 것은 정해진 것이 없으니 이런 생각도 충분히 아이디어가 될 수 있다고 생각한다. 그러나 정량적인 성능 측정이 어려운 것도 알겠지만 몇 개 사진을 돌려보고 잘된다고 리포팅 해놓은 것은 신뢰도에 문제가 있을 수 있다고 생각한다.

Abstract

Segment-Anything (SAM)을 기반으로 mask-free image inpainting 시도를 처음으로 하였으며, “클릭과 채우기”의 새로운 패러다임을 제안한다. 이름은 Inpaint Anything (IA)로 한다.

IA의 핵심 아이디어는 inpainting 관련 문제를 풀기 위한 강력하고 사용자 친화적인 파이프라인을 만들기 위해 다양한 모델의 강점을 결합하는 것이다.

IA는 세 가지 주요 기능을 지원한다.

(1) Remove Anything : 사용자가 사진에서 object를 클릭하면 IA가 object를 제거하고 제거된 부분을 자연스럽게 채워준다.

(2) Fill Anything : 특정 object를 제거 후에 사용자가 IA에 text 프롬포트를 제공하면, 제거된 부분에 Stable Diffusion과 같은 AI generated content (AIGC)모델 구동으로 컨텐츠를 채워준다.

(3) Replace Anything : IA를 사용하면 사용자는 클릭한 object를 유지하고 생성된 새로운 배경으로 바꿀 수 있다.

1. Motivation and Observation

removing anything을 위한 SAM + SOTA inpainter

IA를 사용하면 사용자는 object를 간단하게 클릭함으로써 특정 object를 제거할 수 있다. 게다가 IA는 object가 제거된 “hole”을 상황에 맞게 채워줄 수 있는 결과도 제공한다. 이 부분을 지향하기 위해, SAM과 LaMa 같은 SOTA inpainter를 결합했다.

SAM에서 생성된 마스크는 inpainting model에 인풋으로 들어가 지울 영역과 채울 영역을 알려주는 역할을 한다.

replacing anything 또는 filling anything을 위한 SAM + AIGC 모델

(1) object를 지운 후에, IA는 새로운 컨텐츠 또는 상황에 맞는 데이터로 “hole”을 채울 수 있는 옵션을 제공한다. 특히, stable diffusion 같은 AIGC 모델은 text prompt를 통해 새로운 object를 생성하는데에 유용하다.

(2) 또한, 사용자는 클릭으로 선택한 object를 유지하고 새롭게 생성된 이미지로 배경을 바꾸는 옵션도 있다. IA의 scene 대체 프로세스는 text prompt로 짧은 캡션을 사용하거나 다른 이미지로 visual prompt를 사용하는 것처럼 AIGC 모델을 프롬프팅하는 다양한 방법을 지원한다.

2. Methodology

2.1. Preliminary

Segment Anything Model (SAM)

Segment Anything의 기본 CV 모델은 지난주에 릴리즈 되었으며, 대규모로 훈련된 큰 ViT 기반 모델이다. SAM은 다양한 시나리오에서 segmentation 능력을 증명했고, ChatGPT의 CV버전으로 환경받았다.

SOTA Inpainters

Image Inpainting은 손상된 이미지의 영역을 대체하는 도구로 활용되고 있다. 이 논문에서의 IA는 mask기반 inpainting을 위해 간단하고 단일단계의 접근방식인 LaMa를 조사했다.

AIGC Models

ChatGPT와 다른 생성 AI 기술은 모두 Artificial Intelligence Generated Content (AIGC)에 속한다. IA 작업을 위해 우리는 text-prompting에 기반하여 hole에 원하는 컨텐츠를 생성하는 Stable Diffusion 모델을 직접 적용한다.

2.2. Inpaint anything

Inpaint Anything (IA)의 원리는 광범위한 image inpainting 문제를 해결할 수 있도록 기존의 모델들을 합치는 것이다. 다양한 기초 모델의 강력함을 합침으로써 IA는 고퀄리티의 inpainted image를 생성할 수 있다. 특히, 우리의 IA는 Remove anything, Fill anything, Replace anything 이렇게 3개 주제를 가진다.

Remove Anything

Remove anything은 시각적으로 그럴듯하게 유지하면서 사용자가 이미지에서 object를 제거하도록 하는 것에 중점을 뒀다.

Remove anything은 3단계로 구성됨: Clicking, segmenting, removing

첫번째는 이미지에서 제거를 원하는 object를 클릭하여 선택한다. 다음, Segment Anything 같은 기초 segmentation 모델은 클릭 위치에 기반하여 object를 자동으로 분할하고 마스크를 생성하는데에 이용할 수 있다. 마지막으로, LaMa 같은 SOTA inpainting 모델은 마스크를 이용하여 지워진 hole을 채운다.

Fill Anything

Fill anything은 사용자가 그들이 원하는 어떤 콘텐츠로 이미지에 어떤 object를 채운다. 네 단계로 구성됨: Clicking, segmenting, text-prompting, generating

처음 두 단계는 Remove anything과 순서가 같다. 그 다음, 사용자는 hole에 무엇으로 채우고 싶은지를 text prompt로 나타낸다. 마지막으로, Stable Diffusion 같은 강력한 AIGC 모델이 hole에 원하는 컨텐츠를 생성하는 text-prompt inpainting 모델로 채택되었다.

Replace Anything

Replace anything은 어떤 배경의 물체를 바꿀 수 있다. Replace anything의 과정은 Fill anything과 비슷하다. 하지만 이 케이스는 AIGC 모델이 지정된 object 외부에 시각적으로 일관된 배경을 생성하라는 프롬포트를 표시한다.

Practice

task를 풀기위해 여러 기초모델을 합치면 비호환성이나 부자연스러움의 문제가 발생할 수 있다. 모델과 task 사이의 더 나은 조정을 위해 중간처리를 고려해야한다. 여기서는 image inpainting 시나리오를 위해 몇 가지 좋은 사례를 아래에 요약한다.

Dilation matters. SAM의 segmentation 결과를 관찰한 결과 부드럽지 않은 경계 또는 영역 안에 hole이 있었다. 이 이슈는 효과적으로 object를 제거하거나 채울 때 어려움을 야기한다. mask를 개선하기 위해 dilation을 이용했다. Fill anything에서 large dilation을 채택하여 더 큰 마스크를 제공하면 AIGC 모델이 사용자 목적에 맞게 결과를 내는데에 도움이 된다.
Fidelity matters. 보통 Stable Diffusion 모델은 고정된 해상도를 요구하는데, 무조건적인 resize는 fidelity 손실을 야기한다. 이미지 자르기나 종횡비 유지를 활용하여 원본이미지의 품질을 유지해야한다.
Prompt matters. 우리의 연구에 따르면 text prompt는 AIGC 모델에 큰 영향을 미친다. 그러나 “a teddy bear on a bench” 같은 간단한 프롬프트에서 더 자연스럽고 만족스러운 결과를 얻었다고 한다. 자세하게 프롬프트를 작성하면 사용자 친화적이지 않도록 생성되는 경향이 있다.

3. Experiment

COCO dataset, LaMa test set과 폰으로 촬영한 사진을 썼다. 실험한 결과를 보면서 좋다고 말한다. 결과로는 충분히 좋아보인다.

저작자표시 비영리 (새창열림)

'Vision AI > Paper review' 카테고리의 다른 글

[논문 읽기] RegionCLIP: Region-based Language-Image Pretraining (0)	2023.12.27
[논문 읽기] CLIP (Learning Transferable Visual Models From Natural Language Supervision) (0)	2023.11.28
[논문 읽기] RegNet: Self-Regulated Network for Image Classification (0)	2023.10.27
[논문 읽기] LONG-TAILED FOOD CLASSIFICATION (0)	2023.09.08
[논문 읽기] Food Image Classification with Convolutional Neural Networks (0)	2023.08.30

Contents

새소식

인기 검색어