Ainized-CRAFT-pytorch (KOR)

Feb 04, 2020

Scene text detection은 이미지에서 텍스트를 찾아 사각형의 bounding box를 만드는 작업입니다. 이는 컴퓨터 비전의 한 분야로, 카메라와 스마트폰이 발달한 지금, 자동차 번호판 이미지에서 번호를 추출하는 등의 애플리케이션에서 매우 중요한 부분이 되었습니다.

deep learning이 발달하면서 neural network를 이용한 text detection 방법이 많이 소개되고 있습니다. 하지만 학습하는 과정에서 scene text detection의 대부분 데이터셋은 world-level로 annotate되어 있어, 고정된 word-level bounding box로 데이터를 학습하게 됩니다. 이러한 방식은 수평적인 단어에 대한 인식은 가능하지만, 다음의 그림과 같은 휘어있거나, 일정하지 않는 모양의 단어에 대해서는 인식하지 못하는 단점이 발생합니다.

CRAFT(Character Region Awareness for Text Detection)는 이러한 단점을 극복하기 위해서 각각의 문자를 인식하고 이 문자들을 이어 단어를 묶어준다고 합니다. CRAFT는 CNN을 통해 다음의 두 가지를 만듭니다.

region score - 이미지에서 개별 character를 국한하는데 사용

affinity score - 이 문자들을 하나의 단어로 그룹핑해줄 때 사용

각 문자 별로 분류하기 위해서는 character-level로 annotate된 데이터셋이 필요한데, 앞에서 설명했듯이 대부분 데이터셋은 word-level로 annotate되어 있기 때문에, character-level로 annotate된 데이터셋은 부족합니다. 이 문제를 해결하기 위해서 weakly-supervised learning을 사용하여 부족한 데이터를 보충합니다.

다음 그림은 위의 그림을 CRAFT를 통해 detection 해본 결과입니다.

다음의 링크를 통해 테스트해보실 수 있습니다.

Run on Ainize

Reference

https://data-newbie.tistory.com/187
https://github.com/clovaai/CRAFT-pytorch
https://arxiv.org/abs/1904.01941
https://www.mytoys.de/pattex-pattex-crocodile-power-klebeband-silber-30-m-13947723.html

HanjeongLee’s Newsletter

Discussion about this post