이미지에서 텍스트 추출하기 (OCR:Optical character recognition)

간혹 이미지에 포함되어 있는 글자를 텍스트로 그대로 옮겨 적을 일이 있는데 이럴때 일일이 손으로 타이핑 하는것 보다 자동으로 텍스트로 만들어 주는 기능이 있으면 좋겠다는 생각을 하곤 했다.

이렇게 이미지에서 텍스트를 추출해 주는 기술을 OCR (Optical character recognition) 이라고 몇몇 프로그램이나 사이트에서 변환해주는 것이 있다.

과거에 네이버에서 이러한 서비스를 해준것 같은데 아쉽게도 지금은 네이버의 OCR 서비스는 종료되어 더이상 이용할수 없다.

그래서 지금 가장 쓰기 편한 방식은 바로 구글 드라이브를 이용하는 것이다.

구글드라이브에서 구글문서로 만들어 텍스트 변환하기

우선 자신의 구글 드라이브에 로그인 하여 이미지를 업로드 한다.

파일 업로드는 좌측상단의 '+New' 버튼을 클릭하여 File upload 등으로 업로드 하면 된다.

더 간단한 방법은 파일을 구글드라이브의 우측에 있는 파일리스트에 드래그해 끌어다 놓으면 자동으로 업로드가 된다.

이미지 파일을 선택하고 마우스 우측 버튼을 눌러 Open with > Google Docs 를 선택한다

이렇게 하면 이미지를 이용해 구글 문서를 자동으로 만들어 구들 드라이브에 생성해준다

처음 생성하면 자동으로 생성된 문서가 열린다

테스트로 위의 이미지처럼 텍스트가 들어가 있는 이미지를 이용해 봤다.

구글 드라이브에 업로드 후 구글 문서를 만들면 다음과 같은 구글문서가 생성되면서 텍스트로 변환 해준다.

아래는 구글 문서로 만들어진 결과물이다

원본이미지를 위에 넣어주고 그 밑에는 텍스트로 변환되어 있다.

놀랍게도 정확도 100%를 자랑한다. 심지어 텍스트가 큰것과 작은것도 분리하여 텍스트로 만들어준다.

원본 이미지는 애플 사이트를 캡쳐한 것인데 동일한 내용의 영문 사이트를 캡쳐해 변환해봤을때 영문도 완벽히 변환되었다.

위의 이미지는 텍스트가 배경색과 명확히 구분되어 더 잘 변환이 되는것 같다.

그럼 복잡한 배경이미지 위에 텍스트가 표시된 경우는 어떻게 될지 테스트를 해봤다.

영문사이트의 한 부분을 캡쳐한 이미지로 테스트한 것이다.

모든 텍스트가 변환이 잘 되었다. 텍스트 인식률이 좋아서인지 원하지 않았던 사진속 병에 세겨진 글자까지 변환되어 있다.

다음은 텍스트가 비스듬이 눕혀진 형태의 영화 포스터를 테스트 해봤다.

영화 엑시트 포스터를 변환해 본건데 명확한 문자의 경우 변환이 잘되는것 같다.

그러나 포스터 이미지의 텍스트 중 탄생에서 '탄' 자와 엑시트에서 '시트'는 본래의 문자형태를 조금 독특하게 수정해 이미지화 해놓은것이라 변환이 안되었다.

영화제목 밑의 작은 글씨들도 대부분 텍스트로 변환이 되어 이러한 이미지속의 텍스트 변환 성공률도 우수한 편인것 같다.

이렇게 구글드라이브에서 구글문서로 만들어 텍스트로 변환하는 방법 외에 구글 크롬 웹브라우저에서 'Project Naptha' 확장프로그램을 이용하면 자동으로 이미지의 문자를 인식해 주기는 하지만 한글은 인식이 안되고 영문도 인식률이 떨어져 아직 사용하기는 무리인것 같다.

구글은 이렇게 편리하고 유용한 기능들이 많아 사용하기 무척 좋은것 같다.

저작자표시 (새창열림)

'유용한 TIP' 카테고리의 다른 글

HDMI 케이블 하나로 컴퓨터와 TV 연결하기 (0)	2019.09.08
구글 검색 기록 삭제하기 (내활동 기록 삭제) (0)	2019.09.07
맥과 윈도우 단축키 비교 (1)	2019.09.02
[아이폰 팁] 아이폰 사파리에서 유용한 기능들 (0)	2019.08.22
맥과 아이폰에서 한글뷰어(한컴뷰어)로 HWP 파일을 PDF 파일로 변환하기 (0)	2019.08.20

JK의 정보 블로그