프로젝트 경험

Tesseract를 이용한 사진들 속 특정 문자열 찾기 (Python)

harry595 2021. 9. 13. 17:34

20년도 7월 부동산 외주 프로그램

 

Problem

- 부동산을 재개업하는데 서류를 정리하는 상황

- 정리할 문서는 100장이 넘는데 모두 스캔 파일

- 100장 속에서 특정 문자열을 포함하는 문장을 찾아야함

- 규칙없는 반복 작업 -> 예상 소요 기간 3주일

- PDF to Word Converter을 사용해봤지만 글자가 너무 손상되어 사진을 찾아주기로만 결정

-> 오픈 소스 Tesseract 사용 (정확도가 중요한 작업) 

 

Project Info

- Client: 부동산을 재개업한 공인중개사

- 개발환경: Python,Tkinter, Tesseract (Pyinstaller를 사용하여 Single exe 변환)

- 기여도: 100% (개인 프로젝트)

 

프로그램 구성

 

두개의 exe 파일과 폴더로 구성

작동 방식

 

1. 사진To텍스트.exe를 실행하면 original 폴더에 있는 사진들이 change 폴더 속 txt 파일로 변환

txt로 변환할 사진
Tesseract를 이용하여 txt 변경

 

 

 

 

2. 문자열 찾기.exe를 통해 찾을 문자열을 입력하고 + 버튼을 누른 후 찾기를 누르면 해당 문자열을 포함하는 사진을 찾아 띄워준다.

문자열 검색 기능
찾기 버튼을 누르면 change 폴더 내에 '아주대학교'를 포함한 사진을 모두 띄워준다.

 

Result

- 문자열 곳곳이 깨진 경우가 많아 문자열을 여러개 검색할 수 있도록 개발

  ex) 아주대학교 / 아주 / 대학교

- Client의 예상 업무 소요 시간: 3주일 -> 2일

- Client가 원하는 목적에 맞는 프로그램 단기간 개발

- 적합한 오픈소스의 활용으로 좋은 결과