Tesseract를 이용한 사진들 속 특정 문자열 찾기 (Python)
20년도 7월 부동산 외주 프로그램
Problem
- 부동산을 재개업하는데 서류를 정리하는 상황
- 정리할 문서는 100장이 넘는데 모두 스캔 파일
- 100장 속에서 특정 문자열을 포함하는 문장을 찾아야함
- 규칙없는 반복 작업 -> 예상 소요 기간 3주일
- PDF to Word Converter을 사용해봤지만 글자가 너무 손상되어 사진을 찾아주기로만 결정
-> 오픈 소스 Tesseract 사용 (정확도가 중요한 작업)
Project Info
- Client: 부동산을 재개업한 공인중개사
- 개발환경: Python,Tkinter, Tesseract (Pyinstaller를 사용하여 Single exe 변환)
- 기여도: 100% (개인 프로젝트)
프로그램 구성
작동 방식
1. 사진To텍스트.exe를 실행하면 original 폴더에 있는 사진들이 change 폴더 속 txt 파일로 변환
2. 문자열 찾기.exe를 통해 찾을 문자열을 입력하고 + 버튼을 누른 후 찾기를 누르면 해당 문자열을 포함하는 사진을 찾아 띄워준다.
Result
- 문자열 곳곳이 깨진 경우가 많아 문자열을 여러개 검색할 수 있도록 개발
ex) 아주대학교 / 아주 / 대학교
- Client의 예상 업무 소요 시간: 3주일 -> 2일
- Client가 원하는 목적에 맞는 프로그램 단기간 개발
- 적합한 오픈소스의 활용으로 좋은 결과