DocuFilter는 다양한 문서와 압축 파일에서 텍스트와 이미지 데이터를 안정적으로 추출하는 텍스트·이미지 추출 SDK 솔루션입니다. MS Office, 한컴오피스, OpenOffice, PDF, EML, MSG 및 10종 이상의 압축 포맷 등 대부분의 문서 형식을 지원합니다. 이를 통해 문서 기반 검색, 데이터 분석, 정보 유출 방지(DLP) 등 다양한 시스템에서 문서 데이터를 효과적으로 활용할 수 있습니다.
Key Advantages
01. 검증된 안정성 및 성능
기존 상용 제품 대비 빠르고 안정적인 텍스트·이미지 추출 성능이 검증된 SDK
02. 폭넓은 문서 포맷 지원
MS Office, PDF, EML/MSG 등 다양한 문서 형식과 압축 포맷에서 텍스트·이미지 추출 지원
03. 이미지 데이터 추출 지원
문서 내 포함된 이미지 데이터 추출을 통한 비정형 데이터 활용성 향상
04. 대용량 파일 처리
2GB 이상 대용량 문서 환경에서도 빠르고 안정적인 텍스트·이미지 추출 지원
05. 다양한 플랫폼 호환
Windows, Linux 및 32/64비트 환경 지원 기반 플랫폼 제약 없는 활용 가능
06. 다양한 개발 인터페이스 제공
C/C++, Java, Python, C# 등 다양한 개발 언어 인터페이스 지원을 통한 SDK 통합 용이
Core Functions
문서 텍스트 추출
문서 내 포함된 모든 텍스트 콘텐츠를 정확히 추출
문서 이미지 추출
문서에 포함된 이미지 데이터 추출
다중 문서 포맷 파싱
MS Office, Open Office, PDF, EML, MSG 등 다양한 문서 포맷 분석 및 추출