Life and Tech Talk

상품 상세페이지에서 image-to-text 데이터 구축 및 요약

  * GitLab 코드 Repository

  1. OCR 솔루션 벤치 마킹
  • easyOCR< tesseract, qwen2-vl-2b, upstage ocr < gpt4o < card scanner, google vision
  1. 상품 상세페이지에서 URL 데이터 구축ncp_api.py
  • 입력: productno
  • 출력: ocrimg.csv 
  1. URL 이미지에서 Google Vision으로 OCR 데이터 만들기:  google_vision.py
gcloud init
gcloud auth application-default login
  • Google vision API 연동 작업
  1. OCR데이터를 기반으로 GPT에 요약 요청하기gpt_ocr.py
  • 입력: 이미지 OCR결과 Raw Data
  • 출력: 이미지 OCR결과 요약 (중복 제거, 장점/단점, Schema 정리)
  1. 상품별 OCR 데이터 축적, GPT 요약 요청 및 데이터 Table화 하기gpt_vision.py (최종 실행파일)
  • 기존 작업 결과를 읽고, 기 작업한 productno와 오류난 productno를 제외하고 작업 진행
  • 입력: ocrimg.csv (1번 실행후 생성된 상품별 url 데이터), ocrresult0.csv (기존 작업 데이터), ocrerrorlist.csv (오류난 productno 및 원인)
  • 출력: ocrresult.csv (최종 결과파일), ocrerrorlist.csv 업데이트
  • 대량 이미지 데이터 Batch 작업 시, 예상치 못한 오류 발생을 고려한 알고리즘 보완 필요
  1. qwen2-vl-2b 파인튜닝 (검토)
  • GPU Farm ID 확보
  • google_vision으로 이미지별 OCR 데이터 확보
  • 파인튜닝


올린날: 2025년 10월 16일
주제: 기술문서 관련 포스팅 클릭!!

* 올린이: aiSVC

* VIEW: 24       0           위키홈     게시판     수정