📅 개발자 일일 요약 (Daily Log)

1. 작업 분량

카테고리비중
AI 파이프라인 및 검색 로직 고도화40%█████░░░░░
해커톤 전략 수립 및 일정 관리25%██░░░░░░░░
데이터 수집 체계 및 스키마 설계20%██░░░░░░░░
인프라 자동화 (Google Sheets/Clasp)15%█░░░░░░░░░

2. 집중 영역 / 시간 소모 포인트

🟢 생산적 작업

  • RAG 검색 정확도 향상: 단일 패스 검색을 다중 쿼리 검색(HyDE, 쿼리 분해)으로 개선하고, 질문형 노이즈(“뭐야”, “어떻게”)를 로컬에서 제거하여 검색 스코어를 상승시킴.
  • Qdrant 인덱싱 구조화: sequential ID 대신 JSON ID를 사용하도록 수정하고, payload에 solutions, validity, verified_by 필드를 추가하여 데이터 구조를 강화함.
  • 협업 도구 자동화: 7명의 팀원이 동시에 작업할 수 있는 Google Sheets 환경을 Clasp를 활용해 구축함. 카테고리별 탭 자동 생성 및 데이터 수집 가이드 배포.

🔴 삽질/시간 소모 포인트

  • GLM Rate Limit (429 에러): HyDE 및 쿼리 분해를 위한 GLM 호출이 과다하여 Rate Limit이 발생. 이를 해결하기 위해 로직을 병합(expand_query)하고 타임아웃을 조정하는 데 시간 소요.
  • Clasp 설정 및 권한 문제: Apps Script와 연결 과정에서 scriptId 누락 및 API 활성화 문제로 인해 로그인 및 설정 재시도 반복.

3. 타임라인

  • 14:34 🦦 User: 도커 기반 앱의 ECS Fargate 마이그레이션 용이성과 MSA 아키텍처 관련 문의.
  • 14:35 🦦 User: 해커톤 시연 기준 프롬프트 생성 단계별 품질 고찰 요청.
  • 14:37 🦦 AI: RAG 파이프라인의 hit, info, miss 시나리오 분석 및 해커톤 시연용 우선순위 제안.
  • 14:45 🦦 User: 데이터 증가 시 반복 실행을 통한 정확도 향상 가능성 질문.
  • 14:45 🦦 AI: HyDE(Hypothetical Document Embedding)와 쿼리 분해를 통한 검색 정확도 향상 방안 제시.
  • 14:47 🦦 User: GLM 토큰 여유가 있으므로 호출 횟수를 늘려서 개선하는 방향 지시.
  • 14:48 🦦 AI: expand_query 함수를 통해 HyDE와 쿼리 분해를 단일 GLM 호출로 통합하는 로직 구현.
  • 14:49 🦦 User: 개선 사항 테스트 지시.
  • 15:00 🦦 AI: GLM 429 Rate Limit 발생 원인 파악 (run_prompt_only의 예외 처리 미흡 및 타임아웃 길음).
  • 15:04 🦦 AI: HyDE 등 병렬 호출导致的 429 에러 확인. GLM 호출 수를 줄이기 위해 HyDE와 분해 로직 병합 제안.
  • 15:07 🦦 AI: strip_noise_words 함수 구현. 질문형 노이즈(“뭐야”, “어떻게”) 제거를 통해 GLM 없이 검색 스코어 향상 확인.
  • 15:22 🦦 AI: SCORE_THRESHOLD를 0.65에서 0.62로 조정하여 경계 케이스를 hit으로 처리.
  • 15:49 🦦 AI: index_qdrant.py 수정. id를 JSON의 tip_id로 사용하고 solutions 등 필드를 payload에 추가하여 재인덱싱.
  • 16:16 🦦 User: 7명 팀원을 위한 자료 조사 가이드라인 요청 (병원, 교통 등 7개 카테고리).
  • 16:17 🦦 AI: 카테고리별 주의사항, 데이터 수집 양식, 팀 분업 제안 등 상세 가이드 제공.
  • 16:25 🦦 User: 대규모 고퀄리티 자료 생산 방향 논의.
  • 16:26 🦦 AI: 연구자는 원재료 수집, Claude가 구조화된 팁으로 변환하는 효율적 워크플로우 제안.
  • 16:31 🦦 User: 14시간 개발 시간 부족 우려 및 프론트 하드코딩(데모 캐시) 방향 제시.
  • 16:39 🦦 AI: ‘데모 캐시 모드’ 제안. 실시간 검색 + 캐시된 답변 혼합 전략으로 안정성 확보.
  • 16:49 🦦 User: 전 세계 여행 유튜버 자료 파이프라인화(NotebookLM 등) 가능 여부 문의.
  • 16:49 🦦 AI: youtube-transcript-api를 활용한 자동 자막 추출 및 Claude 배치 생성 파이프라인 제안.
  • 17:06 🦦 User: 복합 질의/다중 추론을 만족하는 자료구조 형태 질문.
  • 17:08 🦦 AI: Atomic Facts, Concept Graph, Scenario Tree 등 다양한 자료구조 제안 및 수집 시 메타데이터 필드 제안.
  • 18:37 🦦 User: 7개 카테고리 중 가장 중요한 카테고리 질문.
  • 18:37 🦦 AI: ‘장소(Place)‘가 허브 역할을 하며 가장 중요하고, 다음으로 ‘병원/응급’이 임팩트가 크다고 분석.
  • 23:04 🦦 User: 데이터 취합 도구(Notion vs Sheets) 문의 및 장소/정보 스키마 분리 필요성 언급.
  • 23:05 🦦 AI: Google Sheets 사용 추천. Place, Tip, Raw 탭 구성 및 스키마 제안.
  • 23:06 🦦 User: clasp를 이용한 Google Sheets 생성 요청.
  • 23:10 ⌨️ AI: locally-sheets 디렉토리 생성 및 package.json 설정.
  • 23:13 ⌨️ User: clasp login 실행.
  • 23:15 🦦 User: 스프레드시트 ID 제공.
  • 23:21 🦦 User: Apps Script API 활성화 및 다른 계정으로 재로그인 요청.
  • 23:22 ⌨️ AI: clasp login 재실행 및 프로젝트 설정(scriptId 입력).
  • 23:23 🦦 AI: Google Apps Script 푸시 완료. 스프레드시트에 ’🇰🇷 Locally’ 메뉴 및 시트 초기화 기능 배포.
  • 23:26 🦦 User: 장소 외 나머지 카테고리 탭이 구성되지 않음을 지적.
  • 23:29 🦦 AI: Setup.gs 수정. 카테고리별/팀원별 탭(음식, 교통, 문화예절 등) 자동 생성 로직 추가 및 재배포.

4. 해결한 문제와 인사이트

문제 해결

  1. RAG 검색 정확도 저하: 복합 질문(예: “순대국밥 뭐야 어떻게 먹어”)이 단일 임베딩으로는 검색되지 않는 문제를 strip_noise_words(로컬 노이즈 제거)와 expand_query(GLM 기반 쿼리 확장)를 통해 해결. 스코어를 0.5대에서 0.69까지 상승시켜 hit으로 판정되게 함.
  2. GLM Rate Limit (429): 다중 GLM 호출로 인한 한계를 expand_query로 단일 호출로 통합하고, 불필요한 GLM 호출을 스킵하는 로직을 추가하여 해결.
  3. 협업 데이터 구조화: 7명이 동시에 작업해야 하는 환경에서 Google Sheets와 Apps Script를 연동하여, 스키마가 적용된 탭과 데이터 검증 기능(드롭다운 등)을 자동으로 생성하는 환경을 구축함.

핵심 인사이트

  • 검색 효율화: GLM 호출 비용이 높으므로, 로컬 전처리(키워드 스탬핑 등)를 통해 최대한 벡터 검색 단계에서 해결하고, GLM은 꼭 필요한 순간(쿼리 확장, 답변 생성)에만 사용하는 것이 중요함.
  • 데이터의 허브: 7개 카테고리 중 ‘장소’가 일정 추천과 다른 카테고리(음식, 쇼핑 등)를 잇는 핵심 허브이므로, 이에 대한 데이터 수집을 최우선으로 해야 함.
  • 해커톤 전략: 14시간이라는 짧은 시간 동안 완벽한 백엔드를 만들기보다, 데모 캐시 등을 활용하여 발표 안정성을 확보하고 데이터 퀄리티에 집중하는 것이 승산이 높음.

Supported by ai-log-sync & GLM-4.7