mirror of https://github.com/hwanny1128/HGZero.git synced 2025-12-06 14:56:23 +00:00

hiondal bb921e10eb 작업 파일 정리 및 실시간 회의록 플로우 추가

- 가파팀 프로토타입 파일 삭제
- 가파팀 유저스토리 삭제
- 실시간 회의록 작성 플로우 설계서 추가 (Mermaid, Markdown)
- 백업 및 데이터 디렉토리 추가
- AI 데이터 샘플 생성 도구 추가

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>

2025-10-22 14:16:10 +09:00

9.4 KiB

Raw Blame History

벡터DB 임베딩용 관련자료 샘플 데이터

작성일: 2025-01-22 버전: v1.0 작성자: AI 개발팀

1. 개요

1.1 목적

회의록 작성 시 AI가 참조할 수 있는 관련 자료를 벡터DB에 임베딩하여, 맥락 기반 용어 설명 및 관련 회의록 자동 연결 기능을 제공하기 위한 샘플 데이터를 생성합니다.

1.2 데이터 구성

도메인: 통신 업무 도메인 15개
데이터 소스 유형: 4가지 (이전 회의록, 조직문서, 프로젝트 문서, 운영문서)
샘플 개수: 각 도메인별 × 각 소스별 5개 = 총 300개

2. 통신 업무 도메인 (15개)

번호	도메인	설명
1	네트워크 인프라	네트워크 구축 및 운영, 유무선 통신망 관리, 5G/LTE, 기지국
2	기술 개발 및 연구	신기술 연구개발, AI/빅데이터, IoT, 클라우드 기술
3	고객 서비스	고객 상담 및 지원, VoC 관리, 서비스 품질 관리
4	영업 및 마케팅	요금제 기획, 프로모션, 유통채널 관리, B2B/B2C 영업
5	요금 및 청구	요금 청구 시스템, 과금 관리, 미수금 관리, 정산 업무
6	네트워크 운용	네트워크 모니터링, 장애 대응 및 복구, 품질 최적화
7	서비스 기획 및 상품 개발	신규 서비스 기획, 요금제 설계, 콘텐츠 서비스
8	정보보안	통신 보안, 개인정보 보호, 사이버 보안, 보안 정책 수립
9	시스템 운영 및 관리	IT 시스템 운영, 데이터센터 관리, 클라우드 인프라
10	가입자 관리	가입자 정보 관리, 번호 이동, 개통 및 해지, 명의 변경
11	망 품질 관리	통신 품질 측정, 품질 개선, 서비스 레벨 관리
12	규제 대응 및 준법	통신 규제 대응, 법률 준수, 정부 정책 대응
13	기업 영업	B2B 솔루션, 전용선 서비스, AICC, 데이터센터 서비스
14	로밍 및 국제 업무	국제 로밍 서비스, 해외 통신사 제휴, 국제 전화 서비스
15	신사업	OTT 서비스, 콘텐츠 사업, 핀테크, 스마트홈/IoT 서비스

3. 데이터 소스 유형 (4가지)

3.1 이전 회의록 (meeting_minutes)

형식:

회의 제목, 일시, 참석자
논의 내용, 결정 사항, 액션 아이템

예시 토픽:

프로젝트 킥오프, 월간 리뷰, 장애 대응, 정책 수립

메타데이터:

회의 유형, 참석자 목록, 태그

3.2 조직문서 (manual)

유형:

업무 매뉴얼, 정책 및 규정, 표준화 문서

예시:

프로세스 가이드, 보안 정책, 업무 표준

메타데이터:

문서 카테고리, 버전, 승인자

3.3 프로젝트 문서 (project_doc)

유형:

요구사항 정의서, 설계 문서, 수행 결과서

예시:

프로젝트 계획서, 기술 설계서, 완료 보고서

메타데이터:

프로젝트명, 단계, 담당자

3.4 운영문서 (operation_doc)

유형:

장애 보고서, 고객 응대 문서

예시:

장애 분석 보고서, 고객 이슈 처리 가이드

메타데이터:

심각도, 영향 범위, 해결 상태

4. 데이터 구조

4.1 JSON 스키마

{
  "document_id": "도메인명_소스유형_일련번호",
  "document_type": "meeting_minutes|manual|project_doc|operation_doc",
  "title": "문서 제목",
  "content": "실제 문서 내용 (500-1000자)",
  "metadata": {
    "domain": "도메인명",
    "date": "YYYY-MM-DD",
    "author": "작성자명",
    "tags": ["태그1", "태그2", "태그3"],
    "organization_id": "org_telecom_001",
    "folder_id": "folder_도메인명"
  }
}

4.2 필드 설명

필드	타입	설명
document_id	string	문서 고유 식별자
document_type	enum	문서 유형 (4가지 중 1개)
title	string	문서 제목
content	text	실제 문서 내용 (청킹 대상)
metadata.domain	string	업무 도메인
metadata.date	date	작성일 (2024-01-01 ~ 2025-01-22)
metadata.author	string	작성자명
metadata.tags	array	태그 배열 (3-5개)
metadata.organization_id	string	조직 ID
metadata.folder_id	string	폴더 ID

5. 샘플 데이터 생성 방법

5.1 자동 생성 스크립트

위치: tools/generate_vector_samples.py

실행 방법:

# Windows PowerShell 또는 CMD에서 실행
cd C:\Users\hiond\home\workspace\HGZero
python tools\generate_vector_samples.py

출력 파일: data/samples/vector_db_samples_300.json

5.2 생성 로직

도메인별 키워드 매핑

각 도메인마다 관련 키워드 및 토픽을 정의하여 실제 통신 업무 상황을 반영합니다.

예시 (네트워크 인프라):

키워드: 5G, LTE, 기지국, 광케이블, RAN, 코어망, 백홀, 전송망
토픽: 5G 구축, 기지국 설치, 망 이중화, 광케이블 교체, 커버리지 확대

랜덤 요소

날짜: 2024-01-01 ~ 2025-01-22 범위에서 랜덤 선택
작성자: 16명의 작성자 풀에서 랜덤 선택
키워드 조합: 각 문서마다 2-3개 키워드를 랜덤 조합

템플릿 기반 생성

각 문서 유형별로 표준 템플릿을 정의하고, 도메인 및 키워드를 치환하여 실제 문서처럼 생성합니다.

6. 생성 통계

6.1 전체 통계

총 샘플 개수: 300개
도메인별: 각 20개 (15개 도메인)
소스별: 각 75개 (4가지 소스)

6.2 문서 유형별 분포

문서 유형	개수	비율
이전 회의록 (meeting_minutes)	75개	25%
조직문서 (manual)	75개	25%
프로젝트 문서 (project_doc)	75개	25%
운영문서 (operation_doc)	75개	25%
합계	300개	100%

6.3 도메인별 분포

도메인	회의록	매뉴얼	프로젝트	운영	합계
네트워크 인프라	5	5	5	5	20
기술 개발 및 연구	5	5	5	5	20
고객 서비스	5	5	5	5	20
영업 및 마케팅	5	5	5	5	20
요금 및 청구	5	5	5	5	20
네트워크 운용	5	5	5	5	20
서비스 기획 및 상품 개발	5	5	5	5	20
정보보안	5	5	5	5	20
시스템 운영 및 관리	5	5	5	5	20
가입자 관리	5	5	5	5	20
망 품질 관리	5	5	5	5	20
규제 대응 및 준법	5	5	5	5	20
기업 영업	5	5	5	5	20
로밍 및 국제 업무	5	5	5	5	20
신사업	5	5	5	5	20
합계	75	75	75	75	300

7. 벡터DB 임베딩 프로세스

7.1 데이터 정제

텍스트 정제: HTML 태그 제거, 특수문자 정규화
청킹: 문서를 1000 토큰 단위로 분할 (200 토큰 오버랩)
메타데이터 추출: JSON 메타데이터 파싱

7.2 벡터화

임베딩 모델: text-embedding-3-small (OpenAI)
차원: 1536
비용: $0.02 / 1M 토큰

7.3 PostgreSQL + pgvector 적재

INSERT INTO document_chunks (
  document_id,
  chunk_index,
  content,
  embedding,
  metadata,
  organization_id
) VALUES (?, ?, ?, ?, ?, ?);

8. 활용 방안

8.1 맥락 기반 용어 설명

회의록 작성 중 전문 용어 감지
Vector DB에서 유사도 검색 (Top-5)
Claude AI에게 맥락 기반 설명 요청

8.2 관련 회의록 자동 연결

현재 회의록 내용 벡터화
Vector DB에서 유사 회의록 검색
관련도 점수 계산 (70% 이상)
최대 5개 회의록 자동 연결

8.3 대시보드 참고자료

관련 회의록 탭: 유사 회의록 목록
프로젝트 문서 탭: 관련 프로젝트 문서
조직 문서 탭: 관련 매뉴얼 및 정책

9. 품질 검증

9.1 데이터 품질 기준

실무 반영도: 실제 통신 업무 용어 및 상황 반영 여부
일관성: 도메인 및 문서 유형별 일관성 유지
다양성: 키워드 및 토픽의 다양성 확보

9.2 검증 방법

샘플링 검사: 각 도메인별 1-2개 샘플 수동 검토
키워드 분석: 도메인 관련 키워드 포함 여부 확인
메타데이터 검증: 필수 필드 누락 여부 확인

10. 향후 계획

10.1 데이터 확장

단계 1 (현재): 300개 샘플 (도메인별 × 소스별 5개)
단계 2 (Phase 1 완료 후): 600개 샘플 (도메인별 × 소스별 10개)
단계 3 (Phase 2 이후): 1,500개 샘플 (도메인별 × 소스별 25개)

10.2 품질 개선

실제 회의록 데이터 반영
도메인 전문가 검토 및 피드백 반영
사용자 피드백 기반 지속 업데이트

11. 참고 자료

11.1 관련 문서

11.2 기술 스택

Vector DB: PostgreSQL + pgvector
Embedding: OpenAI text-embedding-3-small (1536 dim)
검색: 하이브리드 (벡터 유사도 + 키워드 매칭)
캐싱: Redis + Claude Prompt Cache

문서 버전: v1.0 최종 수정: 2025-01-22 담당자: AI 개발팀

9.4 KiB Raw Blame History Unescape Escape

벡터DB 임베딩용 관련자료 샘플 데이터

1. 개요

1.1 목적

1.2 데이터 구성

2. 통신 업무 도메인 (15개)

3. 데이터 소스 유형 (4가지)

3.1 이전 회의록 (meeting_minutes)

3.2 조직문서 (manual)

3.3 프로젝트 문서 (project_doc)

3.4 운영문서 (operation_doc)

4. 데이터 구조

4.1 JSON 스키마

4.2 필드 설명

5. 샘플 데이터 생성 방법

5.1 자동 생성 스크립트

5.2 생성 로직

도메인별 키워드 매핑

랜덤 요소

템플릿 기반 생성

6. 생성 통계

6.1 전체 통계

6.2 문서 유형별 분포

6.3 도메인별 분포

7. 벡터DB 임베딩 프로세스

7.1 데이터 정제

7.2 벡터화

7.3 PostgreSQL + pgvector 적재

8. 활용 방안

8.1 맥락 기반 용어 설명

8.2 관련 회의록 자동 연결

8.3 대시보드 참고자료

9. 품질 검증

9.1 데이터 품질 기준

9.2 검증 방법

10. 향후 계획

10.1 데이터 확장

10.2 품질 개선

11. 참고 자료

11.1 관련 문서

11.2 기술 스택

9.4 KiB

Raw Blame History