주요 구현사항:
- 5초마다 Redis 오디오 버퍼를 배치 처리하여 텍스트 변환
- WebSocket 실시간 오디오 수신 및 Redis Stream 저장
- Azure Speech Service 연동 (시뮬레이션 모드 포함)
- Event Hub 이벤트 발행 (AI 서비스 연동)
아키텍처:
Frontend (오디오 캡처)
→ WebSocket → STT Service
→ Redis Stream (버퍼)
→ @Scheduled(5초) 배치 처리
→ Azure Speech API
→ DB 저장 + Event Hub 발행
→ AI Service (텍스트 분석)
핵심 컴포넌트:
1. AudioWebSocketHandler
- WebSocket 연결 관리
- JSON/Binary 메시지 처리
- Redis Stream에 오디오 저장
2. AudioBufferService
- Redis Stream 오디오 버퍼링
- 청크 조회 및 병합
- 활성 회의 관리
3. AzureSpeechService
- Azure Speech SDK 연동
- 배치 단위 음성 인식
- 시뮬레이션 모드 지원
4. AudioBatchProcessor
- @Scheduled(5초) 배치 작업
- 오디오 → 텍스트 변환
- TranscriptSegment DB 저장
- Event Hub 이벤트 발행
배치 방식의 장점:
✅ 비용 최적화: Azure API 호출 1/5 감소
✅ 문맥 이해: 5초 분량 한 번에 처리로 정확도 향상
✅ AI 효율: 일정량 텍스트 주기적 생성
✅ 안정성: 재시도 로직 구현 용이
설정:
- Azure Speech: eastus, ko-KR
- Redis: 포트 6379, DB 3
- WebSocket: /ws/audio
- 배치 주기: 5초 (고정)
다음 단계:
- 프론트엔드 WebSocket 클라이언트 구현
- 실제 Azure Speech API 키 설정
- E2E 통합 테스트 (STT → AI → Frontend)
🤖 Generated with [Claude Code](https://claude.com/claude-code)
Co-Authored-By: Claude <noreply@anthropic.com>