mirror of
https://github.com/hwanny1128/HGZero.git
synced 2026-06-13 03:39:10 +00:00
STT 테스트 환경 구성 및 유저스토리 업데이트
- docker-compose.test.yml 추가: 테스트용 컨테이너 환경 구성 - STT 테스트 설정 및 컨트롤러 테스트 코드 추가 - application.yml 업데이트 - 테스트 스크립트 추가 - 유저스토리 문서 업데이트 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude <noreply@anthropic.com>
This commit is contained in:
+13
-14
@@ -49,7 +49,7 @@
|
||||
- 실시간 협업: WebSocket 기반 실시간 동기화, 버전 관리, 충돌 해결
|
||||
- 템플릿 관리: 회의록 템플릿 관리
|
||||
- 통계 생성: 회의 및 Todo 통계
|
||||
3. **STT** - 음성 녹음 관리, 음성-텍스트 변환, 화자 식별 (기본 기능)
|
||||
3. **STT** - 음성 스트리밍 처리, 실시간 음성-텍스트 변환 (기본 기능)
|
||||
4. **AI** - AI 기반 회의록 자동화, Todo 추출, 지능형 검색 (RAG 통합)
|
||||
- LLM 기반 회의록 자동 작성
|
||||
- Todo 자동 추출 및 담당자 식별
|
||||
@@ -478,30 +478,29 @@ UFR-MEET-055: [회의록수정] 회의 참석자로서 | 나는, 검증이 완
|
||||
3. STT 서비스 (음성 인식 및 변환 - 기본 기능)
|
||||
1) 음성 인식 및 변환
|
||||
UFR-STT-010: [음성녹음인식] 회의 참석자로서 | 나는, 발언 내용이 자동으로 기록되기 위해 | 음성이 실시간으로 녹음되고 인식되기를 원한다.
|
||||
- 시나리오: 음성 녹음 및 발언 인식
|
||||
회의가 시작된 상황에서 | 참석자가 발언을 시작하면 | 음성이 자동으로 녹음되고 화자가 식별되며 발언이 인식된다.
|
||||
- 시나리오: 음성 실시간 인식
|
||||
회의가 시작된 상황에서 | 참석자가 발언을 시작하면 | 음성이 실시간으로 텍스트로 변환된다.
|
||||
|
||||
[음성 녹음 처리]
|
||||
[음성 스트리밍 처리]
|
||||
- 오디오 스트림 실시간 캡처
|
||||
- 회의 ID와 연결
|
||||
- 음성 데이터 저장 (Azure 스토리지)
|
||||
- **음성 파일은 저장하지 않음** (실시간 스트리밍만 처리)
|
||||
|
||||
[발언 인식 처리]
|
||||
[음성 인식 처리]
|
||||
- AI 음성인식 엔진 연동 (Azure Speech 등)
|
||||
- 화자 자동 식별
|
||||
- 참석자 목록 매칭
|
||||
- 음성 특징 분석
|
||||
- 실시간 텍스트 변환
|
||||
- 타임스탬프 기록
|
||||
- 발언 구간 구분
|
||||
|
||||
[처리 결과]
|
||||
- 음성 녹음이 시작됨 (녹음 ID)
|
||||
- 발언이 인식됨 (발언 ID, 화자, 타임스탬프)
|
||||
- 음성 스트리밍이 시작됨 (세션 ID)
|
||||
- 텍스트가 변환됨 (세그먼트 ID, 텍스트, 타임스탬프)
|
||||
- 실시간으로 텍스트 변환 요청 (UFR-STT-020 연동)
|
||||
- **음성 파일은 저장되지 않고 스트리밍만 처리됨**
|
||||
- **화자 식별 기능 없음** (단순 텍스트 변환만)
|
||||
|
||||
[성능 요구사항]
|
||||
- 발언 인식 지연 시간: 1초 이내
|
||||
- 화자 식별 정확도: 90% 이상
|
||||
- 음성 인식 지연 시간: 1초 이내
|
||||
- 변환 정확도: 85% 이상
|
||||
|
||||
[비고]
|
||||
- STT는 기본 기능으로 경쟁사 대부분이 제공하는 기능임
|
||||
|
||||
Reference in New Issue
Block a user