AI CS Center — AI 상담 채팅 대응 시스템 기술 보고서

SECTION 01

서비스 개요

기술을 몰라도 이해할 수 있는 AI 상담 채팅 시스템의 전체 흐름

AI 상담사 ON / OFF

BO 대시보드에서 원클릭으로 AI 상담 활성화/비활성화

모드 A

24/7 상시
AI가 항상 응대

모드 B (권장)

야간 전용
18:00~09:00만 AI 운영

모드 C

수동 설정
요일/시간대 직접 지정

월 화 수 목 금 토 일

09:00~18:00
인간 상담원

18:00~09:00
AI 자동 응대

업무 시간에는 상담원이, 퇴근 후~출근 전에는 AI가 응대합니다. 주말은 종일 AI 운영.

고객이 메시지를 보내면 어떤 일이 일어나나요?

📱

1. 고객이 메신저로 문의합니다

LINE · WeChat · WhatsApp 중 어떤 채널이든, 어떤 언어든 상관없습니다.
일본어, 중국어, 영어, 아랍어, 태국어 등 자유롭게 메시지를 보냅니다.

↓

🤖

2. AI가 자동으로 이해하고 답변합니다

별도의 언어 선택 버튼 없이, AI가 고객의 언어를 자동 감지합니다.
사전에 입력된 병원 정보(시술 종류, 가격, 영업시간 등)를 바탕으로
시나리오가 아닌 자연어 대화로 안내합니다.

↓

✅

단순 문의

시술 안내, 가격, 위치, FAQ
AI가 즉시 답변
(상담원 개입 불필요)

👥

복잡한 문의

예약 변경, 불만, 의료 판단
담당자에게 자동 전달
(대화 요약 + 번역 첨부)

↓

📊

4. 담당자는 대시보드에서 결과를 확인합니다

매일 아침 일간 보고서가 이메일로 자동 발송됩니다.
어떤 시술이 인기인지, 에스컬레이션이 필요한 건은 무엇인지 한눈에 파악합니다.
에스컬레이션 건은 BO(Back Office) 대시보드에서 티켓으로 관리합니다.

기존 챗봇과 무엇이 다른가요?

구분	기존 챗봇 (시나리오 기반)	본 시스템 (AI 자연어 대화)	외국어 대응 예시
대화 방식	버튼 클릭 → 정해진 메뉴 선택 "1번: 시술 안내, 2번: 가격..."	자유롭게 말하면 AI가 이해 "코성형 가격이 얼마에요?"	Same AI, any language "How much is rhinoplasty?"
다국어 지원	언어별 시나리오를 별도 제작 언어 추가 시 비용 증가	고객 언어 자동 감지, 즉시 대응 별도 설정 없이 100+ 언어	Auto-detected & responded EN / JA / ZH / AR / TH / VI ...
응답 품질	사전 작성된 고정 답변만 출력 고객 맥락 반영 불가	대화 맥락을 이해한 맞춤 답변 추가 질문, 비교 상담 가능	Context-aware conversation "Can I combine it with eye surgery?"
야간/주말	상담원 부재 시 → 상담 누락 9-to-6 이후 대응 불가	24시간 365일 자동 대응 상담 자동 접수 누락 최소화	24/7 global coverage No time zone barriers
학습/개선	시나리오 수동 추가/수정 개발자 작업 필요	병원 정보 텍스트만 수정하면 즉시 반영 개발 없이 담당자가 직접 편집	One update, all languages Korean text → auto multilingual

3

상담 채널
LINE / WeChat / WhatsApp

24/7

자동 대응
야간/주말 상담 누락 0건

70~80%

AI 자동 처리율
단순 문의는 AI가 즉시 해결

💡

한 문장으로 요약하면

"고객이 어떤 언어로든 메신저에 문의하면, AI가 병원 정보를 바탕으로 자연스럽게 대화하고, 복잡한 건만 담당자에게 요약과 번역을 첨부하여 전달합니다. 담당자는 대시보드와 매일 아침 이메일 보고서로 상담 현황을 한눈에 파악합니다."

SECTION 02

AI 챗봇 상담 설계

AI-First Triage 아키텍처 — 5-Layer 채팅 상담 플로우 + 에스컬레이션 + TMS 연동

AI SPEC

AI 기술 스택

PoC에서 검증된 성능/비용 데이터 — 채팅 시스템에 동일 적용

역할	Provider	단가	성능
LLM 대화 생성	Gemini 3.1 Flash Lite Google Cloud API / PoC 검증	Input $0.25/1M Output $1.50/1M ~$0.003/건	다국어 직접 처리 Fast 레이턴시 시스템 프롬프트 ~4K 토큰
STT / TTS / 텔레포니는 음성 전화 전용 — 채팅 시스템에서는 미사용

시스템 프롬프트 구성 (RAG 미사용)

        // 시스템 프롬프트 ~4,000 토큰 (RAG 인프라 비용 $0)

        [역할 정의] AI 상담원 역할, 톤앤매너, 응대 스타일

        [병원 정보] 영업시간, 위치, 의료진, 주요 시술 목록

        [시술 안내] 시술별 설명, 회복기간, 가격 범위, FAQ

        [응답 규칙] 단순 문의 → 직접 답변 / 복잡 건 → 에스컬레이션

        [다국어 규칙] 감지 언어로 응답, 시술명은 한국어 병기

        [안전 규칙] 의료 판단 금지, 민감정보 수집 금지

        [법적 고지] "AI 상담사입니다" 명시 (인공지능 기본법 §31)

        // RAG 미사용 사유: 성형외과 상담 지식 ~3,000단어

        // 시스템 프롬프트에 충분히 수용 (인프라 비용 $0)

구분	기존 모델 (상담원 보조)	AI-First 모델 (채택)
1차 응대	인간 상담원 (AI 보조)	AI가 직접 응대
상담원 필요	모든 건	복잡 건만 (20~30%)
야간/주말	추가 인력 필요	24/7 자동
확장성	선형 (상담원 비례)	준선형 (인프라만)
품질 편차	상담원별 차이	일관된 품질

5-Layer AI 채팅 상담 플로우

⚙ Layer 0: 운영 모드 판단
AI 상담사 ON/OFF 상태 + 운영 시간 확인
OFF 또는 운영 시간 외 → 기존 상담 프로세스로 전달 / ON → AI 응대 시작

💬 Layer 1: Welcome
고객 첫 메시지 수신 (LINE / WeChat / WhatsApp)
AI 상담 고지 (인공지능 기본법 §31) + 개인정보 동의 안내

🌐 Layer 2: Language Detection
Gemini 내장 자동 감지 (별도 모델 불필요)
감지 언어 코드 → 세션 유지 → 해당 언어로 응답

🤖 Layer 3: Intent + AI Response
Gemini 3.1 Flash Lite: 의도 분류 → 단순/복잡 판단 → 즉시 응답
시술 안내, 가격, FAQ → AI 직접 해결

🔒 Layer 4: Escalation
복잡 문의 → 에스컬레이션 트리거
예약 변경, 불만, 의료 판단 → TMS 티켓

📋 Layer 5: Context Packaging
원문 + 번역 + AI 요약 + 감성분석 → 담당자 전달
TMS 티켓 자동 생성 → 이메일/앱 알림

TRIAGE

AI 자율 판단 vs 에스컬레이션 기준

데이터 변경이 없는 안전한 작업만 AI가 처리 (Read-only 원칙)

문의 유형	처리 주체	판단 근거	예시
단순 정보	AI 즉시	Read-only	시술 안내, 수술 과정, 회복 기간
가격 문의	AI 즉시	공개 가격 범위	코성형/눈성형 가격대, 패키지
위치/운영	AI 즉시	정적 정보	병원 위치, 진료 시간, 주차
예약 요청	AI 접수 → 에스컬레이션	스케줄 변경	예약, 예약 변경/취소
의료 판단	즉시 에스컬레이션	의료법 제한	수술 적합성, 부작용, 재수술
불만/분쟁	즉시 에스컬레이션	고도 판단	수술 불만, 환불, 의료 사고
개인정보	즉시 에스컬레이션	GDPR/개보법	진료 기록, 삭제 요청

70~80%

AI 자동 처리율
단순 문의

20~30%

에스컬레이션
복잡 문의

< 4h

긴급 SLA
불만/분쟁

📊

BO 대시보드 및 보고서 이메일 예시는 별도 페이지로 안내합니다

업무시간 내 담당자가 확인하는 실시간 상담 현황, 에스컬레이션 티켓 관리, 일간/주간 자동 보고서 이메일 예시는 BO 대시보드 가이드 (별도 페이지)에서 확인하실 수 있습니다.

SECTION 03

상담 채팅 대응 채널

LINE · WeChat · WhatsApp 3개 글로벌 메신저에서 AI가 실시간 자동 응답하는 기술 구성

채널	연동 기술	AI 대응 방식	주요 시장
LINE LINE Messaging API	Webhook → FastAPI 수신 LINE Official Account + Bot	텍스트 실시간 자동 응답 이미지 수신 → Vision 분석 가능	일본 / 태국 / 대만 월 활성 사용자 1.96억
WeChat WeChat Official Account API	Webhook → FastAPI 수신 서비스 계정 (Service Account)	텍스트 실시간 자동 응답 중국어 간/번체 자동 감지	중국 / 화교권 월 활성 사용자 13.4억
WhatsApp WhatsApp Business API (Cloud)	Webhook → FastAPI 수신 Meta Business Platform 연동	텍스트 실시간 자동 응답 영어 / 아랍어 / 러시아어 등	동남아 / 중동 / 유럽 월 활성 사용자 20억+

상담 채팅 자동 대응 흐름

💬 고객 메시지 수신 (LINE / WeChat / WhatsApp Webhook)

🌐 언어 감지 + 채널 통합 포맷 변환 (Gateway Layer)

🔒 Regex 패턴으로 PII 선 비식별화 → 비식별 텍스트만 Gemini API 전송

🤖 Gemini 3.1 Flash Lite: 의도 분석 + 응답 생성 (해당 언어로)
시술 문의 → 맞춤 안내 / 가격 문의 → 견적 응답 / 예약 → 일정 확인

✅ 해당 채널 API로 응답 전송

💾 대화 이력 + 분석 결과 → PostgreSQL 저장

🌐

통합 메시지 게이트웨이 (Unified Gateway)

3개 메신저의 서로 다른 API 규격(LINE JSON / WeChat XML / WhatsApp Cloud API)을 단일 내부 메시지 포맷으로 정규화합니다. 채널별 어댑터 패턴으로 구현하여, AI 엔진은 채널에 무관하게 동일한 인터페이스로 대화를 처리합니다. 신규 채널(Telegram, Kakao 등) 추가 시 어댑터만 개발하면 확장 가능합니다.

통합 메시지 스키마 (Unified Chat Message)

        // 채널 통합 메시지 스키마

        interface UnifiedChatMessage {

          id: UUID;                // 메시지 고유 ID

          session_id: UUID;          // 대화 세션 ID

          channel: "line" | "wechat" | "whatsapp";

          direction: "inbound" | "outbound";

          language: string;           // "ja", "zh", "en", "ko" 등

          timestamp: ISO8601;         // 메시지 수신/발신 시각

          content_type: "text" | "image" | "sticker";

          raw_text: string;           // 원문 텍스트

          patient_token: string;      // 익명화 토큰 (비식별)

          is_business_hours: boolean; // 영업시간 내 여부

          ai_responded: boolean;     // AI 자동 응답 여부

          escalated: boolean;        // 인간 상담원 에스컬레이션

        }

채널별 API 연동 상세

LINE Messaging API Webhook + Reply/Push API
Channel Access Token 인증

WeChat Official API XML Webhook + 고객 서비스 API
AppID + AppSecret 인증

WhatsApp Business API Cloud API Webhook + Messages API
Meta Bearer Token 인증

응답 시간 제한 LINE 30초 / WeChat 5초 / WA 24시간
WeChat은 비동기 고객서비스 API로 우회

SECTION 04

AI 처리 파이프라인

비정형 상담 텍스트를 정형 데이터로 변환하는 3단계 NLP 파이프라인

상담 데이터 처리 파이프라인

💬 상담 대화 텍스트 수신 (LINE / WeChat / WhatsApp)

🔒 Step 0: 개인정보 비식별화 (Regex 패턴 선 비식별화)
이름, 연락처, 주민번호 → 토큰 치환 → 비식별 텍스트만 Gemini API 전송

🤖 Step 1: 상담 의도 분류 (Intent Classification) — Gemini 3.1 Flash Lite
시술문의 / 가격문의 / 예약 / 불만 / 재상담 / 기타

🔬 Step 2: 엔티티 추출 (NER) — Gemini 3.1 Flash Lite + 도메인 사전
시술명 / 관심부위 / 예산범위 / 경쟁병원 / 시술경험

📈 Step 3: 감성 분석 — Gemini 3.1 Flash Lite
긍정/부정/중립 + 긴급도 판단

💾 Gemini JSON Mode Output → PostgreSQL 저장

📋 자동 집계 → 일/주/월 보고서 생성

AI 분석 결과 스키마 (Gemini JSON Mode Output)

        // Gemini 3.1 Flash Lite JSON Mode

        interface ConsultationAnalysis {

          consultation_id: UUID;

          intent: {

            primary: "시술문의" | "가격문의" | "예약" | "불만" | "재상담";

            confidence: number;  // 0.0 ~ 1.0

          };

          entities: {

            procedures: string[];   // ["코성형", "눈매교정"]

            body_areas: string[];   // ["코", "눈"]

            budget_range: { min: number, max: number } | null;

            competitor_mentions: string[]; // 경쟁 병원명

            prior_experience: boolean;  // 과거 시술 경험

            urgency: "high" | "medium" | "low";

          };

          sentiment: {

            overall: "positive" | "neutral" | "negative";

            score: number;      // -1.0 ~ 1.0

            pain_points: string[]; // ["가격 부담", "부작용 우려"]

          };

          escalation: {

            required: boolean;  // 에스컬레이션 필요 여부

            recommended_action: string;

                                     // "48시간 내 팔로업 권장"

          };

          summary: string;        // 1~2문장 요약

        }

SECTION 05

AI 모델 구성

Gemini 3.1 Flash Lite 단일 모델 — 대화 생성 + 다국어 처리 + 분석 파이프라인

⚡

Gemini 3.1 Flash Lite API 단일 모델로 모든 AI 기능을 처리합니다

별도 번역 모델, 언어 감지 모델, 임베딩 모델이 불필요합니다. 대화 생성, 의도 분류, NER, 감성 분석, 다국어 처리, 보고서 생성까지 하나의 API 호출로 통합 처리하여 아키텍처 복잡도와 운영 비용을 최소화합니다.

처리 단계	기술	설명
언어 감지	Gemini 내장	100+ 언어 자동 감지, 별도 모델 불필요
대화 생성	Gemini 3.1 Flash Lite	다국어 자연어 상담 응답 생성
의도분류 + NER + 감성	Gemini JSON Mode	단일 API 호출로 구조화 JSON 출력
PII 비식별화	Regex 패턴 선 비식별화	전화번호/이메일/이름 패턴 매칭 → 토큰 치환 후 API 전송
보고서 생성	Gemini 3.1 Flash Lite	집계 데이터 → 서술형 보고서

Core AI Engine

Gemini 3.1 Flash Lite (Google)

100+ 언어 네이티브 · 1M 컨텍스트 · JSON Mode · Telegent PoC 검증 완료

ProviderGoogle Cloud API

비용~$0.003/건
Telegent PoC 검증 완료

다국어100+ 언어 네이티브 처리
별도 번역 모델 불필요

JSON Mode네이티브 구조화 출력
별도 라이브러리 불필요

컨텍스트1M tokens

Gemini Flash 단일 모델로 가능한 이유

다국어 네이티브 — 별도 번역 엔진 없이 100+ 언어를 직접 처리
언어 자동 감지 — 별도 감지 모델 없이 입력 텍스트 언어를 자동 판별
JSON Mode — 별도 라이브러리 없이 구조화된 JSON 출력을 네이티브 생성
단일 API 호출 — 대화 생성 + 의도분류 + NER + 감성분석을 하나의 요청으로 처리
세션당 ~$0.015 — 월 1,000 세션이어도 LLM 비용 ₩22,260. GPU 서버 불필요

$0.003

건당 AI 비용
Gemini 3.1 Flash Lite API

100+

지원 언어
번역 모델 없이 네이티브

SECTION 06

시스템 아키텍처

전체 데이터 흐름 및 인프라 구성

End-to-End 시스템 아키텍처

💬 상담 채팅 게이트웨이 (Chat Gateway Layer)

LINEMessaging API Webhook

WeChatOfficial Account API

WhatsAppBusiness Cloud API

통합 어댑터채널 정규화 변환

🔒 보안 계층 (Security Layer)

PII DetectorRegex 패턴 선 비식별화

토큰 치환기비식별화 매핑

AES-256저장 데이터 암호화

접근 제어RBAC + 감사 로그

🤖 AI 처리 계층 (Processing Layer)

Gemini 3.1 Flash Lite대화 + NER + 감성 + 번역

집계 엔진통계 + 보고서

💾 데이터 계층 (Storage Layer)

PostgreSQL 15정형 상담 데이터

MinIO녹음 파일 보관

Redis실시간 캐시

Infrastructure

인프라 기술 스택

백엔드 프레임워크 FastAPI (Python 3.12)

비동기 큐 Celery + Redis

데이터베이스 PostgreSQL 15

파일 스토리지 MinIO (S3 호환)

배포 환경 Docker Compose / K8s

AI 엔진 Gemini 3.1 Flash Lite API (Google Cloud)

캐시 Redis

스케줄러 APScheduler (일/주/월 집계)

SECTION 07

보고서 자동 생성 산출물

AI가 추출한 정형 데이터를 기반으로 자동 생성하는 보고서 항목

보고서	생성 주기	포함 항목	배포 방식
일간 상담 현황	매일 09:00	• 전일 총 상담 건수 (LINE / WeChat / WhatsApp별) • 영업시간 외 AI 자동 대응 건수 • 시술 문의 TOP 5 • 에스컬레이션 대기 건 리스트	이메일 + 슬랙 알림
주간 트렌드 분석	매주 월요일	• 시술별 문의량 증감 추이 • 채널별(LINE/WeChat/WhatsApp) 유입 비율 변화 • 경쟁 병원 언급 빈도 • 불만/이탈 패턴 분석 • AI 자동처리율 vs 에스컬레이션 비율	PDF 보고서 + 대시보드 갱신
월간 경영 리포트	매월 1일	• 시술 카테고리별 상담 통계 • 예산 구간별 고객 분포 • 예약 문의 건수 + 에스컬레이션 처리율 • 시장 트렌드 인사이트 (Gemini 3.1 Flash Lite 서술) • 국가/언어별 유입 분석 + 마케팅 채널 ROI	PDF + 경영진 프레젠테이션

💡

야간 상담 누락 건수 자동 추적

is_business_hours = false 필드로 영업시간 외 상담을 정확히 분리합니다. AI가 24/7 자동 대응하므로 "9-to-6 이후에도 상담 자동 접수 누락 최소화"를 실현하며, 에스컬레이션 건(AI 대응 불가 → 인간 상담원)만 별도 escalated 플래그로 추적합니다.

SECTION 08

보안 및 법적 준수사항

의료 상담 데이터 처리에 필수적인 보안 아키텍처 및 법규 대응

법규 / 기준	요구사항	기술 대응
개인정보보호법 제15조, 제17조	수집 동의, 목적 외 이용 금지, 최소 수집 원칙	• 상담 시작 시 동의 스크립트 자동 안내 • Regex 패턴 PII 선 비식별화 후 Cloud API 전달 • 원문과 분석 결과 분리 저장
의료법 제21조 (기록 열람)	의료 정보 제3자 제공 제한, 진료기록 보관	• 상담은 진료기록이 아닌 "문의" 분류 • 의료 행위 관련 내용은 AI 판단 제외 • 의료법 대상 데이터 필터링 룰셋
GDPR EU 일반 데이터 보호 규정	글로벌 사용자 동의권, 삭제 요청권(Right to Erasure)	• 첫 메시지 시 동의 안내 자동 발송 • 삭제 요청 시 전체 대화 이력 파기 • WhatsApp/LINE 유럽 사용자 대응
메신저 플랫폼 정책 LINE / WeChat / WhatsApp	각 플랫폼 이용약관 준수, 자동 응답 봇 정책	• LINE: Bot 명시, 인간 전환 옵션 제공 • WeChat: 서비스 계정 인증 완료 • WhatsApp: Business 인증 + 24h 규칙
데이터 보관	목적 달성 후 파기, 보관 기한 준수	• 대화 원문: 90일 보관 후 자동 삭제 • 분석 결과(비식별): 2년 보관 • GDPR 삭제 요청 시 즉시 파기

개인정보 비식별화 파이프라인

💬 상담 원문: "홍길동(010-1234-5678) 님이 코성형 상담 문의"

🔒 Regex 패턴 매칭으로 PII 선 비식별화 (전화번호, 주민번호, 이메일, 이름, 주소)

🔀 토큰 치환: 홍길동 → [P_001] / 010-1234-5678 → [PHONE_001]

🔒 매핑 테이블: AES-256 암호화 별도 저장 (접근 권한 제한)

✅ 비식별 텍스트: "[P_001]([PHONE_001]) 님이 코성형 상담 문의"

🔐

PII 비식별화 후 Cloud API 전송 — 원본 개인정보 미전송

상담 데이터는 Regex 패턴으로 PII 선 비식별화를 완료한 후 비식별 텍스트만 Gemini API로 전송됩니다. 원본 개인정보가 외부로 전송되지 않으며, 비식별화 처리는 자체 서버에서 수행합니다. Gemini API는 이미 비식별화된 텍스트만 수신하므로 원본 개인정보에 접근할 수 없는 구조입니다. 매핑 테이블은 별도 암호화 DB에만 보관하며 접근 권한을 최소화합니다.

SECTION 09

개발 소요 기간

4주(1개월) 집중 개발 — 인프라 + AI 파이프라인 + 3채널 통합 + 보고서 + 테스트

4주

개발 기간
1개월 집중 스프린트

MVP

LINE 단독 런칭
2주차 말 데모 가능

3채널

전체 채널 런칭
4주차 말 LINE+WeChat+WhatsApp

주차	개발 범위	산출물
1주차	인프라 + AI 코어 VPS + DB + Gemini API + PII Regex + 게이트웨이	AI 추론 API
2주차	LINE 채널 + AI 파이프라인 LINE 연동 + JSON Mode + 에스컬레이션 + 프롬프트	LINE MVP 데모
3주차	멀티채널 + 보고서 WeChat + WhatsApp + 게이트웨이 + 보고서	3채널 통합
4주차	테스트 + 안정화 + 인수 E2E + 부하 + 보안 + 매뉴얼	전체 런칭

ADMIN

행정 절차 체크리스트

개발과 병행하여 클라이언트 측에서 준비할 행정 사항

LINE 당일~1주

☐ Account 생성 ☐ API 활성화 ☐ Webhook ☐ 플랜 선택

WhatsApp 3~7 영업일

☐ Meta 포트폴리오 ☐ 비즈니스 인증 ☐ 번호 확보 ☐ 템플릿 승인

WeChat 4~7주

☐ 서비스 계정 ☐ 서류 준비 ☐ 300 RMB ☐ 심사 대기

⚠

WeChat은 행정 소요가 가장 길어 개발 착수 즉시 병행 신청 권장

LINE은 당일 개통 가능하므로 MVP 채널로 적합합니다. WhatsApp은 1주 내외. WeChat은 해외 기업 기준 4~7주 소요되므로 개발 시작과 동시에 계정 신청을 진행해야 4주차 런칭에 맞출 수 있습니다.

SECTION 10

서버 및 인프라 운용 비용

월 운용비 최소화 전략 — Cloud API 종량제 + 경량 VPS 인프라

💡

핵심 전략: 채팅 시스템은 상시 GPU가 필요 없습니다

음성 통화 시스템과 달리 채팅은 실시간 스트리밍이 불필요합니다. 메시지가 들어올 때만 LLM을 호출하면 되므로, Cloud API 종량제로 사용한 만큼만 과금하면 월 운용비를 최소화할 수 있습니다. 자체 GPU 서버 상시 가동은 채팅 시스템에 과잉 설계입니다.

Production — Cloud API 종량제

사용한 만큼만 과금

GPU 상시 가동 없음 · 메시지당 과금 · 월 운용비 최소화

Gemini Flash API는 종량제로 요청 시에만 과금되며, Cold Start 없이 안정적으로 서비스됩니다.

Provider	과금 모델	LLM 비용/건	월 1,000건	월 5,000건	Cold Start
Gemini 3.1 Flash Lite Google Cloud API (PoC 검증 완료)	토큰 종량제	~$0.003	~₩1,500	~₩4,350	~0초

프로덕션 인프라 구성

항목	서비스	월 비용	비고
앱 서버	VPS (4코어 / 8GB RAM)	~8만원	FastAPI + Webhook 수신
DB	PostgreSQL (Managed 또는 VPS)	~2만원	상담 이력 + 분석 결과
캐시	Redis (Managed 또는 VPS)	~1만원	세션 관리 + 레이트 리밋
LLM 추론	Gemini 3.1 Flash Lite API (종량제)	~₩1,500	월 1,000건 기준
도메인 + SSL	Webhook HTTPS	~2만원
프로덕션 인프라 합계		~13만원/월	GPU 상시 가동 없음

TOTAL

월간 총 운용비 (프로덕션)

비용 항목	월 1,000건 시범 운영	월 10,000건 본격 운영
AWS 인프라 EC2 + RDS + ElastiCache	~₩10만	~₩10만
Gemini 3.1 Flash Lite API 세션당 ~8턴 대화 + 구조화 분석 + 에스컬레이션 요약	~₩22,260 $15.0 (세션당 $0.015)	~₩222,600 $150.0 (세션당 $0.015)
LINE Messaging API Free 500건 / Standard 30,000건	₩0 Free 플랜	~₩15만 Standard 플랜
WhatsApp Business API 서비스 대화 무제한 무료	₩0	₩0
WeChat (인증비) 연 300 RMB 월할 / 도메인은 기존 사용	~₩0.5만	~₩0.5만
Gemini 비용 비중	17%	47%
월 총 운용비	~127,260원	~477,600원
세션당 비용	약 127원	약 48원

💡

Gemini API 세션당 $0.015 산출 근거 (8턴 대화 기준)

• 대화 8턴: 매 턴마다 전체 히스토리 전송 — 누적 입력 ~47,600 + 출력 ~800 토큰 = $0.0131
• 구조화 분석 (의도분류/NER/감성, 1회): 입력 3K + 출력 500 = $0.0015
• 에스컬레이션 요약 (20% 발생): $0.00275 × 0.2 = $0.0006
• 세션당 합계: ~$0.015 (₩1,484 기준 약 ₩22)

건수가 10배 증가해도 고정 인프라(AWS ₩10만)가 분산되므로 세션당 비용은 ₩127 → ₩48로 62% 하락합니다.

~127,260원

시범 운영 (1,000 세션)
1단계 영어팀 기준

~477,600원

본격 운영 (10,000 세션)
3채널 전체 운영

0원

클라이언트 초기 투자
개발 인프라는 비애프터 부담

🔒

데이터 보안 참고

Gemini Flash API에 전달되는 텍스트는 Regex 패턴으로 PII 선 비식별화가 완료된 상태이므로 원본 개인정보가 외부로 전송되지 않습니다. 비식별화 처리는 VPS 내 Regex 패턴 매칭으로 수행한 후 비식별 텍스트만 LLM API를 호출하는 구조입니다.