13년치 회사 기억을 먹은 AI: Knowledge DB 구축기

date

slug

author

status

tags(최대 3개)

summary

type

thumbnail

TL;DR

AI에게 이거 분석해 달라고 던지면 hallucination이 나옵니다. 반면 이게 우리 회사에서 세 번째 발생한 이슈고 지난번엔 이렇게 해결했다고 맥락을 주면 정답이 나옵니다.

13년 업력의 Slack, Jira, Notion, Datadog, 코드베이스를 하나의 Knowledge DB로 통합했습니다. 이름은 GOM(곰타운) 입니다.

인프라팀의 모든 AI 에이전트(Claude Code, Gemini, Codex)는 작업 시작 시 무조건 GOM부터 조회합니다. 이것이 생산성의 비밀입니다.

신규 입사자가 1~2주 만에 AI로 온보딩 문서를 직접 고도화하고, 다음 입사자를 온보딩하는 선순환이 실제로 일어나고 있습니다.

데이터에 너무 정직해서 문제였다

새벽 3시, 긴급 장애 알림이 울렸습니다. ElastiCache 메모리가 급증하고 있었습니다.

우리의 AI 봇 쿼리곰에게 ElastiCache 메모리 급증 원인을 분석해 달라고 물었습니다. 돌아온 답변은 기술적으로 정확했습니다. 키 사이즈 분석, eviction 수치, maxmemory 설정값까지. 하지만 우리 환경에서 왜 이런 일이 일어났는지는 모르고 있었습니다.

그때 제가 Claude Code에 심어둔 guardrail이 작동했습니다.


캐시/세션 메모리 이슈 시 nginx 봇 패턴 초기 병행 분석
— ElastiCache 메모리 급증 시 키 분석과 동시에 nginx 로그에서
  봇/크롤러 트래픽 비율을 시간대별로 비교

이건 과거에 겪은 장애에서 배운 교훈입니다. 세션 생성 경로(/login, /site_join*)로 봇이 대량 유입되며 Redis 세션이 폭증했던 사건. 그때의 기억이 정책으로 남아 있었고, AI는 그 맥락 위에서 분석을 시작했습니다.

💡 쿼리곰이 틀린 게 아닙니다. 오히려 데이터에 너무 정직해서 문제였습니다. 도메인 특성에 맞는 guardrail과 맥락이 있어야 의미 있는 분석이 나옵니다.

이것이 이 글의 핵심입니다.

1. AI의 진짜 병목은 기억이다

Multi-Agent CLI로 Claude, Gemini, Codex를 동시에 돌리는 이야기는 이전 글에서 다뤘습니다. 세 두뇌가 병렬로 일하면 속도는 3배가 됩니다. 그런데 문제가 하나 남았습니다. AI는 기억을 못 합니다.

이 도메인, 작년에도 같은 이슈가 있지 않았나? → 모릅니다.

이 WAF 룰은 왜 이렇게 설정했지? → 모릅니다.

이 배치 서버는 누가 어떤 목적으로 만들었지? → 모릅니다.

13년 된 회사에서 인프라를 운영하면 의사결정의 80%는 과거 맥락에 기댑니다. 왜 이렇게 했는지에 대한 답은 코드에 없습니다. Slack 어딘가에, Jira 티켓 댓글에, Notion의 잊힌 페이지에 흩어져 있습니다.

사람이라면 팀에서 3년 이상 일한 시니어가 그거 2024년에 한번 터져서 이렇게 바꿨다고 알려줍니다. AI에게는 그런 시니어가 필요했습니다. 우리는 그 시니어를 만들었습니다.

2. GOM — 13년치 기억을 가진 Knowledge DB

GOM(곰타운) 은 우리 회사의 Knowledge DB 플랫폼입니다. 쿼리곰(Slack 봇)으로 시작해, 이제는 CLI(gom)로 모든 AI 에이전트가 직접 조회하는 조직의 기억 저장소가 됐습니다.

GOM CLI가 제공하는 명령어는 이렇습니다.

gom slack search — 전사 Slack 히스토리

gom jira search — IMOPS/ISMS 티켓 전체

gom notion search — Notion 페이지/DB 검색

gom dbx sql — Databricks SQL 실행

gom code search — 코드베이스 함수/상수 검색

gom code graph — 호출 관계 그래프 탐색

gom code impact — 변경 영향도 분석

gom learn search — 과거 교정된 규칙 확인

GOM CLI — 13년치 조직의 기억을 하나의 인터페이스로

🐻 GOM(곰타운)의 구축 과정과 기술 아키텍처는 Data Engineer 김지호 님이 별도 기술 블로그로 상세히 다룰 예정입니다.

핵심: 물어보는 게 아니라 기억하는 것

일반적인 AI 챗봇은 물어보면 검색합니다. GOM은 다릅니다. AI 에이전트가 작업을 시작하기 전에 자동으로 과거 맥락을 조회합니다. 우리 Claude Code의 guardrail이 그렇게 강제합니다.


Tool Priority Chain (도구 우선순위 체계)

1순위: GOM CLI + 세션 DB 병행
  - 항상 1순위. gom slack/jira/notion search로 히스토리 파악
  - Notion 세션 DB에서 과거 유사 작업/장애 선례를 동시 조회
2순위: API 직접 호출 (Python requests / curl / CLI)
3순위: MCP 서버 도구
최후: Chrome 브라우저 자동화

그래서 제가 DDoS 공격을 분석해 달라고 말하면 AI는 이렇게 움직입니다.

먼저 gom slack search DDoS로 과거 DDoS 대응 히스토리 확인

먼저 Notion 세션 DB에서 과거 DDoS 세션 페이지를 조회해 판정 기준·대응 템플릿·회고 교훈 확인

그 다음 Datadog API로 현재 트래픽 분석

그 다음 WAF 로그에서 패턴 매칭

이전에 어떻게 했는지를 알고 시작하는 AI와 모르고 시작하는 AI. 천지 차이입니다.

3. 실전: GOM이 바꾼 인프라 운영의 하루

Case 1: 보안 취약점 점검 — 전에도 나온 적 있나요

고객사 보안 점검 보고서가 들어왔습니다. XSS 취약점 지적이었습니다.


# 1. 과거 동일 취약점 히스토리 조회
gom jira search XSS 게시판 검색
# → IMOPS에서 XSS 관련 티켓 12건 발견
# → 동일 패턴: 게시판 keyword 파라미터 Reflected XSS, 3번째 보고

# 2. 과거 대응 방식 확인
gom slack search XSS 게시판 WAF 차단
# → 2024년: WAF 룰로 차단, 2025년: 코드 수정으로 근본 해결

# 3. 현재 WAF 룰 상태 확인
gom code search XSS filter board
# → 코드베이스에서 관련 필터 로직 확인

과거 3번 발생 + 두 가지 대응 방식 + 현재 상태가 5분 만에 나옵니다. 예전이라면 Jira를 뒤지고, Slack을 검색하고, 코드를 grep하느라 2시간이 걸릴 일입니다.

Case 2: 이벤트 서버 증축 — 30대가 적정한 근거는

트래픽이 늘어 이벤트 서버를 증축해야 했습니다. 문제는 몇 대를 늘리느냐였습니다.


1차 쿼리곰 분석 → 과거 RPS 기록, 이벤트/프로모션/블프 피크 데이터
→ Claude 교차검증
→ 보수적으로 30대 증축. 쿼리곰 굿

제가 실제로 Slack에 쓴 말입니다. 쿼리곰이 과거 이벤트별 트래픽 데이터, 서버 증축 히스토리, 용량 산정 기준 논의를 모두 찾아줬고, Claude가 교차 검증해 30대가 적정하다는 결론을 냈습니다. 근거 없이 20대냐 30대냐 40대냐를 두고 논의하던 시절은 끝났습니다.

Case 3: AWS TAM이 DevOps-Agent를 제안했을 때

AWS 미팅에서 온콜 알림 분류와 초기 대응에 특화된 DevOps-Agent를 소개받았습니다. 저는 이렇게 답했습니다.

💬 저희는 온콜·장애 대응을 이미 자체 AI 시스템으로 해결하고 있습니다. Claude Code + GOM CLI + Multi-Agent + guardrail 정책으로, 장애 발생 시 자동으로 과거 선례를 조회하고 도메인 특화 runbook을 실행합니다.

실제 Slack에 공유한 Claude Code 장애 분석 사례 — 장애 감지부터 RCA까지 자동 수행

장애가 나면 Claude Code가 관련 metric 수집, timeline 정리, RCA, Robusta/Datadog 연동까지 자동으로 합니다. 사람이 CLI를 하나하나 치면 2시간, AI가 GOM과 함께하면 8분입니다.

이게 가능한 이유가 GOM입니다. 외부 SaaS는 일반적인 AWS 장애 대응을 알려주지만, 우리 시스템은 우리 환경에서 이 장애가 세 번째고 지난번엔 이 WAF 룰이 원인이었다는 사실까지 알려줍니다.

Case 4: KISA 침해사고 대응 — 사이트 분석부터 신고서까지

피싱 도메인이 신고됐고 분석이 필요했습니다.


# 사이트 히스토리 조회
gom slack search 피싱 사이트.kr
gom jira search 피싱 사이트.kr

# 코드베이스에서 파일 업로드 로직 확인
gom code search xxx.imweb.me upload file type

# Databricks에서 실제 데이터 조회
gom dbx sql SELECT * FROM site_info WHERE site_code = Sxxxxxxxxxxxxxxxx

사이트 파일 업로드 이력, 전체 페이지 구조, 결제 히스토리, 접속 로그까지. 반나절 걸리던 분석이 8분이면 끝납니다.

4. guardrail 없는 AI는 준비 안 된 미팅이다

여기서 중요한 이야기를 하나 하겠습니다. AI를 제대로 쓰는 사람과 못 쓰는 사람의 차이는 프롬프트 스킬이 아닙니다. 미팅에 비유하면 분명해집니다.

준비 안 된 미팅: 일단 시작하자며 모이지만 아무도 뭘 결정해야 하는지 모릅니다. 한 시간 뒤 다음에 다시 논의하자며 끝납니다.

준비된 미팅: 아젠다를 미리 공유하고, 의사결정 포인트가 명확하며, 필요한 데이터를 미리 모아 둡니다. 30분 만에 결론이 납니다.

AI도 똑같습니다.

맥락 없이 이거 분석해 달라고 하면 → AI가 일반론 생성 → 아니 그게 아니라는 핑퐁 반복 → hallucination 폭발

guardrail + GOM으로 맥락 주입 → 과거 선례 조회 → 도메인 정책 확인 → 맥락 위에서 분석 → 첫 응답이 바로 정답

우리 CLAUDE.md에는 50개가 넘는 guardrail이 있습니다. DD 로그가 0건이면 5단계 검증을 하라, VIP 장애 시 VIP/NORM 서버 분리부터 확인하라, PHP APM 에러가 0건이어도 silent failure 가능성을 고려하라 같은 것들입니다.

전부 실제 사고에서 나온 규칙입니다. 각 guardrail에는 sago: 태그가 붙어, 어떤 장애에서 왜 이 규칙이 생겼는지 추적할 수 있습니다. 여기에 80개가 넘는 자동 피드백 메모리가 쌓이고 있습니다. AI가 틀릴 때마다 다음엔 이렇게 하라는 교정이 자동으로 기록되고, 다음 세션부터 바로 적용됩니다. 코드로 치면 테스트 케이스입니다.


# 실제 guardrail 예시
DD 로그 0건 시 5단계 필수 검증 (절대 포기 금지)
— 0건 = 데이터 없음이 아니라 쿼리 오류 가능성
  (1) 시간대 재확인: KST→UTC 변환을 datetime 객체로 계산
  (2) 필드명 변형 3종 시도
  (3) 시간 범위 3배 확장 재시도
  (4) 총량 쿼리: 필터 없이 전체 건수 먼저 확인
  (5) CW 우회: aws wafv2 get-sampled-requests
  금지: 0건에서 아키텍처 결론 도출

이 guardrail 하나가, 데이터가 없으니 이 경로를 거치지 않는 것 같다는 치명적 오진을 막아줍니다.

5. 수치로 보는 활용도

쿼리곰은 단순 검색 도구가 아닙니다. 스케줄링을 지원해, 매일 오전 7시에 Databricks에서 7일치 UV/PV/주문/GMV 추이를 뽑고 과거 이벤트 패턴과 비교해 15대 증설, 10시까지 완료 필수 같은 실행 가능한 추천을 내립니다. 비등록 트래픽 이상 탐지까지 더해, 평시 대비 111배 UV가 급증한 사이트를 자동으로 잡아냅니다.

쿼리곰이 매일 오전 7시에 자동 생성하는 이벤트 트래픽 분석 리포트 — 적정 서버 대수 추천, 시간대별 주문 분포, UV→주문 전환율까지

출근하면 분석은 이미 끝나 있습니다. 엔지니어는 판단만 하면 됩니다.

곰타운은 전사적으로도 강한 제품 지표를 보입니다. 내부 도구 기준 DAU/WAU stickiness가 매우 높고, cohort retention상 이탈이 극히 적으며, 팀 → 스쿼드 → 전사로 자연스럽게 확산되고 있습니다. 있으니까 쓰는 도구가 아니라 없으면 일을 못 하는 도구가 됐습니다.

6. 신규 입사자가 다음 입사자를 온보딩하는 세계

2026년 4월, 인프라팀에 SRE·DevOps·DevSecOps 세 명이 입사했습니다.

1주차는 기본 온보딩이었습니다. Okta 계정 생성, VPN 설정, 개발 환경 구축, 그리고 Claude Code 세팅. Claude Code 세팅은 setup.sh 하나면 3분이면 끝납니다. 이 스크립트조차 SRE 파트에 최적화된 설정으로 세팅해 달라고 AI에게 말하면 파트별(SRE/DevOps/Security/DB/Data) 최적값으로 자동 분기해 credential, guardrail, MCP 서버 연결까지 한 번에 마칩니다.

그런데 놀라운 일이 벌어졌습니다. 신규 입사자들이 Claude Code + 쿼리곰을 쓰면서 온보딩 문서를 직접 고치기 시작한 것입니다. 이 부분은 절차가 바뀌었다, 이 가이드에 이 단계가 빠졌다 같은 지적과 함께, AI로 코드베이스를 탐색하고 쿼리곰으로 히스토리를 확인하며 스스로 온보딩 절차를 고도화했습니다.

🔄 더 놀라운 건 4/6에 입사한 분이 4/13에 입사한 분을 온보딩하고 있다는 점입니다. 단 1주일 만에.

가능했던 이유는 셋입니다. GOM이 13년치 맥락을 제공해 왜 이렇게 되어 있는지를 AI가 설명해 주고, Claude Code guardrail이 도메인 정책을 강제해 실수를 막고, 세션 DB에 모든 작업이 기록돼 이전 사람이 어디까지 했는지 보입니다. 입사 → AI로 학습 → 문서 고도화 → 다음 입사자가 더 좋은 문서로 학습. 선순환이 돕니다.

🐻 이 온보딩 선순환의 구체적인 경험담은 곧 신규 입사자 본인이 직접 기술 블로그로 공유할 예정입니다.

7. 나 같은 사람 다섯이 동시에 일하는 느낌

AI를 쓰며 가장 자주 느끼는 감각이 있습니다. 혼자인데, 나 같은 사람 다섯이 동시에 일하는 느낌입니다.

DDoS 대응을 예로 들면 이렇게 돌아갑니다.

나(Master): 전체 상황 판단, 의사결정

Claude(Agent 1): WAF 로그 분석 + GOM으로 과거 DDoS 선례 조회

Gemini(Agent 2): nginx 봇 패턴 분석 + 트래픽 시계열 정리

Codex(Agent 3): WAF 룰 코드 리뷰 + 정규식 정밀 검증

이게 동시에 돌고, 각 에이전트가 GOM을 통해 같은 맥락을 공유합니다. 다만 이건 아무나 할 수 있는 게 아닙니다. 솔직히 말씀드리겠습니다.

왜 엔지니어의 밀도가 중요한가

IDC 온프렘 → IaaS → PaaS → SaaS, 대규모 트래픽에서의 무중단 마이그레이션, 금융망 수준의 보안 요구사항. 이런 경험을 가진 엔지니어가 AI를 만나면 보수적인 마인드 + 안전장치 + 테스트가 자동으로 따라붙습니다.

제 CLAUDE.md에 50개가 넘는 guardrail이 있는 이유가 이것입니다. 이거 프로덕션에 바로 적용해도 되나를 늘 의심하는 습관이 guardrail이 되고, 테스트 정책이 되고, Pilot-Verify-Rollout 프로세스가 됩니다.


Deploy Lifecycle Policy (Test → Gradual Rollout → Monitor)

1단계: 테스트 (배포 전 필수)
2단계: 점진적 적용 — Pilot 1개 → 검증 → 확대
3단계: 배포 후 모니터링 — 최소 15분, 에러율/응답시간 확인

경험이 얕은 엔지니어가 AI를 쓰면 AI가 만들어줬으니 바로 배포하자가 되어 장애로 이어집니다. 경험이 깊은 엔지니어가 AI를 쓰면 일단 Pilot 1대에 넣고 15분 모니터링하자가 됩니다.

💡 엔지니어의 수준과 밀도가 높을수록, AI는 위험한 무기가 아니라 정밀한 도구가 됩니다.

8. 함정: GOM한테 물어보면 되지의 위험

GOM이 만능은 아닙니다. 우리가 겪은 실수는 이렇습니다.

hallucination은 GOM도 피할 수 없습니다. 쿼리곰이 ElastiCache 장애를 두고 메모리 부족으로 인한 eviction이 원인이라고 답했습니다. 기술적으로 맞는 말이지만, 우리 환경의 근본 원인은 봇 트래픽에 의한 세션 폭증이었습니다. GOM의 답변도 교차 검증이 필수입니다. 쿼리곰 1차 분석 → Claude 교차 검증 → 최종 판단은 사람이.

과거에 이렇게 했으니까의 함정도 있습니다. 과거 대응이 늘 정답은 아닙니다. 인프라는 계속 변하고, 2024년의 정답이 2026년엔 오답일 수 있습니다. GOM은 참고지 정답이 아닙니다. 과거에 이렇게 했다는 건 출발점이지 결론이 아닙니다.

외부 분석 결과를 그대로 믿는 함정도 경계해야 합니다. 다른 AI 세션이나 외부 도구의 결과를 그대로 채택하면 안 됩니다.


외부 분석 결과(다른 세션/AI/쿼리곰) 수용 시
→ 원본 데이터로 1차 검증
→ 결론만 채택 금지, 근거 데이터를 직접 조회해 교차 검증 후 채택

9. GOM + Claude Code + Multi-Agent = 조직의 두뇌

정리하면 이렇습니다.

GOM 이 13년치 기억을 제공합니다 (맥락)

guardrail 이 도메인 특화 정책을 강제합니다 (안전장치)

Multi-Agent 가 분석을 병렬로 수행합니다 (속도)

Session DB 가 모든 작업을 기록합니다 (학습)

Engineer 가 최종 의사결정을 내립니다 (판단)

이 다섯이 맞물릴 때 AI는 도구가 아니라 조직의 두뇌가 됩니다.

10. 다음은?

현재 인프라팀은 저를 포함해 11명으로 커지고 있습니다. 엔지니어 각자가 자신의 Claude Code에 도메인 guardrail을 쌓고, 그 guardrail은 GOM을 통해 팀 전체의 지식이 됩니다.

우리가 증명하고 싶은 건 하나입니다.

AI의 가치는 모델의 성능이 아니라, 조직이 축적한 맥락의 깊이에 비례합니다.

GPT-5가 나오든 Claude 5가 나오든 모델은 계속 좋아질 것입니다. 하지만 우리 회사에서 이 장애가 세 번째고 지난번엔 이렇게 해결했다는 맥락은 그 어떤 모델도 스스로 만들지 못합니다. 그 맥락을 만드는 건 사람이고, AI는 그 맥락 위에서 날아오릅니다.

읽어주셔서 감사합니다.