Documentation & Blog

Red Team & AI 논문 정리

KWAKBUMJUN 2026. 4. 5. 23:25

1. 왜 이 주제인가

2024년 이후, 보안 연구 커뮤니티에서 가장 폭발적으로 논문이 증가한 분야가 있다. "LLM(Large Language Model) 에이전트를 활용한 자율 침투 테스트(Autonomous Penetration Testing)"다. 2024년 말부터 2026년 초까지 약 1년 반 동안 arXiv에만 10편 이상의 관련 논문이 등록되었고, IEEE S&P, MDPI 등 학술지에도 채택이 이어지고 있다.

이 분야의 핵심 질문은 단순하다:

"LLM 에이전트가 사람 해커처럼 자율적으로 시스템을 침투할 수 있는가?"

이 질문이 중요한 이유는 양면적이다. 공격 관점에서는 침투 테스트의 비용과 인력 부족 문제를 해결할 수 있고, 방어 관점에서는 공격자도 곧 이 기술을 악용할 것이므로 선제적 이해가 필요하다.

본 글에서는 이 분야의 대표적인 최신 논문 3편을 선정하여 비교 분석하고, 기존 연구가 다루지 못한 공백 영역을 식별한 뒤, 구체적인 연구 질문과 설계 방향을 제시한다.


2. 선정 논문 개요

선정 기준

  • 시기: 2025년 1월 ~ 2026년 3월 (최신 1년 이내)
  • 주제: LLM 에이전트 기반 자율 침투 테스트
  • 차별성: 각 논문이 서로 다른 접근 방식(에이전트 아키텍처, 벤치마크, 메모리 메커니즘)을 제시
  • 인용/관련성: 상호 참조 관계에 있는 논문들로 구성

논문 목록

# 논문 발표 핵심 키워드
P1 VulnBot: Autonomous Penetration Testing for A Multi-Agent Collaborative Framework 2025.01 (arXiv) 멀티 에이전트, 태스크 그래프, 단계별 협업
P2 CyberExplorer: Benchmarking LLM Offensive Security Capabilities in a Real-World Attacking Simulation Environment 2026.02 (arXiv) 벤치마크, 오픈월드 평가, 40개 웹 서비스
P3 Red-MIRROR: Agentic LLM-based Autonomous Penetration Testing with Reflective Verification and Knowledge-augmented Interaction 2026.03 (arXiv) RAG, 공유 메모리, 이중 반성, 86% 성공률

3. 논문별 상세 분석

3.1 [P1] VulnBot — "침투 테스트 팀을 시뮬레이션하다"

저자: He Kong, Die Hu, Jingguo Ge, Liangxiong Li, Tong Li, Bingzhen Wu
출처: arXiv:2501.13411 (2025.01)

연구 문제

수동 침투 테스트는 상당한 인적 자원과 시간을 요구한다. 기존 LLM 기반 접근법은 "맥락 이해 부족"과 "비구조적 데이터 생성"으로 인해 실효성이 떨어진다.

방법론

VulnBot의 핵심 아이디어는 "사람 침투 테스트 팀의 협업 구조를 모방"하는 것이다.

[VulnBot 아키텍처]

                  ┌─ Reconnaissance Agent (정찰)
                  │    nmap, whois, DNS enum
                  │
Penetration   ────┼─ Scanning Agent (스캐닝)
Task Graph        │    취약점 스캐너, 포트 스캔
(PTG)             │
                  └─ Exploitation Agent (공격)
                       페이로드 생성, 익스플로잇 실행
  • 침투 태스크 그래프(PTG): 정찰 → 스캐닝 → 익스플로잇의 논리적 실행 순서를 그래프로 정의
  • 역할 전문화: 각 에이전트가 특정 단계만 담당 (사람 팀의 역할 분담 모방)
  • 에이전트 간 통신: 이전 단계의 결과를 다음 단계 에이전트에게 구조적으로 전달
  • 생성적 침투 행위: LLM이 상황에 맞는 명령과 페이로드를 동적으로 생성

평가 결과

  • GPT-4, Llama3 기반 단일 에이전트 대비 우수한 성능 (구체적 수치 미공개)
  • 실제 머신 대상 완전 자율 테스트 성공 사례 보고

주요 한계

  • 벤치마크 표준 부재: 자체 테스트 환경만 사용, 재현성/비교 가능성 제한
  • 웹 취약점 중심: 네트워크 수준 침투(횡이동, 권한 상승)에 대한 평가 없음
  • 메모리 메커니즘 부재: 장기적인 공격 세션에서 이전 시도 결과를 기억하고 학습하는 구조 없음

3.2 [P2] CyberExplorer — "공정한 시험 문제를 만들다"

저자: Nanda Rani, Kimberly Milner 외 10명
출처: arXiv:2602.08023 (2026.02)

연구 문제

기존 LLM 공격 에이전트 평가는 "닫힌 세계(closed-world)" 설정에 의존한다: 미리 정의된 목표, 이진적 성공 기준(플래그 획득/미획득). 이는 실제 공격 상황 — 미지의 공격 표면 탐색, 불확실성 하의 가설 수정, 성공 보장 없는 작전 — 과 동떨어져 있다.

방법론

CyberExplorer는 평가 프레임워크 자체를 혁신한다.

[CyberExplorer 구성]

┌─────────────────────────────────────────┐
│       Open-Environment Benchmark         │
│                                         │
│  VM 1대에 40개 취약 웹 서비스 호스팅     │
│  (실제 CTF 챌린지 기반)                  │
│                                         │
│  에이전트에게 제공되는 사전 정보: 없음    │
│  → 자율적 정찰, 대상 선택, 공격 수행    │
└─────────────┬───────────────────────────┘
              │
              ▼
┌─────────────────────────────────────────┐
│     Reactive Multi-Agent Framework       │
│                                         │
│  미리 정의된 공격 계획 없이              │
│  동적 탐색 + 반응적 의사결정             │
│                                         │
│  평가 지표:                              │
│  - 플래그 획득 (기존 지표)               │
│  - 상호작용 역학 (신규)                  │
│  - 에이전트 간 조정 행위 (신규)          │
│  - 실패 모드 분석 (신규)                 │
│  - 취약점 발견 시그널 (신규)             │
└─────────────────────────────────────────┘

핵심 기여

  1. 오픈월드 벤치마크: 에이전트가 사전 지식 없이 40개 서비스를 자율 탐색
  2. 다차원 평가: 단순 성공/실패를 넘어 "어떻게 실패했는가", "어떤 탐색 전략을 사용했는가"까지 분석
  3. 재현 가능한 환경: VM 기반으로 동일 조건 재현 가능

주요 한계

  • 웹 서비스 한정: 40개 서비스가 모두 웹 애플리케이션. 네트워크 인프라, Active Directory, 클라우드 환경 미포함
  • CTF 기반의 인위성: CTF 챌린지는 의도적으로 설계된 취약점이므로, 실제 프로덕션 환경의 복잡성을 완전히 반영하지 못함
  • 방어 메커니즘 부재: WAF, IDS, EDR 등 방어 시스템이 없는 "무방비" 환경에서만 테스트

3.3 [P3] Red-MIRROR — "기억하고, 반성하고, 다시 공격하다"

저자: Tran Vy Khang, Nguyen Dang Nguyen Khang 외 4명
출처: arXiv:2603.27127 (2026.03)

연구 문제

기존 LLM 에이전트의 3대 약점:

  1. 파라메트릭 지식 과의존: LLM 학습 데이터에 없는 최신 취약점(CVE)에 대응 불가
  2. 단편적 세션 메모리: 공격 시도 간의 맥락이 유실되어 같은 실패를 반복
  3. 페이로드 검증 부족: 공격 성공 여부를 제대로 확인하지 않고 다음 단계로 진행

방법론

Red-MIRROR은 세 가지 메커니즘으로 이 문제를 해결한다:

[Red-MIRROR 아키텍처]

┌──────────────────────────────────────────────┐
│              Red-MIRROR System                │
│                                              │
│  ┌──────────┐  ┌──────────┐  ┌───────────┐  │
│  │   RAG    │  │  SRMM    │  │ Dual-Phase│  │
│  │ (외부    │  │ (공유    │  │ Reflection│  │
│  │  지식)   │  │  메모리) │  │ (이중     │  │
│  │          │  │          │  │  반성)    │  │
│  │ CVE DB,  │  │ 에이전트 │  │ ① 페이로드│  │
│  │ exploit  │  │ 간 상태  │  │   검증    │  │
│  │ DB 검색  │  │ 공유     │  │ ② 응답    │  │
│  │          │  │ 장기기억 │  │   검증    │  │
│  └──────────┘  └──────────┘  └───────────┘  │
│         │             │             │        │
│         └─────────────┼─────────────┘        │
│                       ▼                      │
│          멀티 에이전트 추론 백본               │
│      (memory-reflection backbone)            │
└──────────────────────────────────────────────┘
  • RAG: 외부 취약점 DB, 익스플로잇 DB를 실시간 검색하여 LLM의 파라메트릭 지식 보완
  • SRMM (Shared Recurrent Memory Mechanism): 에이전트 간 상태를 공유하는 순환 메모리. "3번 시도에서 SQLi가 실패했으니 XSS로 전환" 같은 전략적 판단 가능
  • 이중 반성 (Dual-Phase Reflection):
    • Phase 1: 생성한 페이로드가 기술적으로 유효한지 자체 검증
    • Phase 2: 서버 응답을 분석하여 공격 성공 여부를 실질적으로 판단

평가 결과

시스템 XBOW 성공률 서브태스크 완료율
Red-MIRROR 86.0% 93.99%
PentestAgent 50.0%
AutoPT 46.0%
VulnBot 6.0%

VulnBot 대비 80%p 향상, PentestAgent 대비 36%p 향상이라는 압도적 성능 차이를 보인다.

주요 한계

  • 웹 취약점 전용: SQLi, XSS, 비즈니스 로직 취약점에 특화. 네트워크/인프라 침투 미지원
  • 윤리적 우려: 논문 자체에서 "악용 방지를 위한 안전장치" 필요성을 언급
  • 실제 프로덕션 미검증: 벤치마크(XBOW, Vulhub)는 알려진 취약점을 포함한 테스트 환경

4. 논문 비교 분석

4.1 3편 비교 매트릭스

비교 기준 P1: VulnBot P2: CyberExplorer P3: Red-MIRROR
발표 시기 2025.01 2026.02 2026.03
핵심 기여 멀티 에이전트 협업 구조 오픈월드 벤치마크 메모리 + 반성 메커니즘
에이전트 수 3개 (정찰/스캔/공격) 다수 (동적 구성) 다수 (밀결합)
메모리 메커니즘 없음 제한적 SRMM (핵심)
외부 지식 통합 없음 없음 RAG
자기 검증 없음 없음 이중 반성
평가 환경 자체 환경 40개 CTF 웹 서비스 XBOW + Vulhub
평가 방식 성공/실패 다차원 (5개 지표) 성공률 + 서브태스크
공격 대상 웹 + 일부 네트워크 웹 전용 웹 전용
방어 시스템 포함 없음 없음 없음
내부망 횡이동 없음 없음 없음
실제 환경 검증 일부 없음 (CTF) 없음 (벤치마크)
XBOW 성공률 6.0% 86.0%

4.2 연구 발전 흐름

VulnBot (2025.01)          CyberExplorer (2026.02)       Red-MIRROR (2026.03)
"팀처럼 협업하자"           "공정하게 평가하자"           "기억하고 반성하자"
     │                          │                            │
     │  멀티 에이전트 구조       │  오픈월드 벤치마크          │  메모리 + 반성
     │  단계별 태스크 분할       │  다차원 평가 지표          │  RAG 외부 지식
     │                          │                            │  이중 검증
     │                          │                            │
     └──── 한계: 메모리 없음 ────┤                            │
     └──── 한계: 표준 벤치 없음 ─┘                            │
                                └──── 한계: 웹 전용 ──────────┘
                                └──── 한계: 방어 시스템 없음 ──┘

핵심 관찰: 1년간의 연구 발전은 명확한 방향성을 보인다:

  1. 단일 에이전트 → 멀티 에이전트 협업
  2. 단순 평가 → 다차원 오픈월드 벤치마크
  3. 메모리 없음 → 공유 메모리 + 반성 메커니즘

하지만 3편 모두 공유하는 근본적 한계가 있다.

4.3 공통 한계점 (미탐색 영역)

3편의 논문 모두에서 다루지 않은 영역을 아래와 같이 도출했다:

한계 1: "웹 밖의 세계가 없다"

3편 모두 웹 애플리케이션 취약점(SQLi, XSS, RCE 등)에만 집중한다. 실제 침투 테스트(특히 레드팀 작전)에서 가장 중요한 단계인 내부망 횡이동(Lateral Movement)Active Directory 공격은 전혀 다루지 않는다.

실제 레드팀 킬 체인:

초기 침투 (웹 RCE 등) → [기존 연구가 다루는 범위]
    ↓
내부 정찰 → 권한 상승 → 횡이동 → 도메인 장악 → [미탐색 영역]

한계 2: "방어자가 없다"

모든 실험이 WAF, IDS, EDR, SIEM 등 방어 메커니즘이 없는 환경에서 수행되었다. 실제 환경에서는 공격 시도가 차단되거나 탐지되며, 이에 대한 적응적 우회(Adaptive Evasion)가 필요하다.

한계 3: "성공률만 본다"

CyberExplorer를 제외하면 대부분 "몇 개의 취약점을 성공적으로 익스플로잇했는가"라는 단일 지표로 평가한다. 실전에서 중요한 은밀성(Stealth), 탐지 회피율, 작전 보안(OPSEC) 등은 평가되지 않는다.


5. 연구 동향 종합

5.1 현재 연구 지형도

              [성숙도 높음]
                   │
    ┌──────────────┼──────────────┐
    │              │              │
  웹 취약점     CTF 벤치마크    멀티 에이전트
  자동 익스플로잇  자동 풀이     협업 구조
    │              │              │
    │     ─────────┼──────────    │
    │    │ 현재 연구의 중심 │     │
    │     ─────────┼──────────    │
    │              │              │
    ├── RAG 지식   ├── 오픈월드   ├── 공유 메모리
    │   통합       │   평가       │   + 반성
    │              │              │
    └──────────────┼──────────────┘
                   │
              [성숙도 낮음]
                   │
    ┌──────────────┼──────────────┐
    │              │              │
  내부망 횡이동   방어 시스템    은밀성/OPSEC
  AD 공격 자동화  존재 하 테스트  평가 지표
    │              │              │
    │     ─────────┼──────────    │
    │    │    미탐색 영역    │    │
    │     ─────────┼──────────    │
    └──────────────┼──────────────┘

5.2 핵심 트렌드 (2024~2026)

트렌드 근거 향후 전망
LLM 에이전트 + 침투 테스트 융합 1년 반 만에 10편 이상 논문 주요 보안 학회(S&P, USENIX, CCS)에 진입 중
멀티 에이전트 → 표준 P1~P3 모두 멀티 에이전트 채택 단일 에이전트 접근은 도태될 것
메모리/반성 메커니즘 Red-MIRROR이 SRMM으로 80%p 성능 향상 에이전트 메모리 설계가 핵심 경쟁 요소
벤치마크 표준화 필요성 각 논문이 다른 환경에서 평가 → 비교 불가 커뮤니티 수준의 표준 벤치마크 등장 예상
웹 → 인프라/네트워크 확장 아직 미탐색이나 필연적 확장 방향 다음 1~2년 내 핵심 연구 주제화

6. 연구 질문 및 연구 설계

6.1 연구 질문 (Research Question)

"LLM 멀티 에이전트 시스템이 초기 웹 침투 이후 Active Directory 환경에서의 내부망 횡이동(Lateral Movement)과 권한 상승(Privilege Escalation)을 자율적으로 수행할 수 있으며, 이때 방어 시스템(EDR/SIEM) 존재 하에서의 탐지 회피 능력은 어떠한가?"

6.2 연구 질문 도출 근거

기존 연구 한계 본 연구의 대응
3편 모두 웹 전용 내부망(AD) 환경으로 확장
방어 시스템 없는 환경 EDR/SIEM 존재 하 테스트
성공률만 평가 탐지 회피율, 은밀성 지표 추가
CTF/벤치마크 인위성 실제 AD 환경 기반 테스트베드

6.3 연구 설계 초안

연구 대상

  • 공격 시스템: LLM 멀티 에이전트 프레임워크 (Red-MIRROR 아키텍처 확장)
  • 대상 환경: Active Directory 도메인 네트워크 (DC 1대, 워크스테이션 3대, 서버 2대)
  • 방어 시스템: Elastic SIEM + Sysmon + 기본 탐지 규칙

수집 데이터

데이터 수집 방법 용도
에이전트 행동 로그 LLM 에이전트의 의사결정 과정 기록 공격 전략 분석
Sysmon 이벤트 로그 피해 시스템에서 수집 공격 행위 기록
SIEM 알림 로그 Elastic Security 탐지 규칙 트리거 기록 탐지율 계산
네트워크 트래픽 tcpdump/Zeek 횡이동 패턴 분석
ATT&CK 매핑 결과 수동 + 자동 기법 커버리지 측정

변수 정의

변수 유형 변수명 설명 측정 방법
독립변수 에이전트 아키텍처 (a) 단일 에이전트, (b) P1식 단계분리, (c) P3식 메모리+반성 시스템 구성
독립변수 방어 수준 (a) 방어 없음, (b) 기본 규칙, (c) 고급 규칙 SIEM 규칙 세트
종속변수 침투 성공률 최종 목표(도메인 장악) 달성 비율 이진 판정
종속변수 단계별 완료율 정찰/횡이동/권한상승 각 단계 완료율 ATT&CK 기법 기준
종속변수 탐지 회피율 실행 기법 중 SIEM 미탐지 비율 1 - (알림 수 / 실행 기법 수)
종속변수 작전 시간 초기 침투부터 목표 달성까지 소요 시간 타임스탬프
통제변수 LLM 모델 GPT-4o 고정 API 버전 통제
통제변수 네트워크 토폴로지 고정된 AD 구성 스냅샷 복원

분석 방법

[실험 설계: 3×3 요인 설계]

                    방어 수준
                 없음  기본  고급
에이전트    (a)  [ ]   [ ]   [ ]    ← 단일 에이전트
아키텍처    (b)  [ ]   [ ]   [ ]    ← 단계분리 (VulnBot식)
            (c)  [ ]   [ ]   [ ]    ← 메모리+반성 (Red-MIRROR식)

각 셀: 10회 반복 실험 → 총 90회

분석 기법:

  1. 이원 분산분석 (Two-way ANOVA): 에이전트 아키텍처 × 방어 수준이 침투 성공률에 미치는 주효과 및 상호작용 효과
  2. ATT&CK 히트맵: 각 조건에서 성공/실패한 기법을 Navigator로 시각화하여 아키텍처별 강점/약점 패턴 도출
  3. 실패 모드 질적 분석: 에이전트가 왜, 어디서 실패하는지 LLM 의사결정 로그를 코딩 분석

7. 맺으며

2025~2026년, LLM 기반 자율 침투 테스트 연구는 빠르게 성숙하고 있다. VulnBot이 "팀 협업"의 아이디어를 제시하고, CyberExplorer가 "공정한 평가"의 기준을 세웠으며, Red-MIRROR이 "기억과 반성"으로 성능의 벽을 돌파했다.

하지만 이 연구들은 모두 웹이라는 울타리 안에 머물러 있다. 실제 레드팀 작전의 핵심 — 내부망 횡이동, Active Directory 장악, 방어 시스템 우회 — 은 아직 손대지 않은 영역이다. 이 공백은 위협이자 기회다.

다음 연구는 "LLM 에이전트가 웹의 초기 침투를 넘어, 방어자가 지키고 있는 내부 네트워크를 자율적으로 탐색하고 장악할 수 있는가?"라는 질문에 답해야 한다. 이 질문에 대한 답은 공격자보다 방어자가 먼저 알아야 한다.


참고 문헌

  1. He Kong et al., "VulnBot: Autonomous Penetration Testing for A Multi-Agent Collaborative Framework," arXiv:2501.13411, Jan 2025. [링크]
  2. Nanda Rani et al., "CyberExplorer: Benchmarking LLM Offensive Security Capabilities in a Real-World Attacking Simulation Environment," arXiv:2602.08023, Feb 2026. [링크]
  3. Tran Vy Khang et al., "Red-MIRROR: Agentic LLM-based Autonomous Penetration Testing with Reflective Verification and Knowledge-augmented Interaction," arXiv:2603.27127, Mar 2026. [링크]
  4. LMDG: Advancing Lateral Movement Detection Through High-Fidelity Dataset Generation, arXiv:2508.02942, Aug 2025. [링크]
  5. Optimizing Cyber Defense in Dynamic Active Directories through Reinforcement Learning, arXiv:2406.19596, Jun 2024. [링크]
  6. RedTeamLLM: an Agentic AI framework for offensive security, arXiv:2505.06913, May 2025. [링크]
  7. CurriculumPT: LLM-Based Multi-Agent Autonomous Penetration Testing with Curriculum-Guided Task Scheduling, MDPI Applied Sciences, Aug 2025. [링크]