← Projects

Engineering LLM Loadtester — 비개발직군용 LLM 서빙 벤치마킹 도구

WIGTN Crew Crew Lead & AI Research Engineer 2026.01 ~ 2026.02 3-Tier (FastAPI + CLI + Next.js + Docker)

Python FastAPI Next.js Docker WebSocket Goodput Validation Loop Open Source

Overview

비개발직군도 브라우저에서 바로 LLM 서빙 성능을 테스트할 수 있는 Web 기반 벤치마킹 도구

상사로부터 "LLM 서버의 동시 접속 가능 인원은 몇 명인가?"라는 질문을 받았습니다. 인프라 평가와 성능 테스트가 담당자에게 축적되지 않고, 필요할 때마다 임시로 담당자를 정해 처리하는 구조가 문제였습니다. "비개발자도 누구나 사용 가능한 사내 공용 LLM LoadTester"를 제안하고 직접 만들었습니다.

GitHub Stars 2 · WIGTN-Coding 플러그인으로 주말에 MVP를 완성한 후 고도화했습니다.

주요 성과

Ex-Google ML/AI 엔지니어(NextToken 빌더)로부터 — 콜드 아웃리치 수신
이중 교차 검증 시스템 — Prometheus ±5% + Docker ±10%
Adapter Pattern으로 단일 인터페이스 대응 — vLLM · SGLang · Ollama · Triton
GitHub Actions CI — 118 테스트
WIGTN-Coding 플러그인으로 — 주말에 MVP 완성

링크

GitHub: Hyeongseob91/engineering-llm-loadtester
개발 후기: LinkedIn — AI-Native 프로젝트 개발 후기

외부 반응

Ex-Google ML/AI 엔지니어(NextToken 빌더)로부터 콜드 아웃리치 메일을 수신했습니다. GitHub 프로필에서 engineering-llm-loadtester 레포를 발견하고 "quite relevant"하다며 연락해 주셨습니다. 실제로 프로젝트 위에 interactive app을 만들어 피드백을 주고받는 경험을 했습니다.

왜 만들었나

실무 배경

인프라 성능 테스트가 특정 담당자에게만 가능한 구조였습니다. LLM 서빙 성능을 평가하려면 CLI 도구(llmperf, vllm benchmark 등)를 직접 다뤄야 했고, 영업팀·MLOps·PM은 접근 자체가 어려웠습니다.

해결 방향

UI에서 직접 조정 가능한 반복 테스트 환경을 구축했습니다. 입력(타겟 서버, 트래픽 규모, 프롬프트, SLO 기준값)은 유연하게, 출력(TTFT, TPOT, p99, Goodput)은 데이터 기반으로 명확하게 제공합니다. "누군가를 거치지 않고 직접 도전할 수 있는 Fast Build의 매력"입니다.