LLM 비교 레퍼런스
LLM 모델 비교표
평가 기준: KMMLU(한국어 지식) · SWE-bench(코딩) · 추론 지연 · 1M 토큰 가격 · 라이선스.
- 최종 갱신
- 2026-05-01
- 수록 모델
- 현재 8개 모델 수록
직군
예산
보안 요건
한국어 지원
모델 비교
LLM 스펙 비교 매트릭스
| 모델명 | 컨텍스트 | 가격 (입력/출력 per 1M tok) | 한국어 점수 | 라이선스 | 공식 출처 | 검증 |
|---|---|---|---|---|---|---|
GPT-4o OpenAI | 128K | $5 / $15 | 71.2 KMMLU | 상업적 API | 릴리스 노트 | 도입 체크리스트 |
Claude 3.7 Sonnet Anthropic | 200K | $3 / $15 | 68.4 KMMLU | 상업적 API | 릴리스 노트 | 도입 체크리스트 |
Gemini 2.5 Pro Google DeepMind | 1M | $1.25 / $10 | 73.4 KMMLU | 상업적 API | 릴리스 노트 | 도입 체크리스트 |
OpenAI o3 OpenAI | 200K | $10 / $40 | 69.1 SWE-bench | 상업적 API | 릴리스 노트 | 도입 체크리스트 |
GPT-4o mini OpenAI | 128K | $0.15 / $0.60 | 58.3 KMMLU | 상업적 API | 릴리스 노트 | 도입 체크리스트 |
Llama 4 Scout Meta AI | 10M | 무료 (오픈소스) | 61.7 KMMLU | Apache 2.0 | 릴리스 노트 | 도입 체크리스트 |
Mistral Large 2 Mistral AI | 128K | $2 / $6 | 55.1 KMMLU | 상업적 API | 릴리스 노트 | 도입 체크리스트 |
Qwen2.5-72B Alibaba Cloud | 128K | 무료 (오픈소스) | 64.8 KMMLU | Apache 2.0 | 릴리스 노트 | 도입 체크리스트 |
평가 방법론
벤치마크 평가 방법론
평가 개요모든 점수는 공개 벤치마크(KMMLU·SWE-bench Verified)와 공식 API 가격 페이지를 1차 자료로 사용합니다. 자체 평가는 테스트 조건(모델 버전·API 온도 설정·날짜)을 명시한 경우에만 반영합니다.
테스트 조건한국어 성능은 KMMLU(57개 주제)를 기준으로 하며, 코딩 성능은 SWE-bench Verified 점수를 사용합니다. 가격은 각 공급사의 공식 API 가격 페이지 기준이며, 입력·출력 토큰을 분리 표기합니다. 라이선스는 공식 문서를 직접 확인해 상업적 이용 가능 여부를 표기합니다.
갱신 주기모델 비교표는 매주 1회 이상 갱신합니다. 가격·컨텍스트 윈도우·라이선스 변경은 공급사 공지 확인 후 즉시 반영합니다. 갱신 일자는 페이지 상단에 표시합니다.
한계 공시벤치마크 점수는 특정 조건에서의 성능을 나타내며, 실제 업무 환경과 다를 수 있습니다. 한국어 성능은 KMMLU 기준이며, 특수 도메인(법률·의료·금융) 용어에서 차이가 발생할 수 있습니다. 모델 선택 전 /tool-checklist로 직접 검증하는 것을 권장합니다.
자주 묻는 질문
모델 비교표 FAQ
- KMMLU는 한국어 지식·추론 능력의 공개 벤치마크이며, 점수가 높을수록 한국어 처리 능력이 뛰어난 경향이 있습니다. 그러나 특수 도메인(법률·의료·금융)이나 사내 전문 용어 처리 품질은 직접 테스트로 확인하는 것이 정확합니다. /tool-checklist의 한국어 품질 점검 항목을 활용하세요.