LLM 비교 레퍼런스

LLM 모델 비교표

평가 기준: KMMLU(한국어 지식) · SWE-bench(코딩) · 추론 지연 · 1M 토큰 가격 · 라이선스.

최종 갱신: 2026-05-01
수록 모델: 현재 8개 모델 수록

직군

예산

보안 요건

한국어 지원

모델 비교

LLM 스펙 비교 매트릭스

모델명	컨텍스트	가격 (입력/출력 per 1M tok)	한국어 점수	라이선스	공식 출처	검증
GPT-4o OpenAI	128K	$5 / $15	71.2 KMMLU	상업적 API	릴리스 노트	도입 체크리스트
Claude 3.7 Sonnet Anthropic	200K	$3 / $15	68.4 KMMLU	상업적 API	릴리스 노트	도입 체크리스트
Gemini 2.5 Pro Google DeepMind	1M	$1.25 / $10	73.4 KMMLU	상업적 API	릴리스 노트	도입 체크리스트
OpenAI o3 OpenAI	200K	$10 / $40	69.1 SWE-bench	상업적 API	릴리스 노트	도입 체크리스트
GPT-4o mini OpenAI	128K	$0.15 / $0.60	58.3 KMMLU	상업적 API	릴리스 노트	도입 체크리스트
Llama 4 Scout Meta AI	10M	무료 (오픈소스)	61.7 KMMLU	Apache 2.0	릴리스 노트	도입 체크리스트
Mistral Large 2 Mistral AI	128K	$2 / $6	55.1 KMMLU	상업적 API	릴리스 노트	도입 체크리스트
Qwen2.5-72B Alibaba Cloud	128K	무료 (오픈소스)	64.8 KMMLU	Apache 2.0	릴리스 노트	도입 체크리스트

평가 방법론

벤치마크 평가 방법론

평가 개요모든 점수는 공개 벤치마크(KMMLU·SWE-bench Verified)와 공식 API 가격 페이지를 1차 자료로 사용합니다. 자체 평가는 테스트 조건(모델 버전·API 온도 설정·날짜)을 명시한 경우에만 반영합니다.

테스트 조건한국어 성능은 KMMLU(57개 주제)를 기준으로 하며, 코딩 성능은 SWE-bench Verified 점수를 사용합니다. 가격은 각 공급사의 공식 API 가격 페이지 기준이며, 입력·출력 토큰을 분리 표기합니다. 라이선스는 공식 문서를 직접 확인해 상업적 이용 가능 여부를 표기합니다.

갱신 주기모델 비교표는 매주 1회 이상 갱신합니다. 가격·컨텍스트 윈도우·라이선스 변경은 공급사 공지 확인 후 즉시 반영합니다. 갱신 일자는 페이지 상단에 표시합니다.

한계 공시벤치마크 점수는 특정 조건에서의 성능을 나타내며, 실제 업무 환경과 다를 수 있습니다. 한국어 성능은 KMMLU 기준이며, 특수 도메인(법률·의료·금융) 용어에서 차이가 발생할 수 있습니다. 모델 선택 전 /tool-checklist로 직접 검증하는 것을 권장합니다.

자주 묻는 질문

모델 비교표 FAQ

KMMLU는 한국어 지식·추론 능력의 공개 벤치마크이며, 점수가 높을수록 한국어 처리 능력이 뛰어난 경향이 있습니다. 그러나 특수 도메인(법률·의료·금융)이나 사내 전문 용어 처리 품질은 직접 테스트로 확인하는 것이 정확합니다. /tool-checklist의 한국어 품질 점검 항목을 활용하세요.

전체 FAQ 보기

다음 단계

모델 결정 후 다음 단계

체크리스트로 보안·라이선스·ROI를 최종 확인한 뒤 팀 도입을 진행하세요.

도입 체크리스트 시작주간 큐레이션 구독