/온프렘 스쿨
2026년 7월 · 1·2기 모집 중

On-Premise AI · 온프레미스 LLM 서빙

클라우드 API 없이,
우리 서버에서 AI를 돌립니다

데이터가 밖으로 나가지 않는 AI, 온프레미스.

오픈소스 LLM을 직접 실행하고 API로 서빙해, 백엔드·프론트엔드·ComfyUI까지 연결합니다. 프롬프트 활용법이 아니라, 온프레미스 AI 서비스를 직접 구축하는 SW 개발자 실습 과정입니다.

  • 오프라인 2일 집중 · 총 12시간
  • GPU(Runpod) 제공 - 수강료에 포함
  • 온라인 보조 영상 제공
  • 프로세스 결과물
on-prem · localhost

$ curl http://localhost:11434/v1/chat/completions \

-d '{ "model": "llama-ko",

"messages": [{"role":"user",

"content":"내부 문서 요약해줘"}]}'

{ "choices": [{

"message": {

"role": "assistant",

"content": "외부 전송 없이, 내 서버에서 응답합니다."

} }] }

1기모집 중
2026년 7월 16일(목) – 17일(금)
오프라인 · 서울
2기모집 중
2026년 7월 23일(목) – 24일(금)
오프라인 · 서울
2

집중 오프라인 과정

12시간

하루 6시간 × 2일

6

프로세스 결과물

On-Premise AIOpen Source LLMOllamallama.cppvLLMOpenAI-Compatible APIFastAPIQuantizationGPU ServingComfyUIStreamingAI Service ArchitectureOn-Premise AIOpen Source LLMOllamallama.cppvLLMOpenAI-Compatible APIFastAPIQuantizationGPU ServingComfyUIStreamingAI Service Architecture
WHY ON-PREMISE

강력한 클라우드 AI, 그런데 왜 직접 서빙해야 할까요?

ChatGPT·Claude·Gemini는 분명 강력합니다. 하지만 모든 기업이 외부 API에만 의존할 수는 없습니다. 현장에서는 이런 제약이 반복됩니다.

보안

내부 데이터를 외부로 보낼 수 없다

고객 정보·내부 문서·코드를 외부 API로 전송하는 순간 보안과 컴플라이언스 리스크가 생깁니다.

비용

호출량이 늘수록 비용이 커진다

토큰 단위 과금은 서비스가 성장할수록 부담이 됩니다. 비용 예측이 어렵습니다.

종속성

외부 모델 정책에 흔들린다

가격 인상·모델 단종·정책 변경이 우리 서비스의 핵심 기능을 직접 흔들 수 있습니다.

그래서 기업들은 질문하기 시작했습니다. “우리 서버에서 직접 LLM을 실행할 수 있을까?”

오픈소스 모델을 API 서버처럼 쓰고, 외부 API 없이 AI 도구를 만들고, GPU 서버 한 대로 실제 서비스를 운영하는 방법 — 이 과정은 바로 그 질문에 답합니다.

WHAT YOU BUILD

이틀 후,
설명할 수 있는 아키텍처가 남습니다

단순 실습이 아니라 하나의 구조를 직접 만듭니다. 로컬 LLM 실행부터 사용자 인터페이스까지, 전체 흐름을 손으로 연결합니다.

end-to-end pipeline

01로컬 LLM 실행오픈소스 모델을 내 서버에서 구동
02API 서빙OpenAI 호환 엔드포인트로 노출
03백엔드 연동요청·프롬프트·응답 처리 흐름
04프론트엔드 연결채팅형 UI에서 실시간 응답
05ComfyUI 워크플로우노드 기반 로컬 AI 파이프라인
01

로컬 LLM 실행 환경

클라우드 API 없이 오픈소스 LLM을 내 서버에서 구동하는 구조

02

LLM API 서빙 구조

로컬 모델을 OpenAI 호환 API로 노출해 외부 서비스와 연결

03

AI 백엔드 흐름

사용자 입력 → LLM 호출 → 응답 반환의 기본 백엔드 설계

04

AI 프론트엔드 화면

질문 입력과 실시간 응답을 확인하는 채팅형 인터페이스

05

ComfyUI 워크플로우

노드 기반 로컬 AI 파이프라인을 직접 구성·체험

06

설명 가능한 아키텍처

포트폴리오·면접에서 설명할 수 있는 온프레미스 AI 구조

수료 후 한 문장으로 설명할 수 있습니다 — “외부 API 없이 오픈소스 LLM을 로컬에서 실행해 API로 서빙하고, 웹 프론트엔드와 ComfyUI 워크플로우로 연결한 온프레미스 AI 서비스를 구현했습니다.”

FOR THE TEAM

직원 한 명, 이틀. 팀에는 역량이 남습니다.

이 과정은 개인의 학습으로 끝나지 않습니다. 조직이 외부 API에 의존하지 않고 AI를 다룰 수 있는 실질적 역량을 팀 안에 만듭니다.

내부 데이터를 밖으로 보내지 않습니다

고객 정보·내부 문서를 외부 API로 전송하지 않고, 우리 서버 안에서 추론을 끝냅니다. 보안·컴플라이언스 부담이 줄어듭니다.

호출량에 비례하던 비용을 통제합니다

토큰 단위 과금 대신 자체 인프라로 전환하는 구조를 이해합니다. 사용량이 늘수록 비용 예측 가능성이 커집니다.

외부 모델 정책 변경에 흔들리지 않습니다

가격 인상·모델 단종·정책 변경 같은 외부 종속성 리스크를 자체 모델 운영 역량으로 완화합니다.

역량이 팀 안에 남습니다

외주가 아니라 우리 개발자가 직접 설계·서빙·운영할 수 있게 됩니다. 이틀의 교육이 팀의 자산이 됩니다.

보고용 한 줄

“이틀이면 우리 팀이 외부 API 없이 사내 서버에서 LLM을 서빙할 수 있는 기본 역량을 갖춥니다. 보안·비용·종속성 문제를 동시에 줄이는 투자입니다.”

기업 단체 신청 · 세금계산서 발행 · 견적서 지원 — 신청 시 함께 안내드립니다.

CURRICULUM

2일 · 12교시, 군더더기 없이 설계했습니다

오프라인 2일 집중 · 총 12시간 · 1일 6시간 (오전 10시–오후 5시, 점심 1시간). 개념 설명, 강사 시연, 단계별 실습, 결과물 리뷰가 한 흐름으로 이어집니다.

1일차 오픈소스 LLM 실행과 온프레미스 서빙 구조 이해

1교시

온프레미스 AI 개요

  • 클라우드 API의 장점과 한계
  • 온프레미스 AI가 필요한 상황
  • 이번 과정에서 만들 전체 아키텍처
2교시

오픈소스 LLM 생태계 이해

  • 모델 크기·파라미터·컨텍스트 개념
  • 양자화의 의미
  • GPU·VRAM·속도·비용의 관계
3교시

로컬 LLM 실행 환경 구성

  • Ollama · llama.cpp · vLLM 비교
  • OS(윈도우·맥·리눅스)와 GPU 종류별 실행 차이
  • 모델 다운로드와 실행 흐름
4교시

LLM API 서빙 구조

  • OpenAI 호환 API의 개념
  • 클라이언트·서버·런타임 관계
  • 스트리밍 응답 구조
5교시

모델 실행과 응답 비교 (실습)

  • 소형·중형 모델 응답 비교
  • 한국어 품질과 속도 트레이드오프
  • 모델 선택 기준 정리
6교시

온프레미스 AI 서버 구조 정리

  • 모델·API·백엔드·프론트엔드 연결 구조
  • 사내망 환경 구성 방식
  • 2일차 실습용 서비스 설계
INSTRUCTOR

실전 경험을 바탕으로, 직접 가르칩니다

글로벌 상위권 언어모델을 직접 만들고, 실무 현장에서 AI 프로젝트를 리드한 기술회사 대표가 직접 강의합니다.

이강훈

강사 · Lead

(사)한국인공지능연구소 소장
(주)퀀텀아이 대표

연구와 현업, 그리고 교육을 동시에 해 온 강사입니다. 모델을 만들어 본 사람만 아는 실전 감각을, 가르쳐 본 사람만 아는 전달력으로 풀어냅니다.

01

글로벌 언어모델 랭킹 7위

오픈 LLM 평가에서 글로벌 7위에 오른 모델을 직접 개발했습니다.

02

한국어 파운데이션 오픈소스 LLM 공개

한국어 파운데이션 모델을 오픈소스로 공개해 생태계에 기여했습니다.

03

다수의 RAG · 온프레미스 프로젝트 수행

기업 환경에서 검색증강생성·사내 LLM 서빙 프로젝트를 다수 진행했습니다.

04

마이스터고등학교 언어모델 전문강사

AI·LLM·RAG·에이전트를 현장에서 가르쳐 온, 검증된 교수 역량을 갖췄습니다.

WHO IT'S FOR

이런 개발자에게 정확히 맞습니다

일반 사용자 대상의 AI 활용 교육이 아니라, SW 개발자를 위한 실습형 과정입니다.

  • ChatGPT API 호출을 넘어 직접 AI 서버를 구성해보고 싶은 개발자
  • 로컬 LLM은 띄워봤지만 서비스 구조로 연결한 경험이 부족한 분
  • AI 백엔드 개발자로 포트폴리오를 만들고 싶은 분
  • 온프레미스·사내망·보안형 AI 서비스에 관심 있는 분
  • ComfyUI를 개발자 관점에서 이해하고 싶은 분
  • AI 서비스 개발 흐름을 짧은 시간에 전체적으로 경험하고 싶은 분

알고 있으면 좋은 것

AI 바이브코딩터미널 명령어 기초REST API 기본 개념Git / GitHub 기본 사용Docker 경험 (있으면 도움)

딥러닝 모델을 직접 학습해 본 경험은 필요하지 않습니다.

이번 과정에서 다루지 않는 것

  • LLM 파인튜닝
  • 대규모 모델 학습
  • RAG 문서 챗봇 심화
  • 벡터DB 심화
  • 딥러닝 수학 이론

2일 집중 과정으로 서빙·연결 구조에 집중합니다. 위 주제는 후속 심화 과정에서 다룹니다.

PRICING

소수 정예, 선착순 마감입니다

정가 490,000원. 각 기수는 소수 정예 정원으로 운영되며, 정원이 마감되면 해당 기수 신청이 조기 종료됩니다.

기수당 소수 정예 정원선착순 마감
수강료오프라인 2일 · 총 12시간
490,000

각 기수는 소수 정예 정원으로 운영됩니다. 정원이 마감되면 해당 기수 신청이 조기 종료되니, 원하는 기수를 먼저 확보하세요.

수강 신청하기

신청 폼 작성 후 안내에 따라 계좌이체로 결제합니다

수강료에 포함된 것

  • 오프라인 2일 집중 실습 (총 12시간)
  • 실습용 GPU(Runpod) 제공 — 학습비 포함
  • 복습용 온라인 강의 보조 영상 제공
  • 실습 코드 · 예제 · 설정 가이드
  • 온프레미스 LLM 서빙 아키텍처 자료
  • 수료 후 후속 학습 로드맵 안내

기업 단체 신청 세금계산서·견적서 발행이 가능합니다. 신청 폼에 사업자 정보와 인원을 함께 적어주세요.

HOW TO APPLY

신청은 폼 작성, 결제는 계좌이체

복잡한 절차 없이 세 단계로 신청이 끝납니다. 결제 계좌 정보는 신청 폼 안에서 안내됩니다.

  1. 01

    수강 신청 폼 작성

    아래 버튼을 누르면 수강 신청 폼이 열립니다. 성함·연락처·희망 차수 등 안내에 따라 입력해 주세요.

  2. 02

    계좌이체로 결제

    신청 폼 안내에 적힌 계좌로 수강료를 입금합니다. 입금자명은 신청자 성함과 동일하게 적어주세요.

  3. 03

    신청 확정

    입금이 확인되면 수강이 확정되고, 준비 안내(설치 목록 등)를 메일로 보내드립니다.

  4. 수강 신청 폼 열기

입금 계좌

은행우리은행
계좌번호1005-003-414906
예금주한국인공지능아카데미

입금자명은 신청자 성함과 동일하게 기재해 주세요.

수강 유의사항

  • 본 과정은 오프라인 실습 중심으로 진행되며, 복습을 위한 온라인 강의 보조 영상이 별도로 제공됩니다.
  • 강의 현장의 녹화·녹음 및 화면 촬영은 정중히 제한됩니다.
  • 제공되는 강의 자료·예제 코드·보조 영상의 외부 공유 및 재배포를 금합니다.
  • 보조 영상은 수강생 본인에 한해 열람할 수 있으며, 계정·링크 공유는 허용되지 않습니다.

문의

기업 단체 신청·세금계산서 발행 등 궁금한 점은 이메일로 문의해 주세요.

FAQ

자주 묻는 질문

네. 수업에서는 실습용 GPU(Runpod)를 제공하며 비용은 학습비에 포함됩니다. 따라서 GPU가 없는 노트북이어도 vLLM·중형 모델을 포함한 GPU 실습을 동일하게 진행할 수 있습니다. 별도의 GPU 구매나 클라우드 결제는 필요하지 않습니다.

네, 실습형 과정이라 개인 노트북 지참을 권장합니다. 사전 준비 안내(설치 목록 등)는 신청 확정 후 메일로 보내드립니다.

Python 기본 문법, 터미널·REST API에 대한 기본 이해가 있으면 충분합니다. 딥러닝 모델을 직접 학습해 본 경험은 필요하지 않습니다.

가능합니다. 2인 이상 단체 신청과 세금계산서·견적서 발행을 지원합니다. 신청 메일에 사업자 정보와 인원을 함께 적어 보내주시면 안내해 드립니다.

이메일로 신청해 주시면 안내 메일과 함께 계좌 정보를 보내드리고, 계좌이체로 결제가 완료되면 수강이 확정됩니다.

과정 시작 7일 전까지는 전액 환불됩니다. 이후 일정에 따라 부분 환불이 적용되며, 자세한 규정은 신청 안내 메일에서 확인하실 수 있습니다.

AI를 쓰는 개발자에서, AI를 만드는 개발자로

이틀이면, 내 서버 위에서 작동하는 AI를 만들 수 있습니다

오프라인 2일 집중 · 총 12시간 · 소수 정예로 진행됩니다. 정원이 차면 마감되니, 원하는 차수를 먼저 확보하세요.

1기 2026년 7월 16일(목) – 17일(금)2기 2026년 7월 23일(목) – 24일(금)