On-premise LLM modely: Jak provozovat AI bez internetu
Pro citlivá data, regulované sektory a paranoidní CIO existuje řešení — LLM model běžící na vlastní infrastruktuře. Llama 3.3, Mistral, Qwen v ČR. Hardware, software, ekonomika a kdy to dává smysl.
D
David Strejc
Apertia.ai
Sdílet:
V dubnu 2026 zvažuje on-premise LLM nasazení každý druhý český CIO ve velkých firmách a regulovaných sektorech. Důvody jsou jasné — citlivá data, NIS2, advokátní tajemství, bankovní compliance, obavy z US CLOUD Act. Současně technologie pokročila — open source modely jako Llama 3.3, Mistral Large 2 nebo Qwen 2.5 dosahují kvality srovnatelné s GPT-4o, ale můžete je provozovat ve vlastním datacentru.
Tento článek je technický a ekonomický průvodce on-premise LLM nasazením. Hardware, software, modely, ekonomika a kdy to dává a kdy nedává smysl. Pro CIO, IT lídry a CISO, kteří potřebují tvrdá čísla, ne marketing.
1. Proč on-premise LLM v 2026
Důvod 1: Compliance a regulace
GDPR čl. 9 — zvláštní kategorie dat (zdravotnictví, etnicita, biometrie)
Advokátní tajemství — zákon č. 85/1996 Sb., § 21
Bankovní tajemství — zákon č. 21/1992 Sb. + ČNB metodika
EU AI Act — vysoce rizikové systémy s požadavkem na data sovereignty
Důvod 2: Datová suverenita
US CLOUD Act umožňuje americké vládě požadovat data od US providerů (i pokud jsou data fyzicky v EU). Pro některé firmy a vlády politicky neakceptovatelné.
Důvod 3: Ekonomika při velkém objemu
Při 5+ milionech tokenů denně se on-premise LLM stává levnější než API. ROI break-even typically při utilization 60–75 % GPU.
Důvod 4: Latence
API call OpenAI z Prahy → US/EU server: 80–250 ms. On-premise v stejném datacentru: 5–20 ms. Pro real-time use case (voice agents, IoT) kritické.
Důvod 5: Customization
Fine-tuning, LoRA adaptery, custom embeddings — flexibilní a bez vendor lock.
2. Open source LLM modely v 2026
Llama 3.3 (Meta)
Velikosti: 8B, 70B, 405B parametrů
Kvalita: 70B srovnatelný s GPT-4 Turbo, 405B s GPT-4o
Licence: Llama 3 Community License (komerční použití OK do 700M MAU)
Čeština: Slušná, lepší po fine-tune
Hardware pro 70B: 2× A100 80GB nebo 4× A6000 48GB
Mistral Large 2
Velikosti: 7B (open), 22B (open), Large 2 (123B, komerční licence)
Kvalita: Mistral Large 2 srovnatelný s Claude 3.5 Sonnet
Licence: Open source pro 7B/22B (Apache 2.0), komerční pro Large
Čeština: Velmi dobrá (evropský původ)
Qwen 2.5 (Alibaba)
Velikosti: 7B až 72B
Kvalita: 72B konkuruje GPT-4o
Licence: Apache 2.0 (plná svoboda)
Čeština: Dobrá, multilingual
DeepSeek V3
Velikost: 671B parametrů (MoE — Mixture of Experts)
Kvalita: Top tier, srovnatelný s Claude 3.5 Sonnet
Licence: Open source
Hardware: Enterprise level (8× H100)
Phi-4 (Microsoft)
Velikost: 14B parametrů
Kvalita: Excellent pro velikost ("small but mighty")
Licence: MIT
Hardware: 1× A6000 48GB stačí
Vhodné pro: Edge cases, on-device inference
3. Hardware pro on-premise LLM
Tier 1: Departmental (SMB, malé use case)
Model: Phi-4 14B nebo Llama 3.3 8B
Hardware: 1–2× NVIDIA A6000 48GB nebo RTX 6000 Ada
Throughput: 5–20 concurrent users
Cena hardware: 280 000 – 580 000 Kč
Tier 2: Enterprise (střední firma)
Model: Llama 3.3 70B nebo Mistral Large 2
Hardware: 2–4× NVIDIA A100 80GB nebo H100 80GB
Throughput: 50–200 concurrent users
Cena hardware: 2,2 – 5,8 mil. Kč
Tier 3: Heavy enterprise
Model: Llama 3.3 405B nebo DeepSeek V3
Hardware: 8× H100 80GB (DGX H100)
Throughput: 500+ concurrent users
Cena hardware: 8,5 – 14 mil. Kč
Czech datacentry
Pro firmy bez vlastního DC: T-Mobile, Master DC, Solitea, GTS Telkom, Casablanca v ČR nabízejí GPU collocation. Cena ~25 000 – 80 000 Kč/měs. za rack s GPU serverem.
4. Software stack
Inference engine
vLLM — high throughput, PagedAttention, recommended pro production
TGI (Text Generation Inference) — Hugging Face, dobré pro hosting
Ollama — easy deployment, dobré pro POC a malé use case
Use case mapping, data classification, regulatory requirements, build vs buy decision.
Fáze 2 (měsíc 2–3): Hardware procurement a setup
Server purchase, DC installation, network setup, security hardening.
Fáze 3 (měsíc 3–4): Software deployment
Inference engine, model deployment, RAG infrastructure, monitoring.
Fáze 4 (měsíc 4–6): Pilot
1–2 use case na dedicated subset uživatelů. Performance tuning.
Fáze 5 (měsíc 6+): Production
Full rollout, Agent Ops, fine-tuning, expansion.
9. Compliance a audit
NIS2 (Network and Information Security Directive)
Pro kritická odvětví (energetika, doprava, zdravotnictví) on-premise LLM splňuje požadavky data sovereignty. Implementace: ISMS podle ISO 27001 + EU AI Act vrstva.
NÚKIB metodika
NÚKIB v 2025 vydal metodický pokyn pro AI v kritické infrastruktuře. On-premise nasazení doporučeno pro level 3+ klasifikované systémy.
EU má vlastní iniciativu pro AI sovereignty (EuroLLM, OpenEuroLLM)
Závěr: On-premise LLM je dospělé řešení
V roce 2026 je on-premise LLM realistická volba pro střední a velké české firmy s citlivými daty. Open source modely (Llama 3.3, Mistral, Qwen) dosahují produktivní kvality, hardware je dostupný, ekonomika se vyplatí při větším objemu. Klíčem je správná velikost (Tier 1/2/3), hybrid architektura a Agent Ops.
Pokud uvažujete o on-premise LLM nasazení, hybrid AI architektuře nebo custom AI agentovi na míru, napište nám. Připravíme audit zdarma s doporučením modelu, hardware a architektury podle vašeho use case. Pro automotive on-premise scénáře doporučujeme i AutoERP se specializovanými řešeními.
Často kladené otázky (FAQ)
Kolik stojí on-premise LLM pro českou firmu?
Departmental tier (Phi-4 14B, 1–2 GPU): 280 000 – 580 000 Kč hardware + 250 000 Kč/rok provoz. Enterprise tier (Llama 3.3 70B, 4 GPU): 2,2–5,8 mil. Kč hardware + 1 mil. Kč/rok provoz. Heavy enterprise (Llama 405B, 8× H100): 8,5–14 mil. Kč hardware. Break-even s cloud API typicky při 3M+ tokens denně.
Je on-premise LLM tak dobrý jako GPT-4o nebo Claude?
V 2026 ano — top open source modely (Llama 3.3 405B, DeepSeek V3, Qwen 2.5 72B) dosahují produktivní kvality srovnatelné s GPT-4 Turbo nebo Claude 3.5 Sonnet. Pro nejnovější závody (GPT-5, Claude Opus 5) jsou open source modely 6–12 měsíců pozadu. Pro standardní enterprise use case (chatbot, RAG, summarization, klasifikace) je open source plně dostatečný.
Splňuje on-premise LLM požadavky NIS2 a NÚKIB?
Ano, on-premise nasazení s vlastním datacentrem nebo certifikovaným EU collocation splňuje data sovereignty požadavky NIS2 a NÚKIB metodiky pro kritickou infrastrukturu. Důležitá je integrace s ISMS podle ISO 27001, security hardening, audit logging a dokumentace podle EU AI Act. On-premise sám o sobě compliance nezaručí — vyžaduje komplexní bezpečnostní design.