Bezpečnost & legislativa21. dubna 2026|11 min

On-premise LLM modely: Jak provozovat AI bez internetu

Pro citlivá data, regulované sektory a paranoidní CIO existuje řešení — LLM model běžící na vlastní infrastruktuře. Llama 3.3, Mistral, Qwen v ČR. Hardware, software, ekonomika a kdy to dává smysl.

David Strejc

Apertia.ai

Sdílet:

V dubnu 2026 zvažuje on-premise LLM nasazení každý druhý český CIO ve velkých firmách a regulovaných sektorech. Důvody jsou jasné — citlivá data, NIS2, advokátní tajemství, bankovní compliance, obavy z US CLOUD Act. Současně technologie pokročila — open source modely jako Llama 3.3, Mistral Large 2 nebo Qwen 2.5 dosahují kvality srovnatelné s GPT-4o, ale můžete je provozovat ve vlastním datacentru.

Tento článek je technický a ekonomický průvodce on-premise LLM nasazením. Hardware, software, modely, ekonomika a kdy to dává a kdy nedává smysl. Pro CIO, IT lídry a CISO, kteří potřebují tvrdá čísla, ne marketing.

1. Proč on-premise LLM v 2026

Důvod 1: Compliance a regulace

GDPR čl. 9 — zvláštní kategorie dat (zdravotnictví, etnicita, biometrie)
Advokátní tajemství — zákon č. 85/1996 Sb., § 21
Bankovní tajemství — zákon č. 21/1992 Sb. + ČNB metodika
NIS2 — kritická infrastruktura, energetika, zdravotnictví
NÚKIB — ZoKB, vyhláška 82/2018 Sb.
EU AI Act — vysoce rizikové systémy s požadavkem na data sovereignty

Důvod 2: Datová suverenita

US CLOUD Act umožňuje americké vládě požadovat data od US providerů (i pokud jsou data fyzicky v EU). Pro některé firmy a vlády politicky neakceptovatelné.

Důvod 3: Ekonomika při velkém objemu

Při 5+ milionech tokenů denně se on-premise LLM stává levnější než API. ROI break-even typically při utilization 60–75 % GPU.

Důvod 4: Latence

API call OpenAI z Prahy → US/EU server: 80–250 ms. On-premise v stejném datacentru: 5–20 ms. Pro real-time use case (voice agents, IoT) kritické.

Důvod 5: Customization

Fine-tuning, LoRA adaptery, custom embeddings — flexibilní a bez vendor lock.

2. Open source LLM modely v 2026

Llama 3.3 (Meta)

Velikosti: 8B, 70B, 405B parametrů
Kvalita: 70B srovnatelný s GPT-4 Turbo, 405B s GPT-4o
Licence: Llama 3 Community License (komerční použití OK do 700M MAU)
Čeština: Slušná, lepší po fine-tune
Hardware pro 70B: 2× A100 80GB nebo 4× A6000 48GB

Mistral Large 2

Velikosti: 7B (open), 22B (open), Large 2 (123B, komerční licence)
Kvalita: Mistral Large 2 srovnatelný s Claude 3.5 Sonnet
Licence: Open source pro 7B/22B (Apache 2.0), komerční pro Large
Čeština: Velmi dobrá (evropský původ)

Qwen 2.5 (Alibaba)

Velikosti: 7B až 72B
Kvalita: 72B konkuruje GPT-4o
Licence: Apache 2.0 (plná svoboda)
Čeština: Dobrá, multilingual

DeepSeek V3

Velikost: 671B parametrů (MoE — Mixture of Experts)
Kvalita: Top tier, srovnatelný s Claude 3.5 Sonnet
Licence: Open source
Hardware: Enterprise level (8× H100)

Phi-4 (Microsoft)

Velikost: 14B parametrů
Kvalita: Excellent pro velikost ("small but mighty")
Licence: MIT
Hardware: 1× A6000 48GB stačí
Vhodné pro: Edge cases, on-device inference

3. Hardware pro on-premise LLM

Tier 1: Departmental (SMB, malé use case)

Model: Phi-4 14B nebo Llama 3.3 8B
Hardware: 1–2× NVIDIA A6000 48GB nebo RTX 6000 Ada
Throughput: 5–20 concurrent users
Cena hardware: 280 000 – 580 000 Kč

Tier 2: Enterprise (střední firma)

Model: Llama 3.3 70B nebo Mistral Large 2
Hardware: 2–4× NVIDIA A100 80GB nebo H100 80GB
Throughput: 50–200 concurrent users
Cena hardware: 2,2 – 5,8 mil. Kč

Tier 3: Heavy enterprise

Model: Llama 3.3 405B nebo DeepSeek V3
Hardware: 8× H100 80GB (DGX H100)
Throughput: 500+ concurrent users
Cena hardware: 8,5 – 14 mil. Kč

Czech datacentry

Pro firmy bez vlastního DC: T-Mobile, Master DC, Solitea, GTS Telkom, Casablanca v ČR nabízejí GPU collocation. Cena ~25 000 – 80 000 Kč/měs. za rack s GPU serverem.

4. Software stack

Inference engine

vLLM — high throughput, PagedAttention, recommended pro production
TGI (Text Generation Inference) — Hugging Face, dobré pro hosting
Ollama — easy deployment, dobré pro POC a malé use case
llama.cpp — CPU/Apple Silicon, edge cases

Orchestration a serving

Kubernetes + GPU operator pro scale
Ray Serve pro distributed inference
NVIDIA Triton Inference Server pro multi-model

RAG a embedding

Vector DB: Qdrant (open source), Weaviate, Milvus, pgvector (Postgres)
Embedding modely: BGE-M3, Snowflake Arctic Embed, Mistral Embed
Frameworks: LangChain, LlamaIndex, Haystack

Monitoring

Langfuse nebo LangSmith (proprietary) — LLM observability
Prometheus + Grafana — infrastructure
OpenTelemetry — distributed tracing

Security

Network: VLAN segmentace, no internet egress
Auth: SSO (SAML/OIDC), API gateways
Audit: Vector DB query logs, inference logs s redakcí PII

5. Ekonomika: On-premise vs cloud API

Modelová kalkulace pro Tier 2 (Llama 3.3 70B)

Položka	Cena
Hardware (4× A100 80GB server)	3,8 mil. Kč
Energie (4 kW × 24/7 × 4,2 Kč/kWh)	148 000 Kč/rok
DC space + cooling	240 000 Kč/rok
Personál (0,3 FTE pro Agent Ops)	540 000 Kč/rok
Software licence (vLLM open, monitoring)	120 000 Kč/rok
Roční TCO	1 048 000 Kč/rok + 760 000 Kč amortizace HW
Celkem rok 1	1 808 000 Kč

Chcete AI řešení na míru?

Pomoháme firmám automatizovat procesy pomocí AI. Napište nám a zjistěte, jak můžeme pomoci právě vám.

Odpověď do 24 hodin
Nezávazná konzultace
Řešení na míru vaší firmě

Srovnání s OpenAI GPT-4o API

Cena: $2.50/$10 per M tokens (input/output)
Při 5M tokens denně (50/50 split): cca 18 750 USD/měs. = 410 000 Kč/měs.
Roční náklad: 4,9 mil. Kč/rok
On-premise úspora: 3,1 mil. Kč/rok při Tier 2 nasazení

Break-even bod

Při daily token volume:

Pod 1M tokens/den: cloud API levnější
1–3M tokens/den: srovnatelné, závisí na use case
3M+ tokens/den: on-premise výhodnější
10M+ tokens/den: on-premise dramaticky výhodnější (faktor 5–10×)

6. Kdy on-premise dává smysl

Smysl ANO

Regulovaný sektor (banky, zdravotnictví, advokátní kanceláře, vláda)
Velký objem (>3M tokens/den)
Latence kritická (real-time voice, IoT)
Data sovereignty politicky důležitá
Custom fine-tuning a vlastní modely
Existující GPU infrastruktura

Smysl NE

Malý objem (<500k tokens/den)
Žádná interní IT/MLOps kapacita
Variabilní workload (kdy peak, kdy nic)
Use case vyžadující latest model (GPT-5, Claude Opus 5) — open source vždy 6–12 měsíců pozadu
Multimodal heavy (vision + audio + text) — open source ekosystém slabší

7. Hybrid přístup (recommended pro většinu)

Většina firem najde optimum v hybrid architecture:

On-premise (Llama 3.3 70B) — pro citlivá data (klientské spisy, zdravotnické záznamy, IP)
Azure OpenAI EU (GPT-4o) — pro běžné firemní use case
Cloud API (Claude, GPT-5) — pro experimenty a R&D

AI agent inteligentně routuje requesty podle citlivosti dat. Detail v článku o firemních datech a veřejných LLM.

8. Implementační plán

Fáze 1 (měsíc 1): Audit a strategie

Use case mapping, data classification, regulatory requirements, build vs buy decision.

Fáze 2 (měsíc 2–3): Hardware procurement a setup

Server purchase, DC installation, network setup, security hardening.

Fáze 3 (měsíc 3–4): Software deployment

Inference engine, model deployment, RAG infrastructure, monitoring.

Fáze 4 (měsíc 4–6): Pilot

1–2 use case na dedicated subset uživatelů. Performance tuning.

Fáze 5 (měsíc 6+): Production

Full rollout, Agent Ops, fine-tuning, expansion.

9. Compliance a audit

NIS2 (Network and Information Security Directive)

Pro kritická odvětví (energetika, doprava, zdravotnictví) on-premise LLM splňuje požadavky data sovereignty. Implementace: ISMS podle ISO 27001 + EU AI Act vrstva.

NÚKIB metodika

NÚKIB v 2025 vydal metodický pokyn pro AI v kritické infrastruktuře. On-premise nasazení doporučeno pro level 3+ klasifikované systémy.

EU AI Act

On-premise neuvolňuje AI Act compliance. Transparentnost, lidský dohled, dokumentace stále nutné. Detail v EU AI Act průvodci.

10. Časté chyby

Underestimace hardware nákladů — GPU servery jsou drahé, energie taky
Bez Agent Ops — kdo bude updatovat modely, ladit prompts, řešit incidenty?
Špatný model pro use case — Llama 405B pro chatbota, který by zvládl Phi-4
Žádný hybrid plan — pure on-premise je často overkill
Skipping security review — on-premise neznamená automaticky bezpečné

11. Future outlook

Open source modely se přibližují closed source kvalitě (gap se zmenšuje)
GPU ceny postupně klesají (NVIDIA Blackwell B100, AMD MI350)
Enterprise NPU (Intel Gaudi 3, AWS Trainium) zlevňují inference
EU má vlastní iniciativu pro AI sovereignty (EuroLLM, OpenEuroLLM)

Závěr: On-premise LLM je dospělé řešení

V roce 2026 je on-premise LLM realistická volba pro střední a velké české firmy s citlivými daty. Open source modely (Llama 3.3, Mistral, Qwen) dosahují produktivní kvality, hardware je dostupný, ekonomika se vyplatí při větším objemu. Klíčem je správná velikost (Tier 1/2/3), hybrid architektura a Agent Ops.

Pokud uvažujete o on-premise LLM nasazení, hybrid AI architektuře nebo custom AI agentovi na míru, napište nám. Připravíme audit zdarma s doporučením modelu, hardware a architektury podle vašeho use case. Pro automotive on-premise scénáře doporučujeme i AutoERP se specializovanými řešeními.

Často kladené otázky (FAQ)

Kolik stojí on-premise LLM pro českou firmu?

Departmental tier (Phi-4 14B, 1–2 GPU): 280 000 – 580 000 Kč hardware + 250 000 Kč/rok provoz. Enterprise tier (Llama 3.3 70B, 4 GPU): 2,2–5,8 mil. Kč hardware + 1 mil. Kč/rok provoz. Heavy enterprise (Llama 405B, 8× H100): 8,5–14 mil. Kč hardware. Break-even s cloud API typicky při 3M+ tokens denně.

Je on-premise LLM tak dobrý jako GPT-4o nebo Claude?

V 2026 ano — top open source modely (Llama 3.3 405B, DeepSeek V3, Qwen 2.5 72B) dosahují produktivní kvality srovnatelné s GPT-4 Turbo nebo Claude 3.5 Sonnet. Pro nejnovější závody (GPT-5, Claude Opus 5) jsou open source modely 6–12 měsíců pozadu. Pro standardní enterprise use case (chatbot, RAG, summarization, klasifikace) je open source plně dostatečný.

Splňuje on-premise LLM požadavky NIS2 a NÚKIB?

Ano, on-premise nasazení s vlastním datacentrem nebo certifikovaným EU collocation splňuje data sovereignty požadavky NIS2 a NÚKIB metodiky pro kritickou infrastrukturu. Důležitá je integrace s ISMS podle ISO 27001, security hardening, audit logging a dokumentace podle EU AI Act. On-premise sám o sobě compliance nezaručí — vyžaduje komplexní bezpečnostní design.

Související články

Bezpečnost & legislativa21. dubna 2026

AML compliance a AI: Budoucnost pro banky a fintech

Bezpečnost & legislativa21. dubna 2026

Právní AI: Může robot nahradit advokáta?

Bezpečnost & legislativa20. dubna 2026

EU AI Act v praxi: Co znamená nová legislativa pro české firmy

Připraveni začít?

Zaujal vás tento článek?

Pojďme společně prozkoumat, jak AI může transformovat vaše podnikání.

Kontaktujte nás