Přeskočit na hlavní obsahPřeskočit na hlavní obsah
Apertia.ai
On-premise LLM modely: Jak provozovat AI bez internetu
Bezpečnost & legislativa21. dubna 2026|11 min

On-premise LLM modely: Jak provozovat AI bez internetu

Pro citlivá data, regulované sektory a paranoidní CIO existuje řešení — LLM model běžící na vlastní infrastruktuře. Llama 3.3, Mistral, Qwen v ČR. Hardware, software, ekonomika a kdy to dává smysl.

D
David Strejc
Apertia.ai
Sdílet:
On-premise LLM modely v české firmě

V dubnu 2026 zvažuje on-premise LLM nasazení každý druhý český CIO ve velkých firmách a regulovaných sektorech. Důvody jsou jasné — citlivá data, NIS2, advokátní tajemství, bankovní compliance, obavy z US CLOUD Act. Současně technologie pokročila — open source modely jako Llama 3.3, Mistral Large 2 nebo Qwen 2.5 dosahují kvality srovnatelné s GPT-4o, ale můžete je provozovat ve vlastním datacentru.

Tento článek je technický a ekonomický průvodce on-premise LLM nasazením. Hardware, software, modely, ekonomika a kdy to dává a kdy nedává smysl. Pro CIO, IT lídry a CISO, kteří potřebují tvrdá čísla, ne marketing.

1. Proč on-premise LLM v 2026

Důvod 1: Compliance a regulace

  • GDPR čl. 9 — zvláštní kategorie dat (zdravotnictví, etnicita, biometrie)
  • Advokátní tajemství — zákon č. 85/1996 Sb., § 21
  • Bankovní tajemství — zákon č. 21/1992 Sb. + ČNB metodika
  • NIS2 — kritická infrastruktura, energetika, zdravotnictví
  • NÚKIB — ZoKB, vyhláška 82/2018 Sb.
  • EU AI Act — vysoce rizikové systémy s požadavkem na data sovereignty

Důvod 2: Datová suverenita

US CLOUD Act umožňuje americké vládě požadovat data od US providerů (i pokud jsou data fyzicky v EU). Pro některé firmy a vlády politicky neakceptovatelné.

Důvod 3: Ekonomika při velkém objemu

Při 5+ milionech tokenů denně se on-premise LLM stává levnější než API. ROI break-even typically při utilization 60–75 % GPU.

Důvod 4: Latence

API call OpenAI z Prahy → US/EU server: 80–250 ms. On-premise v stejném datacentru: 5–20 ms. Pro real-time use case (voice agents, IoT) kritické.

Důvod 5: Customization

Fine-tuning, LoRA adaptery, custom embeddings — flexibilní a bez vendor lock.

2. Open source LLM modely v 2026

Llama 3.3 (Meta)

  • Velikosti: 8B, 70B, 405B parametrů
  • Kvalita: 70B srovnatelný s GPT-4 Turbo, 405B s GPT-4o
  • Licence: Llama 3 Community License (komerční použití OK do 700M MAU)
  • Čeština: Slušná, lepší po fine-tune
  • Hardware pro 70B: 2× A100 80GB nebo 4× A6000 48GB

Mistral Large 2

  • Velikosti: 7B (open), 22B (open), Large 2 (123B, komerční licence)
  • Kvalita: Mistral Large 2 srovnatelný s Claude 3.5 Sonnet
  • Licence: Open source pro 7B/22B (Apache 2.0), komerční pro Large
  • Čeština: Velmi dobrá (evropský původ)

Qwen 2.5 (Alibaba)

  • Velikosti: 7B až 72B
  • Kvalita: 72B konkuruje GPT-4o
  • Licence: Apache 2.0 (plná svoboda)
  • Čeština: Dobrá, multilingual

DeepSeek V3

  • Velikost: 671B parametrů (MoE — Mixture of Experts)
  • Kvalita: Top tier, srovnatelný s Claude 3.5 Sonnet
  • Licence: Open source
  • Hardware: Enterprise level (8× H100)

Phi-4 (Microsoft)

  • Velikost: 14B parametrů
  • Kvalita: Excellent pro velikost ("small but mighty")
  • Licence: MIT
  • Hardware: 1× A6000 48GB stačí
  • Vhodné pro: Edge cases, on-device inference

3. Hardware pro on-premise LLM

Tier 1: Departmental (SMB, malé use case)

  • Model: Phi-4 14B nebo Llama 3.3 8B
  • Hardware: 1–2× NVIDIA A6000 48GB nebo RTX 6000 Ada
  • Throughput: 5–20 concurrent users
  • Cena hardware: 280 000 – 580 000 Kč

Tier 2: Enterprise (střední firma)

  • Model: Llama 3.3 70B nebo Mistral Large 2
  • Hardware: 2–4× NVIDIA A100 80GB nebo H100 80GB
  • Throughput: 50–200 concurrent users
  • Cena hardware: 2,2 – 5,8 mil. Kč

Tier 3: Heavy enterprise

  • Model: Llama 3.3 405B nebo DeepSeek V3
  • Hardware: 8× H100 80GB (DGX H100)
  • Throughput: 500+ concurrent users
  • Cena hardware: 8,5 – 14 mil. Kč

Czech datacentry

Pro firmy bez vlastního DC: T-Mobile, Master DC, Solitea, GTS Telkom, Casablanca v ČR nabízejí GPU collocation. Cena ~25 000 – 80 000 Kč/měs. za rack s GPU serverem.

4. Software stack

Inference engine

  • vLLM — high throughput, PagedAttention, recommended pro production
  • TGI (Text Generation Inference) — Hugging Face, dobré pro hosting
  • Ollama — easy deployment, dobré pro POC a malé use case
  • llama.cpp — CPU/Apple Silicon, edge cases

Orchestration a serving

  • Kubernetes + GPU operator pro scale
  • Ray Serve pro distributed inference
  • NVIDIA Triton Inference Server pro multi-model

RAG a embedding

  • Vector DB: Qdrant (open source), Weaviate, Milvus, pgvector (Postgres)
  • Embedding modely: BGE-M3, Snowflake Arctic Embed, Mistral Embed
  • Frameworks: LangChain, LlamaIndex, Haystack

Monitoring

  • Langfuse nebo LangSmith (proprietary) — LLM observability
  • Prometheus + Grafana — infrastructure
  • OpenTelemetry — distributed tracing

Security

  • Network: VLAN segmentace, no internet egress
  • Auth: SSO (SAML/OIDC), API gateways
  • Audit: Vector DB query logs, inference logs s redakcí PII

5. Ekonomika: On-premise vs cloud API

Modelová kalkulace pro Tier 2 (Llama 3.3 70B)

PoložkaCena
Hardware (4× A100 80GB server)3,8 mil. Kč
Energie (4 kW × 24/7 × 4,2 Kč/kWh)148 000 Kč/rok
DC space + cooling240 000 Kč/rok
Personál (0,3 FTE pro Agent Ops)540 000 Kč/rok
Software licence (vLLM open, monitoring)120 000 Kč/rok
Roční TCO1 048 000 Kč/rok + 760 000 Kč amortizace HW
Celkem rok 11 808 000 Kč

Chcete AI řešení na míru?

Pomoháme firmám automatizovat procesy pomocí AI. Napište nám a zjistěte, jak můžeme pomoci právě vám.

  • Odpověď do 24 hodin
  • Nezávazná konzultace
  • Řešení na míru vaší firmě
Více kontaktů

Srovnání s OpenAI GPT-4o API

  • Cena: $2.50/$10 per M tokens (input/output)
  • Při 5M tokens denně (50/50 split): cca 18 750 USD/měs. = 410 000 Kč/měs.
  • Roční náklad: 4,9 mil. Kč/rok
  • On-premise úspora: 3,1 mil. Kč/rok při Tier 2 nasazení

Break-even bod

Při daily token volume:

  • Pod 1M tokens/den: cloud API levnější
  • 1–3M tokens/den: srovnatelné, závisí na use case
  • 3M+ tokens/den: on-premise výhodnější
  • 10M+ tokens/den: on-premise dramaticky výhodnější (faktor 5–10×)

6. Kdy on-premise dává smysl

Smysl ANO

  • Regulovaný sektor (banky, zdravotnictví, advokátní kanceláře, vláda)
  • Velký objem (>3M tokens/den)
  • Latence kritická (real-time voice, IoT)
  • Data sovereignty politicky důležitá
  • Custom fine-tuning a vlastní modely
  • Existující GPU infrastruktura

Smysl NE

  • Malý objem (<500k tokens/den)
  • Žádná interní IT/MLOps kapacita
  • Variabilní workload (kdy peak, kdy nic)
  • Use case vyžadující latest model (GPT-5, Claude Opus 5) — open source vždy 6–12 měsíců pozadu
  • Multimodal heavy (vision + audio + text) — open source ekosystém slabší

7. Hybrid přístup (recommended pro většinu)

Většina firem najde optimum v hybrid architecture:

  • On-premise (Llama 3.3 70B) — pro citlivá data (klientské spisy, zdravotnické záznamy, IP)
  • Azure OpenAI EU (GPT-4o) — pro běžné firemní use case
  • Cloud API (Claude, GPT-5) — pro experimenty a R&D

AI agent inteligentně routuje requesty podle citlivosti dat. Detail v článku o firemních datech a veřejných LLM.

8. Implementační plán

Fáze 1 (měsíc 1): Audit a strategie

Use case mapping, data classification, regulatory requirements, build vs buy decision.

Fáze 2 (měsíc 2–3): Hardware procurement a setup

Server purchase, DC installation, network setup, security hardening.

Fáze 3 (měsíc 3–4): Software deployment

Inference engine, model deployment, RAG infrastructure, monitoring.

Fáze 4 (měsíc 4–6): Pilot

1–2 use case na dedicated subset uživatelů. Performance tuning.

Fáze 5 (měsíc 6+): Production

Full rollout, Agent Ops, fine-tuning, expansion.

9. Compliance a audit

NIS2 (Network and Information Security Directive)

Pro kritická odvětví (energetika, doprava, zdravotnictví) on-premise LLM splňuje požadavky data sovereignty. Implementace: ISMS podle ISO 27001 + EU AI Act vrstva.

NÚKIB metodika

NÚKIB v 2025 vydal metodický pokyn pro AI v kritické infrastruktuře. On-premise nasazení doporučeno pro level 3+ klasifikované systémy.

EU AI Act

On-premise neuvolňuje AI Act compliance. Transparentnost, lidský dohled, dokumentace stále nutné. Detail v EU AI Act průvodci.

10. Časté chyby

  • Underestimace hardware nákladů — GPU servery jsou drahé, energie taky
  • Bez Agent Ops — kdo bude updatovat modely, ladit prompts, řešit incidenty?
  • Špatný model pro use case — Llama 405B pro chatbota, který by zvládl Phi-4
  • Žádný hybrid plan — pure on-premise je často overkill
  • Skipping security review — on-premise neznamená automaticky bezpečné

11. Future outlook

  • Open source modely se přibližují closed source kvalitě (gap se zmenšuje)
  • GPU ceny postupně klesají (NVIDIA Blackwell B100, AMD MI350)
  • Enterprise NPU (Intel Gaudi 3, AWS Trainium) zlevňují inference
  • EU má vlastní iniciativu pro AI sovereignty (EuroLLM, OpenEuroLLM)

Závěr: On-premise LLM je dospělé řešení

V roce 2026 je on-premise LLM realistická volba pro střední a velké české firmy s citlivými daty. Open source modely (Llama 3.3, Mistral, Qwen) dosahují produktivní kvality, hardware je dostupný, ekonomika se vyplatí při větším objemu. Klíčem je správná velikost (Tier 1/2/3), hybrid architektura a Agent Ops.

Pokud uvažujete o on-premise LLM nasazení, hybrid AI architektuře nebo custom AI agentovi na míru, napište nám. Připravíme audit zdarma s doporučením modelu, hardware a architektury podle vašeho use case. Pro automotive on-premise scénáře doporučujeme i AutoERP se specializovanými řešeními.

Často kladené otázky (FAQ)

Kolik stojí on-premise LLM pro českou firmu?

Departmental tier (Phi-4 14B, 1–2 GPU): 280 000 – 580 000 Kč hardware + 250 000 Kč/rok provoz. Enterprise tier (Llama 3.3 70B, 4 GPU): 2,2–5,8 mil. Kč hardware + 1 mil. Kč/rok provoz. Heavy enterprise (Llama 405B, 8× H100): 8,5–14 mil. Kč hardware. Break-even s cloud API typicky při 3M+ tokens denně.

Je on-premise LLM tak dobrý jako GPT-4o nebo Claude?

V 2026 ano — top open source modely (Llama 3.3 405B, DeepSeek V3, Qwen 2.5 72B) dosahují produktivní kvality srovnatelné s GPT-4 Turbo nebo Claude 3.5 Sonnet. Pro nejnovější závody (GPT-5, Claude Opus 5) jsou open source modely 6–12 měsíců pozadu. Pro standardní enterprise use case (chatbot, RAG, summarization, klasifikace) je open source plně dostatečný.

Splňuje on-premise LLM požadavky NIS2 a NÚKIB?

Ano, on-premise nasazení s vlastním datacentrem nebo certifikovaným EU collocation splňuje data sovereignty požadavky NIS2 a NÚKIB metodiky pro kritickou infrastrukturu. Důležitá je integrace s ISMS podle ISO 27001, security hardening, audit logging a dokumentace podle EU AI Act. On-premise sám o sobě compliance nezaručí — vyžaduje komplexní bezpečnostní design.

Připraveni začít?

Zaujal vás tento článek?

Pojďme společně prozkoumat, jak AI může transformovat vaše podnikání.

Kontaktujte nás