Lukas Hruby - CTO & AI Poradce | AI architektura do produkce

Pomáhám když

Problémy, které řeším nejlépe — protože jsem je řešil dříve, ve velkém měřítku.

Potřebujete AI/LLM integrovat do existujících systémů — auth, data pipeline, API, procesy. Navrhuji architekturu, která funguje s tím, co už máte.
Chcete AI, která je spolehlivá — evaluace, monitoring, fallback, bezpečnostní guardrails. Ne jen demo, ale produkční systém s měřitelnými výsledky.
Řešíte škálování a cost/performance trade-offs — GPU, latence, throughput. Optimalizoval jsem infrastrukturu na 10M+ denních requestů s 90% úsporou nákladů.
Potřebujete architekturu a technické vedení — decision log, RFC, standardy, code review. Vedl jsem tým od 0 do 20 inženýrů.
Máte výzvy v computer vision / real-time inference — zpracovával jsem 1000+ kamerových streamů s latencí pod sekundu a 99%+ přesností ve 102 zemích.

Vybrané výsledky

Postavil produkční ML systém zpracovávající real-time video z 1000+ kamer s latencí pod sekundu a 99%+ přesností — používáno ve 102 zemích, snížení manuálního monitoringu o 80%
Navrhl referenční architekturu pro AI produkty — data pipeline → model serving → observability → governance. Systémy, které běží spolehlivě v produkci, ne jen v notebooku.
Zavedl standardy pro evaluaci modelů — offline eval + online metriky + regresní testy. Měřitelná kvalita místo „zdá se, že to funguje".
Škáloval cloud infrastrukturu na 10M+ denních API requestů s 99.9% uptime — 90% úspora nákladů optimalizací GPU workloadů a architektury
Vedl růst engineering týmu z 0 na 20 inženýrů (zrychlil delivery 3x, zavedl hiring systém, cross-funkční procesy)
Zavedl MLOps praktiky umožňující kontinuální deployment (snížil time-to-production z týdnů na dny, 50% rychlejší iterace)

Co říkají klienti

Jejich software je lepší než cokoli, co je teď na trhu.
— Enterprise klient, dopravní sektor

S čím pomůžu

AI/LLM Discovery + Architecture Review

2–3 týdny

Výstupy: Prioritizace use-casů, návrh cílové architektury, risk & governance checklist, plán měření dopadu

LLM Pilot do produkce

4–8 týdnů

Výstupy: MVP s metrikami (accuracy/latency/cost), evaluační pipeline, monitoring, bezpečnostní guardrails

Fractional CTO / AI Architecture Advisory

Průběžně (měsíčně)

Výstupy: Architektonická rozhodnutí, review návrhů, hiring/interview loop pro AI role, standardy pro LLM vývoj

Transparentnost: Jsem spoluzakladatel/ex-CTO GoodVision, takže vždy odhalím případný konflikt zájmů a navrhnu alternativy, když je to vhodné. Pokud je existující produkt lepší volbou než vlastní vývoj, řeknu to otevřeně.

Nevíte, co se hodí? Domluvte si bezplatný 30min hovor a společně to vyřešíme.

AI asistenti v praxi

Asistent pro nové poptávky v advokátní kanceláři

Kontext: Právní kancelář, příchozí poptávky z různých kanálů — často neúplné, vyhodnocení zabírá seniorním lidem čas.

Problém: Špatně položené otázky nebo necitlivá komunikace odrazuje klienty. Chybí klíčové informace pro první vyhodnocení.

Co jsme dodali: Asistent, který rozpozná typ případu, doptá se na chybějící informace (strukturovaně, ale lidsky) a připraví shrnutí a podklady pro právníka. Jasně nastavené hranice — asistent nedává právní radu, jen sbírá informace.

Výsledek: Úspora času při vyhodnocování nových klientů až o 80%. Konzistentnější vstupní informace, méně ping-pongu, lepší klientský dojem.

Bezpečnost: Minimalizace citlivých údajů, audit log, role-based přístup, eskalace na člověka při nejistotě

Srovnávač dodavatelů s asistovaným procesem přes SMS a WhatsApp

Kontext: B2B2C model v komoditách — mnoho dodavatelů, mnoho zákazníků, mnoho kroků. Uživatelé nechtějí onboarding do dalšího nástroje.

Problém: Chaos v koordinaci, nejednotná data od dodavatelů, zdržení v komunikaci.

Co jsme dodali: Konverzační koordinátor přes SMS/WhatsApp — sbírá vstupy od spotřebitele, rozesílá poptávky dodavatelům, hlídá kroky procesu, normalizuje odpovědi do srovnatelné podoby. Lidský zásah jen tam, kde je potřeba.

Výsledek: Výrazně rychlejší průchod od poptávky k výběru dodavatele. Méně ruční koordinace, vyšší konverze díky vedení přes známé kanály.

Bezpečnost: Validace vstupů, jasná pravidla co se posílá zákazníkovi vs. dodavateli, auditovatelnost komunikace

Poradní vrstva pro srovnávač zaměstnaneckých benefitů

Kontext: Srovnávač benefitů — uživatel má spoustu preferencí, ale neumí je převést do rozhodnutí. Tabulka dat nestačí.

Problém: Uživatel vidí data, ale neví „co z toho plyne". Chybí personalizovaný pohled na situaci.

Co jsme dodali: Poradní komponenta, která z uživatelských vstupů vytvoří srozumitelný pohled na situaci a navrhne témata k zvážení. Doporučení formulovaná jako „doporučené oblasti", ne tvrdé rady. Transparentní vysvětlení „proč to doporučujeme".

Výsledek: Vyšší srozumitelnost a jistota uživatelů. Lepší engagement — víc dokončených porovnání a vyšší konverze.

Kvalita: Průběžné ladění na reálných datech a feedbacku, transparentní reasoning

Případové studie

Real-time Computer Vision pro CCTV (102 zemí)

Kontext: GoodVision potřeboval real-time analýzu videa na více lokalitách, obsluhoval zákazníky ve 102 zemích.

Problém: Zpracování 1000+ kamerových streamů s latencí pod sekundu, škálování pro zvládnutí špiček, udržení 99.9% uptime.

Co jsem udělal: Navrhl edge processing architekturu běžící na NVIDIA Jetsons, postavil model serving infrastrukturu dosahující 99%+ přesnosti detekce, implementoval MLOps pipeline pro kontinuální deployment, optimalizoval pro GPU ekonomiku a edge deployment.

Výsledek: 99%+ přesnost při latenci pod sekundu, 10M+ denních requestů zpracováno spolehlivě, náklady na stream sníženy o 40%.

Stack: AWS, AWS IoT, Docker, NVIDIA Jetson, Jetpack, PyTorch, TensorRT

Cost & performance architektura pro GPU workloady

Kontext: ML workload vyžadující významný GPU výpočet s omezeními nákladů a latence.

Problém: Vyvážení GPU nákladů, požadavků na latenci a škálovatelnosti pro proměnlivé workloady.

Co jsem udělal: Navrhl hybridní cloud řešení (on-demand + spot instance), implementoval auto-scaling, optimalizoval model inference, zavedl cost monitoring a alerting.

Výsledek: 90% snížení nákladů při zachování SLA latence, automatické škálování zvládlo 10x špičky trafficu.

Stack: AWS EC2, ECS, CloudWatch, vlastní cost optimalizace

Škálování engineering týmu (0 → 20)

Kontext: Potřeba škálovat engineering z founding týmu pro podporu růstu ve 102 zemích.

Problém: Nábor kvalitních inženýrů, zavedení technické kultury, budování procesů pro distribuovaný tým, udržení rychlosti delivery.

Co jsem udělal: Postavil hiring proces a technické pohovory, zavedl architektonické principy, implementoval CI/CD a code review praktiky, vytvořil onboarding systém, nastavil cross-funkční spolupráci.

Výsledek: Tým vyrostl z 0 na 20 inženýrů napříč časovými pásmy, delivery velocity vzrostla 3x, technický dluh spravován systematicky.

Stack: Hiring procesy, technická kultura, architektonická governance, CI/CD, cross-funkční procesy

O mně

15+ let v technologiích. 8.5 let jako CTO & spoluzakladatel GoodVision. Speaker na Stockholm Smart City Expo. MSc z Českého vysokého učení technického, Univerzity Karlovy, JKU Linz a ENSTA ParisTech.

AI & LLM do produkce

Od identifikace use-casů po nasazení: architektura, evaluace, monitoring, guardrails. Ne jen PoC, ale systémy, které fungují v provozu.

Software architektura & škálování

Návrh komponent, API kontraktů, observability. Infrastruktura zvládající 10M+ denních requestů s 90% úsporou nákladů.

Computer Vision & Real-time

Produkční systémy zpracovávající real-time video z 1000+ kamer s latencí pod sekundu a 99%+ přesností ve 102 zemích.

Kdy hledat jinde

Potřebujete full-time full-stack implementátora — moje největší hodnota je směr, architektura a výsledky. Mohu vést, ale budete potřebovat inženýry na stavbu.
Úspěch vyžaduje psaní většiny kódu — povedu strategii a architekturu, ale měli bychom zapojit dev tým nebo agenturu na implementaci.
Potřebujete hlubokou znalost konkrétního frameworku — nejsem specialista na frameworky, ale umím rychle vyhodnotit a zvolit správný přístup pro váš problém.

Nejvíc hodnoty dodám tam, kde je potřeba sladit business, produkt a architekturu. Stále si nejste jisti? Domluvte si bezplatný 30min hovor — bez závazků, zjistíme, jestli to sedí.

Pojďme se bavit

Ať už řešíte integraci AI/LLM, architekturu pro produkci, nebo potřebujete fractional CTO — začněme konverzací.

Domluvit hovor Napsat email

Obvykle odpovídám do 24 hodin.

LinkedIn GitHub