Self-Hosted LLM Stack: Production-Ready AI ohne Vendor Lock-in Während Cloud-basierte LLM-Services praktisch sind, bringen sie erhebliche Herausforderungen mit sich: Datenschutz, Kosten, Latenz und Abhängigkeiten. Es ist Zeit für eine Alternative! In diesem Talk stelle ich einen robusten, selbst gehosteten KI-Stack vor, der auf bewährten Open-Source-Technologien basiert: Lunix, Docker für Containerisierung, Ollama als Model-Server und Open-WebUI als Frontend.
Das Setup ermöglicht den nahtlosen Betrieb aktueller Open-Weight-Modelle wie Gemma, Mistral oder Qwen3 – komplett on-premises. Wir besprechen Hardware-Requirements und Anwendungsfälle für den produktiven Einsatz.
Live zeige ich die einen Schnelldurchlauf der Installation, Konfiguration und den Betrieb verschiedener Modelle – von 7B-Parametern für schnelle Inference bis hin zu größeren Modellen für komplexe Tasks.
Sprecher Florian Wolf: https://www.linkedin.com/…