KI-Agenten, die Arbeit übernehmen – nicht nur antworten.
Wir bauen KI-Agenten, die in Vertrieb, Support und Operations zuverlässig Aufgaben übernehmen. Mit Eval-Suites, Monitoring und einem stufenweisen Roll-out vom Suggest-Modus bis zur Vollautomatik.
Ein KI-Agent ist kein besserer Chatbot. Er ist ein System, das ein Ziel zerlegt, Werkzeuge auswählt, Aktionen ausführt und Zwischenergebnisse bewertet – mit einem Sprachmodell als Steuerzentrale. Der wichtige Unterschied: Agenten **handeln**. Sie schreiben Mails, aktualisieren CRMs, rufen APIs auf, qualifizieren Leads.
Drei von vier KI-Agent-Projekten in KMUs scheitern – meist nicht an der Technik, sondern an der Use-Case-Wahl, dem Datenfundament oder dem Change-Management. Wir bauen Setups, die diese Stolperfallen systematisch umgehen: kleiner, klar abgegrenzter Use Case zuerst, sauberes Datenfundament, Eval-Suite vom ersten Tag, stufenweiser Roll-out.
Unser Tech-Stack ist provider-agnostisch: OpenAI Agents SDK, Anthropic Agent SDK, LangGraph, n8n, Make – wir wählen das, was für deinen Use Case und deine bestehende Infrastruktur passt. Datenschutz, Datenresidenz und EU AI Act sind dabei nicht Nachgedanken, sondern Architekturentscheidungen.
Warum KI-Agenten 2026 für KMUs relevant sind
KMUs haben einen strukturellen Capacity-Gap: zu viele wiederkehrende Aufgaben, zu wenig Köpfe. Klassische Automatisierung (Zapier, Make) löst das in linearen Workflows. KI-Agenten lösen es auch in Aufgaben, die Sprachverständnis, Klassifikation und unsichere Entscheidungen brauchen. Ein gut gebauter Agent kann 60–80 % einer Tier-1-Support- oder Lead-Qualifizierungs-Last übernehmen – ohne dass eure Servicequalität sinkt.
Klein anfangen, sauber bauen, dann skalieren.
Den richtigen Anwendungsfall finden
In einem 90-Minuten-Workshop suchen wir gemeinsam die eine Aufgabe, die in eurem Tagesgeschäft am meisten Zeit kostet und sich klar beschreiben lässt — typisch: Anfragen sortieren, Termine koordinieren, Leads vorqualifizieren. Klingt unspektakulär. Entscheidet aber, ob das Projekt am Ende Geld bringt.
Daten-Check & Vorbereitung
Bevor wir irgendetwas bauen, prüfen wir eure Daten: Wo liegt was? Wer darf darauf zugreifen? Ist es aktuell? Das ist die unsichtbare Hauptarbeit — und in vier von fünf gescheiterten KI-Projekten der eigentliche Grund. Hier sauber zu sein, spart später Wochen.
Test-Agent mit echten Beispielen
Bevor irgendein Kunde mit dem Agenten spricht, testen wir ihn an 30–80 echten Fällen aus eurem Alltag. So sehen wir genau, wo er trifft und wo er danebenliegt — und justieren nach, bevor draußen etwas auffällt.
Mensch entscheidet, KI schlägt vor
Erste Live-Phase: Der Agent macht einen Vorschlag, eure Mitarbeiter schauen kurz drüber und klicken ab — wie ein Junior, der bei jedem Schritt den Daumen vom Chef braucht. Wir messen wöchentlich, wie oft seine Vorschläge passen.
Vollautomatik mit Sicherheitsnetz
Sobald der Agent in über 85 % der Fälle richtig liegt, übernimmt er selbständig. Komplexe oder unklare Fälle gibt er weiter an einen Menschen — wie ein guter Mitarbeiter, der weiß, wann er nachfragen muss. Vertrauen entsteht durch Zahlen, nicht durch Hoffnung.
Ein produktiver Agent – kein Demo-Video.
Use-Case-Definition
Klar abgegrenzter Anwendungsfall mit Erfolgskriterien, KPIs und Eskalationspfaden.
Custom-Agent (Prototyp + Production)
Implementiert auf eurem Tech-Stack mit eurem CRM/ERP/Wissensbasis-Anschluss.
Eval-Suite
30–80 Test-Cases, automatisch ausführbar, mit Pass/Fail-Reporting bei jeder Modell-/Prompt-Änderung.
Monitoring & Alerts
Live-Logs, Cost-Tracking pro Anfrage, Anomalie-Erkennung, Alarm bei Fehlerraten oder unerwartetem Verhalten.
Compliance-Dokumentation
DSGVO-Bewertung, EU-AI-Act-Klassifizierung, Auftragsverarbeitungsvertrag mit Modell-Provider.
Handover & Schulung
Eure Operativen wissen, wie der Agent bedient, gepflegt und im Notfall pausiert wird.
Drei Kennzahlen, die ROI sichtbar machen.
Tier-1-Last automatisiert
Median über 6 Monate Live-Betrieb.
Antwortzeit bei Leads
Statt 4–24 Stunden manuell.
Eval-Akzeptanzrate vor Auto
Schwelle für Vollautomatisierung.
Womit wir bauen.
Was wir am häufigsten gefragt werden.
Wann lohnt sich ein KI-Agent vs. einfachere Automatisierung?
Wenn die Aufgabe sprachliches Verständnis, Klassifikation oder kontextabhängige Entscheidungen erfordert. Pure Workflow-Schritte sind oft mit n8n oder Make günstiger und stabiler. KI-Agenten kommen ins Spiel, sobald 'wenn-dann'-Logik nicht mehr ausreicht.
Was kostet ein erster Agent-Use-Case?
Festpreis nach Use-Case-Workshop. Aufbau und laufender Betrieb sind unterschiedliche Posten — wir kalkulieren projektspezifisch und kommunizieren die Range transparent vor dem Angebot.
Welche Modell-Anbieter empfehlt ihr?
Wir sind agnostisch. Für Reasoning-intensive Tasks oft Claude (Sonnet/Opus). Für günstige hochvolumige Tasks oft GPT-5-mini oder Gemini-Flash. Für strenge Datenschutz-Setups Open-Source-Modelle (Llama, Mistral) auf eigener Infrastruktur.
Was passiert mit unseren Daten?
Wir nutzen ausschließlich API-Endpoints mit no-train-policy (OpenAI Enterprise, Anthropic Workbench, Google Cloud) oder selbst-gehostete Modelle. Eure Daten gehen nicht ins Modelltraining. AVV/DPA sind Standard.
Wie verhindert ihr Halluzinationen?
Drei Hebel: enge Use-Case-Definition (Modelle halluzinieren bei breiten Aufgaben), Tool-Calls statt Freitext (Modelle dürfen Fakten nur über definierte APIs ziehen), und Eval-Suites, die Halluzinations-Quote aktiv messen.
Wie lange dauert ein Agent-Projekt?
Vom Briefing bis Suggest-Modus typisch 6–10 Wochen. Bis stabile Vollautomatisierung weitere 4–8 Wochen. Schnellere Zyklen sind möglich, aber meist auf Kosten der Eval-Qualität.
Bereit, sichtbar zu werden?
30-Minuten-Erstgespräch, in dem wir den Use Case eingrenzen und prüfen, ob er agentenreif ist.