Chatbot vs. Agent: Der Unterschied

Klassische Chatbots arbeiten regelbasiert: Eingabe erkennen, vorgefertigte Antwort ausgeben. "Wie sind eure Öffnungszeiten?" wird auf ein Keyword gemappt, die Antwort kommt aus einer Tabelle. Seit ChatGPT gibt es auch Chatbots, die auf Sprachmodellen basieren und Absichten deutlich besser verstehen. Aber auch die erzeugen nur Text — sie können nicht eigenständig auf euren Kalender zugreifen oder einen Termin anlegen.

Ein KI-Agent geht weiter. Er versteht die Absicht hinter einer Anfrage, greift auf externe Systeme zu, führt Aktionen aus und reagiert auf das Ergebnis. Er folgt keinem festen Skript, sondern entscheidet in jedem Gesprächsschritt neu, was als Nächstes passiert.

Die eigentliche Trennlinie ist nicht "dumm vs. schlau", sondern: Kann das System auf echte Daten zugreifen und Aktionen in externen Systemen ausführen? Ein Chatbot — egal wie gut das Sprachmodell dahinter ist — antwortet. Ein Agent handelt.

Was ein KI-Agent kann

Nehmen wir ein konkretes Beispiel. Ein Kunde ruft bei einem Friseursalon an und sagt: "Ich brauche morgen einen Termin."

Ein Chatbot — selbst einer mit Sprachmodell — würde bestenfalls sagen: "Hier können Sie online buchen" und einen Link schicken. Die eigentliche Buchung muss der Kunde dann selbst durchklicken.

Ein KI-Agent macht Folgendes:

Versteht die Absicht. Der Kunde will einen Termin buchen, nicht die Öffnungszeiten wissen.
Stellt Rückfragen. "Welche Dienstleistung möchten Sie? Haarschnitt, Färbung oder etwas anderes?"
Prüft echte Verfügbarkeit. Der Agent fragt das Kalendersystem ab und bekommt zurück: Anna hat um 10:00 Uhr frei, Max um 10:30 Uhr.
Bietet Optionen an. "Morgen um 10:00 Uhr bei Anna oder um 10:30 Uhr bei Max. Was passt besser?"
Bucht den Termin. Nach der Bestätigung legt der Agent den Termin in der Datenbank an, sammelt den Kundennamen und bestätigt.

Das alles passiert in einem natürlichen Gespräch, am Telefon, rund um die Uhr.

Tool-Use: Warum Agenten mehr können als Sprachmodelle

Das Herzstück eines KI-Agenten ist nicht das Sprachmodell selbst. Es ist die Fähigkeit, externe Werkzeuge zu nutzen. In der Fachsprache heißt das "Tool-Use" oder "Function Calling".

Das Sprachmodell (GPT-4, Mistral, Claude) ist gut darin, Sprache zu verstehen und zu generieren. Aber es hat keinen Zugriff auf euren Kalender, eure Kundendatenbank oder euer Buchungssystem. Allein würde es Verfügbarkeiten erfinden, die nicht existieren.

Tool-Use löst dieses Problem: Das Sprachmodell entscheidet, welches Werkzeug es braucht, und ruft es auf. Das Werkzeug liefert echte Daten zurück. Das Sprachmodell formuliert daraus eine Antwort.

Konkret sieht das so aus:

Der Kunde sagt: "Haarschnitt morgen um 15 Uhr."
Das Sprachmodell erkennt: Dienstleistung = Haarschnitt, Datum = morgen, Uhrzeit = 15:00.
Es ruft das Werkzeug "Verfügbarkeit prüfen" auf und übergibt diese Parameter.
Das Werkzeug fragt die Datenbank ab und liefert drei freie Slots zurück.
Das Sprachmodell formuliert: "Um 15:00 Uhr hat Anna Zeit, um 15:15 Uhr Max. Wen möchten Sie?"

Das Sprachmodell generiert also nicht die Verfügbarkeit. Es verwendet echte Daten.

Der Agentic Loop: Absicht erkennen, Werkzeug wählen, echte Daten abfragen, Antwort formulieren — in einer Schleife bis der Termin gebucht ist.

Wie ein Agent Gespräche führt

Ein einfaches Frage-Antwort-Spiel reicht für eine Terminbuchung nicht aus. Der Agent muss mehrere Informationen sammeln: Dienstleistung, Datum, Uhrzeit, eventuell eine Mitarbeiterpräferenz, den Kundennamen. Selten liefert ein Kunde all das in einem Satz.

Deshalb arbeiten KI-Agenten mit Gesprächskontext. Jede Information, die der Kunde nennt, wird gespeichert und muss nicht wiederholt werden. Wenn jemand sagt "Haarschnitt am Montag" und zwei Sätze später "um drei", weiß der Agent noch, dass es um einen Haarschnitt am Montag geht.

Dazu kommt eine Logik, die entscheidet, was als Nächstes passiert. Fehlt die Dienstleistung, wird danach gefragt. Ist die Verfügbarkeit geprüft, werden Optionen angeboten. Hat der Kunde bestätigt, wird der Name erfragt und der Termin gebucht. Das ist kein starres Skript. Wenn der Kunde mitten im Gespräch die Dienstleistung wechselt oder einen anderen Tag möchte, passt sich der Agent an.

Warum nicht einfach ein Sprachmodell nehmen?

Man könnte versuchen, einem Sprachmodell wie GPT-4 den gesamten Kalender als Kontext zu geben und es bitten, den Termin selbst zu buchen. Das scheitert aus mehreren Gründen:

Halluzinationen. Sprachmodelle generieren Text auf Basis von Wahrscheinlichkeiten — sie schlagen keine Fakten nach, sondern erzeugen die wahrscheinlichste nächste Antwort. Das bedeutet: Ein Modell könnte behaupten, dass Dienstag um 14 Uhr frei ist, weil das plausibel klingt, nicht weil es den Kalender geprüft hat. Bei einer Terminbuchung ist das nicht akzeptabel.

Keine Aktionen. Ein Sprachmodell kann Text generieren, aber keinen Datenbankeintrag anlegen. Es kann sagen "Ihr Termin ist gebucht", ohne dass tatsächlich etwas passiert ist.

Keine Echtzeit-Daten. Der Kalender ändert sich ständig. Ein Sprachmodell arbeitet mit dem Wissensstand, den es bei der Anfrage bekommt. Zwischen zwei Anfragen kann der Slot bereits vergeben sein.

Tool-Use löst das Daten- und das Aktionsproblem vollständig: Das Modell entscheidet, was zu tun ist. Das Werkzeug führt es aus, mit echten, aktuellen Daten. Bei Halluzinationen ist die Lage differenzierter — alles, was über ein Werkzeug abgefragt wird (Verfügbarkeiten, Kundendaten), basiert auf Fakten. Aber bei der Formulierung der Antwort oder bei Schlussfolgerungen abseits der Tool-Daten bleibt das Sprachmodell ein Sprachmodell. Deshalb braucht ein produktiver Agent zusätzliche Absicherungen: Validierung der Tool-Aufrufe, Plausibilitätsprüfungen und klare Grenzen, wo er weiterleitet statt rät.

Was braucht ein KI-Agent technisch?

Ein produktiver KI-Agent besteht aus mehreren Komponenten, die zusammenspielen:

Ein Sprachmodell für das Verstehen von Absichten und die Formulierung von Antworten. Je nach Anforderung kommen unterschiedliche Modelle zum Einsatz. Einfache Extraktionen (Datum, Uhrzeit) brauchen kein großes Modell. Komplexe Anfragen ("Ich suche etwas für trockenes, lockiges Haar") schon.

Tool-Definitionen, die beschreiben, welche Werkzeuge der Agent nutzen kann. Jedes Werkzeug hat eine Beschreibung, erwartete Parameter und ein definiertes Rückgabeformat. Das Sprachmodell wählt anhand der Beschreibung aus, welches Werkzeug passt.

Ein Tool-Server, der die eigentlichen Aktionen ausführt. Bei uns ist das ein dedizierter Service, der Verfügbarkeit prüft, Termine anlegt und Kundendaten verwaltet. Der Agent selbst hat keinen direkten Datenbankzugriff.

Session-Management, damit der Kontext über mehrere Gesprächsrunden erhalten bleibt. Welche Informationen hat der Kunde schon genannt? In welchem Schritt des Buchungsprozesses befinden wir uns?

Fehlerbehandlung für den Fall, dass ein Werkzeug nicht erreichbar ist, ein Slot zwischenzeitlich vergeben wurde oder das Sprachmodell eine unbrauchbare Antwort liefert. Ein produktiver Agent braucht Fallback-Strategien statt einfach stehenzubleiben.

Die fünf Komponenten eines KI-Agenten: Sprachmodell, Tool-Definitionen, Tool-Server, Session-Management und Fehlerbehandlung.

Wo KI-Agenten sinnvoll sind

KI-Agenten entfalten ihren Wert dort, wo drei Dinge zusammenkommen: wiederkehrende Anfragen, Zugriff auf strukturierte Daten und die Notwendigkeit, eine Aktion auszuführen.

Telefonische Terminbuchung. Salons, Arztpraxen, Werkstätten. Der Agent nimmt Anrufe entgegen, prüft Verfügbarkeit und bucht Termine. Rund um die Uhr, ohne Wartezeit.

Kundenservice mit Datenbankzugriff. "Wo ist meine Bestellung?" braucht Zugriff auf das Bestellsystem. Ein Agent kann den Status prüfen und eine echte Antwort geben, kein "Bitte warten Sie auf eine E-Mail."

Interne Prozesse. Urlaubsanträge prüfen (Hat der Mitarbeiter noch Resttage?), Schichtpläne erstellen (Wer ist verfügbar?), Berichte zusammenfassen (Was waren die Kennzahlen diese Woche?).

Wo KI-Agenten nicht funktionieren

Agenten sind kein Allheilmittel. Für reine FAQ ohne Aktionsbedarf reicht ein einfacher Chatbot. Für Aufgaben, die menschliches Urteilsvermögen erfordern (Beschwerdemanagement, komplexe Beratung), braucht es eine saubere Übergabe an echte Mitarbeiter. Und für Prozesse, bei denen die Fehlertoleranz bei null liegt (medizinische Diagnosen, Finanztransaktionen über bestimmten Schwellwerten), sind Agenten allenfalls unterstützend sinnvoll.

Ein guter Agent kennt seine Grenzen. Wenn er eine Anfrage nicht bearbeiten kann, leitet er weiter, statt eine Antwort zu erfinden.

Unser Fazit

Wir haben für FloviAi einen KI-Telefonassistenten gebaut, der genau nach diesen Prinzipien arbeitet: Sprache verstehen, Absicht erkennen, Werkzeuge nutzen, Aktionen ausführen. Im Produktivbetrieb bucht er Termine, beantwortet Fragen und leitet komplexe Anliegen an das Salonteam weiter.

Die Technologie dahinter ist kein Hexenwerk. Sie ist eine Kombination aus Sprachmodellen, strukturierten Werkzeugen und einer durchdachten Gesprächslogik. Der schwierige Teil ist nicht die einzelne Komponente, sondern das Zusammenspiel unter realen Bedingungen: Latenz, Fehlerbehandlung, gleichzeitige Anfragen, Mandantentrennung.

Wer KI-Agenten für sein Unternehmen in Betracht zieht, sollte mit einem konkreten Anwendungsfall starten. Nicht mit der Frage "Wo können wir KI einsetzen?", sondern mit "Welcher wiederkehrende Prozess kostet uns am meisten Zeit?"

Was ist ein KI-Agent? Einfach erklärt für Unternehmen