Was ist RAG (Retrieval-Augmented Generation)?

RAG ist eine Technik, bei der eine KI vor dem Antworten in einer Datenbank nachliest. So erfindet sie keine Fakten, sondern nutzt exakt die Informationen der Website.

Wie merkt sich die KI meinen Namen?

Durch eine Kombination aus Function Calling und einer schnellen Redis-Datenbank. Die KI extrahiert den Namen aus dem Chat und speichert ihn für zukünftige Besuche.

Meet Evita: Meine KI-Assistentin mit Gedächtnis & RAG

21. Februar 2026 8 Min. Lesezeit

Von Michael Kanda

Das Wichtigste in Kürze:

Mehr als ein Chatbot: Evita ist meine digitale Assistentin, benannt nach meiner Tierschutzhündin. Sie führt Smalltalk, macht Termine aus und schreibt Mails.
RAG (Retrieval-Augmented Generation): Durch eine Vektordatenbank kennt Evita die gesamte Website auswendig und halluziniert nicht.
Function Calling: Evita ist nicht nur passiv. Sie nutzt aktiv Tools (Kalender öffnen, dynamische Chips vorschlagen).
Langzeitgedächtnis: Über Redis merkt sie sich Namen ("Servus Alfred!") und Lieblingsthemen von wiederkehrenden Besuchern.

Chatverlauf mit Evita, in dem sie den Nutzer beim Namen nennt — Evita KI-Assistentin Interface

Standard-Chatbots sind oft frustrierend. Sie geben generische Antworten, vergessen nach zwei Sätzen, worum es ging, und leiten einen am Ende doch nur auf eine Kontaktseite weiter. Als Webentwickler wollte ich das auf meiner eigenen Seite besser machen.

Darf ich vorstellen? Evita. Benannt nach meiner Tierschutzhündin, agiert sie als meine digitale Assistentin. Sie ist keine sterile "Wie-kann-ich-Ihnen-helfen"-Maschine, sondern hat Charakter: Sie ist charmant, schlagfertig und duzt den Nutzer konsequent – verzichtet dabei aber streng auf Emojis. In diesem Artikel zeige ich dir – sowohl aus Sicht des Nutzers als auch des Entwicklers –, was passiert, wenn man Google Gemini mit Vektordatenbanken und aktivem Werkzeuggebrauch verknüpft.

Was Evita kann: Die Features im Überblick

User Experience:

Für den Nutzer fühlt sich Evita an wie ein echter Mensch am anderen Ende der Leitung. Sie fragt beiläufig nach dem Namen, passt ihre Begrüßung an die Tageszeit an und greift Themen auf, über die man beim letzten Mal gesprochen hat.

Evitas Fähigkeiten gehen weit über einfaches Frage-Antwort-Ping-Pong hinaus:

Sitzungs- & Themen-Gedächtnis: Wenn du Evita deinen Namen verrätst ("Ich bin Alfred"), merkt sie sich diesen. Sie speichert aber auch den inhaltlichen Kontext. Kommst du Wochen später wieder auf die Webseite, begrüßt sie dich mit "Servus Alfred! Schön, dass du wieder vorbeischaust." und weiß sogar noch, ob du dich das letzte Mal für SEO oder Webdesign interessiert hast.
Direkte Rückruf-Buchung: Fragst du nach einem Termin oder einem Call, schickt sie dir keinen schnöden Text-Link. Sie öffnet direkt im Chat eine Rückruf-Funktion, die an meinen Google-Kalender angebunden ist. Sobald du eine Zeit wählst, generiert das System sofort einen QR-Code, mit dem du den Termin direkt in dein Smartphone scannen kannst.
E-Mail-Service für jeden Empfänger: Evita ist nicht nur ein Kontaktformular zu mir. Sie ist ein allgemeiner E-Mail-Assistent für dich. Du kannst ihr sagen: "Schreib eine Mail an [email protected] und sag ihm freundlich ab." Sie verfasst einen perfekten Entwurf in deinem gewünschten Tonfall und sendet die E-Mail nach deiner Freigabe direkt aus dem Chat-Fenster heraus ab.
Dynamische Folge-Chips: Unter jeder Antwort bietet Evita exakt drei klickbare Buttons an (Chips): Eine logische, aus deiner Ich-Perspektive formulierte Folgefrage und zwei interne Links, die perfekt zum aktuellen Thema der Konversation passen.

Unter der Haube: Der Tech-Stack

Architektur:

Das System läuft komplett Serverless. Es basiert auf Google Gemini (2.5-flash) als "Gehirn", gekoppelt mit Upstash Redis (als Kurzzeitgedächtnis) und Upstash Vector (für RAG).

Wie macht man ein Large Language Model (LLM) zu einer zuverlässigen Agentur-Mitarbeiterin? Hier sind die drei technischen Säulen:

1. RAG (Retrieval-Augmented Generation)

Damit Evita keine Fakten über meine Dienstleistungen erfindet ("Halluzinationen"), nutzt sie eine Vektordatenbank.

Der Vektor-Upload: Jede Nacht um 3:00 Uhr crawlt ein Cronjob meine Website. Er zerlegt alle HTML-Seiten in Textabschnitte, wandelt diese über die Gemini Embedding API in Zahlenkolonnen (Vektoren) um und speichert sie in Upstash Vector.
Die Abfrage: Stellt der Nutzer eine Frage, wandelt Evita diese ebenfalls in einen Vektor um, sucht in Millisekunden die ähnlichsten Textbausteine aus der Datenbank und nutzt diese als "Kontext" für ihre Antwort.
Der Vorteil: Ändere ich heute einen Preis auf meiner Website, weiß Evita morgen früh automatisch davon, ohne dass ich den Bot neu programmieren muss!

2. Native Function Calling (Tools)

Evita ist nicht auf Textausgabe beschränkt. Ich habe ihr über die Gemini API Werkzeuge (Tools) in die Hand gegeben:

remember_user_name: Ein Tool, das im Hintergrund anspringt, sobald ein Nutzer sich vorstellt. Es speichert den Vornamen in Redis.
suggest_chips: Ein Tool, das die KI zwingt, ein JSON-Objekt mit exakt drei sinnvollen Folge-Aktionen zurückzugeben.
compose_email: Nimmt Empfänger, Betreff und Inhalt des Nutzers entgegen und baut einen versandfertigen Payload auf.

3. Context-Aware System Prompting

Damit Evita menschlich wirkt, wird ihr initialer "System Prompt" bei jedem Seitenaufruf dynamisch zusammengebaut:

Sie weiß, wie spät es in Wien ist. Um 23:00 Uhr begrüßt sie dich anders als am Montagmorgen um 08:00 Uhr.
Sie kennt die aktuelle URL. Bist du gerade auf der SEO-Seite, wird sie dir diesen Link nicht mehr als "Chip" vorschlagen.
Sie kennt deine Historie. Warst du schon 5x im Chat, fragt sie dich nicht mehr nach deinem Anliegen, sondern steigt direkt locker ein.

Warum klassische Chatbots aussterben

Der Unterschied zwischen einem traditionellen Regel-Bot (If-Then-Else) und einer RAG-gestützten KI ist gewaltig:

Klassischer Chatbot	Evita (KI Agent)
Versteht nur exakte Keywords	Versteht Kontext, Synonyme und umgangssprachliche Fragen
Muss manuell mit FAQ-Bäumen gepflegt werden	Lernt automatisch durch nächtliche Indexierung (RAG) der Website
Jeder Chat beginnt bei Null (Amnesie)	Langzeitgedächtnis (Redis) für Namen und vorherige Themen
Gibt oft tote Links oder Textwüsten aus	Bietet smarte Aktionen via Function Calling (Kalender, E-Mail-Versand an Dritte)

Häufig gestellte Fragen

Kann ich wirklich E-Mails an beliebige Personen senden?

Ja! Du brauchst kein Mail-Programm öffnen. Sag Evita einfach, wem du schreiben möchtest und was drinstehen soll. Sie formuliert den Text perfekt aus und sendet die E-Mail über meine angebundene API an den gewünschten Empfänger. (Zur Sicherheit gibt es ein Limit von max. 3 Mails pro Sitzung).

Wie lange merkt sich Evita, wer ich bin?

Dein Name und die Themen, über die ihr gesprochen habt, werden in einer sicheren Redis-Datenbank für 30 Tage nach deinem letzten Besuch gespeichert. Kommst du innerhalb dieses Zeitraums wieder, knüpft sie nahtlos an euer letztes Gespräch an.

Was passiert, wenn die KI etwas Falsches sagt?

Das RAG-System verhindert Halluzinationen fast komplett. Bevor sie antwortet, gleicht sie deine Frage als Vektor mit meiner Website-Datenbank ab. Findet sie keine Fakten, hat sie die strikte Anweisung im System-Prompt, nichts zu erfinden, sondern charmant abzublocken.

Wird mein Chatverlauf mitgelesen?

Das System arbeitet Serverless und speichert deinen Chat-Verlauf kurzzeitig und komplett anonymisiert unter einer kryptischen Session-ID, damit Evita dem roten Faden folgen kann. Persönliche Daten bleiben dort, wo sie hingehören – bei dir.

Wie kommen neue Texte von der Website in ihr Gedächtnis?

Vollautomatisch. Ein Server-Cronjob durchsucht jede Nacht meine komplette Website nach Änderungen. Neue Texte werden sofort in Vektoren übersetzt und in Evitas Datenbank hochgeladen. Am nächsten Morgen ist sie auf dem aktuellsten Stand.

Fazit: Das Web wird interaktiv

Eine Webseite muss heute keine statische Broschüre mehr sein. Mit modernen KI-APIs können wir Interfaces bauen, die sich an den Nutzer anpassen, mit ihm mitdenken und echte Aufgaben abnehmen.

Zusammenfassung:

Gesteigerte UX: Ein charmanter Agent hält Besucher länger auf der Seite.
Automatisierung: Termine und E-Mails werden direkt im Chat abgewickelt, ohne die Ansicht zu wechseln.
Zero Maintenance: Durch den Cronjob und die Vektordatenbank füttert sich die KI komplett selbstständig mit Updates.

Probier es einfach selbst aus! Klicke unten rechts auf den Chat-Button und sag Evita "Hallo" – mal sehen, ob sie sich beim nächsten Mal an dich erinnert.

Willst du deine eigene KI-Assistenz?

Egal ob für deinen Online-Shop, deine Kanzlei oder dein Portfolio. Wenn du einen Bot brauchst, der deine Website auswendig kennt und aktiv für dich und deine Kunden arbeitet, lass uns sprechen.