Warum zuerst Prompt Engineering, dann RAG, dann Fine-Tuning (in dieser Reihenfolge)
Free Academy AI: Immer mit Prompt Engineering starten. RAG hinzufügen, wenn Wissen benötigt wird. Fine-Tuning nur, wenn Verhaltensänderungen nicht durch einfachere Ansätze erreicht werden können. Die meisten Teams überspringen es. Sie gehen direkt zum Fine-Tuning, weil es sich wie echte KI-Entwicklung anfühlt. Ist es aber nicht. Fine-Tuning ist der teure, langsame Notfallplan, nicht die erste Antwort.
Warum Teams zu früh Fine-Tunen
Warum Fine-Tuning sich wie echte KI-Entwicklung anfühlt: Man trainiert ein Modell, das klingt technisch. Man hat einen Datensatz, das wirkt gründlich. Man verändert Modellgewichte, das klingt fundamental. Prompt Engineering fühlt sich an wie nur Anweisungen schreiben.
Warum das falsch herum ist: Prompt Engineering ist tatsächlich schwieriger. Man muss tief verstehen, wie das Modell Anweisungen interpretiert. Fine-Tuning ist mechanischer: Daten vorbereiten, Training ausführen, evaluieren. Die harte Arbeit ist herauszufinden, was man vom Modell erwartet. Das ist Prompt Engineering. Fine-Tuning lässt das Modell es nur schneller tun.
Die Kostenfolge: zu frühes Fine-Tuning bedeutet Monate Training plus 5.000 bis 50.000 Dollar oder mehr. Wenn man dann herausfindet, dass Prompt Engineering gereicht hätte, sind Zeit und Geld verschwendet.
Warum passiert das trotzdem: Teams wollen das KI-Problem lösen und weiterkommen. Fine-Tuning fühlt sich nach einer dauerhaften Lösung an. Prompt Engineering fühlt sich temporär an. Aber Prompt Engineering ist tatsächlich das richtige Fundament.
Was 20 bis 40 Stunden Prompt Engineering wirklich bedeuten
Woche 1: Baseline in 10 Stunden etablieren. Das Basismodell ohne eigene Prompts testen. Dokumentieren, was funktioniert, was nicht, und wo es scheitert. Das gibt die Baseline, gegen die man Verbesserungen misst.
Woche 1 bis 2: Systematische Prompt-Iteration in 20 Stunden. System-Prompt, der die Rolle des Modells definiert. Few-Shot-Beispiele, die dem Modell zeigen, wie gute Outputs aussehen. Output-Format-Anweisungen, die genau festlegen, wie die Ausgabe strukturiert sein soll. Chain-of-Thought, das fragt, ob das Modell seinen Denkprozess zeigen soll. Constraint-Anweisungen, die festlegen, was das Modell vermeiden soll.
Woche 2: Testen mit echten Queries in 10 Stunden. Mit 50 bis 100 echten User-Queries aus der Produktion testen. Messen, ob der Output dem entspricht, was gebraucht wird. Prompts basierend auf Fehlermustern iterieren und verfeinern.
Was man in 20 bis 40 Stunden lernt: Ist das Problem, dass das Modell die Aufgabe nicht versteht? Prompt Engineering nutzen. Ist das Problem, dass das Modell das Wissen nicht hat? RAG nutzen. Ist das Problem, dass das Modell falsch reasont? Fine-Tuning nutzen.
Das 80/20-Ergebnis: Viele Teams finden heraus, dass 20 bis 40 Stunden Prompt Engineering 80% ihres Ziels erreichen. Wenn 80% nicht reichen, weiß man jetzt genau, was die restlichen 20% erfordern.
Die Sequenz in der Praxis — Prompt, RAG, Fine-Tune
Schritt 1: Prompt Engineering für 2 bis 4 Wochen. Was man erreichen kann: Output-Format, Ton, Reasoning-Ansatz und Struktur. Der Test ist, ob Prompt Engineering zu 80% führt. Wenn ja, hier aufhören.
Schritt 2: RAG für 2 bis 4 Wochen nach dem Prompt Engineering. RAG hinzufügen, wenn das Modell Wissen braucht, das zu groß für den Context ist, sich häufig ändert oder proprietär ist. Was man lernt: Ist das Problem Wissen oder Reasoning.
Schritt 3: Fine-Tuning für 8 bis 16 Wochen als letztes Mittel. Nur wenn Prompt Engineering und RAG wirklich ausgeschöpft sind und das Problem behavioral ist. Was es nicht fixt: fehlendes Wissen — das ist RAGs Job. Oder schlechtes Output-Format — das ist Prompt Engineerings Job.
Die Entscheidung zum Fine-Tuning — Die echten Signale
Signal 1: Prompt Engineering wurde wirklich ausgeschöpft. Man hat 40 oder mehr Stunden in Prompt Engineering gesteckt. Das Modell versteht die Aufgabe perfekt, macht aber konsistent dieselben Reasoning-Fehler. Das Problem ist behavioral — wie das Modell denkt, nicht was es weiß.
Signal 2: Inferenzkosten sind prohibitiv. Prompts sind sehr lang mit Few-Shot-Beispielen und Kontext. Die Token-Kosten pro Request sind bei Skalierung zu hoch. Fine-Tuning reduziert die Prompt-Länge bei gleichbleibender Performance.
Signal 3: Domain-Reasoning-Muster müssen sich ändern. Medical AI, bei der das Modell wie ein Kliniker reasonen muss. Legal AI, bei der das Modell wie ein Anwalt reasonen muss. Financial AI, bei der das Modell wie ein Quant reasonen muss.
Signal 4: Man braucht konsistentes Verhalten über Tausende Requests. Prompt Engineering kann leicht variieren bei jedem Request. Fine-Tuning produziert konsistentere Outputs.
Die falschen Signale: Das Modell kennt unser Produkt nicht bedeutet RAG. Man will, dass es schlauer wird bedeutet erst Prompt Engineering. Fine-Tuning fühlt sich ernsthaft an bedeutet es ist teuer und langsam.
Der Zeitvergleich
Richtige Sequenz: Prompt Engineering in 2 bis 4 Wochen, RAG in 2 bis 4 Wochen falls nötig, Fine-Tuning in 8 bis 16 Wochen falls nötig. Gesamtes Worst Case: 24 Wochen.
Falsche Sequenz: Fine-Tuning zuerst in 8 bis 16 Wochen plus 5.000 bis 50.000 Dollar oder mehr, dann herausfinden, dass es das Problem nicht gelöst hat, und danach RAG in 2 bis 4 Wochen hinzufügen. Gesamtes Worst Case: 24 Wochen oder mehr plus 50.000 Dollar oder mehr verschwendet.
Bevor man 5.000 Dollar für Fine-Tuning ausgibt, sollte man 40 Stunden in Prompt Engineering stecken. Wenn man nicht bereit ist, diese 40 Stunden zu investieren, ist man nicht bereit für Fine-Tuning.