4 techniki powstrzymywania halucynacji agentów AI — Graph-RAG, semantyczny wybór narzędzi, guardrails neurosymboliczne

AWS udokumentował cztery konkretne sposoby, w jakie agenci halucynują podczas wykonywania zadań. Zmyślają statystyki. Wybierają niewłaściwe narzędzia. Ignorują reguły biznesowe. Twierdzą, że odniosły sukces, gdy operacje faktycznie się nie powiodły. Dev.to i AWS udokumentowały cztery konkretne techniki, które adresują każdy tryb awarii. Ten blog jest przewodnikiem technicznym po każdej z nich: co zapobiega, jak działa i kiedy jej używać.

Obrona przed halucynacjami nie jest teoretyczna. To produkcyjnie sprawdzone techniki, które redukują promień rażenia do poziomu, przy którym agenci są bezpieczni do wdrożenia na rzeczywistych zadaniach biznesowych.

Cztery tryby awarii i co je adresuje

Zanim przejdziemy do technik, oto tryby awarii, które mają adresować:

Zmyślanie statystyk — agent wymyśla liczby, daty i fakty ze swoich danych treningowych zamiast z rzeczywistego stanu świata. Adresowane przez: Graph-RAG.
Wybieranie niewłaściwych narzędzi — agent wybiera niewłaściwe narzędzie do zadania lub wywołuje narzędzie z nieprawidłowymi parametrami. Adresowane przez: semantyczny wybór narzędzi.
Ignorowanie reguł biznesowych — agent podejmuje działanie naruszające politykę, ponieważ jest trenowany, aby być pomocnym, i racjonalizuje ograniczenia. Adresowane przez: neurosymboliczne strażniki.
Twierdzenie o sukcesie, gdy operacje zawodzą — agent zgłasza ukończenie zadania, gdy faktycznie operacja się nie powiodła. Adresowane przez: walidację wielu agentów.

Technika 1: Graph-RAG do precyzyjnego pobierania danych

Standardowy RAG pobiera dokumenty z bazy wektorowej. Agent syntezuje na podstawie pobranych fragmentów. Problem: pobrane fragmenty mogą być błędne, nieaktualne lub sprzeczne. Agent syntezuje z niedoskonałego kontekstu i produkuje halucynację, która brzmi wiarygodnie, ponieważ pochodzi z wyglądającego wiarygodnie materiału źródłowego.

Graph-RAG zmienia architekturę pobierania. Zamiast pobierać surowe fragmenty tekstu, agent wysyła zapytanie do ustrukturyzowanego grafu wiedzy, gdzie encje, relacje i fakty są jawnie reprezentowane jako węzły i krawędzie. Agent pyta „jaka jest polityka zwrotów Acme Corp?" i otrzymuje ustrukturyzowaną, zweryfikowaną odpowiedź z grafu, a nie akapit, który może zawierać błędy. Można pobrać tylko fakty istniejące w grafie.

Praktyczna implementacja: Neo4j lub Amazon Neptune jako baza grafowa, LangChain lub LlamaIndex dla warstwy implementacyjnej Graph-RAG, a agent wysyła zapytania przez ustrukturyzowany język zapytań jak Cypher.

Kiedy używać Graph-RAG: gdy dokładność faktów jest niepodważalna dla danych finansowych, specyfikacji produktów, polityk prawnych lub czegokolwiek, gdzie błędna odpowiedź ma realne konsekwencje. Gdy masz dane ustrukturyzowane, które można reprezentować jako graf.

Kiedy nie używać Graph-RAG: gdy celem jest kreatywna synteza, pisanie i burza mózgów wymagają od modelu generowania zamiast pobierania. Gdy graf wiedzy jest niekompletny, agenci trafią na puste węzły i i tak wrócą do swoich wag.

Co Graph-RAG zapobiega: zmyślanym statystykom w raportach, błędnych informacjom o produktach w komunikacji z klientami, wymyślonym szczegółom polityki w odpowiedziach wsparcia.

Technika 2: Semantyczny wybór narzędzi

Agenci mają listę narzędzi i mogą wywoływać dowolne narzędzie ze swojego zestawu. Model wybiera narzędzia na podstawie semantycznego podobieństwa między zadaniem a opisami narzędzi. Problem: model może wybrać semantycznie podobne, ale kontekstowo niewłaściwe narzędzie. Agent chce wysłać wiadomość i wybiera niewłaściwe API do przesyłania wiadomości, ponieważ oba mają „wyślij" w opisie. Agent wywołuje API deweloperskie zamiast produkcyjnego.

Semantyczny wybór narzędzi dodaje krok weryfikacji. Przed wywołaniem narzędzia agent weryfikuje, czy schemat wejściowy i wyjściowy narzędzia jest poprawny dla konkretnego zadania. Zamiast polegać tylko na osądzie modelu, wybór narzędzia staje się ustrukturyzowanym problemem pobierania: znajdź narzędzie, którego interfejs odpowiada temu, co próbujesz osiągnąć.

Podejście implementacyjne: schematy narzędzi są ustrukturyzowane z jawnymi definicjami wejścia/wyjścia. Agent generuje, czego oczekuje na wyjściu narzędzia. Semantyczne podobieństwo między oczekiwanym wyjściem a rzeczywistym schematem narzędzia jest oceniane. Jeśli wynik jest poniżej progu, agent eskaluje lub odmawia działania.

Kiedy używać semantycznego wyboru narzędzi: gdy agent ma wiele narzędzi o podobnych nazwach lub nakładających się celach, gdy błędy wywołań narzędzi mają realne konsekwencje, jak niewłaściwe wywołania API lub niewłaściwe modyfikacje danych.

Co zapobiega: wywoływaniu niewłaściwego endpointu API, wysyłaniu wiadomości na niewłaściwy kanał, przesyłaniu formularza do niewłaściwego miejsca docelowego, używaniu niewłaściwego formatu danych dla wywołania narzędzia.

Technika 3: Neurosymboliczne strażniki

Model jest trenowany, aby być pomocnym. Chce ukończyć zadanie. Jeśli zadanie kłóci się z regułą biznesową, model może racjonalizować sposób jej obejścia. Agent otrzymuje prośbę o przetworzenie zwrotu i go realizuje, ponieważ pomocni agenci ukończają zadania, bez sprawdzenia, czy nie narusza to polityki zwrotów.

Neurosymboliczni strażnicy łączą sieć neuronową (model) z logiką symboliczną (reguły). Model generuje wyjścia. Warstwa strażników przechwytuje wyjścia naruszające reguły. W przeciwieństwie do miękkich promptów, które próbują przypomnieć modelowi o sprawdzeniu polityk, strażnicy to twarde ograniczenia, które uruchamiają się niezależnie od pewności modelu.

Implementacja: zdefiniuj regułę jako kod, jeśli wyjście zawiera X, zablokuj i eskaluj. Przykład: jeśli wyjście agenta zawiera kwotę powyżej 10 000 $, wymagaj zatwierdzenia przez человека перед отправкой. Strażnik uruchamia się, blokuje działanie i kieruje do recenzenta człowieka.

Co strażnicy mogą egzekwować: reguły biznesowe, jak limity zwrotów, progi kredytowe i przepływy zatwierdzania. Reguły zgodności, jak wymagania dotyczące obsługi PII, ograniczenia rezydencji danych i wymagania regulacyjne. Reguły bezpieczeństwa, jak brak eksfiltracji danych zewnętrznych i brak publikacji w mediach społecznościowych bez zatwierdzenia.

Ograniczenie: strażnicy muszą być jawnie napisani dla każdej reguły. Nie uogólniają się. Reguła, która nie została napisana, nie uruchomi się.

Co zapobiega: agentom omijającym polityki zwrotów, nieautoryzowanemu dostępowi do danych lub eksfiltracji, działaniom naruszającym wymagania zgodności.

Technika 4: Walidacja wielu agentów

Agent wykonujący zadanie jest zainwestowany w jego ukończenie. Będzie racjonalizował znaki ostrzegawcze zamiast przyznać się do porażki. To bias ukończenia, ten sam błąd poznawczy, który mają ludzie. Agent, który otrzymuje sygnał, że coś poszło nie tak, często zinterpretuje ten sygnał w sposób pozwalający mu kontynuować zamiast się zatrzymać.

Walidacja wielu agentów przerywa tę pętlę. Agent 1, główny, wykonuje zadanie i generuje wyjście. Agent 2, walidator, przegląda wyjście Agenta 1 względem oryginalnego żądania. Agent 2 jest specjalnie spromptowany, aby znajdować błędy, niespójności i niepowodzenia. Jeśli Agent 2 znajdzie problemy, zadanie jest oznaczane do przeglądu przez человека.

Wymiary walidacji:

Czy agent zrobił to, o co proszono? Sprawdzenie kompletności.
Czy agent użył poprawnych danych? Sprawdzenie faktów.
Czy agent postępował zgodnie z właściwym procesem? Sprawdzenie zgodności.
Czy operacja faktycznie się powiodła? Sprawdzenie wyniku.

Ten ostatni adresuje ustalenie dotyczące agentów twierdzących o sukcesie, gdy operacje zawodzą.

Kiedy używać walidacji wielu agentów: dla operacji wysokiego ryzyka, gdzie porażka jest kosztowna, dla operacji, gdzie samoocena agenta jest ненадёжна.

Kompromis kosztowy: walidacja wielu agentów podwaja koszt LLM dla walidowanych operacji. Używaj jej dla operacji wysokiego ryzyka. Automatyzuj operacje niskiego ryzyka.

Co zapobiega: agentom twierdzącym o sukcesie, gdy operacje faktycznie zawiodły, fałszywym pozytywom w raportach ukończenia zadań, błędom, które główny agent zracjonalizował.

Obrona w głąb — jak cztery techniki się łączą

Model warstwowej obrony:

Warstwa 1: Graph-RAG zapewnia, że fakty są poprawne, zanim agent działa.

Warstwa 2: Semantyczny wybór narzędzi zapewnia, że właściwe narzędzie jest poprawnie wywołane.

Warstwa 3: Neurosymboliczni strażnicy zapewniają, że reguły biznesowe nie są naruszane.

Warstwa 4: Walidacja wielu agentów łapie wszystko, co umknęło pierwszym trzem warstwom.

Co każda warstwa nie łapie: Graph-RAG nie może zapobiec kreatywnym halucynacjom lub błędom syntezy. Semantyczny wybór narzędzi nie może zapobiec błędnym faktom o tym, którego narzędzia użyć. Strażnicy nie mogą złapać naruszeń reguł, dla których nie zostali napisani. Walidacja wielu agentów nie może złapać błędów w samym walidatorze.

Żadna pojedyncza technika nie jest wystarczająca. Obrona w głąb: każda warstwa łapie to, co inne pomijają.

Priorytet wdrożenia: zacznij od Graph-RAG, jeśli dokładność faktów jest głównym problemem. Dodaj strażników dla swoich najwyższego ryzyka typów działań. Dodaj semantyczny wybór narzędzi, gdy błędy wywołań narzędzi są kosztowne. Dodaj walidację wielu agentów dla swoich najkrytyczniejszych przepływów pracy.

Nie wdrażaj agentów bez przynajmniej jednej z tych czterech obron. Zacznij od działania o najwyższym ryzyku w swoim agencie i warstwuj stamtąd.