Prompt & pray
Ett uttryck som börjat cirkulera i samband med generativ AI är prompt and pray. Det är ett uttryck för att beskriva språkmodellernas oförutsägbarhet i situationer där man vill att de agerar konsekvent. Detta är som många redan förklarat ett inneboende beteende, och för att citera Karpathy "a feature, not a bug".
I praktiken innebär detta att arbetet med språkmodeller – särskilt vid promptskrivning – ofta handlar mindre om att specificera vad modellen ska göra, och mer om att avgränsa vad den inte ska göra. Det görs paradoxalt nog genom att just precis fokusera på önskat beteende. Genom att lägga till kontext, sätta upp guardrails och formulera promptar som tydligt ramar in uppgiften, styr man modellen bort från oönskade tolkningar och mot ett mer förutsägbart resultat.
En applikation, eller chatbot, som levererar opålitlig eller hallucinerad information kan skapa fler problem än den löser. Men det har inte alltid varit så här. För några år sedan var det faktiskt tvärtom. Chatbotar hade 0% hallucinationer, men de var däremot trögare, dummare och kunde inte hantera naturligt språk.
Från gamla NLU-modeller till dagens språkmodeller
Tidigare byggdes chatbotar ofta med så kallade NLU-modeller (Natural Language Understanding). Dessa modeller krävde att vi manuellt definierade specifika intentioner och träningsfraser för att systemet skulle kunna förstå användarens frågor. De var förutsägbara och pålitliga – hade modellen tränats för en viss fråga gav den konsekvent samma svar.
Den stora svagheten låg dock i deras oförmåga att hantera konversationer på samma sätt som människor. De fungerade utmärkt inom smala, tydligt avgränsade områden med lätta frågor att förutse. Men när användare ställde en oväntad fråga – något utanför träningsområdet – gavs ofta det frustrerande svaret: ”Tyvärr, jag har inget svar på din fråga.” Problemet var just att mänsklig kommunikation ofta är oförutsägbar på det sättet.
Jag brukar beskriva NLU-modeller som ett korthus – snyggt och noggrant uppbyggt för ett specifikt syfte, men så fort det kom en oväntad formulering eller fråga rasade allt samman.
Jag minns tydligt när jag arbetade med en stor NLU-modell för telefonsamtal. Modellen hade ungefär 200 olika intents med 5–10 träningsfraser vardera, förstärkta med entiteter. Men eftersom naturligt språk är komplext, varierat och ibland ostrukturerat var det ofta modellen misslyckades med att korrekt tolka användarens avsikt. Efter att ha lagt över 200 timmar på träning, tester och förbättringar var detta oerhört frustrerande.
Den nya generationen språkmodeller
Dagens språkmodeller erbjuder en helt annan verklighet. De kan direkt förstå och generera språk med en häpnadsväckande flexibilitet – helt utan att kräva manuellt skrivna intentioner eller träningsfraser. Varje ny modell sedan 2022 har varit ännu mer imponerande.
För dem som först mötte den här tekniken var upplevelsen nästan magisk, och uppfattad som överlägsen intelligens. För språkteknologer, conversation designers och utvecklare som länge arbetat med människa-till-dator-kommunikation var det inget mindre än en revolution – ett kraftfullt verktyg med enorm potential. Men med den ökade kapaciteten följde också en ny utmaning: kontroll över vad modellen faktiskt säger.
Det förvånar mig därför inte att det råder delade meningar om språkmodeller och AI. För mig, och många andra med ambitionen att kunna prata naturligt med maskiner, är detta ett otroligt spännande område att verka inom. Varje experiment tar oss ett steg närmare en framtid där konversationen med AI känns helt naturlig. Men det är viktigt att minnas att språkmodeller i sig inte ”vet” någonting. Kunskapen finns i systemen omkring – databaser, grafer och andra informationskällor. Språkmodellerna agerar istället som ett gränssnitt för att kommunicera med denna information.
Från att övertyga till att hantera förväntningar
Arbetet som conversation designer eller utvecklare har alltså skiftat perspektiv. Tidigare handlade det ofta om att övertyga människor om att chatbotar faktiskt kunde bidra med något värdefullt, trots deras brister. Idag handlar det snarare om att hantera förväntningar och tydligt kommunicera vad generativ AI faktiskt kan och inte kan göra.
Språkmodeller har en imponerande förmåga att förstå naturligt språk, men deras svaghet att generera trovärdiga svar. Detta leder till missförstånd och hallucinationer, vilket skapar frustration hos användarna. Vi människor är vana att tolka subtila sociala signaler i språket – som säkerhet, intelligens och kunskap. När vi omedvetet försöker läsa av dessa signaler när vi kommunicerar med en språkmodell uppstår ofta felbedömningar.
Mycket av mitt arbete idag handlar därför om att hålla språkmodeller i schack och säkerställa att deras svar är trovärdiga och korrekta. Detta har gett mig en hel del kunskap och insikt om hur olika åtgärder och tekniker faktiskt påverkar resultaten.
På senare tid har AI-agenter lyfts fram som nästa stora genombrott. Tidigt såg vi exempelvis Perplexity, och nyligen har så kallade "Deep Research-agenter”, som både OpenAI och Google lanserat, börjat få mycket uppmärksamhet.
I praktiken handlar det helt enkelt om en annan typ av arkitektur där språkmodeller "jobbar tillsammans". Det är särskilt intressant eftersom just arkitektur var avgörande när vi byggde agenter baserade på NLU-modeller.
De kvalitativa skillnaderna i svar är betydande och ofta imponerande i agent-system, men nackdelen är oftast högre kostnader och längre svarstider per svar.
Är AI-agenterna framtiden?
Frågan många ställer sig är: Hur mycket är ren hype, och hur mycket verklig nytta levererar dessa AI-agenter egentligen?
Mycket pekar idag på att de senaste framstegen inom AI-agenters arkitektur har potential att revolutionera många branscher. Men utvecklingen kommer sannolikt att ske ganska ojämnt – vissa områden kommer snabbt att integrera AI-agenter medan andra kommer att ta längre tid på sig.
Det finns en mängd rapporter som både bekräftar och nyanserar hur stor påverkan AI-agenter kan komma att ha inom olika områden. Många av dessa rapporter är mycket optimistiska – inte sällan från aktörer som själva utvecklar språkmodeller.
Inom en snar framtid kommer kanske begreppet ”AI-agenter” gå från att vara ett buzzword till att bli helt normaliserat. Eller så försvinner själva ordet, men produkterna bakom det blir normaliserade.
Precis som med andra typer av verktyg kommer specialiserade lösningar vara att föredra framför generella lösningar. Språkmodeller är kraftfulla, men bara en del av helheten – ett verktyg måste alltid väljas och anpassas efter användningsområde. Precis som man idag väljer ett specialiserat CRM-verktyg istället för att använda Excel som CRM-system, kommer vi troligtvis välja specialiserade AI-agenter och AI-verktyg anpassade efter våra behov.
Denna specialisering öppnar upp för en marknad där nischade AI-agenter, skräddarsydda efter specifika branschers behov, blir avgörande. De mer allmäna och generella AI-agenterna kommer sannolikt ha svårt att tävla med dessa på sikt.
På lång sikt är det viktigt att förstå att AI-agenter (eller vad vi nu väljer att kalla dem) sannolikt inte kommer att ”rädda” oss över en natt. Istället kommer de gradvis att bli en naturlig del av vår verktygslåda – något vi lär oss använda, förbättra och integrera i vardagliga arbetsflöden.
Precis som med tidigare teknikskiften kommer vi att möta både tydliga begränsningar och möjligheter. Genom att fortsätta utforska, experimentera och utmana tekniken tar vi oss stegvis framåt och lär oss mer om var tekniken gör störst nytta.