KI som semiotiske maskiner
Jeg er ikke blant dem som tror siste års gjennombrudd innen KI, og da helst generativ KI, innebærer at vi er på vei til å skape såkalt AGI, dvs Artificial General Intelligence, hvor KI kan overta for mennesker i hvilke som helst aktiviteter hvor beslutninger, resonnering, vurderinger etc inngår. Men jeg er heller ikke blant dem avfeier KI som rene stokastiske papegøyer.
I stedet tenker jeg at det er bedre å se på den delen av KI som er basert på nevrale nettverk som en form for semiotiske maskiner.
Semiotikk er læren om tegn, tegnproduksjon og tegntolkning, og en semiotisk maskin er et mekanisk system som får ett eller flere tegn som innputt, og leverer ett eller flere tegn som resultat.
Men det høres jo ut som hvilket som helst datasystem, så hva er da egentlig som karakteriserer KI som semiotiske maskiner? Det er, slik jeg ser det, særlig to forhold som skiller et semiotisk system fra et klassisk system:
- Determinisme vs. ikke-determinisme
- Informasjon vs. Mening
Jeg skal utbrodere disse to skillene litt, og så si noe om hva perspektivet KI som semiotiske maskiner kan bidra med i noen sentrale problemstillinger knyttet til KI. Disse problemstillingene som jeg kommer tilbake til er:
- KI og tenkning
- KI, fakta og hallusinasjoner
- KI og resonnering
- Hva er det vi trener? Syntetisk subjekt vs. Umberto Ecos Encyclopedia
Det skilles gjerne mellom generativ KI (produserer tekst/bilder/video) og predikativ KI (tolke/kategorisere data/tekst/bilder/video etc.). Jeg tenker begge typer kan sies å være semiotiske maskiner, selv om de ellers har ulike karakteristikker og svært forskjellige bruksområder. Predikativ KI handler gjerne om å koble en type tegn som tolkning av en annen type tegn, f.eks. en type diagnose basert på en type røntgenbilder. Generativ KI handler om å sette i gang en form for semiosis, dvs en prosess av tegn som tolker andre tegn i en strøm.
Determinisme vs. Ikke-determinisme
La oss si at vi både har et klassisk system og et semiotisk system som tar farge som innputt, og basert på det, avgir ett ord som beskriver en assosiasjon som resultat. I et klassisk system er forholdet mellom innputt og resultat regelbasert og deterministisk. Typisk vil det ta innputt, sammenligne det med et sett av farger i en base hvor fargene er lenket til et ord og så levere det ordet som resultat. F.eks. {rødt} -> ‘fare’. Samme innputt gir samme ord hver gang så lenge ikke man endrer basen. Endringer i basen vil også gi forutsigbare endringer i resultatet av en gitt innputt. Endrer man ordet assosiert med {rødt} til f.eks. ‘sensuelt’ vet man at neste gang {rødt} brukes som innputt, vil resultatet være ‘sensuelt’.
I den semiotiske varianten er forholdet mellom innputt og resultat ikke-deterministisk. Dvs. probabilistisk, variabelt og kontekstsensitivt. Dette tilsvarer da hvordan et tegn og hva tegnet står for, er knyttet sammen av vane/konvensjon el. Hvis du spør noen om hva de assosierer med rødt, vil svaret avhenge av hvem du spør, om farger er en viktig del av hverdagen, og sikkert både den kulturelle og sosio-kulturelle bakgrunnen.
Treningen av en farge-modell for et slikt system vil da på en måte ekstrahere disse vanene/konvensjonene fra treningsmaterialet og lage en matematisk probabilistisk modell hvor den resulterende assosiasjonen kan ses på som den mest sannsynlige tolkningen av innputt. Til forskjell fra den klassiske varianten, vil endringer i treningsmaterialet for dette systemet ikke på samme måte gi forutsigbare konsekvenser med tanke på innputt og resultat. Det vil også si at evaluering og testing av semiotiske systemer kan bli annerledes enn med klassiske. For eksempel kan man bruke andre, kanskje mer spesialiserte, språkmodeller til å evaluere/kategorisere innputt->utputt av den språkmodellen man evaluerer. Men ofte vil man trenge menneskelige ‘dommere’.
Nå vil mange innvende og si at et semiotisk system ikke kan være ikke-deterministisk i streng forstand, siden den er bygget på et klassisk system i bunn. Det er riktig. Men i denne sammenhengen kan vi ta utgangspunkt i at det fungerer som ikke-deterministisk i de fleste praktiske henseende, og at det er slik vi bruker disse systemene i et sosio-teknisk perspektiv.
Det er fordeler og ulemper med både klassiske og semiotiske systemer. At et system er deterministisk er i de aller, aller fleste sammenhenger helt kritisk nødvendig – og slik systemer i det hele tatt bør være. Men semiotiske systemer kan fungere best i noen sammenhenger. F.eks hvis både innputt og resultat kan sies å være ‘fuzzy’, og hvor heller ikke sammenhengen er entydig. Bruken av fuzzy’ er her hentet fra ‘fuzzy logic’ som er basert på at sannhetsverdien til et utsagn ikke nødvendigvis er enten-eller, men kan sies å være et sted imellom. F.eks. ‘denne fargen er rød’ vil i praksis ofte være fuzzy. Det finnes mange grader av rødt, og når går det egentlig fra å være en farge til en annen, f.eks. fra rødt til rosa? Og ofte vil det være kontekstavhengig. Det som bare er rødt for meg, kan være en hel rekke identifiserbare farger for en kunstmaler. På samme måte vil de mulige assosiasjonene til rødt, f.eks. ‘fare’ eller ‘sensuelt’, også være fuzzy kategorier. Og om man så tolker rødt som det ene eller andre vil selvfølgelig også være kontekstavhengig og langt fra entydig. Et semiotisk system lar oss navigere disse uklarhetene på en måte som tilsvarer det mennesker gjør, uten at vi må lage eksplisitte regler for det. Og, som vi har sett, kan det være veldig kraftfullt.
På den andre siden er det selvfølgelig mange sammenhenger hvor farger må være entydig definert, og hvor et klassisk system løser det bedre. Pantone har f.eks. gjort business på å etablere register over entydig definerte fargetoner som brukes i forbindelse med maling, grafisk design og trykk ol.
Informasjon vs. Mening
I dagligtale vil hva vi legger i ‘informasjon’ og ‘mening’ gli over i hverandre, men når vi snakker om datasystemer, har ‘informasjon’ en mer abstrakt og begrenset betydning. Litt spissformulert kan vi si, at hvis vi tar ordet ‘hest’, så vil informasjon handle utelukkende om hvordan ordet skrives – uten å ta noe som helst hensyn til at det dreier seg om et dyr mange liker å ri på. Det latinske uttrykket for ‘hest’, ‘Equus ferus caballus’, har i det perspektivet rikere informasjonsverdi for et datasystem enn det norske, fordi det består av både flere bokstaver totalt og bruker flere ulike bokstaver – uavhengig om at vi snakker om samme dyret.
Datasystemer er fabelaktige til å behandle og manipulere slik informasjon. Et bilde kan f.eks. gjøres mer rødt fordi hver prikk i bildet har en informasjonsverdi som enkelt kan manipuleres til å gjøre prikken rødere på skjermen. Men klassiske datasystemer kan i utgangspunktet ikke håndtere mening slik som vi forstår det. Man kan lage systemer for f.eks. å kategorisere ting, slik at man si at både hunder, katter og hester er firbente dyr, og at man til hvert dyr kan koble hva det heter på en hel rekke ulike språk. Men det man gjør, er å eksplisitt koble ulike biter av informasjon (i snever forstand) sammen innenfor rammene som er satt av systemet. Mening får det først for oss som bruker systemet i en eller annen sammenheng.
Nå er det ikke slik at KI-systemer forstår mening, de heller, men KI-systemer kan sies å bygge opp, eller kanskje heller simulere, det vi kan tenke på som ‘semantiske rom’ når modellene trenes opp. Du kan spørre KI om både ‘hunder’ og ‘katter’ er ‘kjæledyr’, og få et ja, fordi hund-katt-kjæledyr har en matematisk uttrykt nærhet i dette KI-systemets ‘rom’ som da simulerer meningssammenhengene mellom disse begrepene på en måte som er analog med hvordan vi mennesker opplever dem.
Som sagt, KI forstår fremdeles ikke mening, og det er fremdeles bare informasjon som flyttes rundt i bunnen av det hele. Men simuleringen av meningssammenhenger er blitt såpass effektive at vi nå – på sett og vis – også kan manipulere informasjon basert på det vi opplever som meningsinnhold. På samme måte som vi i et klassisk system kan be om at et bilde skal bli rødere i fargetonen, kan vi i et semiotisk system f.eks. be om å gjøre en tekst mer ‘positiv’, selv om både tekstens meningsinnhold og kategorien ‘positiv’ er svært fuzzy i utgangspunktet. Dette gjøres nå så overbevisende at vi opplever det som at KI på et vis forstår teksten det dreier seg om – selv om det ‘bare’ handler om avanserte, men automatiserte, semiotiske mekanismer og det overhodet ikke er ‘noen’ der som forstår noe.
KI som semiotiske maskiner og noen sentrale problemstillinger
KI som semiotiske maskiner gir oss en alternativ inngang på mange av de sentrale problemstillingene vi opplever i forbindelse med KI. Her drøfter jeg kort noen av dem.
KI og tenkning
‘Maskiner som tenker’, heter Inga Strümkes bok om kunstig intelligens, og spørsmålet om KI kan sies å tenke, nå eller eventuelt i en senere versjon, dukker jevnlig opp. Jeg tror det spørsmålet bygger på en kategorifeil. De som mener KI tenker bruker av og til analogien om det å fly. Fly og helikoptre flyr, selv om de ikke flyr slik som fugler gjør. Argumentet er at mekanisk flyvning også er flyvning, selv om det ikke ligner på naturlig flyvning, og på samme måte tenker KI, selv om mekanisk tenkning ikke er det samme som naturlig tenkning.
Men den analogien passer bedre om semiotisk prosessering. KI innebærer mekanisk semiotisk prosessering, selv om den er annerledes enn naturlig semiotisk prosessering. På den andre siden innebærer menneskelig tenkning naturlig semiotisk prosessering, men det motsatte er ikke nødvendigvis tilfelle. Naturlig semiotisk prosessering forutsetter ikke menneskelig tenkning. Det foregår f.eks. også hos dyr med ulike nivå av bevissthet, og noen vil også hevde at det inngår i komplekse økosystemer og biologisk evolusjon. Biosemiotikk er f.eks. et eget fagfelt. Derav følger det også at mekanisk semiotisk prosessering ikke nødvendigvis impliserer at mekanisk tekning foregår.
Bevissthet og tenkning er altså én kontekst for semiotisk prosessering, men ikke en forutsetning. Og tenkning og semiotisk prosessering er slik sett ikke det samme, selv om det henger tett sammen for oss mennesker.
KI, fakta og hallusinasjoner
I et kjent sitat fra Umberto Eco beskrives semiotikk slik:
Semiotics is in principle the discipline studying everything which can be used in order to lie. If something cannot be used to tell a lie, conversely it cannot be used to tell the truth: it cannot in fact be used ‘to tell’ at all.
Og det sitatet tenker jeg nesten alltid på når KI og hallusinasjoner diskuteres. Semiotiske maskiner produserer meningsbærende sekvenser av tegn, de er ikke fakta-maskiner. Om ting er sant eller ikke, er helt sekundært.
I dette sitatet ligger også en spenning knyttet til hvordan vi forstår mening. Spissformulert så snakker vi gjerne om bilde-teorier vs. bruks-teorier om mening. Dvs. mening som basert på at språket referer til verden vs. mening som basert på hvordan vi bruker språket i en gitt kontekst. Dette høres jo ut som veldig akademisk distinksjon, men jeg tror dette absolutt er relevant for KI. Vår forventning til KI er knyttet til en slags common-sense variant av bilde-teori. Når KI ‘snakker’ meningsfullt, oppfatter vi det som at det har en forståelse av verden. Men KI er trent på bruks-mønstre, og snakker meningsfullt fordi det bruker språk slik vi er vant med at språk brukes. Personlig mener jeg at suksessen til generativ KI er et sterkt indisium i favør av bruks-teori for mening. Det utelukker selvfølgelig ikke at språk kan referere til verden, det er jo tross alt en veldig vanlig måte å bruke språk på, men referansene knyttes til verden fordi vi er sosiale vesener i en fysisk omgivelse. Som sagt, generativ KI er tegnproduserende maskiner, ikke fakta-maskiner.
KI og resonnering
Semiotikk gir oss også en inngang til å forstå KI og resonnering. La oss ta diagnostikk som eksempel, og i en svært forenklet form. Man har et tegn, forstått som Symptom (S), og et annet tegn som tolker (S), forstått som en Diagnose (D). I mange sammenhenger er koblingen mellom (S) og (D) direkte og vanebasert. For eksempel (S):’snørrete og tung i hodet om vinteren’ => (D):’forkjølelse’. I KI-sammenheng kan vi si at i slike sammenhenger, har koblingen mellom de to tegnene (S) og (D) høy sannsynlighet. Vi kan trene predikativ KI til å gjøre slike koblinger, f.eks. trene modeller på å lage koblinger mellom en viss type røntgenbilder og sannsynlig diagnose.
Men la oss si at vi har mer av et Dr. House-tilfelle hvor det ikke følger noen åpenbar (D) av (S). Dvs. alle mulige varianter av (D) har i utgangspunktet lav sannsynlighet. Resonnering handler om hvorfor en gitt (D) likevel kan kobles til (S)selv om sannsynligheten i utgangspunktet er lav – dvs. ingen etablert vane som kobler de to tegnene (S) og (D) direkte sammen. I stedet kobles de sammen vha argumenter, som vi her i den forenklede skjematiske formen kan illustrere som en kjede av tegn som kobler (S) og (D) sammen:
(S) => (A1) => (A2) … (An) => (D)
Resonnering er komplisert, fordi kjeden kan ikke bare være basert på vane. Mennesker briljerer her, på godt og vondt. Vi bruker på den ene siden både logikk og kreativitet for å lage disse kjedene, men på den andre sider er vi også, som bla. Kahneman har vist oss, styrt av ‘kognitive skjevheter/forutinntattheter’ som sammen med mer dagligdagse, kulturelle fordommer kan gjøre kjeden langt skjørere enn hva vi selv tror eller mener den er.
Utfordringene når vi prøver å mekanisere dette er derfor tosidig: Vi vil matche, og helst overgå, det som skjer på den positive siden, men samtidig helst unngå det som skjer på den negative siden. Det er ikke enkelt, om i det hele tatt mulig.
Faren med generativ KI, er at stilt i en situasjon med (S) hvor alle mulige (D) er med lav sannsynlighet, så vil KI med stor risiko bare ‘plukke’ en av dem mer eller mindre tilfeldig – uten samtidig kommunisere den lave sannsynligheten. For å hjelpe på dette, har man utviklet teknikker og modeller som ‘presser’ KI til å lage en argumentativ kjede, for eksempel såkalt ‘chain-of-thought’-prompting – og det viser seg å hjelpe. Videre har man trent slike ‘reasoning models’, som er språkmodeller som i tillegg er trent ekstra på å lage slike stegvise kjeder. Det hjelper også. Ulempen er at det tar lengre tid og rimeligvis bruker masse flere ‘tokens’, dvs. koster mye mer, og bruker mye mer energi og vann.
Men selv om disse teknikkene hjelper, er det fremdeles et veldig langt stykke igjen. Det er mange utfordringer i det å trene språkmodeller til å gjøre dette på ekspertnivå. Resonnering med språkmodeller fungerer best når det er viss forutsigbarhet i hvordan kjedene dannes – dvs. at det er mulig å trene på det. Det betyr f.eks. at det er langt igjen til at KI kan briljere innen vitenskapelige nyoppdagelser, siden det vil kunne kreve å lage kjedene på helt nye og uforutsigbare måter.
Trening av språkmodeller for resonnering fungerer også bedre når det er mulig å validere resultatene entydig – dvs. enklere å belønne når språkmodellene trener riktig. Det betyr at i mange sammenhenger, med åpne problemstillinger, hvor det inngår mye kontekstuell vurdering og det ikke er klar fasit, så vil det være usikkert hvor mye vi kan stole på resonnementene gjort av språkmodellene – og det gjelder dessverre de fleste former for beslutningsstøtte hvor vi ser for oss at KI skal bli en viktig del.
For at dette skal bli bedre, tror jeg uansett at en innfallsvinkel om at språkmodeller primært er semiotiske maskiner vil være mye bedre enn å bare gå ut fra at de er logiske maskiner – også for å få språkmodeller til å bli mer logiske og pålitelige.
Hva er det vi trener? Syntetisk subjekt vs. Umberto Ecos Encyclopedia
Hva trener vi når vi trener en språkmodell? Den nærliggende analogien er at det er som å trene en hjerne. Selv blant de som avviser at språkmodeller tenker eller på noe som helst vis er i nærheten av bevissthet, vil nok mange se på modellene som en form for syntetiske subjekter. Leser vi for eksempel Claudes Constitution (https://www.anthropic.com/constitution) er det hele basert på at Claude kan forstås som en form for subjekt, det blir jo helt meningsløst uten. Og siden vi hovedsakelig interagerer med disse modellene via chat-grensesnitt, er det antagelig uunngåelig at man konstruerer et avsender-subjekt under prosessen. Jeg tror likevel denne analogien fordreier vårt forhold til KI på en svært uheldig måte.
I semiotikken finner vi det jeg mener er en bedre modell: Umberto Ecos Encyclopedi. Når vi alle produserer og tolker tegn, så gjør vi det i en delt kontekst som gjør meningsutveksling mulig. Det er denne delte konteksten Umberto Eco betegner som Encyclopedi. Det er i hans bruk av ordet en abstrakt term som dekker totaliteten av våre kulturelle betingelser for tegnproduksjon og -tolkning. Det dekker ikke bare vanlige tegnforbindelser, eksisterende tekster, bilder filmer etc., men også sjangre, retoriske troper osv. og alt annet som inngår som del av vår sosiale og kulturelle omverden og meningsutveksling.
Mens Ecos Encyclopedi er en abstrakt term som dekker alt – et slags tankeeksperiment om et uendelig bibliotek, har vi likevel tilgang til konkrete deler av den via vår omgang med ‘lokale’ manifestasjoner av de tekster, bøker, filmer malerier osv som er del av vår kultur.
Når jeg knytter dette til språkmodeller, er det fordi jeg mener vi i stedet for å se på slike modeller som en slags mekaniske hjerner, kan vi heller se på dem som en form for mekaniske semiotiske encyklopedier. Når vi trener en språkmodell på de ‘lokale’ manifestasjonene som er deler og fragmenter av den universelle, abstrakte Encyklopedien, bygger vi på en måte en liten mekanisk encyklopedi som simulerer en bit av den universelle abstraksjonen. Litt som forholdet mellom den abstrakte Turing-maskinen og konkrete datamaskiner.
Encyklopedi kan være litt villedende her, fordi det gir assosiasjoner til leksikalske oppslagsverk med entydige definisjoner. Men Ecos Encyklopedi er mangetydig og rommer innbyrdes motstridende og inkoherente varianter av alt mulig. I stedet for et sett med hva-som-er-hva, er det mer et uendelig sett av repertoarer for hva vi kan snakke om og hvordan vi kan snakke om det (eller lage filmer av, lage kunst av etc).
For eksempel månelandingen:
- Det kan være en historie om menneskelig utforskning og vitenskapelig og teknologisk framskritt.
- Eller det kan være en historie om hemmelig maktutøvelse, manipulering og konspirasjoner.
Begge de to mulige, men innebyrdes motstridende, historiene inngår i vårt repertoar/Encyclopedi om månelandingen og kan aktiveres etter behov. Slik også med språkmodeller. Når vi trener en språkmodell, bygger vi ikke opp en hjerne. Vi bygger heller ikke et enormt oppslagsverk. I stedet bygger vi opp et enormt repertoar over ‘hva vi kan snakke om og hvordan vi kan snakke om det’ (eller lage bilder og filmer om). Det har noen konsekvenser:
- En språkmodell er ikke like smart som noen med PhD, men kan ha et repertoar for å snakke som en med PhD. I noen sammenhenger har ikke den forskjellen noen praktisk betydning, men i andre sammenhenger kan det være veldig viktig.
- Hvilket repertoar som aktiveres, kan være en stor utfordring, jfr. månelandingen. System-prompter er en av teknikkene vi bruker for å guide aktiveringene i riktig retning. Starter system-prompten med “You are a truthfull and respected scientist working at NASA…” får vi et helt annet resultat enn om vi det starter med “You are a crackpot podcaster obsessed with conspiracy theories …”
- Men som vi vet er slike teknikker for å styre aktiveringene langt fra idiotsikre. Når f.eks. praten vår med språkmodellene går over veldig mange runder, blir teksten vi sender modellene større og mer diffuse til tross for system-promptene og annen guiding – og det igjen øker sjansen for å ‘lekke aktiveringer’ fra uønskede repertoarer.
- Som vi har sett i det siste med f.eks. Grok, så er ikke repertoarer kulturelle eller politisk nøytrale. Det er naivt å forestille seg at bare vi lærer modellene nok fakta, blir de mer objektive faktamaskiner til slutt. Det kommer aldri til å skje.
Oppsummert
Jeg tror vi går oss litt vill i måten vi oppfatter KI som intelligens. Det gjør at vi både har urimelige forventninger til hva KI kan gjøre og antagelig også ender opp med å bruke det på områder det ikke burde brukes. KI som semiotiske maskiner gir en litt annen inngang. Det kan hjelpe oss i å lage bedre KI og bruke det mer fornuftig. Men jeg skjønner jo at det dessverre neppe vil slå an 🫤