På den internasjonale AI Plus-konferansen i Halden den 17. april, delte den svenske AI-eksperten Magnus Sahlgren, Head of Research for Natural Language Understanding ved AI Sweden, sin innsikt om den pågående utviklingen innen AI og store språkmodeller, såkalte large language models.
Den mest velkjente er naturligvis OpenAIs ChatGPT, men i dette segmentet kniver også Google (Gemini) og Anthropic (Claude) om en fremtidig tetposisjon. Tech-selskapene svir av enorme summer i å bygge opp disse modellene, og det har til nå vært enkelt å reise kapital til nye investeringer i et segment som spås å få en eksplosjonsartet utvikling de neste årene. Begrensningen nå er ikke tilgang på risikovillig kapital, men på tilstrekkelig datakraft. At Nvidia har vært en børsrakett og seilet opp i det ypperste toppsjiktet av selskaper globalt det siste året er fordi "alle" trenger den prosessorkraften selskapet klarer å levere.
Enorm datakraft
Som vi tidligere har skrevet i Logistikk Inside, er det også norske LLM-initiativ.
Som Sahlgren selv påpeker, det finnes ingen "små" LLM-aktører. Også den svenske språkmodellen er enorm, og legger beslag på en god del av datakraften i Sveriges eneste "supercomputer". En supercomputer er en uhyre kraftfull datamaskin som vanligvis er bygget ved å koble sammen et stort antall prosessorer eller noder for å utføre beregningene parallelt, noe som gjør dem i stand til å løse komplekse problemer mye raskere enn vanlige datamaskiner.
Den spenstige supercomputeren til tross, aktører som OpenAI/Microsoft og Google har mye større operasjoner. Både i datakraft og personell.
Flere år gamle - "lysår" i et fagfelt i enorm utvikling
Vår betegnelse av den svenske språkmodellen som "dum" er både tabloid og litt "sleivete". Til vårt forsvar var det betegnelsen Sahlgren selv ga modellene, da han skulle beskrive de om man sammenligner de mot de beste kommersielle LLM-ene på markedet i dag. Så ble da også kommentaren sagt med en solid dose glimt i øyet når han snakket om sitt eget hjertebarn.
- Så hvor gode er egentlig disse svenske modellene?
- De er veldig konkurransedyktige, om ikke bedre enn ledende kommersielle modeller i å skrive svenske tekster, men de er litt "dumme". Så hvis du faktisk vil løse oppgaver, er de ledende kommersielle modellene mye smartere til å forstå hvordan de skal gjøre det. Våre modeller er et par år gamle, og med utviklingen i AI-feltet, er dette "lysår", fortalte han.
En fri tolkning av utsagnet hans da er jo at modellene kanskje ikke er all verden i dag, men at det kan være vel verdt å vente på utviklingen.
Fordeler med egenutviklede modeller
Så om de kommersielle er smartere og bedre, hva er da vitsen med å ha "statlige" modeller som i stor grad er finansiert via offentlige midler?
Og her kommer det nok litt an på hvordan man definerer "bedre". For riktignok er modeller som ChatGPT et imponerende "beist" av en modell, men Sahlgren argumenterte godt for seg da han påpekte en del av betenkelighetene som ligger i å sette sin lit til ChatGPT som fremtidig digital infrastruktur.
- Hvorfor bør vi i det hele tatt bry oss om en slik modell? Hvorfor skal vi bygge disse enorme tingene på nasjonalt nivå når vi har disse "hyperscalers" som bare kan gi oss ferdig teknologi?
- Først av alt, vi trenger å ha kompetanse. Selv om vi ikke skal bygge systemene selv, må vi forstå hvordan de fungerer og hvordan de jobber. Ellers er vi bare "blinde" i teknologifeltet. Så en flott måte å få kompetanse på, er å prøve å bygge ting. Det er der du får erfaring, sa han.
Deretter fortalte han hva som var det viktigste aspektet, sett fra hans ståsted.
- Det er gjennomsiktighet. Hvis du ser på den internasjonale utviklingen med "hyperscalers" som gir oss fantastiske generelle modeller bak API-en, fungerer de bra. Men vi vet jo ingenting om modellen i seg selv. Faktisk gjør de det til et poeng å ikke fortelle oss om detaljene i modellene, påpekte han.
- Jeg forstår at dette er deres konkurransefortrinn, men hvis vi nå vil adoptere dette og implementere denne teknologien i skolene våre, eller i helsevesenet vårt, eller i offentlig sektor, må vi vite hvordan modellen fungerer. Og enda viktigere, vi må vite hva som er i dataene som modellene har blitt trent på, understreket han.
- Og jeg er ikke så bekymret for skjevhet og "giftighet" ("toxicity"). Du kan håndtere det i applikasjonen. Det jeg er bekymret for er representativitet. Hva er ikke i dataene? Hvilken del av svensk tekst har disse modellene blitt trent på? Og hvilken del har de ikke sett? Hvilke deler av kulturen vår og samfunnet vårt er ikke representert av disse modellene? Og hvis vi vil bruke disse i skolene og offentlig sektor, er det viktig at vi vet hva som er i disse modellene. Så gjennomsiktighet, representativitet, for å gjøre dette til et nasjonalt prosjekt, kan vi ta vare på dette. Vi kan være helt gjennomsiktige. Og det har vi vært siden starten. Vi har publisert informasjon om alle aspekter av utviklingen vår, påpekte han.
- Resilience, motstandsdyktighet, er også et viktig poeng. Det er en ganske ustabil verden der ute. Vi vet ikke om eksportrestriksjoner vil ramme oss. Og hvis de gjør det, må vi ha teknologi her i vår region, sa han.
- Og til slutt, et poeng som står mitt hjerte nær, demokratisering. Vi er store tilhengere av åpen kildekode. Du trener modellene dine på åpne data, og deretter gir du tilbake modellene dine, åpne, slik at alle kan bruke dem, la han til.
Modellene er tilgjengelige på Huggingface, men du bør skru ned forventningene til brukervennlighet en god del i forhold til det du er vant til fra de kommersielle modellene du bruker til daglig. Brukergrensesnittet er ikke tilpasset hverken "Medelsvensson" eller "folk flest".