Google med kraftig oppgradering for Bard AI:

Chatbot'er ett år etterpå: Hva har vi lært?

15. desember ifjor skrev jeg en kronikk om mine første erfaringer med ChatGPT. Planen var å publisere en ny artikkel nøyaktig ett år etterpå, men etter at Google lanserte sin Gemini-oppgradering onsdag, er det like greit å slå sammen denne nyheten med mine egne refleksjoner allerede nå.

Publisert Sist oppdatert

Vi tar nyheten først: Google ruller ut Gemini

Google lanserte onsdag 6. desember en potensiell "ChatGPT-killer": Språkmodellen Gemini (se ekstern nyhetsartikkel fra Google), som Google Deepmind ikke omtaler som en tradisjonell stor språkmodell (large language model/LLM), men som en multimodal model som håndterer tekst, audio, bilder og datakode sømløst. 

Gratisversjonen Gemini Pro rulles nå ut som motor i Google ChatGPT-konkurrent Bard, mens Gemini Ultra lanseres på nyåret. 

Sistnevnte skal være kraftigere enn ChatGPT 4 innen de fleste måleparametere, og vil være utviklet for det kommersielle markedet og brukere som trenger en mer kompleks modell (enn ChatGPT 4 eller Gemini Pro). 

Grensene for hva disse modellene klarer pushes stadig fremover, med bildegjenkjenning og muligheter til å trekke konklusjoner ut fra grafer og illustrasjoner som en spennende ny funksjon innen analyse og research.

Ett år siden vi først skrev om LLM'ene

Large language models, det vil si store språkmodeller, har eksistert en stund, men det var først i november i fjor det virkelig "tok av". OpenAI tok verden med storm for ett år siden da de lanserte ChatGPT 3,5 for et større globalt publikum. Disse modellene har tilgang på enorme mengder datasett som lærer de opp til å kunne svare på både enkle og komplekse spørsmål. Kvaliteten på svarene avhenger i stor grad av kvaliteten på dataene som modellene kan lære seg opp på.

For et år siden tok jeg det for gitt at Google ville lansere en egen modell på markedet, og helt riktig har Bard vist seg å være en mer enn verdig konkurrent til ChatGPT. Det er ikke ukontroversielt å hevde at Bard på mange områder er bedre enn gratisversjonen ChatGPT 3,5. Ikke minst siden den er trent opp på nyere data enn ChatGPT 3,5, en modell som fortsatt hemmes av at den er trent opp på datasett frem til og med høsten 2021. 

Og en skal heller ikke glemme Claude, en språkmodell som er utviklet av selskapet Anthropic. Denne løsningen har kun blitt lansert i visse regioner, og er dermed ikke allment tilgjengelig i Norge enda. Også i dette tilfellet skal gratisversjonen være bedre enn ChatGPT 3,5, men ikke fullt så kraftig eller oppdatert som ChatGPT 4.  

Man kan ikke unngå å bli imponert over hva teknologien er kapabel til allerede nå, og hvor hurtig utviklingen går. Og vi vet samtidig at utviklermiljøene ikke er ferdig. Utviklingen kommer til å fortsette i et heseblesende tempo. Og faren for at utviklingen innen kunstig intelligens går for fort er høyst reell. Det er på høy tid at man tar de tunge debattene om personvern, eierskap til data, og ikke minst menneskehetens sikkerhet.

For når vi først har klemt tannkremen ut av tuben, er det i praksis umulig å få den tilbake i igjen i tuben. Det er som med atombomben. Når den først er utviklet og man har oppskriften, da er det ingen vei tilbake. Da må menneskeheten forvalte den nye kunnskapen på best mulig vis. Kunstig intelligens har absolutt både skyggesider og etiske problemstillinger ved seg som vi ikke må skygge unna. Men det må likevel ikke være til hinder for å ta teknologien i bruk, på en forsvarlig måte. 

Fortsatt "hallusinering" og feil

For et år siden handlet min kommentar først og fremst om hvorvidt man kunne stole på de svarene ChatGPT 3,5 kom opp med. Da, som nå, er kvaliteten av varierende kvalitet. Såkalt "hallusinering" er et velkjent problem for disse modellene. For ett år siden så en klart begrensning i modellene (da ChatGPT 3,5) ved at det var klart at modellene kun kunne generere svar basert på det den allerede hadde trent på. Enkelte har hevdet at modellen var mest for en "høyteknologisk papegøye" å regne. Skrur vi tiden frem til desember 2023, har det skjedd en ekstraordinær utvikling. Evnene til kombinere bilder, tekst, grafer og lyd, er i seg selv banebrytende, når vi samtidig ser de første tegnene på at modellene begynner å resonnere selv, så er det opplagt at vi har kommet til et nytt viktig vannskille i den teknologiske utviklingen.    

Men samme hvor imponert man er, er det likevel fortsatt viktig å innta en kritisk tilnærming til svarene fra de digitale "Besserwisserne". Evnen til kildekritikk hviler på deg.   

Jeg er imidlertid styrket i troen på at denne teknologien vil bli den "gamechangeren" jeg spådde det kunne bli for et år siden. Ikke minst siden det å utvikle bedriftsspesifikke tjenester der man kombinerer egne data med språkmodellenes, har blitt en veldig viktig salgspitch både hos OpenAI, Alphabet (Google) og Anthropic. Kvaliteten på output til modellen og API-et vil i stor grad avhenge av datakvaliteten på input, og den er det bedriften selv som rår over. 

Test teknologien selv!

Jeg er godt kjent med at en del av Logistikk Insides lesere er enda mer viderekomne i bruken av de ulike språkmodellene enn meg. Det finnes bedrifter som allerede har integrert API-løsninger basert på ChatGPT 4 innen kundesupport og lagerstyring. Så min misjon med de følgende avsnittene er ikke å selge inn meg selv som en ekspert blant de som allerede har forstått kraften i det som ligger i disse modellene, og hvordan de kan være med på å forme næringslivsbedriftene i årene som kommer. Nei, det er først og fremst å "slå på lyset" for de som nå, ett år etter at ChatGPT ble lansert for publikum, fortsatt ikke har vært inne og kikket på teknologien. 

Om du tar med deg én eneste ting fra denne artikkelen, er det å teste ut teknologien selv!

Både Google Bard og OpenAIs Chat GPT har gratisversjoner. I kroner og øre koster det deg ingenting å bli litt mer kjent med teknologien. Den eneste investeringen du må gi er det viktigste du har, din egen tid. Jeg mener det er vel anvendt tid. 

Konkrete tips til instruksdesign

  • Språkmodellene er ikke som Googles tradisjonelle søkemotor, som kommer opp med de samme søkeresultatene hver gang. Vær klar over at variasjon er et grunnleggende prinsipp i grunnarkitekturen i disse språkmodellene. Modellene har incentiver for å komme opp med ulike svar på nøyaktig det samme spørsmålet. 
  • Instruksdesign/prompt engineering vokser frem som et eget fagfelt. Det ligger mye "kunst" i å stille de riktige spørsmålene. Det er ikke gjort i en håndvending å mestre denne nye kunsten, men et konkret tips er å fore spørsmålet med så mye relevant informasjon som mulig. Jo mer data og momenter det ligger i spørsmålet, jo mer "treningsdata" kan modellen generere svar fra. Så legg vekk "uvanen" fra Google-søk der spørsmålene skal være så korte og konsise som mulig! Forestill deg at du skal legge et pusslespill, og legg på bordet alle pusslespillbrikkene du har tilgjengelig selv, og be modellen om å "fylle inn resten". 
  • Modellene er som regel basert på "gammel info". Og en viktig grunn til at mange av de svarene man får oppleves som av god kvalitet, er fordi modellene har gjennomgått en lengre prosess med menneskelig feedback på svarene den gir, såkalt Reinforcement Learning with Human Feedback (RLHF). 
  • Husk personvern og å verne om bedriftskritisk informasjon. Datainput du legger inn kan bli brukt som basis for ny treningsdata for senere versjoner av "motoren" i modellene. Konferer med brukervilkårene. For bedriftsløsninger finnes det økt grad av sikkerhet mot at bedriftskritisk informajson kommer på avveie.  

Og prøv gjerne begge. Bards salgspitch er at den har mer oppdaterte data, og altså at den nye Gemini Pro-modellen vil være "motoren under panseret". 

Når det gjelder OpenAIs ChatGPT anbefaler jeg at du benytter deg av den innebygde Chat-funksjonen i Microsoft Bings søkemotor. Denne tar i bruk den kraftigere ChatGPT 4-modellen som har mer oppdatert datasett enn den man finner fritt tilgjengelig hos OpenAI.com (Skal man ha tilgang til ChatGPT 4 via OpenAI koster det noen hundrelapper i måneden).  

Sett av et par timer på å gi modellen noe å bryne seg på. Start gjerne med å be den om å komme med forslag til julegaver til barna eller ektefellen, forslag til feriereiser, gjøremål i juleferien, eller forslag til trenings- og kostholdsprogram når juleribba skal trimmes vekk. Etter denne "oppvarmingen# begynner den ordentlige øvelsen, der du fletter inn mer konkrete jobbrelaterte spørsmål som kan knyttes til ditt eget fagområde og dine ansvarsområder. 

Hvilke datasett er viktig for din bedrift?

Verdien i denne øvelsen ligger ikke nødvendigvis i å løse store problemer her og nå, men at du lærer deg helt grunnleggende kunnskaper om hvordan "kalkulatoren" fungerer, og hvordan du kan preppe modellene på å gi deg best mulig svar i retur. For du vet utmerket vel at mange av verdens skarpeste hoder holder på med å utvikle funksjonaliteten ytterligere.  

Grensesnittene mellom disse modellene og ens egne forretningsdata vil bare bli kortere i årene som kommer. Allerede i dag kan en person med forholdsvis begrenset IT- og programmeringskunnskap lage egen funksjonalitet for ens egen bedrift. Enten det er snakk om å forbedre kunde- eller bookingsupport, lage innkjøpsprognoser eller et helt basic ruteoptimaliserings- eller lagerstyringssystem. 

Våre abonnenter er gjerne ikke de som utfører tekniske oppgaver, men de som bestemmer. Enten det er snakk om innkjøp, endringer i den operative driften, det å styre en organisasjonsenhet eller som setter den strategiske kursen for selskapet. 

  • Det betyr at den kanskje viktigste beslutningen du tar er hvilke data som er verdifulle for nettopp din bedrift? 
  • Hvordan skal dere "vaske" disse? 
  • Hvor og hvordan oppbevarer dere og forvalter dere disse dataene? 
  • Og hva kan dere bruke disse dataene til i fremtiden? 

Utfordringen med disse modellene, enten du kaller de språkmodeller eller multimodale modeller, er at de ikke har bestemte "funksjoner" eller at det følger med noen brukermanual. Kvaliteten på spørsmålene du stiller, det man i fagsjargongen kaller promt engineering, eller instruksdesign, er helt avgjørende. For det er disse, kombinert med datasettet modellen sitter på, som avgjør hvor gode svar man får i retur av modellene. Med andre ord, "Shit in = Shit out". Har man god datakvalitet, da er det gode muligheter for at kvaliteten på dataene du får i retur, er god.

Bedriften kan naturligvis ansette en promt engineer for å spisse spørsmål og hjelpe til på veien, men det blir som å skaffe seg en sjåfør. Som bedriftsleder må du vite hvor du skal, og dermed hva du ønsker svar på. Det er et ansvar man som bedriftseier eller næringslivsleder ikke kan løpe fra. 

TMS- og WMS-markedet får nye verktøy - og økt konkurranse

I all hypen rundt modeller som ChatGPT, Bard og Claude, er det verdt å minne om at kunstig intelligens på ingen måte er noe nytt. Knapt noen bransje er mer nedsyltet i algortimenes verden enn logistikk- og transportbransjen. Ethvert WMS-, TMS og ruteoptimaliseringssystem baserer seg på tolkning av data og oversetter disse til logiske slutninger de presenterer for oss på en skjerm i vår arbeidshverdag. 

Noe av det som blir mest spennende å følge med på fremover, er å se hvordan det etablerte leverandørmarkedet vil påvirkes av disse modellene. Ny og billigere teknologi, som kan integreres med eksisterende teknologi, vil gi grunnlag for enda bedre tjenester enn i dag. Det representerer oppsiden. 

Den potensielle nedsiden er at leverandørene må selge inn sine USP'er (unique selling points) bedre enn i dag, når "Hvermansen" i praksis får verktøyene til å lage egne skreddersydde tjenester. 

En parallell kan trekkes til design av hjemmesider, og hvordan dette markedet ble revolusjonert med løsninger som Wordpress og Wix, og der det vokste opp en hel skog av leverandører som tilbydde seg å sette opp en hjemmeside for "en slikk og ingenting". 

En kan anta at noe lignende vil skje innen TMS- og WMS-markedet de nærmeste årene. Men da er det også verdt å ta med de samme utfordringene man gjerne finner for hjemmesider, med selskaper som spretter opp for så å forsvinne kort tid etter (som gir mangelfull kundesupport over tid) og utfordringer knyttet til personvern og sikkerhet. Bedriftskritiske data er ikke noe man skal ta lett på i et samfunns- og næringsliv som blir stadig mer digitalisert. 

Skal du kvitte deg med en etablert leverandør, må du være veldig klar over risikomomentene fremover. Dyp fagkunnskap ervervet over lang tid gjennom praktisk problemløsing og gjennom tett samarbeid med bransjen over mange år, vil ikke gå av moten selv om nye konkurrenter kommer på banen. Men ny teknologi har åpnet en ny verden, og en prisstruktur som bør komme deg til gode, som en lojal og langvarig kunde, enten gjennom enda bedre løsninger og/eller lavere kostnader.

Kundesupport 

Der språkmodellene har blitt mest brukt til nå i næringslivet er innen kundesupport, der man automatiserer dialogen med kunder, enten det er å rådgi om bedriftens produkter eller å håndtere klager, returer eller innkommende henvendelser av ulik art. 

Som hos Zalando, som har laget en digital salgsmedarbeider som kan hjelpe kunden å navigere rundt det enorme vareutvalget.  Den økonomiske terskelen har blitt senket ned til et nivå der man ikke trenger å være et stort selskap for å ta en slik investering.  

Innkjøp

Andre opplagte bruksområder er innen sourcing og innkjøp. Modellene kan effektivisere prosessen med å finne og evaluere leverandører. Allerede i dag kan modellene brukes til dette, og datagrunnlaget vil bare vokse etter hvert som treningsdataene til modellene blir oppdatert. Kombinerer man leverandørdata med prisdata, ligger det også et potensielt bruksområde innen det å forhandle bedre avtaler. 

Kommunikasjon

Vi var alle kjent med Google Translate og lignende verktøy fra før, men ChatGPT har bidratt til å senke terskelen for å oversette språk på tvers av landegrenser. Dette gjør det lettere å kommunisere og forstå hverandre, og vil fungere som et smøremiddel i internasjonal logistikk og handel. 

Det som er fascinerende er at ChatGPT per nå er bedre enn Google Translate til å oversette tekst. Mens sistnevnte er veldig god til å oversette enkeltord, er ChatGPT langt bedre til å gi en kontekstuell oversettelse enn Google Translate (per i dag).

Ekstra "prosjektmedarbeider" eller "styremedlem" uten stemmerett

Å ha med seg en modell som ChatGPT eller Bard inn i et prosjekt- eller styremøte kan bidra til å løfte opp diskusjoner, temaer og ideer. En kjent utfordring i mange miljøer er forutinntatthet, såkalt "bias", der det kan være fruktbart å få inn helt nye perspektiver. 

For eksempel kan man forberede én eller flere prompter på det som er en del av agendaen for møtet, for deretter ha med seg responsene som en del av underlaget man diskuterer i møtet. Fallhøyden for en slik tilnærming er liten. Det verste som kan skje er at man ikke finner noen verdi i svarene på de promptene man gir, mens det iblant vil kunne gi verdifull input. 

Powered by Labrador CMS