DanskGPT tager konkurrencen op med ChatGPT

/files/assets/news/mads-henrichsen.jpeg
16. november 2023
Af Magnus Klarskov

DanskGPT vil være et dansk alternativ til ChatGPT. For en sprogmodel, der kender dansk sprog og kultur, er, ifølge Mads Henrichsen, der har skabt DanskGPT, vigtig, hvis vi skal fortsætte med at bruge sprogmodeller i vores kommunikation.

I en verden, hvor nye AI-programmer ugentligt ser dagens lys, rejser Mads Henrichsen en vigtig pointe. Han har skabt DanskGPT, en dansk sprogmodel, der ikke kun forstår det danske sprog, men også kulturen bag det.

”Når du bruger de store sprogmodeller, bliver sproget hurtigt stift og formelt, og sproget bærer præg af engelske vendinger og en mindre forståelse for den danske kultur. Hvis vi i fremtiden vil bruge dansk i de her modeller, så er vi nødt til at have en sprogmodel, der både forstår det danske sprog og særligt den danske kultur,” siger Mads Henrichsen.

DanskGPT, som du kan finde her, er egentlig et hobbyprojekt for Mads Henrichsen, der til daglig arbejder med automatisering hos pensionsselskabet PFA Pension. Alligevel estimerer han, at han har brugt omkring 1.000 timer og 102.000 kroner på at udvikle AI-programmet siden begyndelsen af 2023. Målet er nemlig ”at blive konkurrencedygtig med ChatGPT,” forklarer han.

”Hvis vi alle sammen fortsætter med at bruge ChatGPT, så kommer det danske sprog i vores kommunikation til at ligne sproget fra ChatGPT på sigt. Simpelthen, fordi testmaterialet i fremtiden i høj grad er produceret af sprogmodellerne selv. Det synes jeg er ærgerligt. Og derfor er det vigtigt, at vi får en dansk sprogmodel,” siger Mads Henrichsen.

Dansk sakker agterud i de store sprogmodeller

Manglen på dansk tekstmateriale i de store sprogmodeller har professor i sprogteknologi Bolette S. Pedersen tidligere omtalt i et interview med Kommagsinet.

Her lagde hun vægt på, at hvis man vil have gode sprogteknologiske værktøjer på dansk, så kræver det, at man tilføjer mere dansk tekstmateriale.

”Hvis det danske sprog ikke skal sakke agterud i de nyeste sprogmodeller, så er vi nødt til at se det som en samfundsopgave, at vi har en interesse som samfund i at promovere dansk tekstmateriale,” sagde hun.

Mads Henrichsen har taget den skridtet længere ved at producere en dansk model, der på nuværende tidspunkt er trænet på cirka tre milliarder danske ord og vendinger, der er sat sammen på kryds og tværs. Det kan lyde af meget, men ifølge Mads Henrichsen er ChatGPT trænet på ca. 6 billioner tokens, hvor hvert ord i gennemsnit består af to tokens.

”Det er ikke officielt offentligt, hvor mange procent af tekstmaterialet, som ChatGPT er trænet på, der er dansk, men min formodning er, at min model er trænet på mere dansk materiale. Det sprog, DanskGPT svarer på, er mere korrekt, end det som ChatGPT gør,” siger Mads Henrichsen.

Hvad ville der ske, hvis man fodrede DanskGPT i samme omfang som de store sprogmodeller?

”Jeg tror ikke, at den vil blive 100 gange bedre, men den vil få mere viden om verden, og den vil kunne svare dig på flere spørgsmål. DanskGPT har det med at hallucinere mere end ChatGPT, fordi den ikke er trænet på samme mængder data,” siger han.

Den største fordel lige nu

Det startede som et hobbyprojekt for Mads Henrichsen, men han ser et stort potentiale, selv om den for nuværende har flere mangler.

”Den største fordel ved DanskGPT lige nu er, at alle virksomheder kan køre den internt i deres virksomheder, uden at deres data flyder alle mulige steder hen. Så hvis de har nogle meget private oplysninger, for eksempel lægejournaler, så vil de trygt kunne bruge min model i stedet for ChatGPT,” siger han.

Men den data, som sprogmodellerne bruger, kan de jo bruge til at blive klogere på sig selv. Er du ikke bange for, at udviklingen af DanskGPT går for langsomt, hvis den ikke bruger dataen til at blive bedre?

”Jeg har bygget en statistisk model ligesom ChatGPT, og de bruger ikke dataene automatisk for at blive klogere på sig selv. Men ChatGPT indsamler den data, som du sender ind, men den lærer ikke nødvendigvis med det samme,” siger han, og påpeger at udvikling og datasikkerhed skal gå hånd-i-hånd.

”En anden ting, som DanskGPT har, er en funktion nede i bunden, du kan slå til. Hvis du gør det, så kan du hente information direkte fra Google, hvilket ChatGPT for eksempel ikke kan. Det vil sige, at den faktisk kan svare på spørgsmål om ting, der er sket for nyligt," siger han.

Hvad tænker du om fremtiden: Hvor er DanskGPT på vej hen?

”Målet er jo at blive lige så god som ChatGPT – og blive et dansk alternativ.”

Hvordan bliver den det?

“Hvis den skal blive lige så god, så skal den bare have mere data.” siger Mads Henrichsen.

Mads Henrichsen: Hvis det danske sprog ikke skal sakke agterud i de nyeste sprogmodeller, så er vi nødt til at se det som en samfundsopgave, at vi har en interesse som samfund i at promovere dansk tekstmateriale. Foto / PR

Løn og ansættelse

Fra 1. juli 2024 skal du have registreret din arbejdstid

Den nye registrering skal sikre, at regler om maksimal ugentlig arbejdstid og hviletid bliver overholdt. Det er den enkelte arbejdsgiver, der skal finde en metode, der passer til den pågældende virksomhed.

Job og karriere

Lytter du til dine kolleger?

I en travl og stresset hverdag, kan tidspres og mange opgaver få os til at fokusere mere på at svare eller afslutte samtaler hurtigt, end faktisk at forstå indholdet og intentionerne bag det, der bliver sagt. Husk derfor at lytte til dine kolleger. Når du gør det, er du med til at skabe et inkluderende og støttende arbejdsmiljø.

Job og karriere

4 trin til at håndtere nervøsiteten når du skal præstere

Hvis du synes det er svært for dig, når du bliver udfordret følelsesmæssigt eller professionelt på arbejdspladsen, får du her 4 værktøjer, der kan hjælpe dig med at styre situationen.

Edit page