DanskGPT tager konkurrencen op med ChatGPT

16. november 2023
Af Magnus Klarskov

DanskGPT vil være et dansk alternativ til ChatGPT. For en sprogmodel, der kender dansk sprog og kultur, er, ifølge Mads Henrichsen, der har skabt DanskGPT, vigtig, hvis vi skal fortsætte med at bruge sprogmodeller i vores kommunikation.

I en verden, hvor nye AI-programmer ugentligt ser dagens lys, rejser Mads Henrichsen en vigtig pointe. Han har skabt DanskGPT, en dansk sprogmodel, der ikke kun forstår det danske sprog, men også kulturen bag det.

”Når du bruger de store sprogmodeller, bliver sproget hurtigt stift og formelt, og sproget bærer præg af engelske vendinger og en mindre forståelse for den danske kultur. Hvis vi i fremtiden vil bruge dansk i de her modeller, så er vi nødt til at have en sprogmodel, der både forstår det danske sprog og særligt den danske kultur,” siger Mads Henrichsen.

DanskGPT, som du kan finde her, er egentlig et hobbyprojekt for Mads Henrichsen, der til daglig arbejder med automatisering hos pensionsselskabet PFA Pension. Alligevel estimerer han, at han har brugt omkring 1.000 timer og 102.000 kroner på at udvikle AI-programmet siden begyndelsen af 2023. Målet er nemlig ”at blive konkurrencedygtig med ChatGPT,” forklarer han.

”Hvis vi alle sammen fortsætter med at bruge ChatGPT, så kommer det danske sprog i vores kommunikation til at ligne sproget fra ChatGPT på sigt. Simpelthen, fordi testmaterialet i fremtiden i høj grad er produceret af sprogmodellerne selv. Det synes jeg er ærgerligt. Og derfor er det vigtigt, at vi får en dansk sprogmodel,” siger Mads Henrichsen.

Dansk sakker agterud i de store sprogmodeller

Manglen på dansk tekstmateriale i de store sprogmodeller har professor i sprogteknologi Bolette S. Pedersen tidligere omtalt i et interview med Kommagsinet.

Her lagde hun vægt på, at hvis man vil have gode sprogteknologiske værktøjer på dansk, så kræver det, at man tilføjer mere dansk tekstmateriale.

”Hvis det danske sprog ikke skal sakke agterud i de nyeste sprogmodeller, så er vi nødt til at se det som en samfundsopgave, at vi har en interesse som samfund i at promovere dansk tekstmateriale,” sagde hun.

Mads Henrichsen har taget den skridtet længere ved at producere en dansk model, der på nuværende tidspunkt er trænet på cirka tre milliarder danske ord og vendinger, der er sat sammen på kryds og tværs. Det kan lyde af meget, men ifølge Mads Henrichsen er ChatGPT trænet på ca. 6 billioner tokens, hvor hvert ord i gennemsnit består af to tokens.

”Det er ikke officielt offentligt, hvor mange procent af tekstmaterialet, som ChatGPT er trænet på, der er dansk, men min formodning er, at min model er trænet på mere dansk materiale. Det sprog, DanskGPT svarer på, er mere korrekt, end det som ChatGPT gør,” siger Mads Henrichsen.

Hvad ville der ske, hvis man fodrede DanskGPT i samme omfang som de store sprogmodeller?

”Jeg tror ikke, at den vil blive 100 gange bedre, men den vil få mere viden om verden, og den vil kunne svare dig på flere spørgsmål. DanskGPT har det med at hallucinere mere end ChatGPT, fordi den ikke er trænet på samme mængder data,” siger han.

Den største fordel lige nu

Det startede som et hobbyprojekt for Mads Henrichsen, men han ser et stort potentiale, selv om den for nuværende har flere mangler.

”Den største fordel ved DanskGPT lige nu er, at alle virksomheder kan køre den internt i deres virksomheder, uden at deres data flyder alle mulige steder hen. Så hvis de har nogle meget private oplysninger, for eksempel lægejournaler, så vil de trygt kunne bruge min model i stedet for ChatGPT,” siger han.

Men den data, som sprogmodellerne bruger, kan de jo bruge til at blive klogere på sig selv. Er du ikke bange for, at udviklingen af DanskGPT går for langsomt, hvis den ikke bruger dataen til at blive bedre?

”Jeg har bygget en statistisk model ligesom ChatGPT, og de bruger ikke dataene automatisk for at blive klogere på sig selv. Men ChatGPT indsamler den data, som du sender ind, men den lærer ikke nødvendigvis med det samme,” siger han, og påpeger at udvikling og datasikkerhed skal gå hånd-i-hånd.

”En anden ting, som DanskGPT har, er en funktion nede i bunden, du kan slå til. Hvis du gør det, så kan du hente information direkte fra Google, hvilket ChatGPT for eksempel ikke kan. Det vil sige, at den faktisk kan svare på spørgsmål om ting, der er sket for nyligt," siger han.

Hvad tænker du om fremtiden: Hvor er DanskGPT på vej hen?

”Målet er jo at blive lige så god som ChatGPT – og blive et dansk alternativ.”

Hvordan bliver den det?

“Hvis den skal blive lige så god, så skal den bare have mere data.” siger Mads Henrichsen.

Mads Henrichsen: Hvis det danske sprog ikke skal sakke agterud i de nyeste sprogmodeller, så er vi nødt til at se det som en samfundsopgave, at vi har en interesse som samfund i at promovere dansk tekstmateriale. Foto / PR

Fusion

Janne Gleerup er valgt til forperson i DM fra 2025

Den nye forperson i DM fra årsskiftet er Janne Gleerup. Janne er 50 år, uddannet cand.mag., ph.d. og arbejdsmarkedsforsker på RUC.

Løn og ansættelse

OK26: Akademikerne melder sig ud af Forhandlingsfællesskabet

Akademikerne har valgt at udtræde af Forhandlingsfællesskabet. Det betyder blandt andet, at akademikerorganisationerne ved OK26 på det kommunale og regionale område skal forhandle alle aftaler selv.

Job og karriere

10 gode råd, der ikke holder, når du søger job

Ikke alle gode råd er gode råd, når det kommer til stykket. Vennekredsen, tante Anna, onkel Ib og et væld af hjemmesider står parat til at hjælpe dig, når du skal søge job. Men pas på, for de gode råd er måske velmente, men langt fra altid gode. Kommunikation og Sprogs karriereteam giver dig her en liste med 10 råd til jobsøgning, som ikke altid er gode.

Edit page