Hva er

Inference

Prosessen der en ferdigtrent AI-modell genererer svar basert på input. I motsetning til trening, der modellen lærer.

Hva det er

Inference er prosessen der en ferdigtrent AI-modell brukes til å generere output fra nye inputs. Det er det som skjer når du sender et spørsmål til ChatGPT eller Claude — modellen kjører inference for å produsere et svar. I motsetning til trening, der modellen lærer, bruker inference det modellen allerede har lært.

Hvordan det fungerer

Under inference prosesserer modellen input-tokens gjennom sine nevrale nettverkslag og genererer output-tokens én om gangen. Hver genererte token krever beregning gjennom hele nettverket. Derfor er lengre svar dyrere å produsere. Teknikker som KV-cache, spekulativ dekoding og kvantisering brukes for å gjøre inference raskere og billigere.

Hvorfor det er relevant i 2026

Inference-kostnader er den største utgiftsposten for AI-selskaper. OpenAIs Sora ble lagt ned fordi inference kostet 1 million dollar daglig. Priskonkurransen er intens: DeepSeek V4 tilbyr inference til 0,30 dollar per million tokens — 10-20 ganger billigere enn vestlige konkurrenter. For bedrifter som bygger AI-produkter er inference-kostnad den viktigste variabelen i forretningsmodellen.

Relaterte begreper

Token GPU LLM

Artikler som bruker dette begrepet

Analyse · 22. juli 2026

Inference

Hva det er

Hvordan det fungerer

Hvorfor det er relevant i 2026

Alphabet tjente rekordmye. Kontantstrømmen ble negativ.

Datasentergründeren tok med seg halve milliarden til Sveits

Microsoft kjøper europeisk suverenitet av Mistral

OpenAIs egne modeller brøt ut av sandkassen og hacket Hugging Face

Apple mot OpenAI: rettssaken handler om kunden, ikke hemmelighetene