Prosessen der en ferdigtrent AI-modell genererer svar basert på input. I motsetning til trening, der modellen lærer.
Inference er prosessen der en ferdigtrent AI-modell brukes til å generere output fra nye inputs. Det er det som skjer når du sender et spørsmål til ChatGPT eller Claude — modellen kjører inference for å produsere et svar. I motsetning til trening, der modellen lærer, bruker inference det modellen allerede har lært.
Under inference prosesserer modellen input-tokens gjennom sine nevrale nettverkslag og genererer output-tokens én om gangen. Hver genererte token krever beregning gjennom hele nettverket. Derfor er lengre svar dyrere å produsere. Teknikker som KV-cache, spekulativ dekoding og kvantisering brukes for å gjøre inference raskere og billigere.
Inference-kostnader er den største utgiftsposten for AI-selskaper. OpenAIs Sora ble lagt ned fordi inference kostet 1 million dollar daglig. Priskonkurransen er intens: DeepSeek V4 tilbyr inference til 0,30 dollar per million tokens — 10-20 ganger billigere enn vestlige konkurrenter. For bedrifter som bygger AI-produkter er inference-kostnad den viktigste variabelen i forretningsmodellen.