Modeller·21. mars 2026·3 min lesing

Gemini 3.1 Flash-Lite: 2,5x raskere til /bin/zsh,25 per million tokens

Googles nye kostnadsoptimaliserte modell presser inferensprisene til et nytt bunnivå. For startups og volumproduksjon kan det endre regnestykket fundamentalt.

Av Redaksjonen

Foto: Pressebilde

Begreper i denne artikkelen

TokenMinste tekst-enhet en språkmodell prosesserer — omtrent 3/4 av et ord på engelsk.

InferenceProsessen der en ferdigtrent AI-modell genererer svar basert på input. I motsetning til trening, der modellen lærer.

GPUGraphics Processing Unit — prosessorbrikke som er essensiell for å trene og kjøre AI-modeller.

Google lanserte Gemini 3.1 Flash-Lite som del av 3.1-familien i mars — en modell designet utelukkende for hastighet og kostnad. Den leverer 2,5x raskere responstider og 45 % raskere output-generering enn forgjengeren.

Ytelse og pris

Prisen er /bin/zsh,25 per million input-tokens. For kontekst: Claude Opus 4.6 koster –15 per million, GPT-5.4 koster ,50. Flash-Lite er 10–60x billigere enn frontier-modeller, avhengig av konfigurasjon.

Flash-Lite er ikke en frontier-modell. Den er designet for oppgaver der hastighet og volum trumfer maksimal resonneringsevne: klassifisering, enkel uttrekk, innholdsfiltrering, sanntids-analyse.

Hvem den er for

For startups som prosesserer tusenvis eller millioner av forespørsler daglig, endrer Flash-Lite økonomien fundamentalt. En arbeidsflyt som koster per dag med Opus kan koste med Flash-Lite — hvis oppgaven ikke krever frontier-resonnering.

Den er også første Flash-modell med Ultra HD-output (4K-oppløsning) og Image Search Grounding — evnen til å integrere bildesøkresultater i genereringen.

Konkurransebildet

Flash-Lite konkurrerer med GPT-5.4 nano, Claude Haiku og Llama 4 Scout i det voksende «billig og rask»-segmentet. Googles fortrinn er integrasjonen med Google Cloud og Workspace. For team som allerede er i Googles økosystem, er terskelen lav. For andre er API-et tilgjengelig uten plattformavhengighet.

Trenden er tydelig: frontier-modeller for kompleks resonnering, billigmodeller for alt annet. Riktig modell for riktig oppgave sparer 80–95 % av inferenskostnadene.

Kilder

Relaterte artikler

Modeller

Claude Opus 4.7: Anthropics nye referansemodell — og den de holder tilbake

22. april 2026

Modeller

Alibaba slipper Qwen3.6-35B-A3B åpent — koding på nivå med modeller ti ganger større

17. april 2026

Modeller

DeepSeek V4 gir frontier-ytelse til en brøkdel av prisen

6. april 2026

Gemini 3.1 Flash-Lite: 2,5x raskere til /bin/zsh,25 per million tokens

Googles nye kostnadsoptimaliserte modell presser inferensprisene til et nytt bunnivå. For startups og volumproduksjon kan det endre regnestykket fundamentalt.

Av Redaksjonen

Foto: Pressebilde

Begreper i denne artikkelen

TokenMinste tekst-enhet en språkmodell prosesserer — omtrent 3/4 av et ord på engelsk.

InferenceProsessen der en ferdigtrent AI-modell genererer svar basert på input. I motsetning til trening, der modellen lærer.

GPUGraphics Processing Unit — prosessorbrikke som er essensiell for å trene og kjøre AI-modeller.

Ytelse og pris

Flash-Lite er ikke en frontier-modell. Den er designet for oppgaver der hastighet og volum trumfer maksimal resonneringsevne: klassifisering, enkel uttrekk, innholdsfiltrering, sanntids-analyse.

Hvem den er for

Den er også første Flash-modell med Ultra HD-output (4K-oppløsning) og Image Search Grounding — evnen til å integrere bildesøkresultater i genereringen.

Konkurransebildet

Trenden er tydelig: frontier-modeller for kompleks resonnering, billigmodeller for alt annet. Riktig modell for riktig oppgave sparer 80–95 % av inferenskostnadene.