Gemini 3.1 Flash-Lite: 2,5x raskere til /bin/zsh,25 per million tokens
Googles nye kostnadsoptimaliserte modell presser inferensprisene til et nytt bunnivå. For startups og volumproduksjon kan det endre regnestykket fundamentalt.

Begreper i denne artikkelen
Google lanserte Gemini 3.1 Flash-Lite som del av 3.1-familien i mars — en modell designet utelukkende for hastighet og kostnad. Den leverer 2,5x raskere responstider og 45 % raskere output-generering enn forgjengeren.
Ytelse og pris
Prisen er /bin/zsh,25 per million input-tokens. For kontekst: Claude Opus 4.6 koster –15 per million, GPT-5.4 koster ,50. Flash-Lite er 10–60x billigere enn frontier-modeller, avhengig av konfigurasjon.
Flash-Lite er ikke en frontier-modell. Den er designet for oppgaver der hastighet og volum trumfer maksimal resonneringsevne: klassifisering, enkel uttrekk, innholdsfiltrering, sanntids-analyse.
Hvem den er for
For startups som prosesserer tusenvis eller millioner av forespørsler daglig, endrer Flash-Lite økonomien fundamentalt. En arbeidsflyt som koster per dag med Opus kan koste med Flash-Lite — hvis oppgaven ikke krever frontier-resonnering.
Den er også første Flash-modell med Ultra HD-output (4K-oppløsning) og Image Search Grounding — evnen til å integrere bildesøkresultater i genereringen.
Konkurransebildet
Flash-Lite konkurrerer med GPT-5.4 nano, Claude Haiku og Llama 4 Scout i det voksende «billig og rask»-segmentet. Googles fortrinn er integrasjonen med Google Cloud og Workspace. For team som allerede er i Googles økosystem, er terskelen lav. For andre er API-et tilgjengelig uten plattformavhengighet.
Trenden er tydelig: frontier-modeller for kompleks resonnering, billigmodeller for alt annet. Riktig modell for riktig oppgave sparer 80–95 % av inferenskostnadene.
