
Begreper i denne artikkelen
Mars 2026 er den mest konkurransedyktige måneden i AI-historien. Fem selskaper har levert frontier-modeller innen 28 dager. Ingen av dem satser på det samme. OpenAI satser på autonomi. Anthropic satser på kodekvalitet. Google satser på resonnering og pris. xAI satser på infrastruktur. Meta satser på åpenhet.
Forskjellene er ikke lenger marginale. De er strategiske valg som avslører hva hvert selskap tror fremtiden for AI ser ut.
GPT-5.4: Autonomiens modell
OpenAI lanserte GPT-5.4 den 5. mars med en ambisjon som bryter med alt selskapet har gjort tidligere: modellen kan operere datamaskiner. På OSWorld-Verified — en Benchmark som simulerer ekte skrivebordsoppgaver — scorer den 75 %, over den menneskelige basisen på 72,4 %. Den kan navigere nettsider, fylle ut skjemaer, manipulere dokumenter og utføre flerstegs arbeidsflyter uten menneskelig inngripen. Det er første gang en generell AI-modell overgår mennesker på denne typen oppgaver.
Kontekstvinduet er utvidet til 1 million Tokens. Men det virkelig interessante er effektiviteten: GPT-5.4 bruker færre tokens enn forgjengeren for de samme oppgavene, og en ny funksjon kalt Tool Search lar modellen slå opp verktøydefinisjoner på forespørsel i stedet for å laste alle inn i konteksten. OpenAI hevder dette reduserer token-forbruket med 47 % i verktøytunge arbeidsflyter — uten tap i nøyaktighet.
På GDPval — en test som måler profesjonell ytelse på tvers av 44 yrker — scorer den 83 %. Hallusineringsraten er redusert med 33 % sammenlignet med GPT-5.2 på individuelle påstander. OpenAI har også utvidet familien med Mini- og Nano-varianter for høyvolum og lave kostnader. API-prisen ligger på $2,50 per million input-tokens og $15 per million output-tokens, med halv pris for batch-prosessering.
Claude Opus 4.6: Kodingens modell
Anthropic tok en annen vei. Opus 4.6, lansert 4. februar, har det høyeste SWE-bench Verified-resultatet blant alle modeller: 80,8 % på enkeltforsøk. SWE-bench tester evnen til å løse faktiske GitHub-issues — flerfilskontekst, uklar feilbeskrivelse, legacy-kode. På BrowseComp — en test som evaluerer webresearch — scorer den 84 %, det høyeste publiserte resultatet.
Men tallene forteller bare halve historien. Claude Code — Anthropics CLI-verktøy for agentisk koding — har endret hvordan utviklere jobber. Verktøyet leser hele prosjektmapper, foreslår endringer på tvers av filer, og gjennomfører refaktoreringer selvstendig. Cursor, som var dominerende i 2025, har opplevd offentlige avhoppere etter Opus-lanseringen.
Agent Teams — muligheten for flere Claude-instanser å samarbeide om komplekse oppgaver — er et forsøk på å løse et reelt produksjonsproblem: enkelt-agenter krasjer på oppgaver som krever koordinering. Ved å dele oppgaven mellom spesialiserte instanser reduseres feilraten. Beam AIs analyse av enterprise-markedet viser at Anthropic nå fanger 40 % av enterprise LLM-utgiftene, opp fra 12 % to år tidligere.
Gemini 3.1 Pro: Resonneringens modell
Google DeepMind har levert den kanskje mest imponerende forbedringen mellom to generasjoner. Gemini 3.1 Pro scorer 94,3 % på GPQA Diamond — en test med PhD-nivå vitenskapsspørsmål — det høyeste publiserte resultatet fra noen modell. På ARC-AGI-2 (abstrakt resonnering) gikk den fra 31,1 % til 77,1 %, mer enn en dobling.
- Gemini Flash-Lite: $0,25 / — - Gemini 3.1 Pro: $2 / $12 - GPT-5.4: $2,50 / $15 - Claude Opus 4.6: $5 / $15 (estimert) - Llama 4 Maverick: $0,19–$0,49 (self-hosted)
Prisen er det mest aggressive konkurransetrekket: $2 per million input-tokens og $12 per million output-tokens. Det er billigere enn både Claude Opus og GPT-5.4. Google subsiderer aggressivt — men med Alphabets annonseinntekter i ryggen har de råd til det lenger enn konkurrentene.
Flash-Lite-varianten dytter prisene enda lavere: $0,25 per million input-tokens med 2,5x raskere responstider. For startups som trenger billig Inference i volum, er dette det sterkeste tilbudet i markedet. I Google Workspace er Gemini integrert i Sheets, Docs og Maps med naturligspråk-funksjonalitet. Strategien er tydelig: AI-modellen som vinner, er den som er overalt.
Grok og xAI: Infrastrukturens modell
xAIs historie i mars handler mindre om modellen og mer om maktkonsolidering. SpaceX kjøpte xAI for 250 milliarder dollar i februar. Selskapet kontrollerer Colossus — verdens største AI-treningsklynge — i Memphis, Tennessee, med planer om å utvide til 1 million GPU-er.
Grok 4.20 har 64 millioner månedlige aktive brukere og er integrert i X og Tesla. Modellen scorer godt på standard benchmarks, men uten uavhengig verifisering av de mest imponerende resultatene er det vanskelig å vurdere den på like vilkår med konkurrentene. Ni av elleve medgrunnleggere har forlatt selskapet, og Grok har vært gjenstand for myndighetsgranskning etter deepfake-skandaler. xAI bygger infrastruktur først, modeller etterpå — men spørsmålet er om organisasjonen kan beholde talentene som trengs for å utnytte infrastrukturen.
Llama 4: Åpenhetens modell
Meta lanserte Llama 4 med to ferdige modeller — Scout (17B aktive parametere, 16 eksperter, 10M tokens kontekst) og Maverick (17B aktive parametere, 128 eksperter) — og en tredje, Behemoth (288B aktive parametere), fortsatt under trening.
Det er den første Open source AI-modellserien med nativ Multimodal støtte og Mixture-of-Experts-arkitektur. Maverick estimeres til $0,19–0,49 per million tokens — en brøkdel av proprietære alternativers pris. Lanseringen var kontroversiell: den kom på en lørdag, Arena-versjonen var en annen modell enn den som ble tilgjengelig for nedlasting, og uavhengige evalueringer var blandede.
Men for utviklere som vil ha frontier-kapable modeller uten API-kostnader, er Llama 4 det sterkeste alternativet på markedet.
Hva kartet forteller
GPT-5.4: Autonomi & computer use Claude Opus 4.6: Koding & agentisk arbeid Gemini 3.1 Pro: Resonnering & pris Llama 4: Åpenhet & kostnadseffektivitet Grok: Infrastruktur & distribusjon
Det viktigste mønsteret i mars 2026 er ikke hvem som «vinner» — det er at begrepet har mistet mening. GPT-5.4, Opus 4.6 og Gemini 3.1 Pro scorer innenfor 2–3 prosentpoeng av hverandre på de fleste evalueringer. Benchmark-konvergens ved frontieren er den egentlige historien.
Konsekvensen er at pris, utvikleropplevelse og verktøyintegrasjon blir viktigere enn rå ytelse. For norske selskaper som velger modell, betyr det at valget bør være oppgavebasert, ikke merkebasert. Bruk den riktige modellen for den riktige oppgaven. De smarteste teamene kjører allerede to eller tre modeller i parallell, med routing basert på oppgavetype og kostnadskrav.
Mars 2026 er ikke slutten på modellkrigen. Det er starten på spesialisering — og slutten på illusjonen om at én modell kan vinne alt.


