Hva er best? En praktisk test av KI-modeller for video og bilde

Dette underlaget er utarbeidet av Mikael, som hadde to ukers praksis hos TECHLAB. Nettartikkel av teksten er tilpasset og redigert av TECHLAB.

En praktisk test av KI-modeller for video og bilde

Utvalget av generative KI-modeller vokser raskt, og det kan være vanskelig å orientere seg i hva som faktisk fungerer i praksis. For å få et mer konkret bilde av forskjellene testet vi et utvalg av dagens mest brukte modeller – både for videogenerering og stillbilder – ved å sende nøyaktig samme prompt gjennom alle systemene.

Formålet var ikke å lage «perfekte» resultater, men å undersøke hvordan modellene håndterer atmosfære, komposisjon, lys, realisme og evnen til å følge instruksjoner.

Videogenerering

Vi hadde tilgang til følgende modeller:

  • Sora 2, Sora 2 Pro, Grok, Veo 3.1, Kling 2.1 Master og Kling 2.5 Turbo

Modellene ble vurdert etter følgende vurderingskriterier:

  • Følger modellen prompten?

  • Lys og atmosfære

  • Komposisjon og dybde

  • Realisme

  • Naturlig bevegelse

Prompten

Vi brukte en detaljert CCTV-inspirert prompt:

A grainy, monochromatic CCTV camera view of a lonely gas station at night, shot from a high corner angle above the pumps — the kind of old security footage used to catch shoplifters. The image flickers with static interference, timestamp glowing faintly in thecorner: “02:17 AM, 1986.” The fluorescent canopy lights buzz weakly, casting harsh white pools of light onto the wet concrete below. A single hooded figure stands motionless beside a gas pump, face obscured, their shadow distorted across the ground. The station’s neon sign flickers erratically in the background, occasionally plunging the scene into near darkness. Wind rustles plastic bags and loose receipts that dance across the pavement. The faint reflection of the figure appears in a nearby car window — unmoving, almost unnatural. The footage feels uneasy and analog — grainy VHS texture, scan lines, soft color bleed, muted tones, distortion, film hiss, and frame jitter — like found footage from an old 1980s security archive.

Hva var resultatet?

Tabell som viser oversikten og resultatet av testen.

Sora 2 Pro – En klar vinner

Sora 2 Pro fulgte prompten presist og leverte den beste totalopplevelsen. Lys, atmosfære og komposisjon var gjennomført, og helheten holdt et profesjonelt nivå. Noen bevegelser kunne vært mer naturlige, men helheten var svært sterk.

Sora 2 Pro er kun tilgjengelig gjennom et abbonnement på Artlist og videoene kostet ca 38 kr å generere per stk og interasjon.

Sora 2 Pro gjennom Artlist var det beste resultatet føler vi.

Sora 2

Leverer godt lys og atmosfære, men litt svakere komposisjon og dybde enn Pro-versjonen.

Sora 2s video.

Grok

Strukturen var god og modellen forstod retningen, men slet med lyssetting, realisme og flyt. Er også kjent for å være politisk ukorrekt og ha få eller ingen rettningslinjer på seksualisert innhold og deepfakes, noe som bør tenkes på.

Grok leverer video, også enkelt for oss her i Norge.

Veo 3.1

Fulgte prompten greit, men hadde store svakheter på lys, atmosfære og dybde. Totalinntrykket ble ujevnt.

Selv om Veo 3 er populært på nettet slet vi med å oppnå ønsket resultat.

Kling 2.5 Turbo

Dårlig lyssetting, svak realisme og lite naturlige bevegelser. Manglet tydelig struktur.

Kling 2.1 Master – svakest

Fulgte prompten dårlig og leverte svakt på nesten alle kriterier. Hadde noe dybde og flyt, men resultatet var langt under nivået til de andre.

Hva med bilder? Vi så på bildegenerering

Vi testet følgende Generati KI modeller for bilder:

  • ChatGPT, Multipurpose, Macro Lens, Playful 3D, Nostalgic Fade, Cinematic Earth.

Alle disse er modeller tilgjengelige på Artlist, hvor det er obfuskert hvilke KI modeller som ligger bak.

Modellene er rangert etter følgende kriterier:

  • Realisme

  • Lys og atmosfære

  • Tekstur og detaljer

  • Komposisjon og dybde

  • Kreativitet og tematikk

Prompten

Vi brukte en sci-fi inspirert prompt til dette:

A hyper-detailed, cinematic portrait of a female explorer standing on a cliff at sunrise, overlooking a futuristic city partially covered in jungle vines. She wears a weathered leather jacket, a glowing holographic map projected from her wrist, and a small drone hovering beside her. The lighting is dramatic — warm sunlight breaking through mist, lens flares, and subtle bokeh. The image should balance realism and science fiction aesthetics, with detailed textures on the clothing, skin, and environment. Ultra high-resolution, professionalphotography style, shallow depth of field, 8k.

Resultatet

Vår vurdering av forskjellige KI bildegeneringsmodeller. Multipurpose, Cinematich Earth, Nostalgic Fade, Playful 3D og Macrolens er alternativer fra Artlist. Kredit TECHLAB.

Cinematic Earth

Best helhet. Sterk dybde, gode detaljer og et helhetlig uttrykk som traff godt på alle kriteriene.

Multipurpose

God tekstur og lysbruk. Behagelig atmosfære. Kunne hatt tydeligere narrativ retning.

Ganske greit, men det skjer noe merkelig med høyrehanda til karakteren.

ChatGPT

Solid og balansert, spesielt imponerende siden den er gratis. Litt mindre kreativ enn toppmodellene.

Dramatisk og jeg får tydelige Last of Us vibber av denne.

Nostalgic Fade

Realisme og detaljer var gode, men lyset og dybden var svakere.

Playful 3D

Ikke realistisk, men lagde sterk atmosfære. Fargene ble for dominante.

I overkant saturert tenkte vi.

Macro Lens

Manglet tekstur, dybde og klarhet. Resultatet ble flatt. Det svakeste alternativet.

Veldig tydelig skinn og lys rundt ansiktet, samtidig som det ser veldig uekte ut.

Bonus: Midjourney

Midjourney er modellen vi har jobbet mest mer her i TECHLAB og den gjør seg godt på denne prompten. Bildet er realistisk og godt nok til å brukes som stemning eller atmosfære.

Midjoruney skiller seg ut, både i kvalitet og kreative muligheter i plattformen.

Videogenerering med Midjourney

Ikke perfekt - men kanskje greit nok med noen flere iterasjoner?

Oppsummering av bildemodeller

Det er store forskjeller mellom dagens generative KI-modeller.

Sora 2 Pro og Cinematic Earth peker seg ut som de mest balanserte og profesjonelle i vår test. ChatGPT og Grok leverer jevne resultater for generelle behov, mens Kling-modellene er ustabile og betydelig svakere i denne konteksten.

Trenger du rådgivning om KI-verktøy?

TECHLAB bistår med vurdering og testing av KI-løsninger, alt fra video og bilde til lokale språkmodeller. Hvordan kan dette påvirke din arbeidsflyt idag og i fremtiden?

Ta kontakt om du ønsker rådgivning, workshop eller en behovsvurdering for din bedrift.

Neste
Neste

Praksis hos TECHLAB