
Proteinfolding – fra mysterium til gjennombrudd med kunstig intelligens
Av: Roger Pettersen | Dato: 3. mai 2025
Hva er proteinfolding, og hvorfor er det viktig?
Proteiner er livets byggesteiner – de består av lange kjeder av aminosyrer som folder seg sammen til intrikate tredimensjonale strukturer. Dette foldingsmønsteret (proteinets form) avgjør i stor grad proteinets funksjon i kroppen . Enzymer må for eksempel ha riktig form for å katalysere kjemiske reaksjoner, og antistoffer trenger korrekt foldet struktur for å gjenkjenne fremmede inntrengere. Struktur gir funksjon: Når vi kjenner et proteins 3D-struktur, kan vi bedre forstå hvordan det virker og hvordan vi kan endre på det . Omvendt kan feilfoldede proteiner miste sin funksjon eller klumpe seg sammen og forårsake sykdom. Faktisk skyldes mange sykdommer nettopp at proteiner ikke foldes riktig, og derfor er det å kjenne proteiners strukturer også viktig for å utvikle medisiner . For eksempel kan innsikt i strukturen til et sykdomsrelatert protein hjelpe forskere å designe legemidler som binder seg nøyaktig der de trengs for å korrigere eller blokkere proteinets aktivitet .
Tradisjonelle metoder for å studere proteinstrukturer
Gjennom historien har forskere brukt eksperimentelle metoder for å kartlegge proteiners 3D-struktur. Den mest brukte metoden har vært røntgenkrystallografi, der et renset protein krystalliseres og bestråles med røntgenstråler. Diffraksjonsmønsteret av røntgenstrålene kan analyseres for å bygge et atomært detaljert bilde av proteinets struktur. Allerede i 1958 lyktes John Kendrew med å bestemme den første proteinstrukturen (myoglobin) ved hjelp av denne teknikken , og i 1962 ble Nobelprisen tildelt Kendrew og Max Perutz for banebrytende arbeid med proteinstrukturer ved røntgenkrystallografi. En annen viktig metode er NMR-spektroskopi (kjernemagnetisk resonans), som studerer proteiner i løsning og kan gi informasjon om atom-avstander og dynamikk. NMR gjør det mulig å bestemme strukturen til mindre, fleksible proteiner uten å krystallisere dem, men metoden har størrelsesbegrensninger. I nyere tid har også elektronmikroskopi (spesielt kryo-EM) blitt sentral for større komplekser, selv om denne kom litt senere på banen.
Disse eksperimentelle metodene gir svært nøyaktige resultater, men de er tidkrevende, kostbare og teknisk krevende. Å bestemme strukturen til ett enkelt protein kunne tidligere ta forskere flere måneder eller år med lab-arbeid . Bare det å vokse frem gode krystaller for røntgenanalyse er ofte en kunst i seg selv. Resultatet var at man til tross for iherdig innsats kun kjente strukturen til en brøkdel av alle proteiner. Siden 1950-tallet er det totalt løst knapt 200 000 proteinstrukturer eksperimentelt , mens forskerne har identifisert sekvensene (aminosyrekodene) til over 200 millioner proteiner . Med andre ord: vi har hatt DNA-oppskriften til utallige proteiner, men i de aller fleste tilfeller ante vi ikke hvordan disse trådene brettet seg til en fungerende molekylær «maskin». Dette gapet mellom antall kjente sekvenser og kjente strukturer har gjort proteinfolding til et av biologiens store mysterier – ofte omtalt som en “hellig gral” i feltet .
Datamaskiner og proteinfoldingens utfordring
Allerede på 1960-tallet viste biokjemikeren Christian Anfinsen at all informasjon for korrekt folding finnes i aminosyresekvensen alene. Det ga håp om at man i prinsippet kunne beregne et proteins 3D-form ut fra sekvensen. Men rent teoretisk kan en lang kjede av aminosyrer foldes på astronomisk mange måter, og å finne den ene korrekte formen blant utallige muligheter er ekstremt vanskelig. Dette paradokset (kjent som Levinthals paradoks) gjorde det klart at rå datakraft alene ikke var nok – man trengte smartere algoritmer og innsikt.
Gjennom 1980- og 1990-tallet begynte forskere å utvikle beregningsmodeller for strukturprediksjon. En tilnærming var homologimodellering: hvis et nytt protein lignet et annet protein med kjent struktur, kunne man modellere det nye ut fra “malen”. En annen var ab initio-modeller, der man forsøkte å simulere foldingen fra bunnen av ved hjelp av fysikkens lover (energiberegninger), men dette var beregningsmessig svært krevende og fungerte kun for små proteiner. For å holde framdrift i feltet etablerte den amerikanske forskeren John Moult i 1994 en internasjonal blindtest-konkurranse kalt CASP (Critical Assessment of Structure Prediction) . Annenhvert år fikk forskergrupper over hele verden tilsendt aminosyresekvensen til proteiner som akkurat var løst eksperimentelt (men ikke offentliggjort), for å teste hvor gode dataprogrammene var til å forutsi strukturen. Årene gikk, og datamodellene ble gradvis bedre, men i over 20 år klarte ingen beregningsmetode å matche presisjonen til røntgenkrystallografi eller NMR . Fram til helt nylig forble proteinfolding en uløst gåte – det var rett og slett et alt for komplisert problem for tradisjonelle metoder.
Kunstig intelligens revolusjonerer feltet
Rundt 2018–2020 skjedde det et dramatisk vendepunkt takket være kunstig intelligens (KI). Teknologiselskapet DeepMind (eid av Google) stilte i 2018 for første gang med sitt KI-system AlphaFold i CASP-konkurransen – og vant overlegent CASP13 det året . Dette første AlphaFold-systemet gjorde det klart for alle at maskinlæring kunne finne mønstre i data som menneskene og de eldre algoritmene slet med. To år senere, under CASP14 i 2020, kom AlphaFold2 på banen og leverte forutsigelser med en nøyaktighet som sjokkerte selv dommerpanelet. AlphaFold2 traff i gjennomsnitt innenfor 0,1 nanometer (en tidels milliarddels meter) av de eksperimentelle strukturene – en presisjon på nivå med avanserte laboratoriemetoder . For første gang kunne man si at et 50 år gammelt vitenskapelig problem i stor grad var løst . CASP-dommerne erklærte at dette var et gjennombrudd, og tidsskriftet Science kåret AI-baserte proteinstrukturprediksjoner til Årets vitenskapelige gjennombrudd i 2021 .
Det unike med AlphaFold var bruken av dyplæringsmodeller som hadde “lært” proteinfolding ved å studere titusenvis av kjente strukturer. AlphaFold – og senere lignende KI-modeller – klarte å gjenkjenne subtile sammenhenger mellom sekvens og struktur som ingen tidligere algoritmer eller forskere hadde oppdaget. Som professor Daniel Otzen bemerket, “AlphaFold og RoseTTA-fold har lært å bruke de kjente strukturene – opptil 100 000 – for å finne mønstre og forutsi nesten alle andre proteiner” . Dette ville ikke vært mulig uten de enorme databankene av eksperimentelle resultater forskere har bygd opp over fem tiår, men KI klarte endelig å utnytte denne skatten av data fullt ut.
Det var ikke bare DeepMind som sto for gjennombruddet. En uavhengig akademisk gruppe ledet av David Baker ved University of Washington utviklet en lignende modell kalt RoseTTAFold. I juli 2021 publiserte DeepMind detaljene om AlphaFold2 i tidsskriftet Nature, og samme uke kom Baker-gruppens artikkel om RoseTTAFold i Science . RoseTTAFold oppnådde nesten samme suksess som AlphaFold, men med langt mindre regnekraft tilgjengelig. Otzen påpeker at dette i seg selv er imponerende: “AlphaFold fortjener honnør for å være først ute. Men RoseTTAFold klarte det uten tilgang til massiv datakraft. Jeg er minst like imponert over RoseTTA” . Summen av disse prestasjonene har revolusjonert feltet fullstendig. På kort tid har proteinfolding gått fra å være et nesten uoverkommelig puslespill, til å bli noe man – i hvert fall for mange proteiner – kan løse ved hjelp av datamaskinen.
Gamle vs. nye metoder: tid, nøyaktighet og tilgjengelighet
La oss sammenligne tradisjonelle tilnærminger med de nye KI-baserte metodene:
Tid: Eksperimentelle metoder som røntgenkrystallografi tok typisk uker til måneder for å bestemme strukturen til ett protein, og ofte lengre . I kontrast kan moderne KI-verktøy som AlphaFold beregne en god strukturmodell i løpet av timer eller til og med minutter , så snart man har aminosyresekvensen. Det som tok forskere årtiers arbeid, kan nå gjøres på et øyeblikk på en kraftig datamaskin .
Nøyaktighet: Røntgenkrystallografi leverer svært høy oppløsning (ned til omkring 0,2–0,3 nm) og regnes som “gullstandard” for strukturbestemmelse. Tidligere beregningsmodeller var ofte unøyaktige – noen ganger kunne de grovt forutsi proteinets kjerne, men de feilet på detaljene. KI-modeller har derimot nå oppnådd eksperimentell nøyaktighet for mange proteiner. AlphaFold2 sine prediksjoner avvek i CASP14 i snitt mindre enn 0,1 nm fra laboratoriebestemte strukturer . Det betyr at vi i mange tilfeller kan stole på at KI-modellenes atomplasseringer er riktige. (Dog er det verdt å merke at ikke alle prediksjoner er perfekte – fleksible “looper” og uordnete områder er fortsatt vanskelige, og noen få proteiner treffer modellene dårlig – se utfordringer nedenfor.)
Tilgjengelighet: Tradisjonelle strukturmetoder krever dyrt spesialutstyr (f.eks. røntgenkilder, NMR-spektrometere, elektronmikroskop) og ekspertkunnskap, noe som begrenser hvem som kan bruke dem. KI-metoder derimot har blitt svært tilgjengelige. DeepMind valgte å åpenhetsgjøre AlphaFold – både ved å frigjøre kildekoden og ved å publisere forutsagte strukturer åpent på nett. I samarbeid med Europeisk Bioinformatikk-institutt (EMBL-EBI) har de bygget en AlphaFold-database med over 200 millioner predikerte proteinstrukturer, som dekker praktisk talt alle proteiner vitenskapen kjenner til . Til sammenligning inneholder den klassiske Protein Data Bank under 200 000 eksperimentelle strukturer . AlphaFold-databasen er fritt tilgjengelig for alle forskere i hele verden, noe som forventes å utløse en flom av nye oppdagelser . Med andre ord: det har aldri før vært enklere for en hvilken som helst forsker å skaffe seg en modell av proteinet de studerer – uten å måtte utføre ett eneste eksperiment.
Anvendelser i forskning og medisin
Den nye strukturelle innsikten fra AlphaFold og lignende verktøy blir allerede utnyttet i praksis på en rekke områder. Innen medisinsk forskning og legemiddelutvikling har effekten vært umiddelbar. Når strukturen til et sykdomsrelevant protein er kjent, kan forskere raskere finne “lommer” der et legemiddel kan binde, eller forstå hvordan mutasjoner gir sykdom. For eksempel kunngjorde en gruppe ved Universitetet i Oxford i 2022 at de, ved hjelp av AlphaFold, hadde klart å bestemme strukturen til et viktig protein fra malaria-parasitten som man tidligere hadde slitt med å analysere . Dette proteinet (en vaksinekandidat) viste seg å være svært dynamisk og vanskelig å krystallisere, men da forskerne kombinerte AlphaFold-modellen med eksperimentelle data “falt brikkene på plass” . Innsikten gjorde det mulig å identifisere nøyaktig hvor beskyttende antistoffer kan binde seg, og kunnskapen brukes nå til å designe forbedrede malaria-vaksiner . Professor Matthew Higgins, som ledet arbeidet, uttalte at AlphaFold lot dem ta prosjektet til neste nivå – fra grunnforskning over i preklinisk og klinisk utvikling .
Også i utvikling av nye medisiner mot andre sykdommer akselererer denne teknologien prosessen. Farmasøytiske selskaper kan bruke KI-predikerte strukturer til å modellere bindingen mellom et legemiddelmolekyl og proteinet det sikter seg inn på, lenge før de investerer i kostbare laboratorieforsøk. Strukturer av virusproteiner kan skaffes raskt for å hjelpe vaksineutvikling (slik vi så under COVID-19-pandemien). Og for tidligere “ubrukelige” gener – proteiner vi kjente sekvensen av, men ikke funksjonen – kan en predikert 3D-struktur gi hint om funksjon ved å avsløre likhet med allerede kjente proteinformer.
Anvendelsene strekker seg også utover medisin. Biologer bruker AlphaFold-data til å forstå alt fra enzymene som bryter ned miljøgifter til proteiner som kan brukes i industriell bioteknologi. Et eksempel er forskere ved Portsmouths Center for Enzyme Innovation, som trålet gjennom AlphaFold-databasen for å finne enzymer fra naturen som kan modifiseres til å bryte ned plastavfall. De oppdaget dusinvis av nye enzymstrukturer som kan forbedres for å resirkulere plast raskere . Dette illustrerer hvordan tilgang på strukturer åpner døren for innovasjon på områder som bærekraft og miljø, i tillegg til helse.
Kort sagt har proteinfoldingens KI-revolusjon gitt forskere et kraftig nytt verktøy. Alt fra grunnleggende biologisk forståelse til praktisk utvikling av behandlinger og teknologi nyter godt av at vi nå mye enklere kan “se” proteinene i detalj. Som DeepMind-sjef Demis Hassabis uttrykte det, har AlphaFold i praksis gitt oss et atlas over “hele proteinkosmos”, noe som baner vei for utallige nye muligheter innen alt fra bekjempelse av sykdom til løsning av globale utfordringer .
Utfordringer og fremtidsperspektiver
Selv om KI-modellene har løst selve strukturprediksjonen i stor grad, gjenstår det flere utfordringer og spennende veier videre. For det første er proteinets foldingsprosess i cellen fortsatt et aktivt forskningsfelt. Vi vet nå hva den foldede formen er, men ikke alltid hvordan og hvorfor kjeden finner fram til akkurat denne formen så raskt og effektivt. Den fundamentale forståelsen av foldemekanismene – “folding-koden” – står igjen som et uløst mysterium , og her kan videre kombinasjon av simuleringer, KI og eksperimenter gi nye innsikter.
En annen utfordring er at mange proteiner ikke oppfører seg som statiske, ensomme enheter. I levende organismer virker proteiner ofte sammen i komplekser eller beveger seg mellom flere konformasjonsformer. Dagens KI-verktøy forutsier typisk én fast struktur for hvert protein – vanligvis den mest stabile formen. Men de kan slite med å modellere fleksible eller uordnede områder. Faktisk har AlphaFold en tendens til å gi et “svar” selv om et protein i virkeligheten ikke har én enkelt fast form, noe som betyr at uproderte (intrinsisk uordnede) regioner ikke kan forutsies på meningsfullt vis av modellen . Slike regioner forblir ustrukturerte i cellen inntil de eventuelt binder til andre molekyler, og her må man tolke KI-prediksjoner med forsiktighet. Heldigvis indikerer AlphaFold selv usikkerhet gjennom en konfidensscore – ofte vil uproderte deler av proteinet fremtre med lav modellkvalitet, som et slags hint om at “denne delen er fleksibel eller usikker”.
Protein-komplekser utgjør nok et frontier. Noen fremskritt er gjort (AlphaFold-Multimer er en utvidelse som kan modellere interaksjoner mellom flere proteiner), men å forutsi store komplekse maskiner av mange proteiner er fortsatt vanskelig. Det samme gjelder proteiner bundet til andre molekyler som DNA, RNA eller små ligander (for eksempel et legemiddel): å forutsi disse interaksjonene krever mer enn bare enkeltprotein-folding. Fremtidige KI-modeller må trolig integrere strukturell informasjon på et høyere nivå – ikke bare “hvordan folder denne sekvensen seg?”, men også “hvordan passer dette proteinet sammen med andre?”.
Til tross for noen begrensninger, ser vi allerede konturene av neste fase i denne utviklingen. Nå som prediksjon av naturlige proteinstrukturer stort sett er løst, har forskere begynt å vende blikket mot design av nye proteiner. Kan vi ikke bare forutsi, men også skape helt nye proteiner med ønskede egenskaper? Dette feltet, proteiningeniørkunst ved hjelp av KI, er i rask vekst. Tidlige eksempler har vist at det er mulig å designe novel proteiner, f.eks. enzymer som aldri har eksistert i naturen, ved å la KI foreslå aminosyresekvenser som vil folde seg til en bestemt form. Slik design – validert av AlphaFold for å sjekke at de faktisk folder som tenkt – kan revolusjonere alt fra medisiner (nye proteinbaserte terapier) til miljøteknologi (spesialenzymer som bryter ned forurensning).
En annen fremtidig oppgave blir å integrere KI-prediksjoner tettere med eksperimentelt arbeid. I stedet for at man ser KI som en “erstatning” for lab-metoder, vil den være en partner. For eksempel kan forskere bruke AlphaFold som et startpunkt for å løse strukturene av store komplekser med kryo-EM: modellen kan hjelpe til å tolke diffuse eksperimentelle data raskere. Vi ser allerede at mange strukturbestemmelsesprosjekter nå går langt kjappere fordi man vet hvordan delene ser ut og kan bygge modeller inn i elektronmikroskopi-kart eller annet. Som en senior EMBL-forsker, Dame Janet Thornton, uttalte: AlphaFold-strukturprediksjoner blir allerede brukt på utallige måter. Jeg forventer at den nyeste oppdateringen vil utløse en lavine av nye og spennende oppdagelser i tiden fremover – og det takket være at dataene er åpent tilgjengelige for alle .
Konklusjon: Proteinfolding har gått fra å være et vrient puslespill i biologi til å bli et av de beste eksemplene på KI-drevet vitenskapelig gjennombrudd. Vi har fått et langt bedre grep om “formens språk” innen biologien – hvordan livets molekyler bøyer og folder seg for å muliggjøre funksjon. Viktigst av alt, denne kunnskapen er demokratisk tilgjengelig og brukes allerede til menneskehetens beste, enten det er for å utvikle livreddende medisiner eller for å skape en mer bærekraftig fremtid. Og reisen stopper ikke her: med nye utfordringer i sikte vil samspillet mellom eksperiment og kunstig intelligens fortsette å drive biovitenskapen fremover i uante retninger.
Kilder: Proteinfolding og AlphaFold (gjennombrudd og implikasjoner) ; Viktigheten av proteinstruktur ; Tradisjonelle metoder og historisk bakgrunn ; AlphaFold og RoseTTAFold revolusjon ; Sammenligning av metoder ; Anvendelser i vaksine- og legemiddelutvikling ; Begrensninger og fremtidsperspektiver .