februar-november 2021
Vi er Laura N., Tobias, Laura F. og Tony - og vi arbejder i gruppe sammen i kurset Dataprojekt. Vi studerer Datavidenskab på 2. år, og vi har flere gange arbejdet med datasæt i projekter.
Gennem kurset, som varer frem til sommer, kommer vi til at fortælle om hvad vi laver og arbejder med, og hvordan vi gør. Nogle gange er det vi fortæller om måske meget overordnet, andre gange kan det være meget detaljeret inden for noget vi har lært, og det kan også være vi kan vise jer hvordan vi griber opgaven an som gruppe.
Vi vil løbende holde jer opdateret på hvad man laver i sådan et dataprojekt, så I kan få en idé om hvad man arbejder med på uddannelsen Datavidenskab, og hvordan man kan gribe det an som studerende og som studiegruppe.
Vi er allerede nu kommet nogle uger inde i forløbet, hvor vi har fået tildelt projektemner og vejledere.
Vi har fået til opgave at skrive et projekt med titlen ”Når data gør os klogere: Vores forestillinger om virkeligheden”, som i sidste ende gerne skal ende ud i en kort populærvidenskabelig artikel. Modsat de andre projekter man kunne vælge i kurset, er vores præget af meget frihed, da vi selv skal finde både emne og data. Dette gør, at den indledende fase er relativt tidskrævende.
Vi har foreløbigt valgt at arbejde med dødsårsager i og udenfor Danmark, men den helt specifikke vinkel har vi ikke helt på plads endnu. Vi er stadig i gang med at udforske forskellig data for at finde interessante sammenhænge.
Siden sidst har vi lagt os endeligt fast på emnet Dødsårsager i Danmark.
I øjeblikket arbejder vi med data fra tre forskellige kilder:
Dele af datasøgningsprocessen har været frustrerende, når det har vist sig, at hele eller dele af det datagrundlag man havde ønsket sig ikke har været tilgængeligt.
Vi har indledningsvis arbejdet relativt overfladisk med et større antal undersøgelsesspørgsmål med henblik på at afdække interessante og gerne overraskende kendsgerninger vedrørende dødsårsager i Danmark.
Vi har blandt andet undersøgt følgende:
- Hvilke dødsårsager er fremherskende for forskellige aldersgrupper? Hvad dør yngre mennesker for eksempel typisk af?
- I hvilket omfang er der forskel på, hvad mænd og kvinder dør af?
- Er der betydelige forskelle i dødsårsagerne mellem de forskellige regioner?
- Hvilke dødsårsager er dominerende i OECD-landene, sammenlignet med Danmark? Hvordan er udviklingen?
- Hvad har effekten været af COVID-19? Er dødeligheden markant ændret under nedlukningen (for specifikke aldersgrupper)?
- Er dødsårsagerne markant ændret under nedlukningen? Er der eksempelvis færre dødsfald som følge af ulykker?
Vi har endnu ikke afgjort, hvilke undersøgelsesspørgsmål der vil indgå i den endelige artikel.
Et eksempel på hvordan vi undersøger og får en idé om vores data, kan ses i plottet herunder.
Her illustreres dødsfald som følge af ulykker pr. 100.000 indbyggere i perioden 2002 - 2019 i de forskellige regioner.
Resten af marts går på at udvælge de spørgsmål vi finder mest spændende og som vi hovedsageligt vil have fokus på i vores artikel.
Efter en periode præget af take-home exam og påskeferie, er vores hovedfokus nu igen på projektet.
Vi har siden sidste indlæg arbejdet på at præcisere problemformulering og undersøgelsesspørgsmål for vores projekt.
Vi har lagt os fast på fire aspekter indenfor dødsårsager i Danmark:
Derudover har vi ændret vores titel til ”Dødsårsager i et dataanalytisk perspektiv: Hvad dør danskerne af?”.
Som det endelige produkt har vi holdt fast i at udforme en populærvidenskabelig artikel, som forhåbentligt skal udgives i Aktuel Naturvidenskab. Hovedfokus for artiklen bliver intuitive plots og deskriptiv statistik, og lægger sig derfor ikke op ad tung teori.
I den kommende fase af projektet vil vi fokusere på at udbygge vores visualiseringer og eventuelt inddrage yderligere teori.
Nedenstående er billede og kode af et af de tidligere plots, vi har afprøvet til at vise forskelle i dødsårsager mellem mænd og kvinder – med udgangspunkt i antal døde pr. 100.000. Det skal betragtes som en simplere prototype.
Det er lavet i RStudio og skrevet i R, som er det første programmeringssprog man stifter bekendtskab med på Datavidenskab.
Siden sidste indlæg har vi arbejdet med at udvælge og finpudse vores visualiseringer med henblik på at vise resultaterne fra vores undersøgelse gennem informative og letforståelige plots.
Efter vi fastlagde, hvilke visualiseringer der skulle indgå i artiklen, arbejdede vi alle i fællesskab på brødtekst, opsætning og struktur af det endelige produkt.
Da genåbningen gav os mulighed for at mødes fysisk, benyttede vi os af at kunne sidde på universitetet, Dokk1 og hjemme hos hinanden, hvilket var rart efter 1 ½ år med online arbejde. Vi fik grinet og stresset, men nåede i mål med at skrive artiklen – godt hjulpet på vej af en masse kaffe.
Nedenunder ses et billede af starten på artiklen.
Næste punkt er eksamen, som vi skriver om i næste indlæg.
Vi har nu været til eksamen i Dataprojekt, og fik god feedback på vores projekt fra både censor og eksaminatorer.
Pga. corona foregik eksamen over Zoom, og bestod af en præsentation af projektet, efterfulgt af en diskussion - og til sidst et statistik-spørgsmål.
Vi er nu i gang med at finde ud af, om artiklen kan/skal udgives. Hvis artiklen bliver udgivet kommer der et link her på bloggen, og ellers viser vi resultaterne i næste indlæg.
Tak for at have læst med indtil videre :-)
Siden sidst har vi været i kontakt med Aktuel Naturvidenskab, som var meget interesserede i artiklen. I samarbejde med dem har vi fået finpudset artiklen med henblik på udgivelse. Vores arbejde er nu udgivet i en artikel i Aktuel Naturvidenskab (nr. 5 2021) som er frit tilgængeligt for læsning online.
Det har været fedt at arbejde med et projekt i løbet af vores uddannelse, som endte ud i et håndgribeligt og brugbart produkt. Derudover har det været læringsrigt at samarbejde med et tidsskrift, da vi ikke før har stiftet bekendtskab med den del af artikelskrivning, som vedrører publikation.
Alt i alt et veloverstået projekt, som vi har lært en masse af, både ift. dataanalyse, datavisualisering og videreformidling.
I kassogrammet for Datavidenskab, kan man se at Dataprojekt er placeret på 4. semester. Det betyder at det er 2.-årsstuderende på Datavidenskab, som har kurset på deres anden halvdel af studieåret.
Det betyder også at man allerede har været studerende i halvandet år, og har lært en masse som man skal bruge i dette kursus, samtidig med at man lærer nye ting.
I kurset Dataprojekt skal de studerende arbejde med at finde mønstre i store mængder data, og at udvælge de bedste metoder til at lave analysen af data og for at præsentere det for andre.
Gennem kurset arbejdes med et større projekt hvor de studerende arbejder sammen i grupper. Hver gruppe introduceres til data fra en eller flere forskningsgrupper internt på Aarhus Universitet, og skal herefter analysere denne data med modeller og metoder som de selv udvælger. De skal fortolke resultaterne af analysen og argumentere for valg af metoder til analyse og præsentation af data.
Forelæseren af kurset er Professor Asger Hobolth.
Asger har bl.a. været vejleder for to studerende på kandidatuddannelsen Statistik som også arbejdede med dataanalyse, i et projekt der er kommet en artikel til Aktuel Naturvidenskab ud af.
Tryk på billedet af artiklen for at læse den.