Vi står lige foran datajournalistikkens guldalder

I det kommende årti har vi mulighed for at få et gennembrud for den kloge journalistik. Den journalistik, hvor man får indsigt i de vigtige sager, der er fyldt med tunge tal. Datastrukturer, båndbredde og formidlingsværktøjer er ved at være på plads. Men vil politikere og medier skubbe bolden i mål?

videnskabsminister Charlotte Sahl-Madsen

Videnskabsminister Charlotte Sahl-Maden (K) kiggede forbi Datacamp på ITU og talte varmt for at bringe offentlige data i spil. (Foto: Ernst Poulsen)

Den 4. november var jeg inviteret til “Datacamp” af IT- og Telestyrelsen. Her mødtes programmører og journalister for at se, hvad man kan skabe, hvis de offentlige data kommer i spil.

Videnskabsministeren kom forbi og roste de konkrete eksempler, der blev arbejdet med. Hun udtalte også en pæn støtte til “at bringe offentlige data i spil”.

Jeg må indrømme, at jeg har lidt svært ved at se, hvad ministeren konkret gør for at fremme retningen. Nuvel, hun efterlyser input fra branchen, så jeg forsøger mig med fem forslag nederst på bloggen. Tilføj endelig dine egne forslag i kommentarfeltet.

Det er ikke sådan, at der ikke findes eksempler på data-netjournalistik i Danmark. Der findes utroligt mange eksempler, og de tidligste kom på banen helt tilbage i netavisernes tidlige år. Jeg tror det var tilbage omkring 1999, at vi på jp.dk-redaktionen hjalp bl.a. journalist Niels Mulvad med at lægge skolernes karakter-gennemsnit på nettet.

Det var dengang kontroversielt og første gang oplysningerne blev bredt tilgængelige. Men vi gjorde det dermed muligt for borgerne at se, om eleverne klarede sig godt eller skidt på den lokale folkeskole. Vi gav dem indsigt, som de ikke kunne få andre steder.

Dengang var det et møjsommeligt arbejde at få historien i luften, og udover stolthed på redaktionen ved jeg ikke, om webudgaven var særligt afgørende for gennemslagskraften.

Meget har ændret sig siden da. Lad mig nævne fem større faktorer:

Fra excel til grafik på sekunder
Forskellen på dengang og nu er, at mine gode kollegaer Kartin Hansen og Henrik Rewes måtte håndkode det meste. Regner man i mandetimer, var det en ret dyr produktion af få i luften. Sidenhen er der kommet flere og flere værktøjer, som gør det nemt at konvertere et excel-ark til et farvet Danmarks-kort.

XML
En stor del af landets hjemmesider er nu publiceret i CMS-systemer, hvor indholdet er mærket op, så det kan trækkes på tværs. Tingene er opmærket, rss-klart og kan nu kombineres med oplysninger fra andre steder og kombineres i nye sammenhænge. Hele strukturreformen fik dræbt mange gamle systemer, og de nye værktøjer gør det nu nemmere at genbruge indhold.

Båndbredde
Alle internetbrugere har nu skiftet til en stor bredbånd, og selv om der stadig er begrænsninger, så er vi kommet langt i forhold til dengang, man fik problemer med brugerne, hver gang man kom til at smide mere end 100kb på en enkelt side. Det giver helt nye muligheder for at præsentere kort, grafik og meget indhold.

Google-kort
Samtidigt har Google hjulpet os alle ved at revolutionere prisen på kort. Tidligere tog det flere år at forhandle en aftale med Kort- og Matrikelstyrelsen, og KRAK havde det med at sætte en sagfører på enhver, der linkede dybt ind til et af deres kort. Det satte ligesom stemningen og forhindrede, at kort blev brugt til noget særligt. Kort er selvfølgelig afgørende for meget formidling, for hvor de fleste går død i en tabel, så kan alle overskue et farvet Danmarks-kort.

Timing
Og så er den mest afgørende forskel måske, at der i branchen er ved at være en træthed i forhold til den hurtige journalistik. Den hurtige netjournalistik har tjent netbranchen godt, for den har givet millioner af brugere. Men der investeres igen i dybdeborende journalistik, og denne gang er nettet forhåbentlig en naturlig del af værktøjskassen.

Er det så helt sikkert, at den kloge journalistik får sit gennembrud og at de store databaser bliver bragt ud til brugerne.

Slet ikke. Der er store forhindringer, der skal overvindes.

I en del tilfælde koster adgang til data rigtigt mange penge. Vil du have adgang til bygge-registeret, så er prisen 6-cifret. Det lukker enhver historie lige der. Før researchen begynder.

I et vist omfang mangler der sikkert også uddannelse blandt journalister og ikke mindst investering i redaktionelle programmører på aviserne. Det er folk, der ikke er bundet op af vedligehold af det underliggende CMS, men som i stedet kan rykke på konkrete journalistiske projekter.

Mine fem forslag
I forbindelse med ODIS-arrangementet blev der efterspurgt forslag fra branchen. Hvad skal der til, for at de offentlige data kommer i spil. Her er mine fem hurtige skud fra hoften. Jeg håber at andre vil bidrage på deres blog – eller i kommentarfeltet.

1) Støt kort/database-journalistik med 20 mio. kr/år som tillæg til kommende medieforlig. Statsministeren har ganske vist sagt, at netjournalistik er billigt. Sandheden er, at det er rasende dyrt at udvikle og at regningerne for dybde-borende journalistiske projekter ofte er 6-7 cifrede – pr. projekt.

2) Den kommende Lov om Offentlighed i forvaltningen giver mindre åbenhed i forvaltningen. Fjern nye begrænsningerne. Det virker selvmodsigende, at regeringen gerne vil støtte åbenhed, men gør det sværere at få indsigt i, hvad ministrene laver.

3) Gør det gratis at bruge offentlige data. Frikøb fx. data fra Danmarks Statistik og KMS, m.v.

4) Gør det til en forpligtelse for offentlige myndigheder at stille data gratis til rådighed inden 2013.

5) Lav ET samlet udstillingsvindue / feed-vindue hvor man kan hente alle off. data. Sørg også for en passende markedsføring af servicen. (Tænk på sitet som en slags pligtaflevering, så man ikke skal lede overalt efter data). Specificér hvilke formater, der er acceptable.

På kort sigt er der tale om udgifter for alle parter. Det vil være dyrt for det offentlige at afskrive brugerafgifterne. Det vil være dyrt for mediehusene at investere i programmører og journalister.

Men måske er det også her der ligger ny innovations- og vækstmuligheder forude. Det plejer at kunne betale sig for samfundet at investere i viden, og vi har set mange eksempler på, hvordan kombinationen af gratis og internettet har kickstartet store projekter.

For mediehusene kunne data-journalistikken øge værdien af produkterne. Den kloge journalistik er måske dét, der skal til for at fastholde betalingsvilligheden for papiravisen, og service-journalistikken er måske det, der kan øge betalingsvilligheden på nye mobile platforme.

Læs mere:

10 responses to “Vi står lige foran datajournalistikkens guldalder

  1. Det danske Kvadratnet – hvor man kan få statistiske oplysninger helt nede til 100X100 meter felter om danskerne. Her er en sand data-mining guldkilde for journalister og ikke mindst for folk der arbejder/mashupper med geodata af en hver art. Kvadratnet er dyrt at få adgang til – dette sætter hæmmer for opstartsvirksomheder – Dette kan betragtes som en skjul form for innovationsskat.

    Information om Kvadratnet her

  2. Rigtig gode bud, Ernst!
    Godt arbejde.

    VH Jeppe

  3. Et andet råd til politikerne er at man kan samle en masse nyttig data ind fra steder man måske ikke lige regnede med. Inspireret af denne artikel: http://www.wired.com/magazine/2010/11/ff_311_new_york/all/1
    Saml og frigiv data om alt, lige fra hvilke bøger folk låner på biblioteket til antal solskinsdage i året.
    Data bør så vidt det er muligt være tagget med lokation og tid men strippes for oplysninger der kan identificere enkeltpersoner.
    Lav konkurrencer om den bedste/mest opfindsomme/geniale måde at bruge dataene på.

  4. Pingback: Tweets that mention Vi står lige foran datajournalistikkens guldalder | Ernst Poulsen’s Weblog -- Topsy.com

  5. Det er meget vigtigt at man holder tungen lige i munden her.
    Helt enig i ODIS generelt.

    Men når det kommer til tiltag som Kvadratnet begår man en grundliggende fejl. Vi skal IKKE fremme en registersamkøring for at man kan lave analyser som kan “strippes” for personhenførbarhed. Det er en helt forkert tilgang som skader de bagvedliggende processer ved at dræbe innovation i stedet for at skabe den.

    Medier, statistikere og marketing folk kan godt bilde sig ind at den slags data er “enormt brugbare”, men realiteten er at det er det rene overflade som i stedet blokerer for at man kan komme i dybden.

    Hvis basis systemer skal kunne gå i cloud, så skal grundstrukturen være blottet for personhenførbarhed og alle metadata, dvs. herunder evnen til at KUNNE lave registersamkøring, flyttet ud mod borgeren.

    Hvis offentlige processer skal kunne effektiviseres, så skal kontrollen, valget og prioriteringen run-time ligge hos borgeren. Det kan man ikke hvis man spilder ressourcerne på at lave datamarts og flere overflødige statistikker.

  6. @Stephan: God pointe. Der skal selvfølgelig være et “filter” på, hvad der bliver lagt ud, så det ikke bliver muligt at identificere følsomme data om enkeltpersoner. Det er en helt separat diskussion, som jeg ikke har fokuseret på her.

    Her har jeg ønsket at fokusere på den overordnede retning: Kan vi skabe mere viden, bedre service og bedre demokrati ved at lægge mange offentlige data ud til fri benyttelse? Kan vi tillige skabe nye produkter og arbejdspladser vil det være fremragende.

  7. @ Ernst

    Du må ikke se det så snævert.

    Jeg tror der er noget at hente i ODIS, selvom jeg heller ikke er i tvivl om at

    1) Det er dumt og skaber store problemer hvis man bruger “anonymiserede” data. Her taler vi KUN om data der på et tidspunkt har været personhenførbare.

    Min pointe går ikke på ODIS-output, men på at vi skal se problemstillingen bredere og IKKE må indregne brugen af “anonymiserede” persondata – problemet er mellemproduktet som bygger på registersamkøring af persondata. Embedsfolk misbruger det til planøkonomisk at ineffektivisere og de kan ikke sikre mellemprodukterne.

    Vi skal vende problemstillingen på hovedet og angribe systemforståelsen dyberem dvs. go upstream.

    Tag f.eks. data om lån på biblioteket. Det er stærkt sensitivt hvad folk læser og ikke læser. I stedet for at diskutere om man skal lægge lånerdata ud i anonymiseret form, så skal vi transaktionsisolere selve lånet, dvs. så biblioteket IKKE KAN vide hvem som låner bogen (medmindre de nægter at levere den tilbage, men det behøver stadigt ikke medføre at biblioteket kan finde ud af hvem som har læst en bestemt bog).

    Når biblioteket ikke KAN vide hvem som har lånt en given bog, så er de enkelte lånedata ikke sensitive og ikke persondata, dvs. så kan lånedata i deres rå form indregnes som ODIS-data.

    Samtidig kan bibliotekssystemerne ligges i cloud selvom cloud ikke har nogen sikkerhed og man kan etablere debatfora om hver enkelt bog eller emne direkte ud fra de samme bilioteksdata med aktiv borgerkontrolleret inddragelse af alle som har lånt den.

    Ved at flytte problem fokus fra et spørgsmål om anonymisering af registersamkørte data til at sikre i bunden, kan vi åbne op og i mange tilfælde give direkte adgang til de operationelle data.

    Hvis man ikke paser meget på, så bliver ODIS-ønsker om “anonymiserede” data til en driver af registersamkøring og ineffektivisering.

    Vi skal altså den stik modsatte vej – give borgerne kontrol over (dvs. forhindre at biblioteket KAN opsamle personhenførbare data), gover borgeren adgang til (dvs. åbne de operationelle systemer overfor BORGEREN), lade nye tiltag SPØRGE BORGEREN og så f.eks. arbejde med mulighed for at man kan bede borgere svare på spørgsmål om dem selv anonymt.

    Hvis vi ikke passer på, så bliver kortsigtet naivitet til langsigtet destruktivitet. Omvendt hvis man tænker sig om og går upsteam i problemløsningen, dvs. undlader de mange fejlantagelser af historisk forældet af, så kan man skabe en masse værdier i stedet for at brygge fejl på fejl.

    2) OFID overvurderes – jeg forventer mig ikke det store af “datajournalistik” andet end lidt “flotte” grafer og mere misbrug af statistik (som man allerede groft misbruger “meningsmålinger”).

    Desuden er langt det meste statistik decideret negativt fordi man spilder en masse tid på at skabe statistikken og prøve at få noget meningsfuldt ud af tal som ikke siger noget om det problem, man arbejder med. Det gælder både virksomheders marketingafdelinger og navnlig hele DJØF-vældet som genererer arbejde til DJØF’ere og krav til fødesystemerne som slet ikke står mål med udbyttet.

    Men jeg tror at der er noget at hente i ODIS hvis man blot holder balancen.

    3) ODIS misbruges politisk som lynafleder og undskyldning til ikke at gøre noget ved problemerne. At effektivisere det offentlige forbrug (>500 mia) med 1% eller øge den offentlige fornyelsesevne med 1% vil overstige alle fremtidige værdier ved ODIS.

    Jeg tror navnlig at der er noget at hente i ODIS, hvis man brugte erkendelsen ODIS til at gå i bund som jeg f.eks. beskriver med bibliotekerne, så vil der være noget reelt at hente i både de operationelle processer og i etablering af muligheder for langt mere kvalitative dybdeboringer.

    Jeg ville stille spørgsmålet om Danmarks statistik ikke reelt er en overflødig funktion i en verden hvor vi nemt kan spørge borgerne om det samme. I princippet er Danmarks statistik ikke andet end en mashup af en masse borgeres mashup af egne data kombineret med lidt rigtigt anbragt sikkerhedslogik. Dertil knyttet en masse overhead for at kompensere for garbage-in og først at registersamkøre og dernæst kompensere for registersamkøringen.

    Danmarks statistik er i princippet at bruge penge på at forurene hvorefter vi skal bruge penge på at rydde op for at du kan lave en kørsel som du lige så godt kan hente ved kilden med langt større detaljerigdom.

    Forestil dig hvor meget vi kan spare og forbedre ved at rydde op i hele moradset inde bag ved.

    Og forestil dig hvor meget bedre “datajournalistik”, du kunne lave, hvis du kunne koble ikke bare til lånerne af en given debatbog, men også til køberne og bidragsyderne og de kilder som ligger bag.

    Det kræver kun et grundprincip – at man UNDGÅR at identificere på noget tidspunkt i de digitale værdikæder, dvs. at man fokusere på at flytte den kontrol tilbage til borgeren som man har spildt de sidste 40 års forfejlet digitalisering på at fratage borgeren. Med internettet blev hele tankesættet forældet – med cloud, internet of things og planøkonomisk bureaukratisme blev det samfundsdestruktivt.

  8. Pingback: Er data journalistikkens nye mening? | Mads Kristensen Ufiltreret

  9. Ernst, hvor er det glimrende!

    Verden forandrer sig heldigvis, og på Krak.dk stiller vi gerne vores kort API gratis til rådighed for ethvert projekt, der handler om at gøre offentlige data tilgængelige på kort.

    Vi kan jo ikke ha’, at danskerne skal blive ved med at trækkes med de der halvdårlige Google-kort 😉

    /CT

Skriv et svar

Udfyld dine oplysninger nedenfor eller klik på et ikon for at logge ind:

WordPress.com Logo

Du kommenterer med din WordPress.com konto. Log Out / Skift )

Twitter picture

Du kommenterer med din Twitter konto. Log Out / Skift )

Facebook photo

Du kommenterer med din Facebook konto. Log Out / Skift )

Google+ photo

Du kommenterer med din Google+ konto. Log Out / Skift )

Connecting to %s