Oppsummert på Twitter.
Dette er min oppsummering av innleggene. Ikke akkurat "strukturerte data", men i det minste noenlunde strukturert :)
- Anders Waage Nilsen
- Anders Brenna
- Tor Olav Mærseth (BT)
- Sverre Lunde-Danbolt (Fornyingsdepartementet)
- Olav Anders Øvrebø
- Erik Bugge (Essens)
- Plenumssamatle ledet av Bente Kalsnes
- Monica Hannestad (Design region Bergen)
- Jostein Ryssevik (ideas2eveidence)
- Samtale ledet av Rune Smistad
- Knut Skjåk (NSD)
- Randi Taxt (UBB)
- Diskusjon ledet av Dag Elgesem
- Johannes Wehner
- Yngve Ødegård (Texturgy)
En naturlig intrododuksjon:
Data Driven Journalism – Telling Stories Online
- Datadrevet innhold - innholdsdrevne data
- Bergen har tunge miljøer knyttet til sterke teknologiaktører og sterke redaksjonelle miljøer.
- Hva mangler? - teknologi, samhandling, evne til samarbeid
- Fokusere på barrierer for samhandling og potensiale for samarbeid
- Utvikling av kommersieialiserbar mellomvare
- utvikling av nye forretningskonsepter
- kompetanse-, forsknings- og utdanningsinitiativ, er noe av det man håper kan komme ut av prosjektet
- Viser til London data store - http://data.london.gov.uk/
- viser til beautifulpeople.com - påstand “Nettsted har avvist 1,8 millioner «stygge» personer” (blant annet via NRK)
- sjekket den gang via via Alexa.com
Ville nå sjekket ved hjelp av WolframAlpha
Kommentar (litt på siden): en gammel “læresetning” sier at en ikke skal sjekke i hjel en god sak :)
- Datastøttet journalistikk
- dreier seg om å finne redaksjonelt relevante faktaopplysninger der man lar datamaskiner gjøre rutinearbeidet.
- Bruker fornyingsminister Rigmor Aasrud som eksempel
- Gravemaskinen.no
- wikileaks, pressemeldinger
- Viser til "CTA Bus Tracker a favorite of Norwegians"- Chicago Tribune. Lærepenge: redaksjonelle vurderinger må alltid til. Datamaskinene finner ikke ut alt på egenhånd.
- Case knyttet til trafikkulykker. Hentet inn tallene for hele landet.
- "Døden på veiene" på BT.nohttp://www.bt.no/nyheter/lokalt/dodenpaaveiene/ungdommene/
- Statistiske data tilgjengelige digitalt, samtidig som offentlighetsloven gir noen nye muligheter for å få ut data.
- Kan fremdeles være vanskelig å få ut data
- Kvaliteten på råmaterialet. 13.000 oppslag som måtte "renses" før datene kunne brukes.
- Det offentlige benytter fremdeles to former for kartreferanser.
- Høyere datakompetanse hos unge journalister.
- Ønskeliste
- mer kompetanse hos alle de som arbeider med data.
- standardiserte dataformater på tvers av etater og organisasjoner
Sverre Lunde-Danbolt (Fornyingsdepartementet)
- http://data.norge.no/ - kommer med første beta i løpet av høsten
- Viderebrukprosjektet 2010
- demokrati
- effektiv forvaltning
- Næringsutvikling
- Tilgang til dokumenter
- Maskinlesbare formater
- Journalistikk favner både over næringspotensiale og åpenhet
- Tidsskille knyttet til http://www.data.gov/ i 2009
- svært kort historie medfører at man har kommet kort i forhold til å forstå og konseptualisere bruken av data. (denne påstanden ble i og for seg motsagt fra salen, hvor det ble påpekt at det er blitt jobbet med tanke på åpne data og datautveksling i flere tiår)
- Enorme mengder data i offentlig sektor
- Utfordring knyttet til www.idrettsanlegg.no : CSV-fil med oversikt over alle idrettsanlegg i Norge. Hva kan man bruke dette til?
- trenger gode eksempler på hva en kan gjøre med disse dataene
- To faser: fra tilgang for meg (tradisjonell research - mye er allerede tilgjengelig) til data tilgjengelig for oss
- viser til partifinansiering.no en ressurs som foreløpig er lite utnyttet
- selv om et datasett er mulig å få ut betyr det ikke at de finnes i tilgjengelige formater
- Viser til rapporten "Fakta først" på Vox Publica - http://voxpublica.no/seksjon/allmenningen/fakta-foerst/
- Offentlighetsloven §9 gir rett til kopi av data i "alle eksisterende formater", ifølge Justisdepartementets veiledning
- Fase 2: tilgang for oss
- viktig å dele kunnskap og erfaringer om hvordan man får tak i data og bearbeider disse
- viser til NRK "Databasejakt med Wikileaks"
- sammen definere beeste praksis
- Tilgjengeliggjøre rådata for alle - det ultimate målet med Datanorge.no
- viser til "comprehensive knowledge archive network", benyttet av data.gov.uk, oversatt til norsk
- Det aller beste ville vært om de som bearbeider data igjen deler dette med andre
- viser her til Guardian, som deler sine data med publikumhttp://www.guardian.co.uk/open-platform
- La oss konkurrere om ideer, ikke data-tilgang
- Essens leverer alt av søketjenester på Stortingets nettsider
- viser til Drammens tidende "Buskerudbenken"http://sandkasse.eddamedia.no/2009/08/25/buskerudbenken-databasetjeneste-i-beta/
- representantenes aktivitet
- oppdateres kontinuerlig - flere hundre tusen informasjonsenheter behandles for å lage fremstillingen
- Totalt åtte aviser innenfor Edda-media benytter i dag systemet
- API åpner for enkel gjenbruk
- Polaris media benytter det samme APIet
- Polaris ønsket et tillegg som fanget opp representantenes aktivitet i sosiale medier
- vanlig feil at man opplever feil i datagrunnlaget
- viser til Maktbasen, som nå er under oppdatering.
- baserer seg på en engangsimport av data, noe som medfører begrenset holdbarhet.
- må bli flinkere på gjenbruk og deling, for å rettferdiggjøre investeringene.
Plenumssamtale ledet av Bente Kalsnes
- Viktig å få lagt ut data, men det fungerer gjerne slik at man først ser behovet i det man sitter med en konkret journalistisk case.
- utfordring knyttet til at det offentlige sitter på enorme mengder data. Må prioritere hva man tilgjengeliggjør først.
- stor innovasjon knyttet til mashups. kan Se en tilsvarende utvikling dersom man deler data.
- Hva må til for å heve kompetansenivået?
- må angripe dette fra flere hold. de som jobber med datasiden må kunne er om journalistikk, og journalistene må forstå mer av databehandling.
- Er kompetansen tilgjengelig i arbeidsmarkedet. BT mener at den er det, og at det blir bedre.
- Norge henger langt etter. Bør samle ressursene innenlands, men også være åpen og søke samarbeid utenfor landegrensene.
- En del verktøy møter problemer i forhold til norsk tegnsett. kan imidlertid hente inspirasjon fra utlandet.
- Datastøttet journalistikk handler om å gjøre oppgaver mer effektivt. De som får mye gjort vil medføre at andre vil lære og benytte lignende metoder
- Datastøttet journalistikk vs kildejournalistikk - kan det medføre en sterkere objektivitet?
- det er tre typer journalister: de som kan matte og de som ikke kan det :)
Monica Hannestad (Design region Bergen)
- sterk designtradisjon i andre nordiske land
- drb.no
- viser til RAFF design 2010http://www.raffdesign.no/
- påpeker mulighetene i å jobbe med brukergrensesnitt. dette må komme med fra begynnelsen av et prosjekt. ta hensyn til hvem som skal bruke en løsning og hva de skal bruke dem til.
- viser til film fra BUG (som ikke ligger på nett) og Gosus produksjonsdesign gjort for Eurovision Song Contest http://www.gosu.no/#/Project/136
Jostein Ryssevik (ideas2eveidence)
- Datavisualisering
- viser til Joseph Minards fremstilling av Napoleons krig i Russland, fra 1869http://www.stanford.edu/group/spatialhistory/cgi-bin/site/pub.php?id=29
- New York times, Amanda Cox - viser til Murder New York Cityhttp://projects.nytimes.com/crime/homicides/map
- State of the union - analyse i New York Timeshttp://www.nytimes.com/ref/washington/20070123_STATEOFUNION.html
- The world's best contries - ranking av nasjoner i Newsweek, hvor brukeren selv kan bla i dataenehttp://www.newsweek.com/feature/2010/the-world-s-best-countries.html
- Visaulisering av demografiske forhold knyttet til Hordaland http://www.bt.no/nyheter/lokalt/Barneboom-paa-Askoey-1054580.html
- Nasjonale prøver ved baseskoler i Norge - Bergens Tidendehttp://www.bt.no/forbruker/utdanning/Baseskoler-gjoer-ingen-forskjell-1058729.html
- Datavisualisering er en alterbnativ måte å fortelle en historie på. få frem sammenhenger, som ellers ikke er lett synlige. Gjøre kompleks informasjon forståelig for ikke-eksperter. God visualisering kan forhindre misstolkning av komplekse data.
- Media formidler allerede store mengder kvantitativ informasjon, men dette presenteres som "døde" tabeller.
- mulighetene for å skape engasjement gjennom interaksjon er for dårlig utnyttet
- God datavisualisering krever et miljø med sammensatt kompetanse. Programmering, interaksjonsdesign, journalistikk og visualisering mm
- viktig med mettode- og analysekunnskap. Å evne å behandle et statistisk materiale for ulike bruksmåter.
- betydelige kostnader knyttet til mye skreddersøm. samtidig finnes det standardverktøy som kan brukes for små prosjekter
- Utdanningene må sette tverrfaglighet og anerkjennelse av dette på timeplanen.
- Å kombinere kompetanse innad i et avishus er en utfordring. viktig å være åpen for andres kompetanse.
- Finnes det et område hvor en kan komme i gang med et prøveprosjekt.
- all kompetanse finnes, men er ikke samlet. Trenger ikke å sitte og vente på at mer data skal bli offentlige.finnes allerede mye som kan brukes.
- Trenger et prosjekt med et klart definert mål.
- Viktig å tenke gjenbruk, slik at en kan benytte løsninger på tvers av prosjekter.
- Det vil ta lang tid å bygge opp et miljø ala NYT. Bør "plukke lavthengende frukter". Viser til hvordan sportsdata visualiseres i Norge. finnes knapt noen gode visualiseringer av dette.
- Bergen designråd venter på en klar oppdragsgiver, bestiller og noe som kan betale.
- Finnes det muligheter knyttet til en statlig bestiller.
- BT kunne vært en kjøper av et rammeverk. Mindre interessant dersom en utvikler med tanke på enkeltprosjekter
- Kost-nytte er den største barrièren. betalingsvilligheten er ikke veldig stor i dagens mediemarked.
- Representant fra BTO viser til at det er mulig å koble inn innovasjonsmidler, slik at en kan få en grunnfinansiering på plass med tanke på en utvikling av et rammeverk.
- samspill samfunnsliv- akademia- næringsliv. Skal en få til en fungerende klynge må alle disse tre områdene involveres.
- Forskningsdata på nett. I all hovedsak kvantitative data
- NSD skal gjøre data tilgjengelig, men innenfor de grensen som jus og personvern setter
- Benytter et system som kalles Nestar for tilgjengeliggjøring. Den primære målgruppen er forskere og studenter.
- Alt for liten kontakt mellom forskere og media.
- Eksempler på bruk av NSDs onlinedata
- Europe's irreligious - the economisthttp://www.economist.com/node/16767758?story_id=16767758
- presenterer statiske grafer
- Kyrkjegang utan stolpar - Vårt land
- Nordmenn på europabunnen i kirkegang. Tekstlig presentasjon av de samme nøkkeltallene som i The uuardian.
- Gjenbruk i Stavanger aftenblad
- "Nordmenn minst redde i Europa"http://www.aftenbladet.no/innenriks/article540304.ece
- nordmenn det folkeslaget som stoler mest på andre mennesker
- "Bibelbeltet består" - klassekampenhttp://www.klassekampen.no/57850/article/item/null/bibelbeltet-bestaar
- El Pais "Ascensor social: fuera de service"http://www.elpais.com/articulo/sociedad/Ascensor/social/fuera/servicio/elpepisoc/20100811elpepisoc_1/Tes
- lager en sak som tar opp spørsmål om sosial mobilitet. I sør-europa har den sosaiel mobiliteten stoppet opp.
- artikkelen mangler fullstendig en grafisk visualisering.
- viser til Katherine McNeill, MiThttp://libguides.mit.edu/content.php?pid=55006&sid=794182
- internasjonale forskningsbiblioteker arbeider stadig mer med tilgjengeliggjøring av data
- Jan Brase "3 layers data infrastructure"
http://www.janbrase.de/ - Grind.no - kunnskapsportal for kultur og natur på Vestlandethttp://www.grind.no/
- utgangspunkt er veibøkene på nett + boka om Folgefonna
- enormt tilfang av innhold, men en utfordring å tilrettelegge dette
- har i dag en prototype basert på skannende artikler fra verkene
- inviteter til samarbeid om utnytting av disse dataene
- UiB tar ansvar for tilgjengeliggjøring av datene, men trenger eksterne midler og samarbeidspartenere som kan lage applikasjoner på toppen av dette
Diskusjon ledet av Dag Elgesem
- bedre tilgang til data gir bedre journalistikk
- Forskere kan ha en egeninteresse av å holde på data. Det er et offentlig ansvar å pålegge de som får forskningsmidler en plan for offentliggjøring av disse.
- Kostnad ved tilgjengeliggjøring. Det er derfor viktig at offentlige aktører tar grunnkostnadene..
- Gode data koster alltid penger. Offentlig finansiering er det mest nærliggende.
- sammenstilling av data kan gi ny kunnskap, noe man trolig vil se mye mer av i fremtiden.
- Problemstillinger knyttet til kommersielle anvendelser. Ui vil neppe komme til å ta seg betalt for tilgang til forskningsdata. Behovet er knyttet til samarbeid om visualisering og videre tilrettelegging
- OpenLinkedData . Information.dkhttp://www.slideshare.net/johsw/open-linked-data-informationdk-open-bergen
- Information.dk har 217.000 sider og benytter Drupal, siden 2007
- artikler har blitt tagget med i alt 12.000 forskjellige tagger. Fungerte i og for seg brukbart, men kom på et tidspunkt over Open Calais - et system som strukturerer fritekst. Mener at dette prosjektet vil få svært stor betydning for hvordan online-kommuniksjon vil utvikle seg. Fungerer foreløpig ikke for alle språk.http://www.opencalais.com/
- ønsket å lage noe tilsvarende Calais for eget formål, og dansk språk.
- Viser presentasjon av "Norge" - siste artikler, syndikert innhold, relaterte emner i hver sin kolonnehttp://www.information.dk/verden/europa/norge
- tagger i tre kategorier: personer. organisasjoner, steder. Kan bruke dette til å lage semantiske URLer
- "Hierarkisk helvete"
- løsningen er å kutte ut hierarkiet, men føye til metadata, eventuelt i form av flere kategorier
- Autotagging
- CST (det danske senter for språkteknologi) forslå en for kompleks metode. Gikk derfor vekk fra Natural Language Processing og POS-tagging. En enklere løsning basert på sannsynlige kandidater, der innholdet i en artikkel sjekkes opp mot en eksisterende database. Kan være mer enn tusen dattabasespørringer per artikkel.
- Utfordringer knyttet til flertydighet. F eks Paris, Venstre
- Utfordringer knyttet til å vurdere relevans
- URI - eks http://dbpedia.org/page/Bryggen
- Global Linked Data Primary Key
- dbpedia er et prosjekt som forsøker å lage strukturerte data med utgangspunkt i Wikipedia.http://dbpedia.org/About
- bruke eksterne data til å berike og fitrere eget innhold
- trekker ut entiteter(personer, organsiasjoner mm), termer (sykdommer, positive og negative ord, hendelser mm), relasjoner (person-organisasjon, person-stilling, organisasjon-ansatte etc) og tagger (politikk, finans, kultur mm)http://www.texturgy.com/
- Bruksområder
- tagging og organisering av innhold
- linking av data
- oppdage kopi/plagiering
- Semantisk søk og navigasjon
- Nevner Googles kjøp av Metaweb
Ingen kommentarer:
Legg inn en kommentar
Kommentarer er svært velkommen. På grunn av problemer med spam må jeg imidlertid godkjenne kommentarer før de publiseres. Vanligvis skjer dette i løpet av noen timer.