7. september 2010

BergenOpen oppsummert

MediArena, et nytt innovasjonsprosjekt for mediebransjen i bergensregionen, inviterte sammen med Infomedia (UiB) til seminaret “Bergen Open”.

Oppsummert på Twitter.

Dette er min oppsummering av innleggene. Ikke akkurat "strukturerte data", men i det minste noenlunde strukturert :)

En naturlig intrododuksjon:

Data Driven Journalism – Telling Stories Online

Anders Waage Nilsen

  • Datadrevet innhold - innholdsdrevne data
  • Bergen har tunge miljøer knyttet til sterke teknologiaktører og sterke redaksjonelle miljøer.
  • Hva mangler? - teknologi, samhandling, evne til samarbeid
  • Fokusere på barrierer for samhandling og potensiale for samarbeid
  • Utvikling av kommersieialiserbar mellomvare
  • utvikling av nye forretningskonsepter
  • kompetanse-, forsknings- og utdanningsinitiativ, er noe av det man håper kan komme ut av prosjektet

Anders Brenna

  • viser til beautifulpeople.com - påstand “Nettsted har avvist 1,8 millioner «stygge» personer” (blant annet via NRK)
  • sjekket den gang via via Alexa.com

    Ville nå sjekket ved hjelp av
    WolframAlpha
    Kommentar (litt på siden): en gammel “læresetning” sier at en ikke skal sjekke i hjel en god sak :)
  • Datastøttet journalistikk
  • dreier seg om å finne redaksjonelt relevante faktaopplysninger der man lar datamaskiner gjøre rutinearbeidet.
  • Bruker fornyingsminister Rigmor Aasrud som eksempel
  • Gravemaskinen.no
  • wikileaks, pressemeldinger

Tor Olav Mærseth (BT)

  • Case knyttet til trafikkulykker. Hentet inn tallene for hele landet.
  • Kan fremdeles være vanskelig å få ut data
  • Kvaliteten på råmaterialet. 13.000 oppslag som måtte "renses" før datene kunne brukes.
  • Det offentlige benytter fremdeles to former for kartreferanser.
  • Høyere datakompetanse hos unge journalister.
  • Ønskeliste
  • mer kompetanse hos alle de som arbeider med data.
  • standardiserte dataformater på tvers av etater og organisasjoner

Sverre Lunde-Danbolt (Fornyingsdepartementet)

  • demokrati
  • effektiv forvaltning
  • Næringsutvikling
  • Tilgang til dokumenter
  • Maskinlesbare formater
  • Journalistikk favner både over næringspotensiale og åpenhet
  • svært kort historie medfører at man har kommet kort i forhold til å forstå og konseptualisere bruken av data. (denne påstanden ble i og for seg motsagt fra salen, hvor det ble påpekt at det er blitt jobbet med tanke på åpne data og datautveksling i flere tiår)
  • Enorme mengder data i offentlig sektor
  • Utfordring knyttet til www.idrettsanlegg.no : CSV-fil med oversikt over alle idrettsanlegg i Norge. Hva kan man bruke dette til?
  • trenger gode eksempler på hva en kan gjøre med disse dataene

Olav Anders Øvrebø

  • To faser: fra tilgang for meg (tradisjonell research - mye er allerede tilgjengelig) til data tilgjengelig for oss
  • selv om et datasett er mulig å få ut betyr det ikke at de finnes i tilgjengelige formater
  • Fase 2: tilgang for oss
  • viktig å dele kunnskap og erfaringer om hvordan man får tak i data og bearbeider disse
  • viser til NRK "Databasejakt med Wikileaks"
  • sammen definere beeste praksis
  • Det aller beste ville vært om de som bearbeider data igjen deler dette med andre

Erik Bugge (Essens)

  • representantenes aktivitet
  • oppdateres kontinuerlig - flere hundre tusen informasjonsenheter behandles for å lage fremstillingen
  • Totalt åtte aviser innenfor Edda-media benytter i dag systemet
  • API åpner for enkel gjenbruk
  • Polaris media benytter det samme APIet
  • Polaris ønsket et tillegg som fanget opp representantenes aktivitet i sosiale medier
  • vanlig feil at man opplever feil i datagrunnlaget
  • viser til Maktbasen, som nå er under oppdatering.
  • baserer seg på en engangsimport av data, noe som medfører begrenset holdbarhet.
  • må bli flinkere på gjenbruk og deling, for å rettferdiggjøre investeringene.

Plenumssamtale ledet av Bente Kalsnes

  • Viktig å få lagt ut data, men det fungerer gjerne slik at man først ser behovet i det man sitter med en konkret journalistisk case.
  • utfordring knyttet til at det offentlige sitter på enorme mengder data. Må prioritere hva man tilgjengeliggjør først.
  • stor innovasjon knyttet til mashups. kan Se en tilsvarende utvikling dersom man deler data.
  • Hva må til for å heve kompetansenivået?
  • må angripe dette fra flere hold. de som jobber med datasiden må kunne er om journalistikk, og journalistene må forstå mer av databehandling.
  • Er kompetansen tilgjengelig i arbeidsmarkedet. BT mener at den er det, og at det blir bedre.
  • Norge henger langt etter. Bør samle ressursene innenlands, men også være åpen og søke samarbeid utenfor landegrensene.
  • En del verktøy møter problemer i forhold til norsk tegnsett. kan imidlertid hente inspirasjon fra utlandet.
  • Datastøttet journalistikk handler om å gjøre oppgaver mer effektivt. De som får mye gjort vil medføre at andre vil lære og benytte lignende metoder
  • Datastøttet journalistikk vs kildejournalistikk - kan det medføre en sterkere objektivitet?
  • det er tre typer journalister: de som kan matte og de som ikke kan det :)

Monica Hannestad (Design region Bergen)

  • sterk designtradisjon i andre nordiske land
  • drb.no
  • viser til RAFF design 2010http://www.raffdesign.no/
  • påpeker mulighetene i å jobbe med brukergrensesnitt. dette må komme med fra begynnelsen av et prosjekt. ta hensyn til hvem som skal bruke en løsning og hva de skal bruke dem til.
  • viser til film fra BUG (som ikke ligger på nett) og Gosus produksjonsdesign gjort for Eurovision Song Contest http://www.gosu.no/#/Project/136

Jostein Ryssevik (ideas2eveidence)

  • mulighetene for å skape engasjement gjennom interaksjon er for dårlig utnyttet
  • God datavisualisering krever et miljø med sammensatt kompetanse. Programmering, interaksjonsdesign, journalistikk og visualisering mm
  • viktig med mettode- og analysekunnskap. Å evne å behandle et statistisk materiale for ulike bruksmåter.
  • betydelige kostnader knyttet til mye skreddersøm. samtidig finnes det standardverktøy som kan brukes for små prosjekter

Samtale ledet av Rune Smistad

  • Utdanningene må sette tverrfaglighet og anerkjennelse av dette på timeplanen.
  • Å kombinere kompetanse innad i et avishus er en utfordring. viktig å være åpen for andres kompetanse.
  • Finnes det et område hvor en kan komme i gang med et prøveprosjekt.
  • all kompetanse finnes, men er ikke samlet. Trenger ikke å sitte og vente på at mer data skal bli offentlige.finnes allerede mye som kan brukes.
  • Trenger et prosjekt med et klart definert mål.
  • Viktig å tenke gjenbruk, slik at en kan benytte løsninger på tvers av prosjekter.
  • Det vil ta lang tid å bygge opp et miljø ala NYT. Bør "plukke lavthengende frukter". Viser til hvordan sportsdata visualiseres i Norge. finnes knapt noen gode visualiseringer av dette.
  • Bergen designråd venter på en klar oppdragsgiver, bestiller og noe som kan betale.
  • Finnes det muligheter knyttet til en statlig bestiller.
  • BT kunne vært en kjøper av et rammeverk. Mindre interessant dersom en utvikler med tanke på enkeltprosjekter
  • Kost-nytte er den største barrièren. betalingsvilligheten er ikke veldig stor i dagens mediemarked.
  • Representant fra BTO viser til at det er mulig å koble inn innovasjonsmidler, slik at en kan få en grunnfinansiering på plass med tanke på en utvikling av et rammeverk.
  • samspill samfunnsliv- akademia- næringsliv. Skal en få til en fungerende klynge må alle disse tre områdene involveres.

Knut Skjåk (NSD)

  • Forskningsdata på nett. I all hovedsak kvantitative data
  • NSD skal gjøre data tilgjengelig, men innenfor de grensen som jus og personvern setter
  • Benytter et system som kalles Nestar for tilgjengeliggjøring. Den primære målgruppen er forskere og studenter.
  • Alt for liten kontakt mellom forskere og media.
  • Eksempler på bruk av NSDs onlinedata
  • presenterer statiske grafer
  • Kyrkjegang utan stolpar - Vårt land
  • Nordmenn på europabunnen i kirkegang. Tekstlig presentasjon av de samme nøkkeltallene som i The uuardian.
  • Gjenbruk i Stavanger aftenblad
  • nordmenn det folkeslaget som stoler mest på andre mennesker
  • lager en sak som tar opp spørsmål om sosial mobilitet. I sør-europa har den sosaiel mobiliteten stoppet opp.
  • artikkelen mangler fullstendig en grafisk visualisering.

Randi Taxt (UBB)

  • internasjonale forskningsbiblioteker arbeider stadig mer med tilgjengeliggjøring av data
  • Jan Brase "3 layers data infrastructure"
    http://www.janbrase.de/
  • Grind.no - kunnskapsportal for kultur og natur på Vestlandethttp://www.grind.no/
  • utgangspunkt er veibøkene på nett + boka om Folgefonna
  • enormt tilfang av innhold, men en utfordring å tilrettelegge dette
  • har i dag en prototype basert på skannende artikler fra verkene
  • inviteter til samarbeid om utnytting av disse dataene
  • UiB tar ansvar for tilgjengeliggjøring av datene, men trenger eksterne midler og samarbeidspartenere som kan lage applikasjoner på toppen av dette

Diskusjon ledet av Dag Elgesem

  • bedre tilgang til data gir bedre journalistikk
  • Forskere kan ha en egeninteresse av å holde på data. Det er et offentlig ansvar å pålegge de som får forskningsmidler en plan for offentliggjøring av disse.
  • Kostnad ved tilgjengeliggjøring. Det er derfor viktig at offentlige aktører tar grunnkostnadene..
  • Gode data koster alltid penger. Offentlig finansiering er det mest nærliggende.
  • sammenstilling av data kan gi ny kunnskap, noe man trolig vil se mye mer av i fremtiden.
  • Problemstillinger knyttet til kommersielle anvendelser. Ui vil neppe komme til å ta seg betalt for tilgang til forskningsdata. Behovet er knyttet til samarbeid om visualisering og videre tilrettelegging

Johannes Wehner

  • Information.dk har 217.000 sider og benytter Drupal, siden 2007
  • artikler har blitt tagget med i alt 12.000 forskjellige tagger. Fungerte i og for seg brukbart, men kom på et tidspunkt over Open Calais - et system som strukturerer fritekst. Mener at dette prosjektet vil få svært stor betydning for hvordan online-kommuniksjon vil utvikle seg. Fungerer foreløpig ikke for alle språk.http://www.opencalais.com/
  • ønsket å lage noe tilsvarende Calais for eget formål, og dansk språk.
  • Viser presentasjon av "Norge" - siste artikler, syndikert innhold, relaterte emner i hver sin kolonnehttp://www.information.dk/verden/europa/norge
  • tagger i tre kategorier: personer. organisasjoner, steder. Kan bruke dette til å lage semantiske URLer
  • "Hierarkisk helvete"
  • løsningen er å kutte ut hierarkiet, men føye til metadata, eventuelt i form av flere kategorier
  • Autotagging
  • CST (det danske senter for språkteknologi) forslå en for kompleks metode. Gikk derfor vekk fra Natural Language Processing og POS-tagging. En enklere løsning basert på sannsynlige kandidater, der innholdet i en artikkel sjekkes opp mot en eksisterende database. Kan være mer enn tusen dattabasespørringer per artikkel.
  • Utfordringer knyttet til flertydighet. F eks Paris, Venstre
  • Utfordringer knyttet til å vurdere relevans
  • Global Linked Data Primary Key
  • dbpedia er et prosjekt som forsøker å lage strukturerte data med utgangspunkt i Wikipedia.http://dbpedia.org/About
  • bruke eksterne data til å berike og fitrere eget innhold

Yngve Ødegård (Texturgy)

  • trekker ut entiteter(personer, organsiasjoner mm), termer (sykdommer, positive og negative ord, hendelser mm), relasjoner (person-organisasjon, person-stilling, organisasjon-ansatte etc) og tagger (politikk, finans, kultur mm)http://www.texturgy.com/
  • Bruksområder
  • tagging og organisering av innhold
  • linking av data
  • oppdage kopi/plagiering
  • Semantisk søk og navigasjon
  • Nevner Googles kjøp av Metaweb

Ingen kommentarer:

Legg inn en kommentar

Kommentarer er svært velkommen. På grunn av problemer med spam må jeg imidlertid godkjenne kommentarer før de publiseres. Vanligvis skjer dette i løpet av noen timer.