Milyen licenceket, formátumokat használjunk?

Open data licencek:

  • A legszélesebb körben alkalmazott open data licenc az ODbL (Open Database Licence), amelyet az Open Data Commons publikált, amely az Open Knowledge Alapítvány része. Erről részletesebben itt: http://opendatacommons.org/faq/
  • Creative Commons (CC) licenc, amelyet az azonos nevű szervezet hozott létre. Ez egy nyilvánosan hozzáférhető és használható szerzői jogi licenc, amely lehetővé teszi, hogy egyébként szerzői jog hatálya alá tartozó művek szabadon hozzáférhetőek legyenek. A CC licencekről részletesebben itt: http://creativecommons.org/about

Open data file-formátumok:

  • JSON: egyszerű file-formátum, amelyet egyes programnyelvek jobban kezelnek, mint pl. az xml formátumot.
  • XML
  • RDF
  • Táblázatok: Microsoft Excel, OpenOffice Excel, Google Spreadsheets
  • CSV (Coma Separated Files): vesszővel elválasztott file-ok
  • Szöveges dokumentumok: Text document, Word, ODF, OOXML, PDF (bizonyos esetekben), Plain Text (.txt)
  • HTML

Néhány követendő tanács nyílt adatok kezelése során:

  • ne bonyolítsd túl a dolgokat
  • gyorsan cselekedj
  • legyél pragmatikus

Jobb ma közzétenni a nyers adatokat, mint a tökéletes adatsor publikálásával félévet várni.

Nagyon sokféle módja van annak, hogy mások számára elérhetővé tedd az adatokat. A leginkább magától értetődő az internet korában az online közzététel. Ennek a modellnek sok változata létezik, a legalapvetőbb, amikor az intézmény az adatokat a saját honlapján teszi közzé és egy központi katalógus mutatja meg a látogatónak, hol van pontosan az adatforrás. Itt is vannak azonban alternatívák: amikor a kapcsolat limitált, vagy az adatsor túlságosan nagyméretű, akkor más formátumokban történő terjesztés is elfogadott.

Hogyan tegyem adataimat nyílt adatokká?

 

Lépésről lépésre: nem kell minden adatköteget egyszerre nyílttá tenni.

Minél előbb és minél gyakrabban kapcsolatba lépni azokkal, akik számára az adatok relevánsak lehetnek.

Fontos figyelembe venni, hogy az adatok esetekben nem közvetlenül jutnak majd el a felhasználókhoz, a szervezet elsődleges célcsoportjához, hanem közvetítőkön keresztül. Ezek azok a profi, lelkes felhasználók, akik hozzáértéssel értelmezik az adatokat és egy laikusok számára is értelmezhető felületen jelenítik meg az adatokat.

 

Fontos lépések:

Az adatcsomagok körültekintő megválasztása, amelyek nyílttá tételéről döntünk. Fontos , különösen olyan szervezetek számára, amelyek nagy mennyiségű adatot kezelnek, hogy végiggondolják, ezek közül melyeket tesznek nyílttá először.

Érdemes kikérni az adott szervezet környezetének, közösségének véleményét azzal kapcsolatban, hogy milyen adatok lennének szerintük relevánsak, amelyeket első körben és aztán fokozatosan a többit is ilyen formában tegyék közzé. Érdemes olyan adatcsomaggal kezdeni a munkát, amelynek nyílttá tétele egyszerűbb.

Egyedi url-en érdemes az adatokat közzétenni, olyan oldalon, amelyen nem szükséges a regisztráció. A minél nagyobb ismertség érdekében érdemes az oldalt a megfelelő fórumokra, levelezőlistákra, közösségekhez eljuttatni. Érdemes figyelni az ngo-szférát, civil szervezeteket, nemzetközi példákat, mivel a nyílt adatok mozgalma egy gyorsan fejlődő terület.

Kiválasztani, hogy milyen nyílt licencet választunk: fontos hogy tudjuk, milyen szerzői jogi vonatkozásai vannak az adatok nyílt formában történő közétételének.

Szinte valamennyi joghatóság alatt léteznek szerzői jogi kötöttségek, amelyek adatok publikálásához, harmadik fél számára történő hozzáférhetőség esetén fennállnak. Az erre vonatkozó pontos leírások angol nyelven itt találhatóak: http://opendefinition.org/licenses/ hozzá tartozó rövid útmutató pedig itt: http://opendatacommons.org/guide/

Nagy mennyiségben és használható formátumban tedd hozzáférhetővé az adatcsomagot.

Manapság a legkézenfekvőbb módja az adatok közzétételének az interneten keresztül az online publikálás. A legegyszerűbb módja ennek, hogy az adott intézmény közzéteszi oldalán az általa kezelt adatokat, amihez elérhetővé tesz egy katalógust is. Vannak ugyanakkor más lehetőségek is:

  • létező oldalon keresztül – egy szervezet oldalának fejlesztői számára a legkézenfekvőbb módja adatok közlésének, hogy ezeket a már létező oldalon file-ok formájában teszik elérhetővé. Ennek nehézsége lehet, hogy így az adatokat keresők csak nehezen találják meg a releváns információt;
  • harmadik fél oldalán keresztül: léteznek bizonyos szakterületekre specializálódott szervezetek, amelyek vállalják mások adatainak nyíltan történő tárolását. Ennek előnye elsősorban az, hogy ezeknek az oldalaknak már eleve van egy ismerős közössége, amelyek felhasználják az adatokat és dolgoznak velük. Ilyenekre példa az infochimps.com, a talis.com vagy a xively.com http://blog.xively.com/2013/05/14/cosm-is-now-xively/;
  • másik következménye annak, hogy harmadik félhez kerüljenek az adatcsomagok, hogy ezzel tulajdonosa hitet tesz amellett, hogy adatai valóban nyitottá váljanak, hiszen átengedi felettük a rendelkezést másoknak – a felhasználóknak;
  • FTP-szervereken való tárolás: ez egy kevésbé divatos, inkább technikailag képzett közönség számára ismeretes közeg, ugyanakkor kifejezetten adatállományok küldésére szolgál;
  • Torrent oldalakon/rendszereken keresztül: noha a torrentezés a szerzői jog megkerülés gyakorlatának szinonimájává vált, maga a rendszer: adatok terjesztési költségeinek szétosztása, könnyítése – decentralizálás. Ahelyett, hogy a letöltések egy adott szervert terhelnének, ehelyett torrent file-okon keresztül a tartalmat szétteríti a kliensprogramot használók között. Elképesztően hatékony módja ez az információ terjesztésének;
  • API-n keresztül. Mi az az API? Ezek a programozott felületek, amelyek össze vannak kötve magukkal az adatokat tartalmazó adatbázissal lehetőséget teremtenek arra a felhasználók számára, hogy ne kelljen az összes adatot egyszerre letölteniük. Nagy mennyiségű adat API-n keresztül történő publikálása lényegesen költségesebb vállalkozás, mint önmagában az adatok publikálása.

Tedd elérhetővé az adatokat (technikai nyitottság)

A nyílt adatnak technikai és jogi szempontból is nyíltnak kell lennie. Ez azt jelenti, hogy az adatsort le lehet tölteni egy csomagban, gépileg feldolgozható formátumban.

Elérhető adat

Az adatok nem kerülhetnek többe, mint a reprodukciójuk reális költsége, és lehetőleg ingyenesen letölthetők az internetről. Ez az díjszabás azért vállalható, mert az intézménynek nem kerülhet semennyibe az, hogy az adatokat megosztja felhasználásra.

Adatcsomag

Az adatsort egy teljes csomagban elérhetővé kell tenni. Ha olyan adatbázisod van, amelyet törvényi előírásnak megfelelően gyűjtöttek össze, akkor az egész adatbázis legyen letölthető. Egy web API vagy hasonló szolgáltatás nagyon hasznos tud lenni, de ez nem helyettesítője az egy kattintással letölthető csomagoknak.

Nyílt, gépileg feldolgozható formátum

A közintézmények által gondozott adatok felhasználása nem ütközhet szerzői jogi korlátozásokba. Még ennél is fontosabb, hogy az adatsorokat gépileg feldolgozható formátumban tedd közzé, mert az nagyobb teret ad az újrafelhasználásnak. Egy példa erre, mikor statisztikákat pdf dokumentumként tesznek közzé, mert azt használták például a nyomtatott anyagok előkészítésére. Igaz, hogy ezeket a statisztikákat az emberek tudják értelmezni, a számítógépek viszont nagyon nehezen. Ez pedig nagyban korlátozza, hogy mások is felhasználják ugyanezeket az adatokat.

Néhány követendő irányelv:

  • ne bonyolítsd túl a dolgokat
  • gyorsan cselekedj
  • legyél pragmatikus.

Jobb ma közzétenni a nyers adatokat, mint a tökéletes adatsor publikálásával félévet várni.

Nagyon sokféle módja van annak, hogy mások számára elérhetővé tedd az adatokat. A legmagátólértetődőbb az internet korában az internetes közzététel. Ennek a modellnek sok változata létezik, a legalapvetőbb, amikor az intézmény az adatokat a saját honlapján teszi közzé és egy központi katalógus mutatja meg a látogatónak, hol van pontosan az adatforrás. Itt is vannak azonban alternatívák: amikor a kapcsolat limitált, vagy az adatsor túlságosan nagyméretű, akkor más formátumokban történő terjesztés is elfogadott. Ebben a részben az olyan alternatív megoldásokat soroljuk fel, amelyek nem növelik a reprodukcióhoz kapcsolódó költségeket.