Miért fontosak a nyílt adatok? – civil szervezeteknek is!

Az utóbbi években egyre több szó esik a tudományos és az üzleti világban a „big data” fogalmáról, azaz a technológiai fejlődés és az automatizáció hatására keletkező, az emberek tevékenységével kapcsolatban keletkező egyre több adatról. Ezek az adatok azonban nem csak üzletemberek és tudósok számára érdekesek, számtalan olyan felhasználási területe van ezeknek az adatoknak, amelyek a mindennapi életben, ill. a demokratikus fejlődést – igazságosabb közteherviselést, elszámoltathatóbb politikusokat és átláthatóbb módon működő üzleti életet – szolgálják. A nyíltan kezelt adatok hozzásegítenek ahhoz, hogy több információnk legyen, aminek köszönhetően jobb döntéseket hozhatunk életünk során, ugyanakkor a nyíltan kezelt adatok technológiai sajátosságai miatt, amelyekről a későbbiekben részletesen is írunk, olyan tudásra is szert tehetünk a jövőben, amelyekről az adatok nyílttá tételekor még nem is gondoltunk.

Arról, hogy az egyre több digitálisan tárolt adatnak mi a jelentősége az újságírás számára az előző fejezetben részletesen írtunk. Ugyanezeket az érveket civil szervezetek számára is le lehet fordítani. Tevékenységük közben rengeteg olyan információ keletkezik, amelyek nyílt és gépileg feldolgozható formában történő tárolása és közzététele – amennyiben az nem sért adatvédelmi és más jogszabályokat – számtalan előnnyel járhat. Egyrészt hozzásegíthet az adott téma iránt érdeklődő közönséget ahhoz, hogy azt még jobban megismerjék, kutathassák, ez pedig magának a szervezetnek is segítség lehet, hiszen tevékenységükbe így másokat is bevonnak, újabb ismeretekre tesznek szert. Az adatok ilyenfajta közzététele ugyanakkor kommunikációs szempontból is fontos: nemcsak elősegíti, hogy az adott szervezet átláthatóbban működjön, de jobban megismerhetővé is teszi az adott szervezet tevékenységét.

Számtalan civil szervezet azzal a céllal jött létre, hogy kiegészítse, adott esetben ellása azokat a feladatokat, amelyeket az állam korábban végzett. Olyan civil szervezetek is működnek, amelyek az állam tevékenységének ellenőrzésére jöttek létre. Ahogy a nyílt adatok mozgalma elsősorban az állam birtokában lévő adatok nyilvánossága és nyílt felhasználhatóság érdekében jött létre, úgy fontos azt is leszögezni, hogy az államot ellenőrizni kívánó szervezetektől is elvárható és hasznos, hogy birtokukban lévő adatokat ugyanilyen módon tegyék közzé.

Kommunikáció: hogyan tudassam a külvilággal, hogy szervezetem tevékenységével kapcsolatban nyílt adatokat kezelek?

Az online elérhetővé tételből következik az, hogy az online keresőszolgáltatások számára felfedezhetővé tesszük oldalunkat, adatállományainkat. A nyílt adatok ugyanakkor mit sem érnek felhasználók nélkül. Annak, aki arra adja a fejét, hogy nyíltan tesz adatokat hozzáférhetővé, mindent meg kell tennie azért, hogy erről a felhasználók minél szélesebb rétege tudomást is szerezzen.

Több olyan csomópont létezik, amely nyílt adatbázisokat listáz – ilyen a Datahub, ami megkönnyíti szervezetek számára a publikálást, publicitást. Emellett szektorspecifikus gyűjtőoldalak is léteznek, különösen tudományos területeken.

Adatbázisok nyílttá tétele elsősorban hivatalos, megbízható adatok esetében releváns, így az állam által gyűjtött adatok köre, ami elsősorban fontos, ugyanakkor számos civil, nonprofit szervezet is létezik, amelyek olyan feladatokat látnak el, amelyek során számtalan adat keletkezik, amelyek közérdeklődésre tarthatnak számot.

Civil szervezetek számára eleve fontos a hatékony és széleskörű kommunikáció. Az adatok nyílt kezelése során végzett kommunikáció – Facebook, Twitter és más közösségi médiás platformok – során érdemes a #opendata kulcsszót alkalmazni, hogy a poszt könnyen felfedezhetővé váljon azok számára, akik ilyen témában keresnek, erre figyelnek.

A magyar open data mozgalom egyik legaktívabb színtere az OpenData.hu weboldal, amelyen számtalan adatcsomag, résztvevő szervezet és tematikusan listázott csoport szerepel. Létezik bárki számára elérhető Facebook csoport és Page, amelyen a tagok hasznos információkat, híreket osztanak meg a nyílt adatkezeléssel kapcsolatba . Ez egy olyan fórum, amelyen a téma iránt érdeklődők bátran feltehetik kérdéseiket akkor is, ha csak keveset tudnak a témáról, hozzáértő közegben segítségre találhatnak.

Jó módszer lehet, ha egy szervezetben nincs meg a hozzáértés arra, hogy adatait nyíltan hozzáférhetővé tegye, hogy megkeresse akár a fent említett fórumokat, akár személyesen olyan rendezvényeket, ahol a technológiában is képzett szakértőkkel találkozhat. Ilyenek a K-Monitor által is szervezet hackathonok, vagy az open data közösség által szervezett meetupok.

Milyen licenceket, formátumokat használjunk?

Open data licencek:

  • A legszélesebb körben alkalmazott open data licenc az ODbL (Open Database Licence), amelyet az Open Data Commons publikált, amely az Open Knowledge Alapítvány része. Erről részletesebben itt: http://opendatacommons.org/faq/
  • Creative Commons (CC) licenc, amelyet az azonos nevű szervezet hozott létre. Ez egy nyilvánosan hozzáférhető és használható szerzői jogi licenc, amely lehetővé teszi, hogy egyébként szerzői jog hatálya alá tartozó művek szabadon hozzáférhetőek legyenek. A CC licencekről részletesebben itt: http://creativecommons.org/about

Open data file-formátumok:

  • JSON: egyszerű file-formátum, amelyet egyes programnyelvek jobban kezelnek, mint pl. az xml formátumot.
  • XML
  • RDF
  • Táblázatok: Microsoft Excel, OpenOffice Excel, Google Spreadsheets
  • CSV (Coma Separated Files): vesszővel elválasztott file-ok
  • Szöveges dokumentumok: Text document, Word, ODF, OOXML, PDF (bizonyos esetekben), Plain Text (.txt)
  • HTML

Néhány követendő tanács nyílt adatok kezelése során:

  • ne bonyolítsd túl a dolgokat
  • gyorsan cselekedj
  • legyél pragmatikus

Jobb ma közzétenni a nyers adatokat, mint a tökéletes adatsor publikálásával félévet várni.

Nagyon sokféle módja van annak, hogy mások számára elérhetővé tedd az adatokat. A leginkább magától értetődő az internet korában az online közzététel. Ennek a modellnek sok változata létezik, a legalapvetőbb, amikor az intézmény az adatokat a saját honlapján teszi közzé és egy központi katalógus mutatja meg a látogatónak, hol van pontosan az adatforrás. Itt is vannak azonban alternatívák: amikor a kapcsolat limitált, vagy az adatsor túlságosan nagyméretű, akkor más formátumokban történő terjesztés is elfogadott.

Hogyan tegyem adataimat nyílt adatokká?

 

Lépésről lépésre: nem kell minden adatköteget egyszerre nyílttá tenni.

Minél előbb és minél gyakrabban kapcsolatba lépni azokkal, akik számára az adatok relevánsak lehetnek.

Fontos figyelembe venni, hogy az adatok esetekben nem közvetlenül jutnak majd el a felhasználókhoz, a szervezet elsődleges célcsoportjához, hanem közvetítőkön keresztül. Ezek azok a profi, lelkes felhasználók, akik hozzáértéssel értelmezik az adatokat és egy laikusok számára is értelmezhető felületen jelenítik meg az adatokat.

 

Fontos lépések:

Az adatcsomagok körültekintő megválasztása, amelyek nyílttá tételéről döntünk. Fontos , különösen olyan szervezetek számára, amelyek nagy mennyiségű adatot kezelnek, hogy végiggondolják, ezek közül melyeket tesznek nyílttá először.

Érdemes kikérni az adott szervezet környezetének, közösségének véleményét azzal kapcsolatban, hogy milyen adatok lennének szerintük relevánsak, amelyeket első körben és aztán fokozatosan a többit is ilyen formában tegyék közzé. Érdemes olyan adatcsomaggal kezdeni a munkát, amelynek nyílttá tétele egyszerűbb.

Egyedi url-en érdemes az adatokat közzétenni, olyan oldalon, amelyen nem szükséges a regisztráció. A minél nagyobb ismertség érdekében érdemes az oldalt a megfelelő fórumokra, levelezőlistákra, közösségekhez eljuttatni. Érdemes figyelni az ngo-szférát, civil szervezeteket, nemzetközi példákat, mivel a nyílt adatok mozgalma egy gyorsan fejlődő terület.

Kiválasztani, hogy milyen nyílt licencet választunk: fontos hogy tudjuk, milyen szerzői jogi vonatkozásai vannak az adatok nyílt formában történő közétételének.

Szinte valamennyi joghatóság alatt léteznek szerzői jogi kötöttségek, amelyek adatok publikálásához, harmadik fél számára történő hozzáférhetőség esetén fennállnak. Az erre vonatkozó pontos leírások angol nyelven itt találhatóak: http://opendefinition.org/licenses/ hozzá tartozó rövid útmutató pedig itt: http://opendatacommons.org/guide/

Nagy mennyiségben és használható formátumban tedd hozzáférhetővé az adatcsomagot.

Manapság a legkézenfekvőbb módja az adatok közzétételének az interneten keresztül az online publikálás. A legegyszerűbb módja ennek, hogy az adott intézmény közzéteszi oldalán az általa kezelt adatokat, amihez elérhetővé tesz egy katalógust is. Vannak ugyanakkor más lehetőségek is:

  • létező oldalon keresztül – egy szervezet oldalának fejlesztői számára a legkézenfekvőbb módja adatok közlésének, hogy ezeket a már létező oldalon file-ok formájában teszik elérhetővé. Ennek nehézsége lehet, hogy így az adatokat keresők csak nehezen találják meg a releváns információt;
  • harmadik fél oldalán keresztül: léteznek bizonyos szakterületekre specializálódott szervezetek, amelyek vállalják mások adatainak nyíltan történő tárolását. Ennek előnye elsősorban az, hogy ezeknek az oldalaknak már eleve van egy ismerős közössége, amelyek felhasználják az adatokat és dolgoznak velük. Ilyenekre példa az infochimps.com, a talis.com vagy a xively.com http://blog.xively.com/2013/05/14/cosm-is-now-xively/;
  • másik következménye annak, hogy harmadik félhez kerüljenek az adatcsomagok, hogy ezzel tulajdonosa hitet tesz amellett, hogy adatai valóban nyitottá váljanak, hiszen átengedi felettük a rendelkezést másoknak – a felhasználóknak;
  • FTP-szervereken való tárolás: ez egy kevésbé divatos, inkább technikailag képzett közönség számára ismeretes közeg, ugyanakkor kifejezetten adatállományok küldésére szolgál;
  • Torrent oldalakon/rendszereken keresztül: noha a torrentezés a szerzői jog megkerülés gyakorlatának szinonimájává vált, maga a rendszer: adatok terjesztési költségeinek szétosztása, könnyítése – decentralizálás. Ahelyett, hogy a letöltések egy adott szervert terhelnének, ehelyett torrent file-okon keresztül a tartalmat szétteríti a kliensprogramot használók között. Elképesztően hatékony módja ez az információ terjesztésének;
  • API-n keresztül. Mi az az API? Ezek a programozott felületek, amelyek össze vannak kötve magukkal az adatokat tartalmazó adatbázissal lehetőséget teremtenek arra a felhasználók számára, hogy ne kelljen az összes adatot egyszerre letölteniük. Nagy mennyiségű adat API-n keresztül történő publikálása lényegesen költségesebb vállalkozás, mint önmagában az adatok publikálása.

Hasznos tudnivalók

Civil szervezetek számára hasznos lehet a már Magyarországon is ingyenesen elérhető Google eszközök, a Google Nonprofit Szervezeteknek. Ez Magyarországon a TechSoup nemzetközi szervezet helyi partnerével, a NIOK Alapítvánnyal együttműködésben, a CivilTech Program keretében érhető el, amelyet 2008-ban a Nonprofit Információs és Oktató Központ Alapítvány a Microsofttal közösen indított el.

A Google Nonprofits a jogosult szervezetek számára a fizetős Google-termékek ingyenes verzióihoz, valamint speciális, kimondottan nonprofit szervezetek számára elkészített funkciókhoz. Az eszközök segítségével a nonprofit szervezetek új adományozókat és önkénteseket találhatnak, hatékonyabban dolgozhatnak, és cselekvésre ösztönözhetik támogatóikat.

Tedd elérhetővé az adatokat (technikai nyitottság)

A nyílt adatnak technikai és jogi szempontból is nyíltnak kell lennie. Ez azt jelenti, hogy az adatsort le lehet tölteni egy csomagban, gépileg feldolgozható formátumban.

Elérhető adat

Az adatok nem kerülhetnek többe, mint a reprodukciójuk reális költsége, és lehetőleg ingyenesen letölthetők az internetről. Ez az díjszabás azért vállalható, mert az intézménynek nem kerülhet semennyibe az, hogy az adatokat megosztja felhasználásra.

Adatcsomag

Az adatsort egy teljes csomagban elérhetővé kell tenni. Ha olyan adatbázisod van, amelyet törvényi előírásnak megfelelően gyűjtöttek össze, akkor az egész adatbázis legyen letölthető. Egy web API vagy hasonló szolgáltatás nagyon hasznos tud lenni, de ez nem helyettesítője az egy kattintással letölthető csomagoknak.

Nyílt, gépileg feldolgozható formátum

A közintézmények által gondozott adatok felhasználása nem ütközhet szerzői jogi korlátozásokba. Még ennél is fontosabb, hogy az adatsorokat gépileg feldolgozható formátumban tedd közzé, mert az nagyobb teret ad az újrafelhasználásnak. Egy példa erre, mikor statisztikákat pdf dokumentumként tesznek közzé, mert azt használták például a nyomtatott anyagok előkészítésére. Igaz, hogy ezeket a statisztikákat az emberek tudják értelmezni, a számítógépek viszont nagyon nehezen. Ez pedig nagyban korlátozza, hogy mások is felhasználják ugyanezeket az adatokat.

Néhány követendő irányelv:

  • ne bonyolítsd túl a dolgokat
  • gyorsan cselekedj
  • legyél pragmatikus.

Jobb ma közzétenni a nyers adatokat, mint a tökéletes adatsor publikálásával félévet várni.

Nagyon sokféle módja van annak, hogy mások számára elérhetővé tedd az adatokat. A legmagátólértetődőbb az internet korában az internetes közzététel. Ennek a modellnek sok változata létezik, a legalapvetőbb, amikor az intézmény az adatokat a saját honlapján teszi közzé és egy központi katalógus mutatja meg a látogatónak, hol van pontosan az adatforrás. Itt is vannak azonban alternatívák: amikor a kapcsolat limitált, vagy az adatsor túlságosan nagyméretű, akkor más formátumokban történő terjesztés is elfogadott. Ebben a részben az olyan alternatív megoldásokat soroljuk fel, amelyek nem növelik a reprodukcióhoz kapcsolódó költségeket.