Mihez kezdünk, ha megvan az adat?

Sajnos a legritkább eset az, amikor az újságíró elemzésre kész adatsort kap. Szinte mindig szembesülnie kell néhány akadállyal, amelyek leküzdéséhez szükség van némi extra munkára.

Az a fránya pdf

Az egyik leggyakoribb probléma az, hogy az adatokat sokszor pdf formátumban teszik közzé (mint például a kormany.hu oldalon a szerződési listákat). Hiába tartalmaz a fájl egy szépen megszerkesztett táblázatot, ebben a formában nem tudunk elemzést végezni rajta.

Mit csináljunk, ha belefutunk egy ilyen akadályba? A legegyszerűbb megoldás, ha van egy Adobe Pro program a számítógépünkön, mert akkor azzal könnyen ki lehet nyerni az Excel vagy Word dokumentumokat a pdf fileból. Sajnos azonban ez pénzbe kerül, és nem is kevésbe (havi 20 dollár).

Vannak szerencsére ingyenes eszközök is. Kifejezetten erre fejlesztették ki a Tabula nevű szoftvert, de használható ilyen átalakításokra a Zamzar filekonvertáló és a Scraperwiki nevű adatapplikáció is. A gond csak az, hogy ezek az ingyenes eszközök ritkán működnek tökéletesen. Szinte mindig előfordul, hogy az átalakított táblázatban hibák tűnnek fel: például nem jelennek meg az ékezetes betűk vagy rosszul tördelve kapjuk meg a dokumentumot.

A csv

Sokakat megijeszthet az, hogy az adatok gyakran úgynevezett csv formátumban férhetők hozzá (illetve a fent említett konvertáló programokból is sokszor így kapjuk meg a táblázatokat). A csv a comma separated values rövidítése, amely magyarul annyit tesz, hogy “vesszők által elválasztott értékek”. Ez azért lehet ijesztő, mert ha megnyitjuk a file-t, akkor nem egy szépen rendezett táblázatot, hanem egy halom adatot látunk egymás mellett vesszővel (vagy valamilyen más karakterrel) elválasztva.

Nézzünk egy mintapéldát a parlamenti képviselők listájával:

1

A nevet és a pártot egy vessző választja el. Mivel itt csak két adatsorról (név és párt) van szó, ezért még nem is néz ki olyan borzasztóan, de ettől még kérdés, hogy miként tudunk ebből feldolgozható táblázatot készíteni. Vagyis hogyan tudjuk elérni, hogy a vesszők eltűnjenek és a nevek, valamint a pártnevek két külön oszlopba kerüljenek?

A menüsorban menjünk rá a Data fülre, és alatta megtaláljuk a Text to Columns parancsot.

2

 

Ha erre a gombra rákattintunk, akkor a következő ablak fog feljönni:3

Itt két opció közül kell választani. Delimited és Fixed width. Mi válasszuk a Delimitedet és kattintsunk a Nextre.

4

Itt válasszuk ki azt, hogy Comma, vagyis vessző, ezzel az írásjellel vannak ugyanis elválasztva az adatsor elemei. (Ha a táblázatban szereplő értékeink más írásjellel, például pontos vesszővel (semicolon) vagy szóközzel (space) lennének választva, akkor azokat kellene kipipálni.)

A Nextre kattintva a lenti ablak jön fel. Itt beállíthatjuk esetleg azt, hogy az értékek milyen formátumban jelenjenek meg az átalakított táblázatban.5

Erre a mostani példában nincs szükségünk, úgyhogy ne csináljunk semmit, hanem kattintsunk csak egyszerűen a Finish gombra. Az alábbi képet fogjuk látni: egy olyan táblázatot, amelyben már szépen sorba vannak rendezve a nevek és pártok.6

Mi mit jelent?

Ha már ott van előttünk feldolgozható formában az adat, akkor az első feladatok egyike, hogy kiismerjük magunkat rajta. Az adatbázisok gyakran érkeznek olyan szakmai műhelyekből, amelyeknek sajátos nyelvezetük, illetve kódrendszerük van. A régi környezetvédelmi minisztérium honlapjáról letölthető légszennyezettségi adatsor például tele van ilyenekkel. Ki tudja például, mi az az EOTR? Ki ismeri ki magát a µg/m3 mértékegység használatában?

A legegyszerűbb, amit ilyen esetekben tehetünk, hogy megkeressük az adat forrását, és megkérjük, hogy adja át nekünk az adatbázis dokumentációját, vagyis annak leírását, hogy mi mit jelent az adatbázisban. Ha ez valamiért nem megoldható, akkor pedig keressünk egy szakértőt, aki segít nekünk értelmezni az adatokat.

Az első lépések

Most tehát már nemcsak adatunk van, de értelmezni is tudjuk. Mihez kezdjünk ez után? Az első és legfontosabb dolog, hogy készítsünk róla legalább egy másolatot. Ha nagyon biztosra akarunk menni, akkor akár kettőt is készíthetünk, és az egyiket fizikailag más helyen – egy másik adathordozón, esetleg valamely felhőszolgáltatásban – tároljuk.

Nagyon fontos, hogy a másolatot még az előtt készítsük el, hogy az eredeti adatfile-hoz hozzányúltunk volna. Ez egyrészt lehetővé teszi azt, hogy bármikor vissza tudjunk térni az eredeti állapothoz. Másrészt jól jöhet bizonyítékként, ha a cikk megjelenése után bárki manipulációs váddal próbálna illetni bennünket.

Tehát, mielőtt tovább lépnénk, véssük jól az agyunkba: az első feladat, hogy MÁSOLATOT KÉSZÍTÜNK A FILE-RÓL! Nagyon sok problémától óvjuk meg magunkat, ha betartjuk ezt az egyszerű szabályt.

Ha van egy másolatunk a file-ról, akkor elvileg neki is veselkedhetnénk az elemző munkának. Sajnos azonban legtöbbször további előkészítő munkára van szükség. Gyakran vagyunk kénytelenek úgynevezett piszkos adatokkal dolgozni. Ez azt jelenti, hogy például rossz formátumban szerepelnek benne számok vagy dátumok. Vagy felesleges karakterek vannak a szövegben. Esetleg szóközök vannak ott, ahol nem kellene lenniük. Ezek mind akadályozzák az elemzői munka elvégzését, ezért a piszkos adatokat meg kell tisztítani.

Itt van néhány tipikus probléma lehetséges megoldása:

Az alábbi táblázat a parlamenti képviselők listáját tartalmazza, de ahogy láthatjuk, van vele egy kis probléma. Hiába próbáljuk névsorba rendezni, ez nem sikerül, mert sok képviselő neve előtt ott van a doktori címre utaló “Dr.”.

7

Egyenként kitörölgetni túl macerás lenne, de nincs is rá szükség. Szerencsére a szövegszerkesztőkből is ismerős Csere funkcióval könnyedén orvosolható a probléma. Ahogy az alábbi ábrán is látható, nem kell mást tennünk, mint a Find what (Keres?) mezőbe beírni azt, hogy “Dr. “ (fontos, hogy tegyünk a pont után egy szóközt, különben a név előtt marad egy üres karakter), a Replace with (Csere?) mezőt pedig hagyjuk üresen. Ez után rákattintunk a Replace All (Cserél mindet) gombra, és eltűnnek a doktori címek.8

De mi a helyzet, ha nem felesleges karaktereink vannak, hanem felesleges szóközök vannak egyes cellákban? Az alábbi képen egy ilyen probléma látható (mert hanyag módon a szóköz beiktatása nélkül töröltem ki a Dr.-okat)

9

Itt nem használhatom a Replace funkciót, mert ha kiiktatnám a szóközöket, akkor a vezetéknév és a keresztnév közötti űr is eltűnne, és a nevek összecsúsznának. Szerencsére létezik azonban a TRIM függvény, amelynek segítségével eltüntethetők a szövegek előtt és után lévő szóközök. Nézzük, hogyan működik!

10

Ahogy a fenti ábrán is látható, nem kell mást tennünk, mint a következő üres mezőbe beírjuk azt a függvényt, hogy =TRIM(A30). Ez kiadja azt a parancsot, hogy az Aradszki András nevét tartalmazó mezőből (A30) tüntessük el a szóközt. Ha a függvény beírása után lenyomjuk az Entert, akkor a következő eredményt kapjuk.

11

Mint láthatjuk, a C oszlopban található név már meg lett tisztítva, vagyis nem tartalmazza azt a zavaró szóközt.

Szintén gyakori probléma, hogy egyes adatok rossz formátumban jelennek meg. Az alábbi számsornál például látjuk, hogy a cellák bal felső sarkában kis háromszögek vannak. Ez mindig azt jelzi, hogy valami probléma van a cellában lévő értékekkel.

12

Itt most az a gond, hogy a számokat az Excel szövegként ismeri fel. Ez baj, mert így nem tudunk velük például matematikai műveleteket végrehajtani.

Bár van lehetőség arra, hogy a cellában található érték formátumán változtassunk (jobb egér gombra kattintva feljön egy menü, amelyből kiválaszthatjuk a cellaformázás funkciót), ez nem mindig működik. Így van ez sajnos ebben az esetben is, ezért egy másik eszközhöz kell nyúlnunk. Ez a VALUE függvény, amelynek segítségével átalakítható a hibás formátum.

13

Ahogy a fenti képen is látható, csak annyit kell tennünk, hogy a hibás érték melletti cellába beírjuk a VALUE függvényt, meghatározzuk, hogy melyik cellára vonatkozzon (A2), majd nyomunk egy ENTER-t. Amint a lenti kép is mutatja, a B oszlopban már helyesen, mindenféle hibajelzés nélkül jelenik a szám, és nyugodtan használhatjuk a legkülönbözőbb műveletekre.