Bevezetés az adatvezérelt újságírásba

Az már szinte közhely, hogy az adatok korát éljük. Szinte alig van olyan területe az emberi tevékenységnek, amelyről ne születnének digitálisan rögzített információk. Ezeknek egy jelentős része hozzá is férhető, ami felbecsülhetetlenül nagy segítséget jelenthet az újságírói munkához. Az adatok felelősségteljes használata pontosabbá és hitelesebbé teheti a tájékoztatást, az újságírók pedig olyan rejtett történetekre is rábukkanhatnak, amelyeket humán források révén nem vagy csak nagyon nehezen lehetne megismerni.

Ehhez nem kell adatelemző gurunak lenni. Már néhány egyszerű alapművelet ismerete is elegendő ahhoz, hogy tudjunk adatokkal dolgozni. Ezek elsajátításához nyújt segítséget ez a kézikönyv.

Ebben az útmutatóban Excel-formátumban lévő adatsorokkal dolgozunk. Az Excel széles körben elterjedt szoftver, és ugyan elsősorban táblázatkezelőként ismert, de kiválóan alkalmas adatelemzői munka elvégzésére is. Az Excel használatának alapjaira itt most nem térünk ki, mert szétfeszítené a kézikönyv kereteit. Ha valaki még nem ismeri a programot, az alapműveleteket gyorsan megtanulhatja ebből az áttekintésből. Ezek elsajátítása után pedig már könnyedén tudunk vele számolni, sorba rendezni, a legkülönbözőbb szempontok szerint csoportosítani, és – mint később látni fogjuk – egymástól független adatsorokat is összekapcsolhatunk vele.

Hol vannak az újságíróknak hasznos adatok?

Az állam

A legtöbb országhoz hasonlóan Magyarországon is a közszféra az egyik legnagyobb adatelőállító. A minisztériumok és különböző intézmények honlapjainak a mélyén gyakran bújnak meg értékes adatsorok. Itt van közülük néhány:

A civilek

Bár az állam sok adatot tesz közzé, gyakran ezeket nem túl felhasználóbarát formában teszi. Így van ez például a közbeszerzési adatokkal. Hiába van egy többé-kevésbé jól használható keresőfelület a Közbeszerzési Hatóság honlapján, elemzésre is alkalmas adatsorokat ebből nem tudunk kinyerni. Szerencsére azonban közgazdász kutatók ilyen formátumban is hozzáférhetővé tették a hatósági adatoknak egy jelentős részét:

Emellett több civil szervezet tesz közzé adatokban gazdag anyagokat. Például:

Külföldi kerülőút

Előfordul, hogy valamilyen adatot hiába keresünk hazai forrásokban, de közben hozzáférhető valamilyen külföldi csatornán keresztül. Magyarország ugyanis számos nemzetközi szervezet tagja, és ennek megfelelően kötelezve van bizonyos adatok szolgáltatására. Néhány forrás, ahol érdemes keresgélni:

Mihez kezdünk, ha megvan az adat?

Sajnos a legritkább eset az, amikor az újságíró elemzésre kész adatsort kap. Szinte mindig szembesülnie kell néhány akadállyal, amelyek leküzdéséhez szükség van némi extra munkára.

Az a fránya pdf

Az egyik leggyakoribb probléma az, hogy az adatokat sokszor pdf formátumban teszik közzé (mint például a kormany.hu oldalon a szerződési listákat). Hiába tartalmaz a fájl egy szépen megszerkesztett táblázatot, ebben a formában nem tudunk elemzést végezni rajta.

Mit csináljunk, ha belefutunk egy ilyen akadályba? A legegyszerűbb megoldás, ha van egy Adobe Pro program a számítógépünkön, mert akkor azzal könnyen ki lehet nyerni az Excel vagy Word dokumentumokat a pdf fileból. Sajnos azonban ez pénzbe kerül, és nem is kevésbe (havi 20 dollár).

Vannak szerencsére ingyenes eszközök is. Kifejezetten erre fejlesztették ki a Tabula nevű szoftvert, de használható ilyen átalakításokra a Zamzar filekonvertáló és a Scraperwiki nevű adatapplikáció is. A gond csak az, hogy ezek az ingyenes eszközök ritkán működnek tökéletesen. Szinte mindig előfordul, hogy az átalakított táblázatban hibák tűnnek fel: például nem jelennek meg az ékezetes betűk vagy rosszul tördelve kapjuk meg a dokumentumot.

A csv

Sokakat megijeszthet az, hogy az adatok gyakran úgynevezett csv formátumban férhetők hozzá (illetve a fent említett konvertáló programokból is sokszor így kapjuk meg a táblázatokat). A csv a comma separated values rövidítése, amely magyarul annyit tesz, hogy “vesszők által elválasztott értékek”. Ez azért lehet ijesztő, mert ha megnyitjuk a file-t, akkor nem egy szépen rendezett táblázatot, hanem egy halom adatot látunk egymás mellett vesszővel (vagy valamilyen más karakterrel) elválasztva.

Nézzünk egy mintapéldát a parlamenti képviselők listájával:

1

A nevet és a pártot egy vessző választja el. Mivel itt csak két adatsorról (név és párt) van szó, ezért még nem is néz ki olyan borzasztóan, de ettől még kérdés, hogy miként tudunk ebből feldolgozható táblázatot készíteni. Vagyis hogyan tudjuk elérni, hogy a vesszők eltűnjenek és a nevek, valamint a pártnevek két külön oszlopba kerüljenek?

A menüsorban menjünk rá a Data fülre, és alatta megtaláljuk a Text to Columns parancsot.

2

 

Ha erre a gombra rákattintunk, akkor a következő ablak fog feljönni:3

Itt két opció közül kell választani. Delimited és Fixed width. Mi válasszuk a Delimitedet és kattintsunk a Nextre.

4

Itt válasszuk ki azt, hogy Comma, vagyis vessző, ezzel az írásjellel vannak ugyanis elválasztva az adatsor elemei. (Ha a táblázatban szereplő értékeink más írásjellel, például pontos vesszővel (semicolon) vagy szóközzel (space) lennének választva, akkor azokat kellene kipipálni.)

A Nextre kattintva a lenti ablak jön fel. Itt beállíthatjuk esetleg azt, hogy az értékek milyen formátumban jelenjenek meg az átalakított táblázatban.5

Erre a mostani példában nincs szükségünk, úgyhogy ne csináljunk semmit, hanem kattintsunk csak egyszerűen a Finish gombra. Az alábbi képet fogjuk látni: egy olyan táblázatot, amelyben már szépen sorba vannak rendezve a nevek és pártok.6

Mi mit jelent?

Ha már ott van előttünk feldolgozható formában az adat, akkor az első feladatok egyike, hogy kiismerjük magunkat rajta. Az adatbázisok gyakran érkeznek olyan szakmai műhelyekből, amelyeknek sajátos nyelvezetük, illetve kódrendszerük van. A régi környezetvédelmi minisztérium honlapjáról letölthető légszennyezettségi adatsor például tele van ilyenekkel. Ki tudja például, mi az az EOTR? Ki ismeri ki magát a µg/m3 mértékegység használatában?

A legegyszerűbb, amit ilyen esetekben tehetünk, hogy megkeressük az adat forrását, és megkérjük, hogy adja át nekünk az adatbázis dokumentációját, vagyis annak leírását, hogy mi mit jelent az adatbázisban. Ha ez valamiért nem megoldható, akkor pedig keressünk egy szakértőt, aki segít nekünk értelmezni az adatokat.

Az első lépések

Most tehát már nemcsak adatunk van, de értelmezni is tudjuk. Mihez kezdjünk ez után? Az első és legfontosabb dolog, hogy készítsünk róla legalább egy másolatot. Ha nagyon biztosra akarunk menni, akkor akár kettőt is készíthetünk, és az egyiket fizikailag más helyen – egy másik adathordozón, esetleg valamely felhőszolgáltatásban – tároljuk.

Nagyon fontos, hogy a másolatot még az előtt készítsük el, hogy az eredeti adatfile-hoz hozzányúltunk volna. Ez egyrészt lehetővé teszi azt, hogy bármikor vissza tudjunk térni az eredeti állapothoz. Másrészt jól jöhet bizonyítékként, ha a cikk megjelenése után bárki manipulációs váddal próbálna illetni bennünket.

Tehát, mielőtt tovább lépnénk, véssük jól az agyunkba: az első feladat, hogy MÁSOLATOT KÉSZÍTÜNK A FILE-RÓL! Nagyon sok problémától óvjuk meg magunkat, ha betartjuk ezt az egyszerű szabályt.

Ha van egy másolatunk a file-ról, akkor elvileg neki is veselkedhetnénk az elemző munkának. Sajnos azonban legtöbbször további előkészítő munkára van szükség. Gyakran vagyunk kénytelenek úgynevezett piszkos adatokkal dolgozni. Ez azt jelenti, hogy például rossz formátumban szerepelnek benne számok vagy dátumok. Vagy felesleges karakterek vannak a szövegben. Esetleg szóközök vannak ott, ahol nem kellene lenniük. Ezek mind akadályozzák az elemzői munka elvégzését, ezért a piszkos adatokat meg kell tisztítani.

Itt van néhány tipikus probléma lehetséges megoldása:

Az alábbi táblázat a parlamenti képviselők listáját tartalmazza, de ahogy láthatjuk, van vele egy kis probléma. Hiába próbáljuk névsorba rendezni, ez nem sikerül, mert sok képviselő neve előtt ott van a doktori címre utaló “Dr.”.

7

Egyenként kitörölgetni túl macerás lenne, de nincs is rá szükség. Szerencsére a szövegszerkesztőkből is ismerős Csere funkcióval könnyedén orvosolható a probléma. Ahogy az alábbi ábrán is látható, nem kell mást tennünk, mint a Find what (Keres?) mezőbe beírni azt, hogy “Dr. “ (fontos, hogy tegyünk a pont után egy szóközt, különben a név előtt marad egy üres karakter), a Replace with (Csere?) mezőt pedig hagyjuk üresen. Ez után rákattintunk a Replace All (Cserél mindet) gombra, és eltűnnek a doktori címek.8

De mi a helyzet, ha nem felesleges karaktereink vannak, hanem felesleges szóközök vannak egyes cellákban? Az alábbi képen egy ilyen probléma látható (mert hanyag módon a szóköz beiktatása nélkül töröltem ki a Dr.-okat)

9

Itt nem használhatom a Replace funkciót, mert ha kiiktatnám a szóközöket, akkor a vezetéknév és a keresztnév közötti űr is eltűnne, és a nevek összecsúsznának. Szerencsére létezik azonban a TRIM függvény, amelynek segítségével eltüntethetők a szövegek előtt és után lévő szóközök. Nézzük, hogyan működik!

10

Ahogy a fenti ábrán is látható, nem kell mást tennünk, mint a következő üres mezőbe beírjuk azt a függvényt, hogy =TRIM(A30). Ez kiadja azt a parancsot, hogy az Aradszki András nevét tartalmazó mezőből (A30) tüntessük el a szóközt. Ha a függvény beírása után lenyomjuk az Entert, akkor a következő eredményt kapjuk.

11

Mint láthatjuk, a C oszlopban található név már meg lett tisztítva, vagyis nem tartalmazza azt a zavaró szóközt.

Szintén gyakori probléma, hogy egyes adatok rossz formátumban jelennek meg. Az alábbi számsornál például látjuk, hogy a cellák bal felső sarkában kis háromszögek vannak. Ez mindig azt jelzi, hogy valami probléma van a cellában lévő értékekkel.

12

Itt most az a gond, hogy a számokat az Excel szövegként ismeri fel. Ez baj, mert így nem tudunk velük például matematikai műveleteket végrehajtani.

Bár van lehetőség arra, hogy a cellában található érték formátumán változtassunk (jobb egér gombra kattintva feljön egy menü, amelyből kiválaszthatjuk a cellaformázás funkciót), ez nem mindig működik. Így van ez sajnos ebben az esetben is, ezért egy másik eszközhöz kell nyúlnunk. Ez a VALUE függvény, amelynek segítségével átalakítható a hibás formátum.

13

Ahogy a fenti képen is látható, csak annyit kell tennünk, hogy a hibás érték melletti cellába beírjuk a VALUE függvényt, meghatározzuk, hogy melyik cellára vonatkozzon (A2), majd nyomunk egy ENTER-t. Amint a lenti kép is mutatja, a B oszlopban már helyesen, mindenféle hibajelzés nélkül jelenik a szám, és nyugodtan használhatjuk a legkülönbözőbb műveletekre.

Amikor néhány kattintás is elég

Végeztünk az előkészítéssel, jöhet az elemző munka! A cél az, hogy olyan érdekességekre bukkanjunk, amelyekből aztán izgalmas történetek kerekednek. Ez az, amit adatvezérelt újságírásnak hívnak. Ez ugyan nagyon komolyan hangzik, de nem minden esetben jelenti azt, hogy napokat kell görnyedni az Excel-táblák felett a használható információk előbányászásához. Néha nincs szükség többre néhány kattintásnál.

Vegyük például a következő helyzetet. Választás estéje van, és már megvannak az eredmények, de a szigorú szerkesztő nem hagyja békén a hajtásban megfáradt újságíróit. Azt szeretné, ha szállítanának még plusz érdekességeket, gyorselemzéseket. Ehhez kiváló alapanyagot jelent a választási eredmény adatbázisa, amelyet a Nemzeti Választási Iroda valós időben hozzáférhetővé tesz minden olyan szerkesztőség számára, amely igényli. Valószínűleg minden nagyobb magyar szerkesztőség kap ilyet, még ha te újságíróként nem is feltétlenül tudsz róla. Sokszor ugyanis az adatok csak azokhoz fejlesztőkig jutnak el, akik gondoskodnak arról, hogy az újság vagy tévé különböző infografikai megoldásokkal mutassa az eredmények alakulását. Ha nálatok is vannak ilyen inforgrafikák, akkor biztos lehetsz benne, hogy rendelkezésre állnak az adatok. Nem kell mást tenned, mint megkérni a fejlesztői gárdát, hogy továbbítsa neked is, például a már említett csv formátumban.

Ezekkel a nyers adatokkal sokkal többre mész, mintha a valasztas.hu oldalait bújnád. Ott ugyanis már egy feldolgozott, strukturált összesítést találsz, amely nem alkalmas önálló elemzések elvégzésére. Ha viszont nálad vannak a részletesen lebontott eredmények, akkor könnyen szerezhetsz néhány jó pontot a követelőző szerkesztőnél.

Egy gyorsan elkészíthető cikk témája lehet többek között az, hogy melyek azok a települések, ahol egy-egy párt különösen jól vagy rosszul szerepelt. A 2014-es európai parlamenti választás adataiban például ott rejtőzött az az érdekesség, hogy három olyan település is akadt, ahol az országosan is legjobban szereplő Fidesz-KDNP 100 százalékos eredményt ért el. Ennek kiderítéséhez elegendő volt néhány egyszerű Excel-művelet:

14

 

A rendkívüli eredmények megtalálásához pedig nem kell mást tenni, mint egyszerűen csökkenő sorrendbe rakni a százalékos értékeket:15

A táblázat első soraiban megjelenik a három 100 százalékos eredmény, és azt is látjuk, hogy más pártnak nem sikerült ilyen bravúrt elérnie.16

Ha gyorsan el akarjuk kápráztatni a szerkesztőnket (vagy persze még inkább a közönségünket), akkor végrehajthatunk egy rövid internetes információgyűjtést erről a három településről (hol helyezkednek el, híresek-e esetleg bármiről, milyen eredményeket produkáltak a korábbi választásokon, stb.) és már kész is van egy néhány bekezdéses cikkünk, amellyel valami pluszt nyújthatunk az olvasóinknak/nézőinknek. (Érdemes lehet ellátogatni is ezekre a településekre, és a helyszínen kideríteni, hogy mi volt a titka a rendkívüli választási eredménynek. Ez azonban már időigényesebb munka, nem lehet megoldani a választás éjszakáján.)

Még sok más érdekességre bukkanhatunk hasonló módszerekkel (például hol szerepelt a legjobban és a legrosszabbul a többi párt), de természetesen más jellegű adatsoroknál is alkalmazhatók az egyszerűbb adatelemzői megközelítések.

Nézzük az újságírók egyik kedvenc vadászterületét: a közpénzek elköltését. A Parlament honlapjáról egy egyszerű copy/paste művelettel átemelhető egy Excel-táblába az Országgyűlés szerződéseinek listája, amely aranybánya lehet a politikai pártok kapcsolatrendszerét kutató újságíróknak.

A táblázat tartalmazza azt, hogy kivel, milyen célra és mely időszakra kötöttek szerződést a parlamenti pártok frakciói, illetve maga az Országgyűlés Hivatala egészen 2004-ig visszamenőleg. Egyszerűsített verzióban (ami azt jelenti, hogy az ehhez a bemutatóhoz szükségtelen oszlopok eltávolítása után) így néz ki a táblázat:17

Első kérdésként például felmerülhet az, hogy vajon kik a kedvezményezettjei a legértékesebb szerződéseknek. Ezt a már ismert sorbarendezési paranccsal tudhatjuk meg:18

Itt is alkalmazhatjuk a már ismert Szűrő funkciót, ha meg szeretnénk nézni például azt, hogy az MSZP frakciója kikkel szerződött:19

De mi van akkor, ha minket az érdekel, hogy összességében mennyit költöttek a frakciók? Vagy hogy összességében mely cégek jártak jól a parlamenti megbízásokkal? Itt jön nagyon jól a Pivot (Kimutatás?) funkció, amelynek segítségével csoportosíthatjuk és összesíthetjük a táblázatban szereplő adatokat.

Ezt a funkciót úgy érhetjük el, hogy felső menüsorban a Data fülre kattintva előjön az alábbi felület, ahol rá kell kattintanunk a Pivot gombra.

20

 

A Pivot gombra kattintva a lenti képen mutatott felületet kapjuk. Egy üres táblázat rajta a PivotTableBuilder nevű ablakkal.21

 

Az ablakon belül is van egy ablak Field Name néven. Ezen belül kiválaszthatjuk azt, hogy az eredeti táblázatunkból mely adatokat akarjuk összesíteni. Ha azt szeretnénk megnézni, hogy az egyes parlamenti szereplők mennyit költöttek, akkor a Field Name ablakon belül kipipáljuk a “szerződő fél” és az “érték” kategóriákat. Ha ez megvan, akkor egy egyszerű egérmozgatással a “szerződő fél” kategóriát a Row Labels-be mozgatjuk, hogy ezáltal a kategória különböző szereplői (Fidesz, MSZP, Jobbik, stb.) egymás alatti sorokba kerüljenek. Az “érték” kategóriát pedig a Values ablakba mozgatjuk, hogy a szereplők neve mellé megjelenjenek majd az általuk elköltött összegek.

Ahhoz, hogy biztosan a szerződések értékének összege jelenjen meg, rá kell kattintani a Values ablakban lévő pici “i” ikonra. Ekkor feljön a következő ablak:22

Itt kiválaszthatjuk azt, hogy az adott értéket milyen összesítésben szeretnénk látni. Az egyes összegeket egymással összeadva (Sum), a szerződések darabszámát (Count), vagy esetleg az összegek átlagát (Average).

Ha az összegekre és a szerződések darabszámára is kíváncsiak vagyunk, akkor a következő táblázatot fogjuk kapni:

23

Ebből láthatjuk, hogy a pénz nagy részét az Országgyűlés Hivatala költötte el, de a szerződések száma és az összegek nagysága is nagyjából tükrözi az elmúlt évek politikai erőviszonyait.

Ugyanezt az elemzést elvégezhetjük ugyanakkor a cégek szempontjából is. Először is nézzük, ki volt a leggyakoribb szerződő partnere az Országgyűlésnek?24

És ki kapta a legtöbb pénzt az Országgyűléstől?25

Ezek mind hasznos érdekességek lehetnek egy, a parlament gazdálkosásáról szóló összefoglalóban, vagy izgalmas kiindulópontot jelenthetnek egyedi történetekhez (kiknek az érdekeltségébe tartoznak az egyes frakciók által megbízott cégek). Ez a példa is rámutat azonban arra, hogy sajnos még az egyszerűbb adatújságírói műveleteknél is rendszeresen belefuthatunk a “piszkos adatbázisok” korábban már tárgyalt problémájába. Nézzük csak meg még egyszer a legtöbb pénzt kapó cégekről szóló kimutatást!26

Ahogy a kiemelés is mutatja, hiába van szó ugyanarról a cégről, egyetlen betűnyi különbség elég ahhoz, hogy külön egységként kezelje őket az Excel. Ezért fontos, hogy bármilyen adatelemzési munkának csak akkor álljunk neki, ha már elvégeztük a szükséges tisztítási feladatokat (itt át lehet linkelni a tisztításos részre). Lehet tehát gyorsan sztorikat találni az adathalmazokban, de a körültekintést ekkor sem lehet megspórolni.

Hogyan találjuk meg a rejtett történeteket?

Nagyon hasznos, amikor néhány kattintással eljutunk egy érdekes információhoz, de az adatvezérelt újságírás igazi ereje a mélyebb elemzésekben rejlik. Így tárhatunk fel olyan rejtett összefüggéseket, amelyek humán források révén nem lennének megismerhetők.

Igaz vagy hamis

Az ilyen mélyebb elemzések során az egyik leggyakrabban használt eszköz az IF (HA) függvény. Ennek segítségével a legkülönbözőbb szempontok alapján csoportosíthatjuk az adatainkat.

Vegyük például már az előbb is használt európai parlamenti választási adatsort, és vizsgáljuk meg alaposabban. Azt mélyebb elemzés nélkül is tudjuk, hogy a Fidesz volt a fölényes győztese ennek a választásnak. Érdemes lehet azonban részleteiben is megvizsgálni, hogy miként szerepelt az egyes településeken. Hol teljesített kiemelkedően jól vagy esetleg rosszul? Van-e bármilyen összefüggés a települések mérete, illetve a választók száma és az eredmény között? Ezekre a kérdésekre könnyedén választ kaphatunk az IF függvény alkalmazásával.

Ez a funkció az egyik legalapvetőbb logikai műveleten alapul. Ha egy bizonyos érték IGAZ, akkor az X csoportba fog kerülni, ha pedig HAMIS, akkor az Y-ba. Lehet, hogy ez egy kicsit elvontnak tűnik így, úgyhogy nézzük meg inkább egy konkrét példán keresztül.

Mivel most csak a Fidesz eredményeire vagyunk kíváncsiak, így a már ismert szűrési funkcióval leválogathatjuk ezeket, és egy egyszerű másolási paranccsal át is emelhetjük egy külön munkalapra.27

A fenti képen láthatjuk, hogy bevastagítva szerepel az, hogy a párt a voksok hány százalékát szerezte meg az adott településen. Mit tegyünk, ha meg szeretnénk tudni, hogy ez a helyi eredmény hogyan viszonyul ahhoz az 51,48 százalékhoz, amelyet a Fidesz az országos összesítésben ért el? Vagyis hogyan tudjuk megvizsgálni, hogy hol szerepelt jobban vagy rosszabbul a párt az összesített eredménynél?

Ehhez azt kell valahogy megállapítanunk, hogy a part_szazalek oszlopban lévő érték hol magasabb és hol alacsonyabb az 51,48 százaléknál. Itt jön nagyon jól a HA függvény. Ezzel ugyanis ennek megfelelően besorolhatjuk két kategóriába az eredményeket.

A függvény így néz ki: =IF(D2>0,5148;”magasabb”;”alacsonyabb”). Magyarra lefordítva pedig ezt jelenti: ha a d2 cellában lévő érték nagyobb mint 51,48 százalék, akkor az kerül mellé, hogy magasabb. Ha az érték kisebb annál, akkor pedig az, hogy alacsonyabb. (Érdekesség: a Nógrád megyei Nagylócon pont 51,48 százalékot ért el a párt, ezzel a “magasabb” kategóriába került.)

Ugyanezt a logikát kell követni minden IF függvénynél, amely mindig 3 elemből áll. Először megadunk egy feltételt (1. elem, a példában D2>0,5148), majd azt mondjuk, hogy ha az adott értékre vonatkozva ez IGAZ, akkor egy bizonyos értéket rendeljen mellé (2. elem, a példában “magasabb”), ha pedig HAMIS, akkor egy másik értéket rendeljen mellé (3. elem, a példában “alacsonyabb”). Fontos, hogy ha szöveges értéket akarunk megjeleníteni, akkor a IF függvényen belül ezt a szöveget idézőjelbe kell tenni. (Ezért szerepel a függvényben a magasabb és az alacsonyabb is “ “ között.)

Ahogy az alábbi képkivágáson is látszik, létrehoztunk egy új oszlopot “Országos képest” néven, ahol végigfuttattuk a IF függvényt.28

A már ismert Pivot funkcióval megnézhetjük azt is, hogy vajon hány településen szerepelt kiemelkedően jól vagy rosszul a párt.

29

 

Mint látjuk, a települések túlnyomó többségében az országosan összesített eredménynél jobban szerepelt a Fidesz. De vajon mit lehet tudni ezekről a településekről? Ebből az adatsorból nem derül ki, hogy mekkora lakosságszámmal rendelkezenek, de mégis lehet következtetni a nagyságukra a választók számából. Mit tegyünk akkor, ha azt szeretnénk megtudni, hogy vajon a Fidesz “alacsonyabb” és “magasabb” teljesítménye hogyan viszonyul a települések nagyságához? Itt is segítségül hívhatjuk az IF függvényt:30

A választók számát tartalmazó oszlop (valaszto_a) mellett létrehoztunk egy új oszlopot (Telepules 2 bontasban), amelyben végigfuttattuk ezt a függvényt: =IF(H2>10000;”nagytelepules”;”kistelepules”). Ennek a lényege az, hogy ha 10 ezernél több választó van egy településen, akkor azt a “nagytelepules” kategóriába sorolja, ha annál kevesebb, akkor “kistelepules” kerül mellé.

Vajon mi derül ki akkor, ha a Kimutatás funkcióval összesítjük ezeknek a kategóriáknak a számait?

31

Azt látjuk, hogy a 3044 kistelepülés (tehát ahol 10 ezernél kevesebb választó volt) túlnyomó részében (2333) a Fidesz az országos eredményénél jobban szerepelt. A “nagytelepüléseken” viszont már közel sem ilyen kedvező számukra a kép. A 132 település kevesebb mint felében sikerült az országos szint felett teljesíteniük (azt persze ne felejtsük el, hogy az adatsorban a budapesti kerületek külön településként szerepelnek).

Adatok összefésülése

Az IF függvény segítégével alkalmazott logikai műveletek mellett a másik nagyon erős eszköz az, amikor egymástól független adatbázisokat kapcsolunk egymáshoz, és így találunk meg rejtett összefüggéseket.

Nézzünk egy gyakorlati példát! 2014 februárjának egyik érdekes híre volt, hogy a kormány újraosztotta a meglehetősen jól jövedelmező felszámolói piacot. Ehhez a tevékenységhez állami engedély kell, és egy kormányzati döntés eredményeként sok régi szereplő kiszorult a piacról, akiknek a helyére újak léptek. Az Origo.hu számolt be arról, hogy az új szereplők között volt több olyan vállalkozó is, aki korábban nyert a szintén ellentmondásos módon lebonyolított trafikpályázatokon is.

Ez egy érdekes információ volt, de vajon hogy lehet erre rábukkanni? Van több mint 160 felszámolós vállalkozó és van több ezer trafiknyertes. Hogyan lehet megtalálni az egyezéseket? Lehet persze egyenként keresgetni a nevek között, de az sok időt venne igénybe. Van egy sokkal egyszerűbb módszer. Ha megvan a két adatsor, akkor ezeket összekapcsolhatjuk egymással, és egy viszonylag egyszerű Excel-függvénnyel végrehajthatjuk a keresést.

Ehhez a következőket kell tennünk:

Egy Excel-munkafüzetben belül nyissunk két munkalapot. Az egyikre másoljuk be a felszámolócégek tulajdonosainak listáját, a másikra pedig a trafiknyertesekét. Ez így fog kinézni:

32

Itt most az egyszerűség kedvéért csak vezetékneveket nézünk, mert a keresztnevek gyakran megbolygathatják a feladatot (sokszor előfordul, hogy valakinek két keresztneve van, de hol csak eggyel, hol pedig mindkettővel szerepel). Azt kell tehát kiderítenünk, hogy melyek azok a nevek a “felszamolok” munkafüzeten, amelyek megtalálhatók a “trafikpalyazok” listán is.

Ehhez a VLOOKUP (FKERES) függvényt kell használnunk. Ennek lényege, hogy olyan parancsot adhatunk vele az Excelnek, amely megmondja, hogy a két listát összevesse egymással.

Ez a függvény a mi esetünkben következőképp néz ki: =VLOOKUP(A2;trafikpalyazok!$A$2:$A$5455;1;FALSE). Elsőre nagyon ijesztőnek tűnhet, de ha megismerjük az egyes elemeit, akkor már sokkal kevésbé az. A programot arra utasítjuk, hogy fogja az A2 cellában szereplő nevet, majd menjen át a “trafikpalyazok” munkafüzetre, és ott a megadott tartományban ($A$2:$A$5455, vagyis az A2 az első elem, az A5455 pedig az utolsó) nézze meg, hogy található-e ugyanolyan név. Ha talál, akkor hozza el a “trafikpalyazok” listának megadott oszlopában szereplő értéket. Hogy melyik oszlop legyen az, azt számmal kell megadni. Nálunk csak egy oszlop van, ezért itt az “1” szerepel. A függvény végére fontos odaírni azt, hogy FALSE, különben az Excel megtenné nekünk azt a szívességet, hogy nemcsak a teljes névegyezőségeket dobja ki, hanem az egymáshoz hasonlító neveket is.

Ha végigfuttatjuk ezt a függvényt a munkafüzetünkben, akkor ilyesmi képet kapunk.33

Az A oszlopban van a felszámolócégek tulajdonosainak neve. A “Névegyezés?”-re keresztelt B oszlopban futtattuk végig a műveletet. Ha a vezetéknév mellett a “#N/A” szerepel, akkor az azt jelenti, hogy a függvény nem talált azonosságot a trafikosok között. Ha viszont a B oszlopban is megjelent a név, akkor az azt jelenti, hogy az mindkét listán szerepel.

Persze a legtöbb adatelemzői eszközhöz hasonlóan ez sem csodafegyver. Itt most vezetéknevek egyezését találtuk meg, de könnyen lehet, hogy csak névrokonságról van szó. Ez különösen sokszor előfordulhat a gyakori neveknél (mint a Nagy, Kovács, Horváth, stb.), de természetesen a ritkábbaknál is fontos az ellenőrzés. Tehát utána kell nézni, hogy a nevekhez kapcsolódó egyéb adatok (lakcím, anyja neve, amelyek a cégnyilvántartásban megtalálhatók) is megegyeznek-e.

A fenti példában szereplő névegyezőségeknél (Bényi és Czéh-Tóth) kiderült, hogy valóban azonos személyekről van szó. Ahogy az Origo.hu beszámolt róla, Bényi Szabolcs Tamás és Czéh-Tóth Márk egyaránt sikeresen szerepelt a felszámolói és a trafikos pályázaton is.

Ennyi az egész?

Természetesen nem, vagy legalábbis jó esetben nem. Bár az adatelemzés egy nagyon erős eszköznek számít az újságírói kelléktárban, ettől még csak egy eszköz a sok közül. Hiába találunk valamilyen érdekes összefüggést az adatokban, attól még annak utána kell járni. Beszéljünk az adott terület szakértőivel, olvassuk el a kapcsolódó dokumentumokat, szólaltassuk meg a történet szereplőit, és persze az sem árt, ha más vonatkozó adatokat is begyűjtünk.

Az adatra is érdemes ugyanis úgy tekinteni, mint egy humán forrásra. Az adatokból kinyert információ is lehet félrevezető, torzító vagy akár egyenesen hazug is. Az is lehet, hogy ami az adatelemzés alapján logikai kapcsolatnak tűnik két információ között, az a valóságban csak véletlen egybeesés.

Az adatelemzés tehát sokszor csak az első nagyon fontos lépés egy történet feldolgozásának során. Alkalmas arra, hogy hipotéziseket állítsunk fel, de azokat valóságtartalmát még tesztelni kell. Mindig érdemes tehát más forrásokkal is leellenőrizni azokat a megállapításokat, amelyekre az adatelemzés során jutunk. Arról nem is beszélve, hogy nagyon ritkán születnek izgalmas, a közönséget magával ragadó történetek pusztán Excel-táblák alapján. Használjuk az adatokat, de ne feledkezzünk meg azokról a hús-vér emberekről, akikről ezek az adatok szólnak.