Amikor néhány kattintás is elég

Végeztünk az előkészítéssel, jöhet az elemző munka! A cél az, hogy olyan érdekességekre bukkanjunk, amelyekből aztán izgalmas történetek kerekednek. Ez az, amit adatvezérelt újságírásnak hívnak. Ez ugyan nagyon komolyan hangzik, de nem minden esetben jelenti azt, hogy napokat kell görnyedni az Excel-táblák felett a használható információk előbányászásához. Néha nincs szükség többre néhány kattintásnál.

Vegyük például a következő helyzetet. Választás estéje van, és már megvannak az eredmények, de a szigorú szerkesztő nem hagyja békén a hajtásban megfáradt újságíróit. Azt szeretné, ha szállítanának még plusz érdekességeket, gyorselemzéseket. Ehhez kiváló alapanyagot jelent a választási eredmény adatbázisa, amelyet a Nemzeti Választási Iroda valós időben hozzáférhetővé tesz minden olyan szerkesztőség számára, amely igényli. Valószínűleg minden nagyobb magyar szerkesztőség kap ilyet, még ha te újságíróként nem is feltétlenül tudsz róla. Sokszor ugyanis az adatok csak azokhoz fejlesztőkig jutnak el, akik gondoskodnak arról, hogy az újság vagy tévé különböző infografikai megoldásokkal mutassa az eredmények alakulását. Ha nálatok is vannak ilyen inforgrafikák, akkor biztos lehetsz benne, hogy rendelkezésre állnak az adatok. Nem kell mást tenned, mint megkérni a fejlesztői gárdát, hogy továbbítsa neked is, például a már említett csv formátumban.

Ezekkel a nyers adatokkal sokkal többre mész, mintha a valasztas.hu oldalait bújnád. Ott ugyanis már egy feldolgozott, strukturált összesítést találsz, amely nem alkalmas önálló elemzések elvégzésére. Ha viszont nálad vannak a részletesen lebontott eredmények, akkor könnyen szerezhetsz néhány jó pontot a követelőző szerkesztőnél.

Egy gyorsan elkészíthető cikk témája lehet többek között az, hogy melyek azok a települések, ahol egy-egy párt különösen jól vagy rosszul szerepelt. A 2014-es európai parlamenti választás adataiban például ott rejtőzött az az érdekesség, hogy három olyan település is akadt, ahol az országosan is legjobban szereplő Fidesz-KDNP 100 százalékos eredményt ért el. Ennek kiderítéséhez elegendő volt néhány egyszerű Excel-művelet:

14

 

A rendkívüli eredmények megtalálásához pedig nem kell mást tenni, mint egyszerűen csökkenő sorrendbe rakni a százalékos értékeket:15

A táblázat első soraiban megjelenik a három 100 százalékos eredmény, és azt is látjuk, hogy más pártnak nem sikerült ilyen bravúrt elérnie.16

Ha gyorsan el akarjuk kápráztatni a szerkesztőnket (vagy persze még inkább a közönségünket), akkor végrehajthatunk egy rövid internetes információgyűjtést erről a három településről (hol helyezkednek el, híresek-e esetleg bármiről, milyen eredményeket produkáltak a korábbi választásokon, stb.) és már kész is van egy néhány bekezdéses cikkünk, amellyel valami pluszt nyújthatunk az olvasóinknak/nézőinknek. (Érdemes lehet ellátogatni is ezekre a településekre, és a helyszínen kideríteni, hogy mi volt a titka a rendkívüli választási eredménynek. Ez azonban már időigényesebb munka, nem lehet megoldani a választás éjszakáján.)

Még sok más érdekességre bukkanhatunk hasonló módszerekkel (például hol szerepelt a legjobban és a legrosszabbul a többi párt), de természetesen más jellegű adatsoroknál is alkalmazhatók az egyszerűbb adatelemzői megközelítések.

Nézzük az újságírók egyik kedvenc vadászterületét: a közpénzek elköltését. A Parlament honlapjáról egy egyszerű copy/paste művelettel átemelhető egy Excel-táblába az Országgyűlés szerződéseinek listája, amely aranybánya lehet a politikai pártok kapcsolatrendszerét kutató újságíróknak.

A táblázat tartalmazza azt, hogy kivel, milyen célra és mely időszakra kötöttek szerződést a parlamenti pártok frakciói, illetve maga az Országgyűlés Hivatala egészen 2004-ig visszamenőleg. Egyszerűsített verzióban (ami azt jelenti, hogy az ehhez a bemutatóhoz szükségtelen oszlopok eltávolítása után) így néz ki a táblázat:17

Első kérdésként például felmerülhet az, hogy vajon kik a kedvezményezettjei a legértékesebb szerződéseknek. Ezt a már ismert sorbarendezési paranccsal tudhatjuk meg:18

Itt is alkalmazhatjuk a már ismert Szűrő funkciót, ha meg szeretnénk nézni például azt, hogy az MSZP frakciója kikkel szerződött:19

De mi van akkor, ha minket az érdekel, hogy összességében mennyit költöttek a frakciók? Vagy hogy összességében mely cégek jártak jól a parlamenti megbízásokkal? Itt jön nagyon jól a Pivot (Kimutatás?) funkció, amelynek segítségével csoportosíthatjuk és összesíthetjük a táblázatban szereplő adatokat.

Ezt a funkciót úgy érhetjük el, hogy felső menüsorban a Data fülre kattintva előjön az alábbi felület, ahol rá kell kattintanunk a Pivot gombra.

20

 

A Pivot gombra kattintva a lenti képen mutatott felületet kapjuk. Egy üres táblázat rajta a PivotTableBuilder nevű ablakkal.21

 

Az ablakon belül is van egy ablak Field Name néven. Ezen belül kiválaszthatjuk azt, hogy az eredeti táblázatunkból mely adatokat akarjuk összesíteni. Ha azt szeretnénk megnézni, hogy az egyes parlamenti szereplők mennyit költöttek, akkor a Field Name ablakon belül kipipáljuk a “szerződő fél” és az “érték” kategóriákat. Ha ez megvan, akkor egy egyszerű egérmozgatással a “szerződő fél” kategóriát a Row Labels-be mozgatjuk, hogy ezáltal a kategória különböző szereplői (Fidesz, MSZP, Jobbik, stb.) egymás alatti sorokba kerüljenek. Az “érték” kategóriát pedig a Values ablakba mozgatjuk, hogy a szereplők neve mellé megjelenjenek majd az általuk elköltött összegek.

Ahhoz, hogy biztosan a szerződések értékének összege jelenjen meg, rá kell kattintani a Values ablakban lévő pici “i” ikonra. Ekkor feljön a következő ablak:22

Itt kiválaszthatjuk azt, hogy az adott értéket milyen összesítésben szeretnénk látni. Az egyes összegeket egymással összeadva (Sum), a szerződések darabszámát (Count), vagy esetleg az összegek átlagát (Average).

Ha az összegekre és a szerződések darabszámára is kíváncsiak vagyunk, akkor a következő táblázatot fogjuk kapni:

23

Ebből láthatjuk, hogy a pénz nagy részét az Országgyűlés Hivatala költötte el, de a szerződések száma és az összegek nagysága is nagyjából tükrözi az elmúlt évek politikai erőviszonyait.

Ugyanezt az elemzést elvégezhetjük ugyanakkor a cégek szempontjából is. Először is nézzük, ki volt a leggyakoribb szerződő partnere az Országgyűlésnek?24

És ki kapta a legtöbb pénzt az Országgyűléstől?25

Ezek mind hasznos érdekességek lehetnek egy, a parlament gazdálkosásáról szóló összefoglalóban, vagy izgalmas kiindulópontot jelenthetnek egyedi történetekhez (kiknek az érdekeltségébe tartoznak az egyes frakciók által megbízott cégek). Ez a példa is rámutat azonban arra, hogy sajnos még az egyszerűbb adatújságírói műveleteknél is rendszeresen belefuthatunk a “piszkos adatbázisok” korábban már tárgyalt problémájába. Nézzük csak meg még egyszer a legtöbb pénzt kapó cégekről szóló kimutatást!26

Ahogy a kiemelés is mutatja, hiába van szó ugyanarról a cégről, egyetlen betűnyi különbség elég ahhoz, hogy külön egységként kezelje őket az Excel. Ezért fontos, hogy bármilyen adatelemzési munkának csak akkor álljunk neki, ha már elvégeztük a szükséges tisztítási feladatokat (itt át lehet linkelni a tisztításos részre). Lehet tehát gyorsan sztorikat találni az adathalmazokban, de a körültekintést ekkor sem lehet megspórolni.