Hogyan találjuk meg a rejtett történeteket?

Nagyon hasznos, amikor néhány kattintással eljutunk egy érdekes információhoz, de az adatvezérelt újságírás igazi ereje a mélyebb elemzésekben rejlik. Így tárhatunk fel olyan rejtett összefüggéseket, amelyek humán források révén nem lennének megismerhetők.

Igaz vagy hamis

Az ilyen mélyebb elemzések során az egyik leggyakrabban használt eszköz az IF (HA) függvény. Ennek segítségével a legkülönbözőbb szempontok alapján csoportosíthatjuk az adatainkat.

Vegyük például már az előbb is használt európai parlamenti választási adatsort, és vizsgáljuk meg alaposabban. Azt mélyebb elemzés nélkül is tudjuk, hogy a Fidesz volt a fölényes győztese ennek a választásnak. Érdemes lehet azonban részleteiben is megvizsgálni, hogy miként szerepelt az egyes településeken. Hol teljesített kiemelkedően jól vagy esetleg rosszul? Van-e bármilyen összefüggés a települések mérete, illetve a választók száma és az eredmény között? Ezekre a kérdésekre könnyedén választ kaphatunk az IF függvény alkalmazásával.

Ez a funkció az egyik legalapvetőbb logikai műveleten alapul. Ha egy bizonyos érték IGAZ, akkor az X csoportba fog kerülni, ha pedig HAMIS, akkor az Y-ba. Lehet, hogy ez egy kicsit elvontnak tűnik így, úgyhogy nézzük meg inkább egy konkrét példán keresztül.

Mivel most csak a Fidesz eredményeire vagyunk kíváncsiak, így a már ismert szűrési funkcióval leválogathatjuk ezeket, és egy egyszerű másolási paranccsal át is emelhetjük egy külön munkalapra.27

A fenti képen láthatjuk, hogy bevastagítva szerepel az, hogy a párt a voksok hány százalékát szerezte meg az adott településen. Mit tegyünk, ha meg szeretnénk tudni, hogy ez a helyi eredmény hogyan viszonyul ahhoz az 51,48 százalékhoz, amelyet a Fidesz az országos összesítésben ért el? Vagyis hogyan tudjuk megvizsgálni, hogy hol szerepelt jobban vagy rosszabbul a párt az összesített eredménynél?

Ehhez azt kell valahogy megállapítanunk, hogy a part_szazalek oszlopban lévő érték hol magasabb és hol alacsonyabb az 51,48 százaléknál. Itt jön nagyon jól a HA függvény. Ezzel ugyanis ennek megfelelően besorolhatjuk két kategóriába az eredményeket.

A függvény így néz ki: =IF(D2>0,5148;”magasabb”;”alacsonyabb”). Magyarra lefordítva pedig ezt jelenti: ha a d2 cellában lévő érték nagyobb mint 51,48 százalék, akkor az kerül mellé, hogy magasabb. Ha az érték kisebb annál, akkor pedig az, hogy alacsonyabb. (Érdekesség: a Nógrád megyei Nagylócon pont 51,48 százalékot ért el a párt, ezzel a “magasabb” kategóriába került.)

Ugyanezt a logikát kell követni minden IF függvénynél, amely mindig 3 elemből áll. Először megadunk egy feltételt (1. elem, a példában D2>0,5148), majd azt mondjuk, hogy ha az adott értékre vonatkozva ez IGAZ, akkor egy bizonyos értéket rendeljen mellé (2. elem, a példában “magasabb”), ha pedig HAMIS, akkor egy másik értéket rendeljen mellé (3. elem, a példában “alacsonyabb”). Fontos, hogy ha szöveges értéket akarunk megjeleníteni, akkor a IF függvényen belül ezt a szöveget idézőjelbe kell tenni. (Ezért szerepel a függvényben a magasabb és az alacsonyabb is “ “ között.)

Ahogy az alábbi képkivágáson is látszik, létrehoztunk egy új oszlopot “Országos képest” néven, ahol végigfuttattuk a IF függvényt.28

A már ismert Pivot funkcióval megnézhetjük azt is, hogy vajon hány településen szerepelt kiemelkedően jól vagy rosszul a párt.

29

 

Mint látjuk, a települések túlnyomó többségében az országosan összesített eredménynél jobban szerepelt a Fidesz. De vajon mit lehet tudni ezekről a településekről? Ebből az adatsorból nem derül ki, hogy mekkora lakosságszámmal rendelkezenek, de mégis lehet következtetni a nagyságukra a választók számából. Mit tegyünk akkor, ha azt szeretnénk megtudni, hogy vajon a Fidesz “alacsonyabb” és “magasabb” teljesítménye hogyan viszonyul a települések nagyságához? Itt is segítségül hívhatjuk az IF függvényt:30

A választók számát tartalmazó oszlop (valaszto_a) mellett létrehoztunk egy új oszlopot (Telepules 2 bontasban), amelyben végigfuttattuk ezt a függvényt: =IF(H2>10000;”nagytelepules”;”kistelepules”). Ennek a lényege az, hogy ha 10 ezernél több választó van egy településen, akkor azt a “nagytelepules” kategóriába sorolja, ha annál kevesebb, akkor “kistelepules” kerül mellé.

Vajon mi derül ki akkor, ha a Kimutatás funkcióval összesítjük ezeknek a kategóriáknak a számait?

31

Azt látjuk, hogy a 3044 kistelepülés (tehát ahol 10 ezernél kevesebb választó volt) túlnyomó részében (2333) a Fidesz az országos eredményénél jobban szerepelt. A “nagytelepüléseken” viszont már közel sem ilyen kedvező számukra a kép. A 132 település kevesebb mint felében sikerült az országos szint felett teljesíteniük (azt persze ne felejtsük el, hogy az adatsorban a budapesti kerületek külön településként szerepelnek).

Adatok összefésülése

Az IF függvény segítégével alkalmazott logikai műveletek mellett a másik nagyon erős eszköz az, amikor egymástól független adatbázisokat kapcsolunk egymáshoz, és így találunk meg rejtett összefüggéseket.

Nézzünk egy gyakorlati példát! 2014 februárjának egyik érdekes híre volt, hogy a kormány újraosztotta a meglehetősen jól jövedelmező felszámolói piacot. Ehhez a tevékenységhez állami engedély kell, és egy kormányzati döntés eredményeként sok régi szereplő kiszorult a piacról, akiknek a helyére újak léptek. Az Origo.hu számolt be arról, hogy az új szereplők között volt több olyan vállalkozó is, aki korábban nyert a szintén ellentmondásos módon lebonyolított trafikpályázatokon is.

Ez egy érdekes információ volt, de vajon hogy lehet erre rábukkanni? Van több mint 160 felszámolós vállalkozó és van több ezer trafiknyertes. Hogyan lehet megtalálni az egyezéseket? Lehet persze egyenként keresgetni a nevek között, de az sok időt venne igénybe. Van egy sokkal egyszerűbb módszer. Ha megvan a két adatsor, akkor ezeket összekapcsolhatjuk egymással, és egy viszonylag egyszerű Excel-függvénnyel végrehajthatjuk a keresést.

Ehhez a következőket kell tennünk:

Egy Excel-munkafüzetben belül nyissunk két munkalapot. Az egyikre másoljuk be a felszámolócégek tulajdonosainak listáját, a másikra pedig a trafiknyertesekét. Ez így fog kinézni:

32

Itt most az egyszerűség kedvéért csak vezetékneveket nézünk, mert a keresztnevek gyakran megbolygathatják a feladatot (sokszor előfordul, hogy valakinek két keresztneve van, de hol csak eggyel, hol pedig mindkettővel szerepel). Azt kell tehát kiderítenünk, hogy melyek azok a nevek a “felszamolok” munkafüzeten, amelyek megtalálhatók a “trafikpalyazok” listán is.

Ehhez a VLOOKUP (FKERES) függvényt kell használnunk. Ennek lényege, hogy olyan parancsot adhatunk vele az Excelnek, amely megmondja, hogy a két listát összevesse egymással.

Ez a függvény a mi esetünkben következőképp néz ki: =VLOOKUP(A2;trafikpalyazok!$A$2:$A$5455;1;FALSE). Elsőre nagyon ijesztőnek tűnhet, de ha megismerjük az egyes elemeit, akkor már sokkal kevésbé az. A programot arra utasítjuk, hogy fogja az A2 cellában szereplő nevet, majd menjen át a “trafikpalyazok” munkafüzetre, és ott a megadott tartományban ($A$2:$A$5455, vagyis az A2 az első elem, az A5455 pedig az utolsó) nézze meg, hogy található-e ugyanolyan név. Ha talál, akkor hozza el a “trafikpalyazok” listának megadott oszlopában szereplő értéket. Hogy melyik oszlop legyen az, azt számmal kell megadni. Nálunk csak egy oszlop van, ezért itt az “1” szerepel. A függvény végére fontos odaírni azt, hogy FALSE, különben az Excel megtenné nekünk azt a szívességet, hogy nemcsak a teljes névegyezőségeket dobja ki, hanem az egymáshoz hasonlító neveket is.

Ha végigfuttatjuk ezt a függvényt a munkafüzetünkben, akkor ilyesmi képet kapunk.33

Az A oszlopban van a felszámolócégek tulajdonosainak neve. A “Névegyezés?”-re keresztelt B oszlopban futtattuk végig a műveletet. Ha a vezetéknév mellett a “#N/A” szerepel, akkor az azt jelenti, hogy a függvény nem talált azonosságot a trafikosok között. Ha viszont a B oszlopban is megjelent a név, akkor az azt jelenti, hogy az mindkét listán szerepel.

Persze a legtöbb adatelemzői eszközhöz hasonlóan ez sem csodafegyver. Itt most vezetéknevek egyezését találtuk meg, de könnyen lehet, hogy csak névrokonságról van szó. Ez különösen sokszor előfordulhat a gyakori neveknél (mint a Nagy, Kovács, Horváth, stb.), de természetesen a ritkábbaknál is fontos az ellenőrzés. Tehát utána kell nézni, hogy a nevekhez kapcsolódó egyéb adatok (lakcím, anyja neve, amelyek a cégnyilvántartásban megtalálhatók) is megegyeznek-e.

A fenti példában szereplő névegyezőségeknél (Bényi és Czéh-Tóth) kiderült, hogy valóban azonos személyekről van szó. Ahogy az Origo.hu beszámolt róla, Bényi Szabolcs Tamás és Czéh-Tóth Márk egyaránt sikeresen szerepelt a felszámolói és a trafikos pályázaton is.