Adatbányászok - tudnak rólad mindent (Rónyai Lajos)

Rónyai LajosIrdatlan mennyiségű kincs van körülöttünk, épp csak ki kell nyernünk az ércből az aranyat. Ez a kincs a naponta óriási ütemben és mértékben – s főleg az interneten – növekvő adathalmaz. Korunk modern bányászai azonban nem kormos arcú munkások, hanem fehér galléros, tudós emberek, főleg matematikusok. A világszerte nagy erőkkel kutatott és alkalmazott adatbányászatnak Magyarországon is jeles tudományos műhelyei és nemzetközileg jegyzett eredményei vannak.

„Szerencse fel, szerencse le, ilyen a bányász élete” – szól a nálunk ma már igencsak ritkán felcsendülő induló. Nos, az adatbányászat lényegesen derűsebb a szén vagy az ércek kitermelésénél. Egyrészt mert egyelőre csak felfelé haladásról beszélhetünk, másrészt meg metánrobbanás, vízbetörés sem fenyegeti az e területen dolgozókat.

Divatba jött világszerte az értékes ismeretek kibányászása, de ennél is lényegesebb, hogy rendkívül nagy hasznot hozó lehetőség az irdatlan tömegű „adatkőzetből” az aranyéval felérő értékű összefüggések, kapcsolódások kinyerése. Az adatmennyiség tekintetében szinte hihetetlen számokról beszélhetünk: a világhálón például jelenleg évente exabájt nagyságrendű adattal bővül az állomány. Nehéz felfognunk a csillagászati exaszorzót, mivel még nemigen vonult be a köztudatba: milliárdszor milliárdot jelent, vagyis 18 nulla sorakozik az egyes után! De ne hanyagoljuk el a nagyvállalatok, kormányzatok, egyes tudományos intézmények óriási, bár az exához képest eltörpülő, százmilliós, esetleg több milliárd adatot tartalmazó adatbázisait sem. Rendkívül nagy hasznot húzhat belőle az, aki közöttük valamilyen szempontok szerint összefüggést talál.

Tudják, mit veszel

Lássunk példákat! A nagy szupermarketekben a vásárlók általában dugig megtömött kosarakkal, bevásárlókocsikkal érkeznek a pénztárakhoz. A megrendelések, áruterítések szempontjából igen nagy hasznot hozhat a cégnek a kosarakban felhalmozott és a pénztárgépbe beütött árucikkek elemzése összetétel, napok, hónapok, évszakok szerint. Vagy egy üzemben, mondjuk egy nagy hengerműben a hibák fajtáiból, előfordulásukból és mértékükből jelentős gazdasági haszonnal járó következtetéseket lehet levonni, ha az előbányászott adatok és a „meddő kőzettől” megtisztított ismeretek alapján módosítják a technológiát.

Mondhatnánk erre, hogy statisztikai elemzéseket régebben is végeztek, akkor miben különbözik hát tőle az adatbányászat? Nos, vannak – nem is kevesen –, akik valóban vitatják, nem több-e ez egyszerű átnevezésnél, divatnál. – Egységes definíciót valóban nem húzhatunk rá, mégis markánsak a különbségek – vitázik ezzel a véleménnyel Rónyai Lajos matematikus akadémikus. – Az egyik nagy eltérés, hogy a statisztika célratörően, előre meghatározott kérdésekre adott válaszokból állít össze adatrendszereket, gondoljunk például a népszámlálásokra vagy a kérdezőbiztosok által végzett felmérésekre. Ezzel szemben az adatbányászat a már meglévő, valamilyen más célból összegyűlt adatrengetegben (mint amilyen például az interneten halmozódik föl) keres rejtett, megbúvó ismereteket, összefüggéseket. Az adatbányászat többféle tudományterületet hasznosít: egyrészt magát a statisztikai elemzést, aztán a gépi tanulást, az adatbázisok elméletét, az algoritmuselméletet. Különleges problémát jelent a számítástechnikában a hatalmas információmennyiség kezelése. Nyilván nem mindegy, mennyi idő alatt oldunk meg egy feladatot, és az sem, hogy ehhez mekkora tárkapacitásra van szükségünk. Mert a számítógép viszonylag kicsi belső tárának elérése gyors ugyan, ám a nagy kapacitású diszkekhez való hozzáférés sebessége még igencsak elmarad az igényeinkhez képest.

Mint minden új tudományos irányzatnál, az adatbányászat esetében is több határterület fonódik össze. Kezdjük mindenekelőtt a meglévő adatokból számítógépes statisztikával végzett elemzéssel és az információk kiszedésével. Hasonlóképpen nem éppen új a nagy adatbázisok kezelése sem – immár több évtizede jól ismerik és használják bankok, biztosítók, szolgáltatók, ipari multik, kormányok és persze a titkosszolgálatok is. 

A bonyolult, nagyméretű számítógépes feladatok leírásával és hatékony futtatásával foglalkozó algoritmuselmélet lényeges része az adatbányászatnak, és ebben van szükség a legtöbb új megoldásra, akárcsak a mesterséges intelligencia módszereinek alkalmazásában. Ez utóbbi a gépi tanulásban segíthet. Tehát amikor maga a rendszer „tanul” a jó lépések vagy éppen az eldobandó válaszok alapján, bizonyos mintákat felismerve halad tovább.

Tudják, mit levelezel

– Voltaképpen hogyan dolgozik az adatbányász? – kérdeztük Benczúr Andrást, a Magyar Tudományos Akadémia Számítástechnikai és Automatizálási Kutatóintézetének laborvezetőjét. – Ez többlépcsős folyamat. Az adatok előkészítésével, szűrésével, tisztításával, összegzésével kezdődik, majd következik a leglényegesebb lépés, a kiválasztott algoritmus végrehajtása, például az osztályozások elvégzése, tanító példákkal. Néha egészen humorosnak látszó összefüggések jönnek ki. Kiderül például: ha az ifjú papákat leküldik pelenkáért a boltba, rendszerint sört is hoznak. A vágyott információ kinyerése után végül következik az értelmezési szakasz, amelyet már a megrendelővel együtt végzünk, de akár ő maga is eldöntheti, mit kezd a kibányászott tudással.

Legyünk büszkék rá, hogy a magyar kutatók nem maradnak el a nemzetközi mezőnytől, sőt, vannak olyan, az adatbányászattal összefüggő témák, amelyekben az elsők között jegyzik őket. Benczúrék laborjában például eredeti algoritmust, saját módszert dolgoztak ki a világhálón található spamtartalom szűrésére. A spamlevelekkel ellentétben a spamweboldalak célpontjai nem elsősorban a végfelhasználók, hanem a keresőrendszerek. A nagy rendszerek gazdái – mint amilyen például a Google – automatikus módszerekkel vizsgálják tartalmuk minőségét, és sorrendeket állítanak föl. Üzletileg rendkívül fontos ugyanis, hogy egy cég vagy egy honlap hol áll a sorban, hányszor keresik fel a használók. Ezért mindenféle trükkökkel próbálják kikerülni, hogy a szűrők spamként felismerjék és kidobják őket.

Benczúrék erre a csalafintaságra találták meg az ellenszert, és ezzel kapcsolatos kutatási eredményeiket tavaly a Yahoo cég díjjal ismerte el. Egy EU által támogatott projekt keretében pedig az Európai Internet Archívum, illetve egyéb európai archívumok a spamek szűrésére alkalmas eszköz létrehozására adtak nekik megbízást. Itthon is elismerik a munkájukat: keresőrendszerük 2004 óta a Magyar Telekom belső hálózatán üzemel.

Tudják, hova menjenek dolgozni...

Eredményességük egyik jelzője, hogy a SZTAKI-ban a témával foglalkozó kutatócsoport öt PhD-fokozatú munkatársat, nyolc doktorandust és számos egyetemi hallgatót, illetve fejlesztőt foglalkoztat. És persze érvényesül a szívóhatás is: a 2002 óta végzett hat PhD-hallgatójuk a piacvezető Google, illetve a Yahoo munkatársa. Sikeres munkájukat, felkészültségüket mutatja, hogy tavaly a kaliforniai San Joséban az intelligens adatfeldolgozás legfontosabb tudományos világfórumának számító konferencián – amelyet egyébként az informatikai ipar legkiválóbbjai szponzoráltak – az egyik nagy kihívást jelentő, adatbányászati problémák megoldására kiírt csúcsversenyt Benczúr és munkatársai (érdemes megjegyezni a nevüket: Kiss Tamás, Kurucz Miklós, Nagy István, Szabó Adrienn és Torma Balázs) nyerték, maguk mögé utasítva világhírű csapatokat, köztük az IBM kutatóit is. 

Rendkívül ígéretes az is, hogy a SZTAKI-n kívül Magyarországon jeles egyetemi műhelyekről is szólhatunk (a budapesti Műszaki és Gazdaságtudományi, a budapesti Corvinus, a debreceni és a szegedi egyetem vagy az ELTE). Öröm, mert az adatbányászat nemcsak új módszereket igénylő „nagy tudomány”, hanem jelentős gazdasági hasznot hozó „iparág” is.

Ennyi bizakodó hír mögül persze előbújik a jó öreg közhely, mármint az, hogy a fény mögött mindig ott az árnyék. Nagy kérdés ugyanis: vajon ki, mi és hogyan védi meg az adatbányászat nyomán a személyiségi jogainkat? És védhetők-e egyáltalán? Védhetők természetesen, és el kell ismerni, hogy az adatkezelést mindenütt szabályozzák, Európában és Magyarországon különösen szigorúan. Azt is tudnunk kell, hogy a védekezés rajtunk, használókon is múlik, mert például a direktmarketing-címlistákhoz csak gyanútlanul meg kell adnunk a címünket.

Fenyegetett világunkban nagyon lényeges, hogy egy-egy terroristát már csak a nagy hálózatok, kapcsolatok elemzésével lehet elfogni, és ez az adatbányászatban rejlő egyik nagy lehetőség. Ám az is nyilvánvaló, hogy a technika haladásával a személyiségi jogainkat védő rendszerek általában nem képesek teljes mértékben lépést tartani. Ez azonban már egy másik dallam, más hangszerelésben.

/Forrás: Szentgyörgyi Zsuzsa - 168 óra, 2008. szeptember 12./