Nyelvtechnológiai Kutatócsoport

Csoportunk a természetes nyelvfeldolgozás minden területével foglalkozik a kezdeti felismeréstől (automatikus beszédfelismerés, optikai karakterfelismerés) a késői szintézist igénylő feladatokig, különös hangsúlyt fektetve a közbeeső fázisokra, amelyek megértést is igényelnek (szemantikai modellezés). Munkánkban a szabályalapú és a statisztikai megközelítéseket ötvözzük, abból az alapelvből kiindulva, hogy a szabályokat magukat is gépi tanulásos módszerekkel kell meghatározni.

A hagyományosan a gépi nyelvfeldolgozáshoz tartozó feladatokon túl, mint például a morfológiai elemzés és szintézis, szófaj címkézés, elemzés és generálás, minden olyan részrendszerrel foglalkozunk, amelyek szükségesek egy teljesértékű HCI rendszerekhez, különös tekintettel az információkinyerés területére. Munkánk elméleti alapjai szorosan kötődnek a véges állapotú automatákhoz, illetve a véges állapotú transzdúcerekhez és gépekhez (Eilenberg 1974). Jelenleg egy olyan formális szemantikai elmélet kidolgozásával foglalkozunk, amelyben a modellezést gépekkel valósítjuk meg. A valósidejű felismerés lehetővé tételén túl (a HCI-ben ez alapvető jelentőségű) a véges állapotú eljárások segítségével az alapvető építőkövek, a véges átmenetek is automatikusan tanulhatók.

Csoportunk folytatja a magyarországi nyílt és szabad nyelvtechnológiai szoftverek létrehozásának hagyományát, amelyet a Hun* programcsalád tagjai testesítenek meg, mint a HunMorph morfológiai elemző, a HunNER névelem felismerő, a HunPars szintaktikai elemző, a HunAlign mondat-összepárosító, és talán a legjobban ismert HunSpell helyesírás-ellenőrző könyvtár, amely ma már elterjedten használt az Open Office-ban, a Firefoxban és a Thunderbirdben.

Legfontosabb kutatási területeink

- Gépi megértés
- Tudásalapú ember-gép interakció
- Gépi tanulás
- Mesterséges Intelligencia
- Kérdés-megválaszolás
- Szószemantika
- Információkinyerés és -visszakeresés
- Morfológiai elemzés
- Tulajdonnévfelismerés
- Sekély mondattani elemzés
- Mondatelemzés és -generálás
- Intelligens szótárépítés
- Gépi fordítás

Kiemelkedő eredményeink

'Szemantikai alapú nyelvtechnológia' című OTKA-projektünk keretében létrehoztunk egy 3000 lexikai egységet tartalmazó alapszótárat angolul, magyarul, lengyelül és latinul, melyet a gépek elméleti keretrendszerének segítségével formalizáltunk. Ezt követően először is kiterjesztettük szótárunkat olyan módon, hogy már létező szótári definíciókat automatikusan lefordítunk formális modellünkre. Másodszor létrehoztunk több, a gépi megértés teljes folyamatát bemutató demót, amelyek jelentésalapú elemzést és generálást végeznek: a 2011-es Kutatók Éjszakáján bemutattuk az egyszerű párbeszédeket folytató, utasításokat végrehajtó SHRDLU 2.0 rendszert, mely lényegében Winograd klasszikus rendszerének továbbfejlesztett változata; a 2012 őszére elkészült MÁV-pénztáros és ELVIRA demók pedig már valódi feladatokat látnak el: a felhasználók természetes nyelven vásárolhatnak vonatjegyet és kérhetnek felvilágosítást a menetrendről. Végül technológiánkat olyan alapfeladatokra is alkalmazzuk, mint a kérdésmegválaszolás vagy a gépi fordítás.

Termékeink/szolgáltatásaink

- huntoken tokenizáló
- hunpos szófaji címkéző
- morphdb morfológiai adatbázis
- hunmorph morfológiai elemző
- hunner tulajdonnévfelismerő
- hunchunk sekély mondattani elemző
- hunpars mondattani elemző
- hunalign mondatpárosító

Eszközeink letölthetők:
http://hlt.sztaki.hu

Részletes információk a csoportról