Támop logó

Vincze Veronika (MTA-SZTE Mesterséges Intelligencia Kutatócsoport, Nyelvtechnológiai Csoport)

Automatikus információkinyerés szöveges dokumentumokból


A számítógépes nyelvészet egy részterületének, az információkinyerésnek feladata a szöveges dokumentumokban rejlő információ automatikus összegyűjtése. Ennek egyik megvalósulása a kulcsszavazás: ennek során a szövegekhez azoknak tartalmát jól tükröző, rövid kifejezéseket, ún. kulcsszavakat rendelünk. A kulcsszavak azon túl, hogy a dokumentumok tömör összefoglalásaként értelmezhetők, alkalmazhatók a szövegek visszakeresésére vagy osztályozására, továbbá segítségükkel a dokumentumok közti hasonlóságok is könnyedén meghatározhatók.
Az elmúlt években számos tudományos eredmény látott napvilágot hazai és nemzetközi szinten egyaránt a dokumentumok kulcsszavainak automatikus meghatározását célzó rendszerekre nézve. Ezen munkák jellemzően angol nyelvű tudományos publikációk kulcsszavainak automatikus meghatározását tűzték ki célul, ugyanakkor angol nyelvű termékismertetők legfontosabb aspektusainak meghatározására is volt már példa kulcsszavak alapján. Mindamellett magyar nyelvű politika- és neveléstudományi témában íródott tudományos publikációk kulcsszavainak gépi tanuláson alapuló meghatározására is született már kísérlet, valamint számítógépes nyelvészeti témában írt tudományos cikkek kulcsszavazásán alapuló dokumentumosztályozásról is van tudomásunk.
Az előadás röviden áttekinti a kulcsszavazás jelenlegi helyzetét, különös tekintettel az eddig elért, magyar nyelvre vonatkozó eredményekre és magyar nyelvű adatbázisokra. Ezek után bemutatjuk a kulcsszavazás alkalmazási lehetőségeit más, eddig még nem vizsgált szövegállományokra, illetve témakörökre. Legvégül ismertetjük, miként segítheti a dokumentumok automatikus kulcsszavazása más tudományterületek, például a bölcsészettudományok kutatóinak munkáját.