Támop logó

Péter Róbert (SZTE Angol Tanszék)

A big data kihívás teljes szövegű forrásgyűjteményekben: újságcikkek 'távoli' olvasása digitális sajtóarchívumokban


Az elmúlt évtizedben a bölcsészettudományokban bekövetkezett digitális fordulat egyik eredménye, hogy a kutatók milliónyi primer szöveget tartalmazó digitális archívumokban kereshetnek. A 'praktikus' digitális forradalmat, amely gyorsabbá, kényelmesebbé és produktívabbá tette a kutatást a humántudományok területén, nem igazán követte módszertani forradalom, annak ellenére, hogy az óriási mennyiségű kereshető szöveg feldolgozása új módszertani kihívások elé állítja a kutatókat. 2010-ben Németh L. Zoltán és Tóth Tamás (programozó) matematikusokkal egy olyan digitális módszer fejlesztésébe kezdtünk, amely többek között képes nagy mennyiségű sajtócikk bibliográfiai- és metaadatainak grafikus megjelenítésére, eloszlásának és gyakoriságának vizsgálatára. Az előbbi segítségével többek között - eleddig ismeretlen - történeti trendeket és folyamatokat jeleníthetünk meg, valamint tesztelhetünk régi hipotéziseket. Az emberiség történetében most van először lehetőség ilyen elemzések elvégzésére, mivel a 21. század előtt nem álltak rendelkezésünkre ilyen volumenű digitális archívumok. A digitális módszer előnyeit és korlátait több esettanulmény segítségével illusztráljuk.