Gabriela Isaila | Doktori Iskola, Hirek, Hungarológiai Tudományok Doktori Iskola
Digitális bölcsészeti műhely zajlott január 31. és február 2. között Kolozsváron. A főként doktorandusz résztvevők romániai és magyarországi szakemberek előadásait hallgathatták meg.
A téma aktualitását jól szemlélteti a következő jelenet, mely során az egyik előadó az iránt érdeklődött, hogy a résztvevők közül használ rendszeresen digitalizált forrásokat. Kérdésére alig érkezett nemleges válasz: a bölcsészekből (főként irodalmárokból, történészekből, néprajzosokból, nyelvészekből) álló plénum bevallottan felhasználója a digitalizált, OCR-ezett vagy HTR-ezett, metaadatokkal ellátott, annotált, többféle módon kereshetővé tett szöveg-adatbázisoknak. Többek között ezen fogalmakról, és az adatbázisok kialakításáról szóltak a három napos képzés előadásai.
A műhely szervezői a Kolozsvári Akadémiai Bizottság közreműködése mellett Pál Judit valamint T. Szabó Levente egyetemi oktatók voltak. A pályázás útján kiválasztott meghívottakat elsőként a Kolozsvári Központi Egyetemi Könyvtár látta vendégül, ahol Nagy László KAB-elnök köszöntője után Bodnár Róbert, a könyvtár Digitalizációs Osztályának osztályvezetője tartott bemutatót a könyvtár azon gyűjteményeiről, melyeket a könyvtár korábbi vagy még futó projektek keretében igyekszik digitalizálni. Elmondta, sokak vélekedésével ellentétben a KEK nem valamelyik kolozsvári egyetem saját intézménye, hanem (a bukaresti, iași-i, temesvári ún. „központi” könyvtárakkal egyetemben) közvetlenül a Tanügyminisztérium alá tartozik, így korlátozott mértékben vehet részt egyetemek számára fenntartott projektekben, mely megnehezíti munkájukat. Említett ugyanakkor olyan együttműködéseket is akár megyei könyvtárakkal, akár magáncégekkel (pl. az Arcanummal), amelyek gyümölcsözőnek bizonyultak akár még a sokszor felmerülő nézeteltérések ellenére is – ilyen például annak a kérdése, hogy egy gyűjtemény, például egy folyóirat összes lapszáma, egyetlen helyen kell-e fellelhető legyen, vagy megengedhető a szétaprózás, lehet-e automatikusan szkennelni a folyóiratokat, amely a kötés szétvágásával jár együtt, vagy meg kell őrizni a kötést stb. A résztvevők később megtekinthették úgy a különgyűjteményeket (Luffy Katalin könyvtáros igen szórakoztató vezetésével), mint magát a digitalizálási osztályt, a maga nagyjából fél tucat, különböző elven működő szkennerével, ahol az éppen kötetekkel a kezükben dolgozó munkatársak árultak el műhelytitkokat az – árban sokszor egy garzon és egy két szobás lakás között elhelyezkedő – gépekről.
A három nap alatt nemcsak a könyvtár digitalizációs törekvéseiről hallhattak a résztvevők: pénteken dr. Ferenczi Szilárd, a Digitéka Erdélyi Digitális Tudománytár kurátora mutatta be az Iskola Alapítvány által létrehozott intézmény történetét, megvalósításait, céljait. Kiemelte: az intézmény azért jött létre, hogy az erdélyi magyar sajtóanyag ingyenesen hozzáférhető legyen az interneten a helyi és külföldi kutatók számára.
Képzésekre is sor került a három nap alatt: Mihály Eszter, az Országos Széchényi Könyvtár Digitális Bölcsészeti Központjának igazgatóhelyettese a Transkribus kézírás-felismerő (HTR) alkalmazás szemléltette, emellett bemutatta az Országos Széchényi Könyvtár Digitális Bölcsészeti Központja által fejlesztett dHUpla (https://dhupla.hu/) korszerű online platformot, amely a közgyűjteményekben őrzött szöveges források közzétételére alkalmas, egységes kutatói környezetet is biztosítva a humán tudományok számára. Mihály Eszter szemléletesen mutatta be azt a munkafolyamatot, amelynek során a digitalizált kézirat eljut a publikálhatóság szintjére, s digitális szövegként elérhetővé válik az online térben. Szekrényes István, a Digitális Örökség Nemzeti Laboratórium (DH-Lab) munkatársa a szövegszegmentálás és optikai karakterfelismertetés (OCR), valamint a beszédfelismerés kortárs módszereiről beszélt. A gyakorlati demonstráció azon mesterséges intelligenciát igénylő tevékenységeket és eszközöket mutatta be, amelyek a nyers adatállományokból (legyen szó hang-, videófelvételekről, szkennelt dokumentumokról) további kutatásokra, lekérdezésekre lehetőséget adó, digitális szöveget állítanak elő. Végül Horváth Péter, az ELTE Digitális Bölcsészet Tanszékének adjunktusa, a DH-Lab munkatársa olyan projektekről beszélt, mint az ELTE Verskorpusz, Regénykorpusz, Drámakorpusz és Népdalkorpusz, mely kanonizált művek szövegét tartalmazza oly módon, hogy ezeken sokrétű keresést lehet lefolytatni a tanszék szabadon hozzáférhető internetes felületén keresztül olyan szempontok szerint, mint a szerzőség, keletkezés időpontja, rímképlet, ritmus, kanonikusság, bizonyos szavak és azok kontextusa stb. Ezt az teszi lehetővé, hogy a szövegeket el vannak látva metaadatokkal (azaz olyan kiegészítő adatokkal, mint a hossz, keletkezés ideje, szerző kiléte stb.), szavaik pedig annotálva vannak (azaz automatikus módon jelölt a szófajuk, igemódjuk, esetük, hangtani szerkezetük stb.).
A fentiekhez hasonló felületek és a mögöttük meghúzódó struktúra ismerete ma már nélkülözhetetlen olyan kutatók számára, akik nagy mennyiségű szöveggel dolgoznak. Az előadás során a résztvevők az utóbbi évek kutatási eredményein keresztül megismerkedhetnek a korpusznyelvészet különböző módszereivel, a stilometria módszerével vagy épp a már létező vagy fejlesztés alatt álló lekérdező-eszközökkel. A képzés során kitűnt, a résztvevők más-más szempontból találták hasznosnak a képzést: a néprajzosok a beszédfelismerést vélték felhasználhatónak interjú-átírásaik során, a bölcsészek és történészek jórészt az automatikus szövegelemzést valamint a kézírásfelismerést gondolták kamatoztathatónak saját területükön – például levelek és kéziratok átírásának tekintetében. A képzés egyik legfontosabb aspektusa azonban az volt, hogy teret biztosított a kötetlen beszélgetésre, a kapcsolatépítésre, a különböző tudományterületek nemcsak digitális, de emberi és személyes összekapcsolására is. –Kovács Péter Zoltán beszámolója megjelent a Szabadság Napilapban.
További fotók a szak Facebook oldalán tekinthetők meg.