A Digitális Örökség Nemzeti Laboratórium (DH-LAB) a kézírásfelismerő modellek fejlesztéséért, azon belül Arany János hivatali iratainak MI alapú feldolgozásáért 2024-ben elnyerte a Kulturális és Innovációs Minisztérium Társadalmi Innovációs Díját.
Az elismerés olyan új ötlet kifejlesztéséért és megvalósításáért adományozható, amely társadalmi szükséglet kielégítésére irányul, közösségi kapcsolatokat erősít, vagy együttműködést alakít ki, ezáltal megoldást nyújthat a társadalmi folyamatokat befolyásoló problémákra, és végső célként javíthatja egy adott térség vagy közösség jólétét, illetve nemzetközileg is adaptálható megoldást mutat be. Idén a DH-LAB projektje mellett a másik díjazott a Szabadtéri Néprajzi Múzeum demenciaprogramja volt.
A Társadalmi Innovációs Díj ünnepélyes átadására 2024. november 13-án került sor a Minisztérium Könyvtártermében. A rendezvényen Zsigó Róbert miniszterhelyettestől a HUN-REN Bölcsészettudományi Kutatóközpont részéről Balogh Balázs főigazgató vette át a díjat. A nyertes fejlesztésben a HUN-REN BTK munkatársai közül Palkó Gábor, Fellegi Zsófia és Bobák Barbara, a Laboratórium részéről Fekete Norbert és Szekrényes István vett részt.
Balogh Balázs főigazgató átveszi Zsigó Róbert miniszterhelyettestől a Társadalmi Innovációs Díjat
Palkó Gábor projektvezető, a HUN-REN Bölcsészettudományi Kutatóközpont Irodalomtudományi Intézet tudományos főmunkatársa a díjátadón elmondta, hogy „a 21. század első évtizedeiben két egymással szorosan összefüggő és párhuzamos trend figyelhető meg a kultúra és a tudomány területén. Egyrészt a mesterséges intelligencia (MI) olyan mértékben alakítja át és helyettesíti a megszokott kulturális gyakorlatokat, ami korábban elképzelhetetlen volt, másrészt, részben a kulturális örökség digitalizálása, részben pedig a digitálisan keletkező anyagok hatalmas mennyisége miatt korábban elképzelhetetlen nagyságrendben jönnek létre adatbázisok és adathálózatok”.
Hozzátette, „a digitális örökség diskurzusában azonban a könnyen feldolgozható és közzétehető nyomtatott vagy digitálisan keletkező anyagok mellett az igazi – azaz kézzel írt – kéziratok háttérbe szorulnak, mivel nem tehetők kereshetővé olyan általános modellekkel, amelyek nem veszik figyelembe az adott dokumentumcsoport sajátos jellemzőit. Különösen problémás, hogy az MI eszközök jobban működnek a nagy világnyelvek esetében, amelyeket több százmillióan beszélnek, így például a magyar kézzel írt dokumentumok különösen alulreprezentáltak a digitális kulturális örökség egészében”. Kiemelte, hogy „a Digitális Örökség Nemzeti Laboratórium (DH-LAB) projekt egyik elsődleges feladata ezeknek a problémáknak a megoldása”.
Palkó Gábor projektvezető
A kézírásfelismerő modellek fejlesztése
A DH-LAB a HUN-REN Bölcsészettudományi Kutatóközpont Irodalomtudományi Intézetének, a Miskolci Egyetemnek valamint az ELTE BTK TI Digitális Bölcsészet Tanszék szakértőinek közreműködésével, az ELTE IK Mesterséges Intelligencia Tanszék hallgatóival közösen alakítja ki a magyar nyelvre optimalizált MI eszközök alkalmazásának módszertanát a közgyűjteményekben, a nyílt tudományosság elveinek megfelelően, saját hardware környezetben.
E munka egyik első és legjelentősebb eredménye a kézírásfelismerő modell kifejlesztése, amely lehetővé tette a Magyar Tudományos Akadémia Könyvtárában őrzött Arany János hivatali iratok kereshetővé tételét, ezáltal egy rendkívül értékes korpusz hozzáférhetővé válik a kutatók és a nagyközönség számára.
Arany János hivatali iratai és azok jelentősége
Arany János (1817–1882), magyar költő, író, műfordító és újságíró központi helyet foglal el a magyar irodalomtörténetben. Hatása túlmutat a nemzeti határokon, így fontos alak az európai akadémikusok számára is. 1859-től Arany a Magyar Tudományos Akadémia (MTA) rendes tagja volt. 1865-ben megválasztották főtitkárnak, mely pozíciót 1877-ig töltötte be. Ezen a poszton végzett adminisztratív munkája óriási jelentőséggel bírt. Főtitkárként meghatározta és kialakította az MTA működési kereteit, ezzel pedig az egyik legfontosabb magyar tudományos intézménnyé tette azt. A hivatali iratok korpuszának teljes mérete jelentősen nagyobb a korábbi ismereteinknél, közel 9200 dokumentum, amely nagyjából 30.000 kéziratfotónak felel meg.
A saját HTR (Handwritten Text Recognition) modell tanításához 200 lapnyi Arany-kézírás mellett Arany titkárának, Ring Adorjánnak a kezétől származó, valamint további, közel 30 kéz írását tartalmazó korpuszt készítettek a szakértők. A modellt összesen 874 (Arany: 200, Ring: 101, Más: 573) átírt kéziratlapon tanították, amely után a pontossága nem haladta meg az 5%-os betű szintű hibaarányt. A hivatali iratok publikálása jelenleg folyamatban van az MTA Könyvtár repozitóriumában, kétrétegű, vagyis kereshető PDF-ek formájában.
Fellegi Zsófia, Palkó Gábor, Kecskeméti Gábor és Balogh Balázs
A DH-LAB projekt eredményei és hatása
A fejlesztés azért egyedi és innovatív, mert Magyarországon még nem történt ilyen nagyságrendű, mesterséges intelligencia alapú kézírásfelismerés magyar digitális bölcsészek és MI szakértők közreműködésével, magyar szakemberek és számítástechnikai eszközök használatával. A projekt során létrejött egy olyan általános kézírás-felismerő modell, amelyet a közgyűjtemények szabadon felhasználhatnak, így a jövőben szinte korlátlan mennyiségű magyar nyelvű 19. századi kéziratoldal kerülhet feldolgozásra, amely szövegek eddig nem képezték a kulturális örökség integráns részét.
A projekt egy kiemelkedő eredménye, hogy a fejlesztés során olyan technológiai módszertár (know-how) képződött, amely szorosan kapcsolódik a kulturális örökség MI alapú feldolgozásának európai trendjeihez. A kifejlesztett módszertan ezen felül olyan piaci területen is újabb innovációk kiindulópontja lehet, mint például a céges dokumentumok MI alapú feldolgozása. A technológiát olyan NKFIH minősítéssel rendelkező kiváló kutatási infrastruktúrák integrálják munkameneteikbe, mint a DH-LAB-QULTO közös kutatási infrastruktúra, vagy a HUN-REN Bölcsészettudományi Kutatóközpont EtnoLab projektje.
A DH-LAB projektjét a 2024. november 21. és 23. között a Szépművészeti Múzeumban megvalósuló World Science Forum és Science Expo című rendezvényen is bemutatják.
Fotók: Szőts-Rajkó Kinga/HUN-REN BTK