Főoldal > Timetable > Session details > Contribution details

Közreműködés Előadás

Debreceni Egyetem - B terem
3. TARTALOMSZOLGÁLTATÁSOK: KÖNYVTÁRAK, LEVÉLTÁRAK, MÚZEUMOK

Entitások azonosságának vizsgálata gépi algorítmussal - újabb lépés a Nemzeti Személynévtér felé

Előadók

  • BÁNKI Zsolt

Elsődleges szerzők

Társszerzők

Témakör

3.2 Országos szolgáltatások, retrospektív adatbázisok

Magyar nyelvű tematika (min. 1000 karakter, max. 2000 karakter)

A Petőfi Irodalmi Múzeum személynévterének építésénél gondot okoz az eltérő forrásokból érkező entitások redundanciája. A szolgáltatás tisztításának kiemelt feladata a különböző adattartalmú, de azonos személyre vonatkozó besorolási rekordok egységesítése adatvesztés nélkül. Első lépésként 2013-ban nagyságrendileg 80.000 névrekordról állapítottuk meg az azonosságot, és mergáltuk össze a rekordok adattartalmát. A második fázisban - ahol már egy sokkal bonyolultabb algoritmust kellett alkalmazni az azonosság kimutatására - kb. 36.000 rekord egységesítésével tisztítottuk az adatbázist. Ezzel a lépéssel eljutottunk a gépi úton való azonosítás határához. A további adattisztítás már csak emberi intelligenciával lehetséges, amelyhez a már kidolgozott algoritmus alapján, rendszeresen futtatható szűrésekkel számítógépes támogatást lehet nyújtani. Ennek eredményeképpen a mintegy 620.000 besorolási névrekordot tartalmazó szolgáltatás már megkerülhetetlen kiindulópontként szolgálhat a Nemzeti Személynévtér megteremtéséhez. Az előadás az egységesítés munkafolyamatát kívánja bemutatni.

Angol nyelvű előadáscím

Checking the identity of entities by machine algorythms is the next step to the National Name Authorities.

Angol nyelvű tematika (min. 1000 karakter, max. 2000 karakter)

The redundancy of entities coming from different sources causes problems during the building of the personal name authorities of the Petőfi Museum of Literature. It is a top priority of service cleansing to unite classificatory records which have different data content but pertain to the same person without losing any data. As a first step in 2013 we found identities in approximately 80,000 name records so we merged the data content of these records. In the second phase where a much more complicated algorithm had to be applied to show these identities we cleansed the database by uniting approximately 36,000 records. By this step we reached the limit of technological identification. For further data cleansing we need human intelligence that can be assisted by computerized regular monitoring, which is based upon the developed algorithm. As a result, the service containing about 620,000 authority name records can be an indispensable foundation to the establishment of the National Name Authorities. The lecture intends to show the work process of unification.