Metadata quality in cultural heritage institutions (ReIRes-FAIR 2018)
A jók és a rosszak - metaadatok minőségellenőrzése
1. A jók és a rosszak – Metaadatok minőségellenőrzése
Király Péter
peter.kiraly@gwdg.de
Networkshop 2016
Debrecen, 2016. III. 31.
Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen
http://gwdg.de
2. Metadata Quality Assurance Framework
2
Mi a metaadat?
Adatról szóló adat („Strukturált információ ami
leir, feltár, elhelyez v. máshogy reprezentál
egy információforrást” – NISO, 2004)
A kutatási kontextusban:
Digitalizált vagy valós tárgyról
Nagyobb adathalmazokról
... szóló leiró adatok
Hozzáférési pontokat biztosit az elsődleges
adatokhoz
3. Metadata Quality Assurance Framework
3
Miért fontos az adatok minősége?
„Fitness for purpose” – megfelelni a célnak
nincs
metaadat
nincs hozzéférés
nincs adat-
használat
bővebben:
Data on the Web Best Practices
W3C Working Draft 12 January 2016
https://www.w3.org/TR/dwbp/
4. Metadata Quality Assurance Framework
4
Rossz minőségű metaadatok szimptómái
Nehéz azonositani („Miről is van szó?”)
Nehéz megkülönböztetni más rekordoktól
Félrevezető leirások
Értelmezhetetlen leirások
Hiányzó adatelemek
Újrahasznosithatatlan (az eredeti kontextus
elveszett)
Nehéz megtalálni
9. Metadata Quality Assurance Framework
9
Ugyanaz az entitás különféle módon rögzitve
lucas cranach der ältere
Cranach, Lucas (der Ältere) [Herstellung]
Cranach, Lucas (I) (naar tekening van)
Cranach, Lucas vanem (autor)
Az entitásümeghatározás eredménye:
http://dbpedia.org/resource/Lucas_Cranach_t
he_Elder
http://viaf.org/viaf/49268177/
semmi
10. Metadata Quality Assurance Framework
10
Ugyanaz az entitás különféle módon rögzitve
Különböző megjelenités és tartalom:
http://dbpedia.org/resource/Lucas_Cranach_t
he_Elder
http://viaf.org/viaf/49268177/
semmi
11. Metadata Quality Assurance Framework
11
Mit mérjünk?
mező1 mező2 mező3 mező4
doc1
doc2
doc3
doc3
A rekord általános értéke
12. Metadata Quality Assurance Framework
12
Mit mérjünk?
mező1 mező2 mező3 mező4
doc1
doc2
doc3
doc3
A rekordhalmaz (pl. ugyanabból a forrásból származó
gyüjteményrész) általános értéke
13. Metadata Quality Assurance Framework
13
Mit mérjünk?
mező1 mező2 mező3 mező4
doc1
doc2
doc3
doc3
Mező általános jellemzése – a mezőhasználat mérése
14. Metadata Quality Assurance Framework
14
Mit mérjünk?
mező1 mező2 mező3 mező4
doc1
doc2
doc3
doc3
Mezőcsoport. Mezők csoportja közösen járul hozzá egy adott
funkció megvalósitásához pl. megjelenités, keresés,
azonositása, újrahasznositás, többnyelvűség.
16. Metadata Quality Assurance Framework
16
Metrikák
Alapmetrikák a szakirodalomban (Bruce–
Hillmann, Stvilia, Ochoa–Duval, Gavrilis et al.)
Teljesség (Completeness)
Pontosság (Accuracy)
Az elvárásoknak való megfelelés
Logikai konzisztencia és koherencia
Hozzáférhetőség
Időbeli változás
Proveniencia
17. Metadata Quality Assurance Framework
17
Adatforrások
Europeana – 50M medaatat rekord EDM
(Europeana Data Model) sémában
TextGrid repozitórium: Dublin Core + TEI
Kutatási adatok a göttingeni campuson
Könyvtári katalógus rekordok MARC / PICA+
Egyéb nyilt adatok (pl. Wikidata)
28. Metadata Quality Assurance Framework
28
Módszer: adatgyűjtés – mérés – megosztás
Teljesség, 3 gyűjtemény, teljes és kereső nézet
A legteljesebb
A leghiányosabb
hasonló rekordok
heterogén
rekordok
eltérő
manifesztációk
29. Metadata Quality Assurance Framework
29
Módszer: adatgyűjtés – mérés – megosztás
kimenetek
Interaktiv műszerfal
REST API a nyers statisztikák megosztására
Képek: i) European Data Portal Metadata Quality Dashboard ii) Kibana promotional video
31. Metadata Quality Assurance Framework
31
Mire is lesz ez jó?
A metaadatok javitása
A metaadatséma és a documentáció javitása
A „jó gyakorlatok” propagálása
Szolgáltatásjavitás ösztönzése: a „jó” adat
magasabbra kerül a találati listában
A GWDG számára:
Beépités az adatkezelési–adatarchiválási
portfolióba
32. Metadata Quality Assurance Framework
32
További lépések
Mérési metanyelv (Domain Specific Lang.)
Mintakeresés, gépi tanulás, automatikus
osztályozás
Adatforrás-konnektorok
„Jenkins for data publication”
Probléma
katalógus
Adatforrás
Adatséma
Metaadat QA Jelentés
33. Metadata Quality Assurance Framework
33
Kérem kövessen!
Terv és blog: http://pkiraly.github.io
Demo: http://144.76.218.178/europeana-qa/
Szoftverfejlesztés:
Harvester for Europeana OAI-PMH Service
https://github.com/pkiraly/europeana-oai-pmh-client
Apache Spark modul
https://github.com/pkiraly/europeana-qa-spark
R modul
https://github.com/pkiraly/europeana-qa-r
@kiru, https://www.linkedin.com/in/peterkiraly