SlideShare a Scribd company logo
1 of 33
A jók és a rosszak – Metaadatok minőségellenőrzése
Király Péter
peter.kiraly@gwdg.de
Networkshop 2016
Debrecen, 2016. III. 31.
Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen
http://gwdg.de
Metadata Quality Assurance Framework
2
Mi a metaadat?
 Adatról szóló adat („Strukturált információ ami
leir, feltár, elhelyez v. máshogy reprezentál
egy információforrást” – NISO, 2004)
 A kutatási kontextusban:
 Digitalizált vagy valós tárgyról
 Nagyobb adathalmazokról
... szóló leiró adatok
 Hozzáférési pontokat biztosit az elsődleges
adatokhoz
Metadata Quality Assurance Framework
3
Miért fontos az adatok minősége?
„Fitness for purpose” – megfelelni a célnak
nincs
metaadat
nincs hozzéférés
nincs adat-
használat
bővebben:
Data on the Web Best Practices
W3C Working Draft 12 January 2016
https://www.w3.org/TR/dwbp/
Metadata Quality Assurance Framework
4
Rossz minőségű metaadatok szimptómái
 Nehéz azonositani („Miről is van szó?”)
 Nehéz megkülönböztetni más rekordoktól
 Félrevezető leirások
 Értelmezhetetlen leirások
 Hiányzó adatelemek
 Újrahasznosithatatlan (az eredeti kontextus
elveszett)
 Nehéz megtalálni
Metadata Quality Assurance Framework
5
Tipikus problémák
 Nem informativ cim
Metadata Quality Assurance Framework
6
Adattipusok keveredése
 Szám
 RDF erőforrás
Metadata Quality Assurance Framework
7
Többértelműség
 Mi a mező jelentése?
 identifier
 relation
 source
TextGrid OAI-PMH response
Metadata Quality Assurance Framework
8
Copy & paste katalogizálás
 Kitöltetlen sablonok
Metadata Quality Assurance Framework
9
Ugyanaz az entitás különféle módon rögzitve
 lucas cranach der ältere
 Cranach, Lucas (der Ältere) [Herstellung]
 Cranach, Lucas (I) (naar tekening van)
 Cranach, Lucas vanem (autor)
Az entitásümeghatározás eredménye:
 http://dbpedia.org/resource/Lucas_Cranach_t
he_Elder
 http://viaf.org/viaf/49268177/
 semmi
Metadata Quality Assurance Framework
10
Ugyanaz az entitás különféle módon rögzitve
Különböző megjelenités és tartalom:
 http://dbpedia.org/resource/Lucas_Cranach_t
he_Elder
 http://viaf.org/viaf/49268177/
 semmi
Metadata Quality Assurance Framework
11
Mit mérjünk?
mező1 mező2 mező3 mező4
doc1
doc2
doc3
doc3
A rekord általános értéke
Metadata Quality Assurance Framework
12
Mit mérjünk?
mező1 mező2 mező3 mező4
doc1
doc2
doc3
doc3
A rekordhalmaz (pl. ugyanabból a forrásból származó
gyüjteményrész) általános értéke
Metadata Quality Assurance Framework
13
Mit mérjünk?
mező1 mező2 mező3 mező4
doc1
doc2
doc3
doc3
Mező általános jellemzése – a mezőhasználat mérése
Metadata Quality Assurance Framework
14
Mit mérjünk?
mező1 mező2 mező3 mező4
doc1
doc2
doc3
doc3
Mezőcsoport. Mezők csoportja közösen járul hozzá egy adott
funkció megvalósitásához pl. megjelenités, keresés,
azonositása, újrahasznositás, többnyelvűség.
Metadata Quality Assurance Framework
15
Mezőcsoportok az Europeanaban
Mandatory
Descriptiveness
Searchability
Contextualisation
Identification
Browsing
Viewing
Re-Usability
Multilinguality
dc:title × × × × ×
dcterms:alternative × × × ×
dc:description × × × × × ×
dc:creator × × × ×
dc:publisher × ×
dc:contributor ×
Készitette: Valentine Charles, Europeana, Research and Development
Metadata Quality Assurance Framework
16
Metrikák
Alapmetrikák a szakirodalomban (Bruce–
Hillmann, Stvilia, Ochoa–Duval, Gavrilis et al.)
 Teljesség (Completeness)
 Pontosság (Accuracy)
 Az elvárásoknak való megfelelés
 Logikai konzisztencia és koherencia
 Hozzáférhetőség
 Időbeli változás
 Proveniencia
Metadata Quality Assurance Framework
17
Adatforrások
 Europeana – 50M medaatat rekord EDM
(Europeana Data Model) sémában
 TextGrid repozitórium: Dublin Core + TEI
 Kutatási adatok a göttingeni campuson
 Könyvtári katalógus rekordok MARC / PICA+
 Egyéb nyilt adatok (pl. Wikidata)
Metadata Quality Assurance Framework
18
Módszer: adatgyüjtés – mérés – megosztás
 Adatgyűjtés (ingestion): REST API, OAI-OMH,
file letöltés stb.
 Problémák:
 Az Europeana mérete: 400+ GB
 Alacsony I/O teljesitmény
 Europeana OAI-PMH „beta” szintű szolg.
 OAI-PMH: 10M+ HTTP kérés
 REST API: 50M+ HTTP kérés
Metadata Quality Assurance Framework
19
Módszer: adatgyüjtés – mérés – megosztás
Rekordok mérése
 Big data – skálázhatónak kell lennie
 Apache Hadoop és Spark: MapReduce, Pig
Latin, HDFS és kapcsolódó techhnológiák
 Core + séma-specifikus pluginok
 UI: a metrikák paramétereinek beállitása
 input: rekordok, séma, mérési algoritmusok
 output:
 azonositó, egyéb metaadat mezők
 mérés1, mérés2, mérés3 ... mérésN
Metadata Quality Assurance Framework
20
Módszer: adatgyüjtés – mérés – megosztás
Output:
1,846,00101/E57D0044D5A95B061B67D9820
F6D9C2FC2A789F2,0.514286,1.0,0.636364,0.
555556,0.363636,0.7,0.285714,0.25,0.454545,
0.8,1,1,0,1,1,1,1,1,1,1,0,0,0,1,0,0,1,1,0,0,0,0,1,
0,0,0,0,1,1,1,1,1,0,0,0
1,846,00101/8AEFBB9EFC6BA523167A6D80A
4BB08FB3E582088,0.542857,1.0,0.727273,0.6
11111,0.363636,0.8,0.285714,0.25,0.454545,1.
0,1,1,1,1,1,1,1,1,1,1,0,0,0,1,0,0,1,1,0,0,0,0,1,0,
0,0,0,1,1,1,1,1,0,0,0
Metadata Quality Assurance Framework
21
Módszer: adatgyűjtés – mérés – megosztás
Statisztikai elemzés
 A leiró statisztikák kiszámolása
 A rekordhalmazokra vonatkozó
jellemzőszámok kiszámolása
 Statisztikai vizualizáció
Eszközök: R, Spark, D3.js
Metadata Quality Assurance Framework
22
Módszer: adatgyűjtés – mérés – megosztás
Kontroladatok
 Szolgáltatási naplók elemzése (a
felhasználó a kattintással minőségi
szempontot is jelez)
 Szakértői minősités
 Visszajelzések a felhasználói felületen
Metadata Quality Assurance Framework
23
Módszer: adatgyűjtés – mérés – megosztás
Metadata Quality Assurance Framework
24
Módszer: adatgyűjtés – mérés – megosztás
Metadata Quality Assurance Framework
25
Módszer: adatgyűjtés – mérés – megosztás
Metadata Quality Assurance Framework
26
Módszer: adatgyűjtés – mérés – megosztás
Metadata Quality Assurance Framework
27
Módszer: adatgyűjtés – mérés – megosztás
Metadata Quality Assurance Framework
28
Módszer: adatgyűjtés – mérés – megosztás
Teljesség, 3 gyűjtemény, teljes és kereső nézet
A legteljesebb
A leghiányosabb
hasonló rekordok
heterogén
rekordok
eltérő
manifesztációk
Metadata Quality Assurance Framework
29
Módszer: adatgyűjtés – mérés – megosztás
kimenetek
 Interaktiv műszerfal
 REST API a nyers statisztikák megosztására
Képek: i) European Data Portal Metadata Quality Dashboard ii) Kibana promotional video
Metadata Quality Assurance Framework
30
Módszer: adatgyűjtés – mérés – megosztás
Data Quality Vocabulary (W3C Working Draft)
http://w3c.github.io/dwbp/vocab-dqg.html
:myDatasetDistribution
dqv:hasQualityMeasure :measure1, :measure2 .
:measure1
a dqv:QualityMeasure ;
dqv:computedOn :myDatasetDistribution ;
dqv:hasMetric :csvAvailabilityMetric ;
dqv:value "1.0"^^xsd:double .
:measure2
a dqv:QualityMeasure ;
dqv:computedOn :myDatasetDistribution ;
dqv:hasMetric :csvConsistencyMetric ;
dqv:value "0.5"^^xsd:double .
Metadata Quality Assurance Framework
31
Mire is lesz ez jó?
 A metaadatok javitása
 A metaadatséma és a documentáció javitása
 A „jó gyakorlatok” propagálása
 Szolgáltatásjavitás ösztönzése: a „jó” adat
magasabbra kerül a találati listában
A GWDG számára:
 Beépités az adatkezelési–adatarchiválási
portfolióba
Metadata Quality Assurance Framework
32
További lépések
 Mérési metanyelv (Domain Specific Lang.)
 Mintakeresés, gépi tanulás, automatikus
osztályozás
 Adatforrás-konnektorok
 „Jenkins for data publication”
Probléma
katalógus
Adatforrás
Adatséma
Metaadat QA Jelentés
Metadata Quality Assurance Framework
33
Kérem kövessen!
 Terv és blog: http://pkiraly.github.io
 Demo: http://144.76.218.178/europeana-qa/
 Szoftverfejlesztés:
 Harvester for Europeana OAI-PMH Service
https://github.com/pkiraly/europeana-oai-pmh-client
 Apache Spark modul
https://github.com/pkiraly/europeana-qa-spark
 R modul
https://github.com/pkiraly/europeana-qa-r
 @kiru, https://www.linkedin.com/in/peterkiraly

More Related Content

Viewers also liked

BalticMiles We Love to Give You More
BalticMiles We Love to Give You More BalticMiles We Love to Give You More
BalticMiles We Love to Give You More NORD DDB RIGA
 
Čempionu Brokastis #23 / Edgars Lapiņš / "Autentisks mārketings kritiski domā...
Čempionu Brokastis #23 / Edgars Lapiņš / "Autentisks mārketings kritiski domā...Čempionu Brokastis #23 / Edgars Lapiņš / "Autentisks mārketings kritiski domā...
Čempionu Brokastis #23 / Edgars Lapiņš / "Autentisks mārketings kritiski domā...NORD DDB RIGA
 
Serbia in the (Lo)Clouds
Serbia in the (Lo)CloudsSerbia in the (Lo)Clouds
Serbia in the (Lo)Cloudslocloud
 
Kā radīt pašpietiekamu ziņu - reklāmu, ko cilvēki paši padarīs populāru?
Kā radīt pašpietiekamu ziņu - reklāmu, ko cilvēki paši padarīs populāru?Kā radīt pašpietiekamu ziņu - reklāmu, ko cilvēki paši padarīs populāru?
Kā radīt pašpietiekamu ziņu - reklāmu, ko cilvēki paši padarīs populāru?NORD DDB RIGA
 
Középiskolai könyvtárhasználati óra
Középiskolai könyvtárhasználati óraKözépiskolai könyvtárhasználati óra
Középiskolai könyvtárhasználati óraSZEkonyvtar
 
Transform customer experience through PHYGITAL
Transform customer experience through PHYGITALTransform customer experience through PHYGITAL
Transform customer experience through PHYGITALJaslynn joan
 
Rakstveida saziņa. Vēstule
Rakstveida saziņa. VēstuleRakstveida saziņa. Vēstule
Rakstveida saziņa. VēstuleUzdevumi.lv
 
The Future of Historic Sounds – a prelude
The Future of Historic Sounds – a preludeThe Future of Historic Sounds – a prelude
The Future of Historic Sounds – a preludeEuropeana_Sounds
 
A Wikipédia; Hivatkozás elektronikus dokumentumokra
A Wikipédia; Hivatkozás elektronikus dokumentumokraA Wikipédia; Hivatkozás elektronikus dokumentumokra
A Wikipédia; Hivatkozás elektronikus dokumentumokratudaskozpont
 
Könyvtári rendszer
Könyvtári rendszer Könyvtári rendszer
Könyvtári rendszer tudaskozpont
 
Contoh rpp-kimia-kls-x-pertemuan 2-kurklm-2013
Contoh rpp-kimia-kls-x-pertemuan 2-kurklm-2013Contoh rpp-kimia-kls-x-pertemuan 2-kurklm-2013
Contoh rpp-kimia-kls-x-pertemuan 2-kurklm-2013rina fitri
 
Lean metode u skladištu
Lean metode u skladištuLean metode u skladištu
Lean metode u skladištuLogiko d.o.o.
 

Viewers also liked (16)

BalticMiles We Love to Give You More
BalticMiles We Love to Give You More BalticMiles We Love to Give You More
BalticMiles We Love to Give You More
 
Čempionu Brokastis #23 / Edgars Lapiņš / "Autentisks mārketings kritiski domā...
Čempionu Brokastis #23 / Edgars Lapiņš / "Autentisks mārketings kritiski domā...Čempionu Brokastis #23 / Edgars Lapiņš / "Autentisks mārketings kritiski domā...
Čempionu Brokastis #23 / Edgars Lapiņš / "Autentisks mārketings kritiski domā...
 
Serbia in the (Lo)Clouds
Serbia in the (Lo)CloudsSerbia in the (Lo)Clouds
Serbia in the (Lo)Clouds
 
Kā radīt pašpietiekamu ziņu - reklāmu, ko cilvēki paši padarīs populāru?
Kā radīt pašpietiekamu ziņu - reklāmu, ko cilvēki paši padarīs populāru?Kā radīt pašpietiekamu ziņu - reklāmu, ko cilvēki paši padarīs populāru?
Kā radīt pašpietiekamu ziņu - reklāmu, ko cilvēki paši padarīs populāru?
 
Középiskolai könyvtárhasználati óra
Középiskolai könyvtárhasználati óraKözépiskolai könyvtárhasználati óra
Középiskolai könyvtárhasználati óra
 
Transform customer experience through PHYGITAL
Transform customer experience through PHYGITALTransform customer experience through PHYGITAL
Transform customer experience through PHYGITAL
 
Rakstveida saziņa. Vēstule
Rakstveida saziņa. VēstuleRakstveida saziņa. Vēstule
Rakstveida saziņa. Vēstule
 
The Future of Historic Sounds – a prelude
The Future of Historic Sounds – a preludeThe Future of Historic Sounds – a prelude
The Future of Historic Sounds – a prelude
 
A Wikipédia; Hivatkozás elektronikus dokumentumokra
A Wikipédia; Hivatkozás elektronikus dokumentumokraA Wikipédia; Hivatkozás elektronikus dokumentumokra
A Wikipédia; Hivatkozás elektronikus dokumentumokra
 
Könyvtári rendszer
Könyvtári rendszer Könyvtári rendszer
Könyvtári rendszer
 
Contoh rpp-kimia-kls-x-pertemuan 2-kurklm-2013
Contoh rpp-kimia-kls-x-pertemuan 2-kurklm-2013Contoh rpp-kimia-kls-x-pertemuan 2-kurklm-2013
Contoh rpp-kimia-kls-x-pertemuan 2-kurklm-2013
 
Generation Z
Generation ZGeneration Z
Generation Z
 
Lean metode u skladištu
Lean metode u skladištuLean metode u skladištu
Lean metode u skladištu
 
ppt on FRP bars
ppt on FRP barsppt on FRP bars
ppt on FRP bars
 
TQM
TQMTQM
TQM
 
TQM
TQMTQM
TQM
 

Similar to A jók és a rosszak - metaadatok minőségellenőrzése

Adatbanyaszati technologiak
Adatbanyaszati technologiakAdatbanyaszati technologiak
Adatbanyaszati technologiakitp
 
Juhász Levente: Tanulási analitika és edukációs adatbányászat
Juhász Levente: Tanulási analitika és edukációs adatbányászatJuhász Levente: Tanulási analitika és edukációs adatbányászat
Juhász Levente: Tanulási analitika és edukációs adatbányászattudostanar
 
Racsko Réka Összehasonlító vizsgálatok a digitális átállás módszertani megala...
Racsko Réka Összehasonlító vizsgálatok a digitális átállás módszertani megala...Racsko Réka Összehasonlító vizsgálatok a digitális átállás módszertani megala...
Racsko Réka Összehasonlító vizsgálatok a digitális átállás módszertani megala...Reka Racsko
 
Dr. Kollár Csaba: Az informatika(i biztonság) mutatószámai
Dr. Kollár Csaba: Az informatika(i biztonság) mutatószámai Dr. Kollár Csaba: Az informatika(i biztonság) mutatószámai
Dr. Kollár Csaba: Az informatika(i biztonság) mutatószámai Csaba KOLLAR (Dr. PhD.)
 
Context aware factorization methods for implicit feedback based recommendatio...
Context aware factorization methods for implicit feedback based recommendatio...Context aware factorization methods for implicit feedback based recommendatio...
Context aware factorization methods for implicit feedback based recommendatio...Balázs Hidasi
 
Hálózati tanulás
Hálózati tanulásHálózati tanulás
Hálózati tanulásZoltán Kern
 
Jánosi István előadása - BNI 301
Jánosi István előadása - BNI 301Jánosi István előadása - BNI 301
Jánosi István előadása - BNI 301BNI301
 
Jánosi István előadása - BNI 301
Jánosi István előadása - BNI 301Jánosi István előadása - BNI 301
Jánosi István előadása - BNI 301BNI301
 

Similar to A jók és a rosszak - metaadatok minőségellenőrzése (9)

Adatbányászat
AdatbányászatAdatbányászat
Adatbányászat
 
Adatbanyaszati technologiak
Adatbanyaszati technologiakAdatbanyaszati technologiak
Adatbanyaszati technologiak
 
Juhász Levente: Tanulási analitika és edukációs adatbányászat
Juhász Levente: Tanulási analitika és edukációs adatbányászatJuhász Levente: Tanulási analitika és edukációs adatbányászat
Juhász Levente: Tanulási analitika és edukációs adatbányászat
 
Racsko Réka Összehasonlító vizsgálatok a digitális átállás módszertani megala...
Racsko Réka Összehasonlító vizsgálatok a digitális átállás módszertani megala...Racsko Réka Összehasonlító vizsgálatok a digitális átállás módszertani megala...
Racsko Réka Összehasonlító vizsgálatok a digitális átállás módszertani megala...
 
Dr. Kollár Csaba: Az informatika(i biztonság) mutatószámai
Dr. Kollár Csaba: Az informatika(i biztonság) mutatószámai Dr. Kollár Csaba: Az informatika(i biztonság) mutatószámai
Dr. Kollár Csaba: Az informatika(i biztonság) mutatószámai
 
Context aware factorization methods for implicit feedback based recommendatio...
Context aware factorization methods for implicit feedback based recommendatio...Context aware factorization methods for implicit feedback based recommendatio...
Context aware factorization methods for implicit feedback based recommendatio...
 
Hálózati tanulás
Hálózati tanulásHálózati tanulás
Hálózati tanulás
 
Jánosi István előadása - BNI 301
Jánosi István előadása - BNI 301Jánosi István előadása - BNI 301
Jánosi István előadása - BNI 301
 
Jánosi István előadása - BNI 301
Jánosi István előadása - BNI 301Jánosi István előadása - BNI 301
Jánosi István előadása - BNI 301
 

More from Péter Király

Requirements of DARIAH community for a Dataverse repository (SSHOC 2020)
Requirements of DARIAH community for a Dataverse repository (SSHOC 2020)Requirements of DARIAH community for a Dataverse repository (SSHOC 2020)
Requirements of DARIAH community for a Dataverse repository (SSHOC 2020)Péter Király
 
Validating 126 million MARC records (DATeCH 2019)
Validating 126 million MARC records (DATeCH 2019)Validating 126 million MARC records (DATeCH 2019)
Validating 126 million MARC records (DATeCH 2019)Péter Király
 
Measuring Metadata Quality (doctoral defense 2019)
Measuring Metadata Quality (doctoral defense 2019)Measuring Metadata Quality (doctoral defense 2019)
Measuring Metadata Quality (doctoral defense 2019)Péter Király
 
Empirical evaluation of library catalogues (SWIB 2019)
Empirical evaluation of library catalogues (SWIB 2019)Empirical evaluation of library catalogues (SWIB 2019)
Empirical evaluation of library catalogues (SWIB 2019)Péter Király
 
GRO.data - Dataverse in Göttingen (Dataverse Europe 2020)
GRO.data - Dataverse in Göttingen (Dataverse Europe 2020)GRO.data - Dataverse in Göttingen (Dataverse Europe 2020)
GRO.data - Dataverse in Göttingen (Dataverse Europe 2020)Péter Király
 
Data element constraints for DDB (DDB 2021)
Data element constraints for DDB (DDB 2021)Data element constraints for DDB (DDB 2021)
Data element constraints for DDB (DDB 2021)Péter Király
 
Incubating Göttingen Cultural Analytics Alliance (SUB 2021)
Incubating Göttingen Cultural Analytics Alliance (SUB 2021)Incubating Göttingen Cultural Analytics Alliance (SUB 2021)
Incubating Göttingen Cultural Analytics Alliance (SUB 2021)Péter Király
 
Continuous quality assessment for MARC21 catalogues (MINI ELAG 2021)
Continuous quality assessment for MARC21 catalogues (MINI ELAG 2021)Continuous quality assessment for MARC21 catalogues (MINI ELAG 2021)
Continuous quality assessment for MARC21 catalogues (MINI ELAG 2021)Péter Király
 
Introduction to data quality management (BVB KVB FDM-KompetenzPool, 2021)
Introduction to data quality management (BVB KVB FDM-KompetenzPool, 2021)Introduction to data quality management (BVB KVB FDM-KompetenzPool, 2021)
Introduction to data quality management (BVB KVB FDM-KompetenzPool, 2021)Péter Király
 
Magyar irodalom idegen nyelven (BTK ITI 2021)
Magyar irodalom idegen nyelven (BTK ITI 2021)Magyar irodalom idegen nyelven (BTK ITI 2021)
Magyar irodalom idegen nyelven (BTK ITI 2021)Péter Király
 
Validating JSON, XML and CSV data with SHACL-like constraints (DINI-KIM 2022)
Validating JSON, XML and CSV data with SHACL-like constraints (DINI-KIM 2022)Validating JSON, XML and CSV data with SHACL-like constraints (DINI-KIM 2022)
Validating JSON, XML and CSV data with SHACL-like constraints (DINI-KIM 2022)Péter Király
 
FRBR a book history perspective (Bibliodata WG 2022)
FRBR a book history perspective (Bibliodata WG 2022)FRBR a book history perspective (Bibliodata WG 2022)
FRBR a book history perspective (Bibliodata WG 2022)Péter Király
 
GRO.data - Dataverse in Göttingen (Magdeburg Coffee Lecture, 2022)
GRO.data - Dataverse in Göttingen (Magdeburg Coffee Lecture, 2022)GRO.data - Dataverse in Göttingen (Magdeburg Coffee Lecture, 2022)
GRO.data - Dataverse in Göttingen (Magdeburg Coffee Lecture, 2022)Péter Király
 
Understanding, extracting and enhancing catalogue data (CE Book history works...
Understanding, extracting and enhancing catalogue data (CE Book history works...Understanding, extracting and enhancing catalogue data (CE Book history works...
Understanding, extracting and enhancing catalogue data (CE Book history works...Péter Király
 
Measuring cultural heritage metadata quality (Semantics 2017)
Measuring cultural heritage metadata quality (Semantics 2017)Measuring cultural heritage metadata quality (Semantics 2017)
Measuring cultural heritage metadata quality (Semantics 2017)Péter Király
 
Measuring Metadata Quality in Europeana (ADOCHS 2017)
Measuring Metadata Quality in Europeana (ADOCHS 2017)Measuring Metadata Quality in Europeana (ADOCHS 2017)
Measuring Metadata Quality in Europeana (ADOCHS 2017)Péter Király
 
Measuring library catalogs (ADOCHS 2017)
Measuring library catalogs (ADOCHS 2017)Measuring library catalogs (ADOCHS 2017)
Measuring library catalogs (ADOCHS 2017)Péter Király
 
Evaluating Data Quality in Europeana: Metrics for Multilinguality (MTSR 2018)
Evaluating Data Quality in Europeana: Metrics for Multilinguality (MTSR 2018)Evaluating Data Quality in Europeana: Metrics for Multilinguality (MTSR 2018)
Evaluating Data Quality in Europeana: Metrics for Multilinguality (MTSR 2018)Péter Király
 
Researching metadata quality (ORKG 2018)
Researching metadata quality (ORKG 2018)Researching metadata quality (ORKG 2018)
Researching metadata quality (ORKG 2018)Péter Király
 
Metadata quality in cultural heritage institutions (ReIRes-FAIR 2018)
Metadata quality in cultural heritage institutions (ReIRes-FAIR 2018)Metadata quality in cultural heritage institutions (ReIRes-FAIR 2018)
Metadata quality in cultural heritage institutions (ReIRes-FAIR 2018)Péter Király
 

More from Péter Király (20)

Requirements of DARIAH community for a Dataverse repository (SSHOC 2020)
Requirements of DARIAH community for a Dataverse repository (SSHOC 2020)Requirements of DARIAH community for a Dataverse repository (SSHOC 2020)
Requirements of DARIAH community for a Dataverse repository (SSHOC 2020)
 
Validating 126 million MARC records (DATeCH 2019)
Validating 126 million MARC records (DATeCH 2019)Validating 126 million MARC records (DATeCH 2019)
Validating 126 million MARC records (DATeCH 2019)
 
Measuring Metadata Quality (doctoral defense 2019)
Measuring Metadata Quality (doctoral defense 2019)Measuring Metadata Quality (doctoral defense 2019)
Measuring Metadata Quality (doctoral defense 2019)
 
Empirical evaluation of library catalogues (SWIB 2019)
Empirical evaluation of library catalogues (SWIB 2019)Empirical evaluation of library catalogues (SWIB 2019)
Empirical evaluation of library catalogues (SWIB 2019)
 
GRO.data - Dataverse in Göttingen (Dataverse Europe 2020)
GRO.data - Dataverse in Göttingen (Dataverse Europe 2020)GRO.data - Dataverse in Göttingen (Dataverse Europe 2020)
GRO.data - Dataverse in Göttingen (Dataverse Europe 2020)
 
Data element constraints for DDB (DDB 2021)
Data element constraints for DDB (DDB 2021)Data element constraints for DDB (DDB 2021)
Data element constraints for DDB (DDB 2021)
 
Incubating Göttingen Cultural Analytics Alliance (SUB 2021)
Incubating Göttingen Cultural Analytics Alliance (SUB 2021)Incubating Göttingen Cultural Analytics Alliance (SUB 2021)
Incubating Göttingen Cultural Analytics Alliance (SUB 2021)
 
Continuous quality assessment for MARC21 catalogues (MINI ELAG 2021)
Continuous quality assessment for MARC21 catalogues (MINI ELAG 2021)Continuous quality assessment for MARC21 catalogues (MINI ELAG 2021)
Continuous quality assessment for MARC21 catalogues (MINI ELAG 2021)
 
Introduction to data quality management (BVB KVB FDM-KompetenzPool, 2021)
Introduction to data quality management (BVB KVB FDM-KompetenzPool, 2021)Introduction to data quality management (BVB KVB FDM-KompetenzPool, 2021)
Introduction to data quality management (BVB KVB FDM-KompetenzPool, 2021)
 
Magyar irodalom idegen nyelven (BTK ITI 2021)
Magyar irodalom idegen nyelven (BTK ITI 2021)Magyar irodalom idegen nyelven (BTK ITI 2021)
Magyar irodalom idegen nyelven (BTK ITI 2021)
 
Validating JSON, XML and CSV data with SHACL-like constraints (DINI-KIM 2022)
Validating JSON, XML and CSV data with SHACL-like constraints (DINI-KIM 2022)Validating JSON, XML and CSV data with SHACL-like constraints (DINI-KIM 2022)
Validating JSON, XML and CSV data with SHACL-like constraints (DINI-KIM 2022)
 
FRBR a book history perspective (Bibliodata WG 2022)
FRBR a book history perspective (Bibliodata WG 2022)FRBR a book history perspective (Bibliodata WG 2022)
FRBR a book history perspective (Bibliodata WG 2022)
 
GRO.data - Dataverse in Göttingen (Magdeburg Coffee Lecture, 2022)
GRO.data - Dataverse in Göttingen (Magdeburg Coffee Lecture, 2022)GRO.data - Dataverse in Göttingen (Magdeburg Coffee Lecture, 2022)
GRO.data - Dataverse in Göttingen (Magdeburg Coffee Lecture, 2022)
 
Understanding, extracting and enhancing catalogue data (CE Book history works...
Understanding, extracting and enhancing catalogue data (CE Book history works...Understanding, extracting and enhancing catalogue data (CE Book history works...
Understanding, extracting and enhancing catalogue data (CE Book history works...
 
Measuring cultural heritage metadata quality (Semantics 2017)
Measuring cultural heritage metadata quality (Semantics 2017)Measuring cultural heritage metadata quality (Semantics 2017)
Measuring cultural heritage metadata quality (Semantics 2017)
 
Measuring Metadata Quality in Europeana (ADOCHS 2017)
Measuring Metadata Quality in Europeana (ADOCHS 2017)Measuring Metadata Quality in Europeana (ADOCHS 2017)
Measuring Metadata Quality in Europeana (ADOCHS 2017)
 
Measuring library catalogs (ADOCHS 2017)
Measuring library catalogs (ADOCHS 2017)Measuring library catalogs (ADOCHS 2017)
Measuring library catalogs (ADOCHS 2017)
 
Evaluating Data Quality in Europeana: Metrics for Multilinguality (MTSR 2018)
Evaluating Data Quality in Europeana: Metrics for Multilinguality (MTSR 2018)Evaluating Data Quality in Europeana: Metrics for Multilinguality (MTSR 2018)
Evaluating Data Quality in Europeana: Metrics for Multilinguality (MTSR 2018)
 
Researching metadata quality (ORKG 2018)
Researching metadata quality (ORKG 2018)Researching metadata quality (ORKG 2018)
Researching metadata quality (ORKG 2018)
 
Metadata quality in cultural heritage institutions (ReIRes-FAIR 2018)
Metadata quality in cultural heritage institutions (ReIRes-FAIR 2018)Metadata quality in cultural heritage institutions (ReIRes-FAIR 2018)
Metadata quality in cultural heritage institutions (ReIRes-FAIR 2018)
 

A jók és a rosszak - metaadatok minőségellenőrzése

  • 1. A jók és a rosszak – Metaadatok minőségellenőrzése Király Péter peter.kiraly@gwdg.de Networkshop 2016 Debrecen, 2016. III. 31. Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen http://gwdg.de
  • 2. Metadata Quality Assurance Framework 2 Mi a metaadat?  Adatról szóló adat („Strukturált információ ami leir, feltár, elhelyez v. máshogy reprezentál egy információforrást” – NISO, 2004)  A kutatási kontextusban:  Digitalizált vagy valós tárgyról  Nagyobb adathalmazokról ... szóló leiró adatok  Hozzáférési pontokat biztosit az elsődleges adatokhoz
  • 3. Metadata Quality Assurance Framework 3 Miért fontos az adatok minősége? „Fitness for purpose” – megfelelni a célnak nincs metaadat nincs hozzéférés nincs adat- használat bővebben: Data on the Web Best Practices W3C Working Draft 12 January 2016 https://www.w3.org/TR/dwbp/
  • 4. Metadata Quality Assurance Framework 4 Rossz minőségű metaadatok szimptómái  Nehéz azonositani („Miről is van szó?”)  Nehéz megkülönböztetni más rekordoktól  Félrevezető leirások  Értelmezhetetlen leirások  Hiányzó adatelemek  Újrahasznosithatatlan (az eredeti kontextus elveszett)  Nehéz megtalálni
  • 5. Metadata Quality Assurance Framework 5 Tipikus problémák  Nem informativ cim
  • 6. Metadata Quality Assurance Framework 6 Adattipusok keveredése  Szám  RDF erőforrás
  • 7. Metadata Quality Assurance Framework 7 Többértelműség  Mi a mező jelentése?  identifier  relation  source TextGrid OAI-PMH response
  • 8. Metadata Quality Assurance Framework 8 Copy & paste katalogizálás  Kitöltetlen sablonok
  • 9. Metadata Quality Assurance Framework 9 Ugyanaz az entitás különféle módon rögzitve  lucas cranach der ältere  Cranach, Lucas (der Ältere) [Herstellung]  Cranach, Lucas (I) (naar tekening van)  Cranach, Lucas vanem (autor) Az entitásümeghatározás eredménye:  http://dbpedia.org/resource/Lucas_Cranach_t he_Elder  http://viaf.org/viaf/49268177/  semmi
  • 10. Metadata Quality Assurance Framework 10 Ugyanaz az entitás különféle módon rögzitve Különböző megjelenités és tartalom:  http://dbpedia.org/resource/Lucas_Cranach_t he_Elder  http://viaf.org/viaf/49268177/  semmi
  • 11. Metadata Quality Assurance Framework 11 Mit mérjünk? mező1 mező2 mező3 mező4 doc1 doc2 doc3 doc3 A rekord általános értéke
  • 12. Metadata Quality Assurance Framework 12 Mit mérjünk? mező1 mező2 mező3 mező4 doc1 doc2 doc3 doc3 A rekordhalmaz (pl. ugyanabból a forrásból származó gyüjteményrész) általános értéke
  • 13. Metadata Quality Assurance Framework 13 Mit mérjünk? mező1 mező2 mező3 mező4 doc1 doc2 doc3 doc3 Mező általános jellemzése – a mezőhasználat mérése
  • 14. Metadata Quality Assurance Framework 14 Mit mérjünk? mező1 mező2 mező3 mező4 doc1 doc2 doc3 doc3 Mezőcsoport. Mezők csoportja közösen járul hozzá egy adott funkció megvalósitásához pl. megjelenités, keresés, azonositása, újrahasznositás, többnyelvűség.
  • 15. Metadata Quality Assurance Framework 15 Mezőcsoportok az Europeanaban Mandatory Descriptiveness Searchability Contextualisation Identification Browsing Viewing Re-Usability Multilinguality dc:title × × × × × dcterms:alternative × × × × dc:description × × × × × × dc:creator × × × × dc:publisher × × dc:contributor × Készitette: Valentine Charles, Europeana, Research and Development
  • 16. Metadata Quality Assurance Framework 16 Metrikák Alapmetrikák a szakirodalomban (Bruce– Hillmann, Stvilia, Ochoa–Duval, Gavrilis et al.)  Teljesség (Completeness)  Pontosság (Accuracy)  Az elvárásoknak való megfelelés  Logikai konzisztencia és koherencia  Hozzáférhetőség  Időbeli változás  Proveniencia
  • 17. Metadata Quality Assurance Framework 17 Adatforrások  Europeana – 50M medaatat rekord EDM (Europeana Data Model) sémában  TextGrid repozitórium: Dublin Core + TEI  Kutatási adatok a göttingeni campuson  Könyvtári katalógus rekordok MARC / PICA+  Egyéb nyilt adatok (pl. Wikidata)
  • 18. Metadata Quality Assurance Framework 18 Módszer: adatgyüjtés – mérés – megosztás  Adatgyűjtés (ingestion): REST API, OAI-OMH, file letöltés stb.  Problémák:  Az Europeana mérete: 400+ GB  Alacsony I/O teljesitmény  Europeana OAI-PMH „beta” szintű szolg.  OAI-PMH: 10M+ HTTP kérés  REST API: 50M+ HTTP kérés
  • 19. Metadata Quality Assurance Framework 19 Módszer: adatgyüjtés – mérés – megosztás Rekordok mérése  Big data – skálázhatónak kell lennie  Apache Hadoop és Spark: MapReduce, Pig Latin, HDFS és kapcsolódó techhnológiák  Core + séma-specifikus pluginok  UI: a metrikák paramétereinek beállitása  input: rekordok, séma, mérési algoritmusok  output:  azonositó, egyéb metaadat mezők  mérés1, mérés2, mérés3 ... mérésN
  • 20. Metadata Quality Assurance Framework 20 Módszer: adatgyüjtés – mérés – megosztás Output: 1,846,00101/E57D0044D5A95B061B67D9820 F6D9C2FC2A789F2,0.514286,1.0,0.636364,0. 555556,0.363636,0.7,0.285714,0.25,0.454545, 0.8,1,1,0,1,1,1,1,1,1,1,0,0,0,1,0,0,1,1,0,0,0,0,1, 0,0,0,0,1,1,1,1,1,0,0,0 1,846,00101/8AEFBB9EFC6BA523167A6D80A 4BB08FB3E582088,0.542857,1.0,0.727273,0.6 11111,0.363636,0.8,0.285714,0.25,0.454545,1. 0,1,1,1,1,1,1,1,1,1,1,0,0,0,1,0,0,1,1,0,0,0,0,1,0, 0,0,0,1,1,1,1,1,0,0,0
  • 21. Metadata Quality Assurance Framework 21 Módszer: adatgyűjtés – mérés – megosztás Statisztikai elemzés  A leiró statisztikák kiszámolása  A rekordhalmazokra vonatkozó jellemzőszámok kiszámolása  Statisztikai vizualizáció Eszközök: R, Spark, D3.js
  • 22. Metadata Quality Assurance Framework 22 Módszer: adatgyűjtés – mérés – megosztás Kontroladatok  Szolgáltatási naplók elemzése (a felhasználó a kattintással minőségi szempontot is jelez)  Szakértői minősités  Visszajelzések a felhasználói felületen
  • 23. Metadata Quality Assurance Framework 23 Módszer: adatgyűjtés – mérés – megosztás
  • 24. Metadata Quality Assurance Framework 24 Módszer: adatgyűjtés – mérés – megosztás
  • 25. Metadata Quality Assurance Framework 25 Módszer: adatgyűjtés – mérés – megosztás
  • 26. Metadata Quality Assurance Framework 26 Módszer: adatgyűjtés – mérés – megosztás
  • 27. Metadata Quality Assurance Framework 27 Módszer: adatgyűjtés – mérés – megosztás
  • 28. Metadata Quality Assurance Framework 28 Módszer: adatgyűjtés – mérés – megosztás Teljesség, 3 gyűjtemény, teljes és kereső nézet A legteljesebb A leghiányosabb hasonló rekordok heterogén rekordok eltérő manifesztációk
  • 29. Metadata Quality Assurance Framework 29 Módszer: adatgyűjtés – mérés – megosztás kimenetek  Interaktiv műszerfal  REST API a nyers statisztikák megosztására Képek: i) European Data Portal Metadata Quality Dashboard ii) Kibana promotional video
  • 30. Metadata Quality Assurance Framework 30 Módszer: adatgyűjtés – mérés – megosztás Data Quality Vocabulary (W3C Working Draft) http://w3c.github.io/dwbp/vocab-dqg.html :myDatasetDistribution dqv:hasQualityMeasure :measure1, :measure2 . :measure1 a dqv:QualityMeasure ; dqv:computedOn :myDatasetDistribution ; dqv:hasMetric :csvAvailabilityMetric ; dqv:value "1.0"^^xsd:double . :measure2 a dqv:QualityMeasure ; dqv:computedOn :myDatasetDistribution ; dqv:hasMetric :csvConsistencyMetric ; dqv:value "0.5"^^xsd:double .
  • 31. Metadata Quality Assurance Framework 31 Mire is lesz ez jó?  A metaadatok javitása  A metaadatséma és a documentáció javitása  A „jó gyakorlatok” propagálása  Szolgáltatásjavitás ösztönzése: a „jó” adat magasabbra kerül a találati listában A GWDG számára:  Beépités az adatkezelési–adatarchiválási portfolióba
  • 32. Metadata Quality Assurance Framework 32 További lépések  Mérési metanyelv (Domain Specific Lang.)  Mintakeresés, gépi tanulás, automatikus osztályozás  Adatforrás-konnektorok  „Jenkins for data publication” Probléma katalógus Adatforrás Adatséma Metaadat QA Jelentés
  • 33. Metadata Quality Assurance Framework 33 Kérem kövessen!  Terv és blog: http://pkiraly.github.io  Demo: http://144.76.218.178/europeana-qa/  Szoftverfejlesztés:  Harvester for Europeana OAI-PMH Service https://github.com/pkiraly/europeana-oai-pmh-client  Apache Spark modul https://github.com/pkiraly/europeana-qa-spark  R modul https://github.com/pkiraly/europeana-qa-r  @kiru, https://www.linkedin.com/in/peterkiraly