Valideringskrav - Clarin.dk
Generelle forhold
- XML-filer, der deponeres skal være med utf-8 encoding
- Ved deponering af ressourcer skal der vælges en af de følgende muligheder. Se mere om ressourcetyper her
Tekstressourcer i TEIP5DKCLARIN-format
- XML-filer skal valideres i forhold til rng-skemaet: https://clarin.dk/schemas/tei/TEIDKCLARIN.rng
- Disse tekstressourcer kan deponeres sammen med annoteringer. Hvis der er annoteringer i TEIP5DKCLARIN-filen deponeres disse som selvstændige ressourcer og der oprettes relationer mellem annotationerne og teksten.
- Antallet af <application>-elementer i headeren og <spanGrp>-elementer i <body> skal være ens
- Hvert <application>-element skal have et xml:id-attribut, som matcher et spanGrp's ana-attribut
Tekstressourcer i TEIP5DKCLARIN-format inkl. tif-filer
- XML-filer skal valideres i forhold til rng-skemaet: https://clarin.dk/schemas/tei/TEIDKCLARIN.rng
- Antallet af <application> i elementer headeren og <spanGrp> elementer skal være ens
- Hvert <application>-element skal have et xml:id-attribut, som matcher et spanGrp's ana-attribut
- Der skal være præcis én xml-fil i deponeringen
- Der skal være mindst én tif-fil i deponeringen
- Referencer til tif-filer angives i <pb>. Billedet dækker den efterfølgende del af teksten indtil næste <pb>-tag
Tekstressourcer i TEIP5-format
- XML-filer skal valideres i forhold til rng-skemaet: https://clarin.dk/schemas/tei/TEIDKCLARIN-plain-tei.rng
- Det anbefales at deponere tekster i TEIP5DKCLARIN-formatet, da det vil give flere muligeheder for at uddnytte infrastrukturens faciliteter.
Tekstannotationsressourcer i TEIP5DKCLARIN_ANNO-format
- XML-filer skal valideres i forhold til rng-skemaet: https://clarin.dk/schemas/tei/TEIDKCLARIN_ANNO.rng
- Antallet af <application>-elementer i headeren og <spanGrp>-elementer i <body> skal være ens
- Hvert <application>-element skal have et xml:id-attribut, som matcher et spanGrp's ana-attribut
- I <body> kan blot angives en <ab/>
Leksikon-ressourcer
- Deponeringen skal indeholde præcis én xml-fil med metadata
- Metadata skal valideres i forhold til rng-skemaet: https://clarin.dk/schemas/tei/TEIDKCLARIN_LEX.rng
- Deponeringen må indeholde en README-fil i .txt-format
- Deponeringen skal indeholde mindst én zip-fil med selve ressourcen
Lyd, Video og Mediaannoteringer
- Deponeringen skal ske som en IMDI-session, beskrevet med en IMDI-fil
- IMDI-filen skal indeholde gyldige urlââ¬â¢er til lyd- og eller video-ressourcer, samt til de øvrige ressourcer der beskrives i IMDI-filen
- IMDI-filen skal kunne valideres i forhold til wp3-validator og IMDI-standarden
- XML-filer, der vedlægges som en IMDI WrittenResource skal være med utf-8 encoding
- En IMDI-fil behøver ikke indeholde video- eller lyd-ressourcer.
Værktøjer
- Deponeringen skal indeholde præcis én xml-fil med metadata
- Metadata skal validere i forhold til rng skemaet: https://clarin.dk/schemas/cmd/DKCLARIN_TOOL.rng
- Deponeringen må indeholde en README-fil i .txt-format.
- Deponeringen kan også ske vha. metadata-formularen (du skal være logget på) og derefter vha. formularen Deposit a tool that is registered already
Dataressourcer
- Som data deponeres de ressourcer, som ikke passer ind i de øvrige typer.
- Deponeringen skal indeholde præcis én xml-fil med metadata
- Metadata skal validere i forhold til rng skemaet: https://clarin.dk/schemas/cmd/DKCLARIN_DATA.rng
- Deponeringen må indeholde en README-fil i .txt-format.
- Deponeringen skal indeholde mindst én zip-fil med selve ressourcen
Relationer
- Relationer mellem ressourcer kan importeres vha. relationslister i en csv-fil. Du kan på nuværende tidspunkt kun tilføje relationer til ressourcer du selv har tilføjet!
- Relationslisten udtrykkes i csv-format: RelationType;CPName;CPId;RelCPName;RelCPId;RelId;
- RelationType angiver typen af relation.
- CPName angiver "ejeren"/organisationName for den der importerede ressourcen.
- CPId angiver den lokale ID som Content Provider benytter for ressourcen. Det er op til den enkelte Content Provider at sikre at de lokale IDââ¬â¢er der benyttes er unikke for den enkelte Content Provider.
- RelCPName angiver Content Provider for den ressource der skal peges på.
- RelCPId angives hvilken ressource der skal "peges på" i relationen.
- RelId kan angive en id for relationen. RelId kan udelades, men øvrige felter skal indeholde data.
- I de situationer hvor man angiver repositorie-ID'er i csv-filen så angives CPName og RelCPName som 'DKCLARIN'