Clarin.dk

Dette website bruger cookies

Valideringskrav - Clarin.dk

Generelle forhold

  • XML-filer, der deponeres skal være med utf-8 encoding
  • Ved deponering af ressourcer skal der vælges en af de følgende muligheder. Se mere om ressourcetyper her

Tekstressourcer i TEIP5DKCLARIN-format

  • XML-filer skal valideres i forhold til rng-skemaet: https://clarin.dk/schemas/tei/TEIDKCLARIN.rng
  • Disse tekstressourcer kan deponeres sammen med annoteringer. Hvis der er annoteringer i TEIP5DKCLARIN-filen deponeres disse som selvstændige ressourcer og der oprettes relationer mellem annotationerne og teksten.
  • Antallet af <application>-elementer i headeren og <spanGrp>-elementer i <body> skal være ens
  • Hvert <application>-element skal have et xml:id-attribut, som matcher et spanGrp's ana-attribut

Tekstressourcer i TEIP5DKCLARIN-format inkl. tif-filer

  • XML-filer skal valideres i forhold til rng-skemaet: https://clarin.dk/schemas/tei/TEIDKCLARIN.rng
  • Antallet af <application> i elementer headeren og <spanGrp> elementer skal være ens
  • Hvert <application>-element skal have et xml:id-attribut, som matcher et spanGrp's ana-attribut
  • Der skal være præcis én xml-fil i deponeringen
  • Der skal være mindst én tif-fil i deponeringen
  • Referencer til tif-filer angives i <pb>. Billedet dækker den efterfølgende del af teksten indtil næste <pb>-tag

Tekstressourcer i TEIP5-format

Tekstannotationsressourcer i TEIP5DKCLARIN_ANNO-format

  • XML-filer skal valideres i forhold til rng-skemaet: https://clarin.dk/schemas/tei/TEIDKCLARIN_ANNO.rng
  • Antallet af <application>-elementer i headeren og <spanGrp>-elementer i <body> skal være ens
  • Hvert <application>-element skal have et xml:id-attribut, som matcher et spanGrp's ana-attribut
  • I <body> kan blot angives en <ab/>

Leksikon-ressourcer

  • Deponeringen skal indeholde præcis én xml-fil med metadata
  • Metadata skal valideres i forhold til rng-skemaet: https://clarin.dk/schemas/tei/TEIDKCLARIN_LEX.rng
  • Deponeringen må indeholde en README-fil i .txt-format
  • Deponeringen skal indeholde mindst én zip-fil med selve ressourcen

Lyd, Video og Mediaannoteringer

  • Deponeringen skal ske som en IMDI-session, beskrevet med en IMDI-fil
  • IMDI-filen skal indeholde gyldige url’er til lyd- og eller video-ressourcer, samt til de øvrige ressourcer der beskrives i IMDI-filen
  • IMDI-filen skal kunne valideres i forhold til wp3-validator og IMDI-standarden
  • XML-filer, der vedlægges som en IMDI WrittenResource skal være med utf-8 encoding
  • En IMDI-fil behøver ikke indeholde video- eller lyd-ressourcer.

Værktøjer

Dataressourcer

  • Som data deponeres de ressourcer, som ikke passer ind i de øvrige typer.
  • Deponeringen skal indeholde præcis én xml-fil med metadata
  • Metadata skal validere i forhold til rng skemaet: https://clarin.dk/schemas/cmd/DKCLARIN_DATA.rng
  • Deponeringen må indeholde en README-fil i .txt-format.
  • Deponeringen skal indeholde mindst én zip-fil med selve ressourcen

Relationer

  • Relationer mellem ressourcer kan importeres vha. relationslister i en csv-fil. Du kan på nuværende tidspunkt kun tilføje relationer til ressourcer du selv har tilføjet!
  • Relationslisten udtrykkes i csv-format: RelationType;CPName;CPId;RelCPName;RelCPId;RelId;
  • RelationType angiver typen af relation.
  • CPName angiver "ejeren"/organisationName for den der importerede ressourcen.
  • CPId angiver den lokale ID som Content Provider benytter for ressourcen. Det er op til den enkelte Content Provider at sikre at de lokale ID’er der benyttes er unikke for den enkelte Content Provider.
  • RelCPName angiver Content Provider for den ressource der skal peges på.
  • RelCPId angives hvilken ressource der skal "peges på" i relationen.
  • RelId kan angive en id for relationen. RelId kan udelades, men øvrige felter skal indeholde data.
  • I de situationer hvor man angiver repositorie-ID'er i csv-filen så angives CPName og RelCPName som 'DKCLARIN'