Digitalisering

Inhoudsopgave

Omvang materiaal / aantallen

Meters boekenplanken in het magzijn van de KB.

Meters boekenplanken in het magzijn van de KB.

Gedurende de loop van het project Staten-Generaal Digitaal 1814-1995 zal de papieren neerslag van 181 jaar vergaderen, debatteren en besluiten digitaal op deze website beschikbaar zijn. Bij elkaar gaat het dan om ca. 2,5 miljoen pagina's, verzameld in ca. 2200 boekbanden, die samen een ruimte innemen van 150 strekkende meter. Dat alles staat straks in ca. 1.250.000 microfilmopnames op ca. 2000 microfilms. Maar ook digitale bestanden nemen ruimte in: voor de opslag zal ca. 30 TeraByte schijfruimte nodig zijn.

Digitalisering

Aanpak

Het digitaliseringstraject wordt extern uitgevoerd door MicroFormat te Lisse. Na enige tests met betrekking tot de kwaliteit van de tekenherkenning, is door de Koninklijke Bibliotheek de keuze gemaakt om te scannen vanaf 35mm microfilms. Deze zijn uit conserveringsoogpunt eveneens in dit project geproduceerd. Bij het digitaliseren wordt gebruik gemaakt van een Zeutschel scanner (type OM 1200). De tekenherkenning is uitgevoerd met behulp van de software van ABBYY (FineReader, versie 6).

Doorlooptijd en fasering

Het project is opgedeeld in 4 fasen. In fase 1, uitgevoerd in 2006, zijn de meest recente vergaderjaren uit het project gedigitaliseerd en ontsloten, 1989/1990 – 1994/1995. Dit deel van het project is volgens planning uitgevoerd.

Fase 2 betreft de Handelingen uit twee verschillende periodes. In eerste instantie zijn de vergaderjaren 1950/1951 tot en met 1929/1930 gedigitaliseerd om vervolgens de vergaderjaren 1988/1989 tot en met 1976/1977 te verwerken.

Fase 3 bestaat uit het digitaliseren van de overige vergaderjaren uit de periode 1925/1926 tot 1976/1977. Afsluitend zal in de vierde fase het oudste materiaal worden gedigitaliseerd (1814/1815 – 1924/1925).

Kwaliteit

Digitale bestanden worden nauwgezet gecontroleerd.

Digitale bestanden worden nauwgezet gecontroleerd.

De waarborging van de kwaliteit van het Handelingenmateriaal wordt door de Koninklijke Bibliotheek als belangrijk beschouwd. In de aanloop van het project is dan ook veel aandacht besteed aan het formuleren en documenteren van verschillende kwaliteitseisen aangaande het diverse beeld- en tekstmateriaal. Tijdens nauwgezette controles, welke na aanlevering van het materiaal plaatsvinden, wordt bepaald of dit materiaal voldoet aan de gestelde kwaliteitseisen. De eisen zijn een neerslag van de ruime ervaring die de Koninklijke Bibliotheek het laatste decennium heeft opgedaan met verschillende digitaliseringsprojecten, (zoals het Geheugen van Nederland), waarbij standaarden op het gebied van digitalisering zijn onderzocht en vastgesteld. De masterimages (TIFF formaat) hebben hierbij een sleutelrol aangezien deze voor een langere periode in het eDepot zullen worden opgeslagen. De verschillende afgeleiden bestanden (in diverse formaten zoals JPEG, XML en PDF) zullen worden gebruikt op de website. Speciaal voor de controledoeleinden heeft de Koninklijke Bibliotheek een controle applicatie laten ontwikkelen door Oracle.

Resultaat

In totaal zal het project bijna 12 miljoen bestanden omvatten, van divers formaat. Er zullen in 2010 ongeveer 2,4 miljoen pagina’s ontsloten zijn, alle Handelingen tussen 1814 en 1995. In 2007 is de periode 1990-1995 (fase 1) online gebracht met bijna 330.000 pagina’s. Vanaf dan is de omvang toegenomen tot uiteindelijk de geplande 2,4 miljoen pagina’s in 2010 online zullen staan. Er is dan een unieke historische bron in Nederland ontsloten voor divers onderzoek naar aspecten van onze parlementaire democratie.

Ontsluiting

Doorzoekbaarheid

Zoeken

Alle documenten zijn full-text doorzoekbaar door het opgeven van zoektermen. Daarnaast is er een (beperkte) hoeveelheid metagegevens waarmee eveneens documenten gezocht kunnen worden. Er kan ook in combinatie op metagegevens en full-text gezocht worden.

Documenten en pagina's

Het oorspronkelijke materiaal is in afzonderlijke documenten beschikbaar in PDF-formaat. Iedere vergadering is in een afzonderlijk document opgenomen (kamerverslagen of Handelingen genoemd). Bij de Kamerstukken is ieder stuk in een afzonderlijk document opgenomen (dat wil zeggen ieder stuk met een eigen hoofdnummer en ondernummer). Ten slotte is iedere Kamervraag (Aanhangsel) in een afzonderlijk document opgenomen.

Alle pagina's uit de documenten zijn tevens afzonderlijk beschikbaar in de vorm van JPEG-bestanden en tekstbestanden.  

Het komt bij Kamerstukken regelmatig voor dat in de oorspronkelijke tekst meerdere kamerstuknummers en/of ondernummers staan. Het betreft dan één tekst die onder meerdere nummers bekend is. In Staten-Generaal Digitaal wordt ieder nummer als afzonderlijk document beschouwd. Dat wil zeggen dat voor ieder van deze documenten afzonderlijke metagegevens zijn opgenomen en dat ze afzonderlijk op de website zijn terug te vinden.

Tekstontsluiting

Er wordt naar gestreefd de doorzoekbaarheid van de documenten zo goed mogelijk te maken. Door de omvang van het materiaal zullen veel zoekvragen naar verwachting tot grote hoeveelheden zoekresultaten leiden. Dit maakt het voor website-bezoekers lastiger te vinden wat ze zoeken. Daarnaast speelt bij oudere documenten een rol dat de vroegere spelling afwijkt van de moderne.

Daarom wordt onderzocht hoe de teksten verder kunnen worden ontsloten. De resultaten hiervan zullen in de volgende versie van de website worden toegepast. Momenteel wordt onderzocht welke technieken bruikbaar zijn:

  • Het gebruik van synoniemenlijsten
  • Het gebruik van een thesaurus. Daarbij wordt geëxperimenteerd met automatische-classificatiesoftware, die geautomatiseerd bepaalt welke begrippen uit de thesaurus van toepassing zijn op een tekst.
  • Verrijking van oudere teksten met moderne spellingsvarianten, zodat gebruikers in moderne spelling kunnen zoeken en ook oudere teksten kunnen vinden.
  • Named entity recognition, waarmee bijvoorbeeld sprekers in de tekst (geautomatiseerd) te herkend kunnen worden. Dit maakt het mogelijk om een bepaalde spreker in de documenten te zoeken.
  • (Geautomatiseerd) maken van samenvattingen van de documenten. Daarmee kan de gebruiker sneller inschatten of een document interessant is.

Paginanummering

Bij een deel van de documenten zijn de paginanummers uit het oorspronkelijke document als metagegevens opgenomen. Dit is gedaan voor alle documenten waar registers voor gepubliceerd zijn. Daardoor is het onder meer mogelijk om te zoeken op paginanummers waar de registers naar verwijzen.

Het komt een enkele keer voor dat de tekst in de oorspronkelijke documenten doorloopt over twee pagina's. Dit betreft vooral tabellen die over twee pagina's zijn gedrukt. In Staten-Generaal Digitaal zijn deze pagina's als één pagina gedigitaliseerd, om de leesbaarheid te vergroten.

Registers

In de toekomst zullen op de website ook registers beschikbaar komen. In de periode 1814-1979 zijn er registers op de Handelingen der Staten-Generaal verschenen. Het betreft onder meer registers op personen, registers op namen en lijsten van verzoekschriften. Deze registers zullen om te beginnen op dezelfde manier worden gedigitaliseerd als de overige documenten. Dat betekent dat de registers te raadplegen zijn zoals ze zijn uitgegeven, per vergaderperiode. Uiteindelijk zal er op de website een geïntegreerd register worden aangeboden, waarin alle registers uit de periode 1814-1995 opgenomen zijn. Via hyperlinks kunnen vanuit deze registers direct de documenten worden opgevraagd waar het register naar verwijst.

Drempelvrij

Bij het ontwikkelen van deze website is geprobeerd om hem zoveel mogelijk drempelvrij te maken. Door de aard van het materiaal is het niet mogelijk om de hele website drempelvrij te maken.

  • De pagina's worden in de vorm van jpeg-bestanden gepresenteerd, met "achter" ieder image de tekst van de pagina. Dit is conform de richtlijnen voor drempelvrije websites. Daarnaast is iedere pagina afzonderlijk in tekstvorm op te vragen.
  • Iedere pagina is, zoals gezegd, in tekstvorm beschikbaar. Dit is tekst zonder opmaak. Dat betekent dat tabellen niet netjes in tabelvorm worden gepresenteerd en moeilijk te lezen zullen zijn.
  • Een enkele keer komen er stukken niet-Nederlandse tekst voor. Deze taalovergangen worden niet in de tekst aangegeven.
  • Na een zoekactie worden pagina's in de vorm van jpeg-bestanden gepresenteerd. Daarin worden de gezochte woorden met kleuren gemarkeerd. Deze markering wordt niet op een andere manier weergegeven.

Technische informatie

Persistente URL's

De bestanden die op de website getoond worden, zijn via persistente URL's op te vragen. Dat wil zeggen dat een bestand altijd met dezelfde url kan worden opgevraagd, ook als de fysieke opslagplaats ervan wijzigt. Om deze persistente URL’s mogelijk te maken, wordt gebruik gemaakt van een resolver, die een opgevraagde URL vertaalt naar de fysieke bestandslocatie en het opgevraagde bestand teruglevert.

Zoekmachine

De documenten zijn geïndexeerd om de resultaten doorzoekbaar te maken. Er zijn twee indexen: één voor de metagegevens en één voor de full-text. De index voor metagegevens is aangevuld met een parametrische index, die wordt gebruikt voor het uitgebreid zoeken op de website. De indexen zijn case-insensitive en accent-insensitive.

Highlighting

Op deze website worden de gevonden zoektermen gehighlight (voorzien van een kleurmarkering). Voor deze functionaliteit, die door de KB zelf is ontwikkeld, wordt gebruik gemaakt van woordcoördinaten. Tijdens het OCR-proces is van ieder woord opgenomen op welke plaats het woord op de pagina staat (d.w.z. de plaats van de "rechthoek" van het woord in het afbeeldingsbestand). Met behulp van deze woordcoördinaten wordt een nieuw gehighlight afbeeldingsbestand gecreëerd met de kleurmarkeringen. Het gehighlighte bestand wordt aan de gebruiker getoond. Het bestand wordt enige tijd in een cache bewaard, zodat het opnieuw kan worden gebruikt als binnen korte tijd dezelfde pagina opnieuw wordt opgevraagd.

Duurzame opslag

De masterbestanden van Staten-Generaal Digitaal worden duurzaam opgeslagen. Dat wil zeggen dat ze zodanig worden bewaard dat ze op lange termijn kunnen worden hergebruikt, ook als in de toekomst computertechniek en bestandsformaten veranderen. De Koninklijke Bibliotheek heeft voor duurzame opslag van digitaal materiaal een speciaal opslagsysteem ontwikkeld, het e-Depot. Bij het digitaliseren worden eerst zogenaamde master-bestanden gemaakt in het TIFF formaat en op een hoge resolutie. De bestanden op de website (JPEG-bestanden, fulltext-bestanden, PDF-bestanden) zijn hiervan afgeleiden. De masterbestanden worden in het e-Depot opgeslagen, zodat er in de toekomst eventueel nieuwe afgeleide bestanden kunnen worden gemaakt. Ieder TIFF-bestand gaat vergezeld van een XML-bestand met technische gegevens. Ook deze technische gegevens worden in het e-Depot opgenomen zodat er in een later stadium bepaald kan worden welke activiteiten moeten worden ondernomen om de afbeeldingen leesbaar te houden.

Standaarden

Bij het ontwikkelen van de website en in de achterliggende infrastructuur wordt zoveel mogelijk gebruik gemaakt van gangbare open standaarden:

1. Dublin Core

Dit is een standaard voor het beschrijven van documenten. Deze standaard bestaat uit een aantal metagegevens en een bijbehorend standaard XML-formaat. De metagegevens van Staten-Generaal digitaal zijn zoveel mogelijk in Dublin Core-formaat opgenomen. Voor specifieke metagegevens is niet altijd een Dublin Core-metagegeven beschikbaar. Voor die gevallen zijn metagegevens gedefinieerd die specifiek zijn voor het materiaal van Staten-Generaal digitaal.

Meer informatie: http://dublincore.org/.

2. SRU

De webapplicatie benadert voor zoekvragen niet rechtstreeks de Verity-zoekmachine, maar gebruikt daarvoor SRU (Search/Retrieve via URL). Dit is een standaardprotocol, waarmee queries op een gestandaardiseerde manier in URLs worden opgenomen.

Meer informatie: http://www.loc.gov/standards/sru/.

3. MPEG21-DIDL

De documenten zijn in verschillende bestandstypen gedigitaliseerd. Voor ieder document is een PDF-bestand beschikbaar en XML-bestanden met metagegevens. De onderlinge samenhang tussen de verschillende bestandstypen is vastgelegd in MPEG21-DIDL. Dit is een XML-formaat, waarmee de structuur van digitale objecten kan worden vastgelegd. Binnen het project Staten-Generaal digitaal wordt deze standaard gebruikt om de structuur van ieder document vast te leggen, dat wil zeggen welke pagina's er bij het document horen en welke bestanden er bijhoren.

Meer informatie: http://www.chiariglione.org/mpeg/standards/mpeg-21/mpeg-21.htm

4. Z39.87

Bij Staten-Generaal Digitaal word het MIX formaat gebruikt voor de opslag van technische gegevens over afbeeldingsbestanden. Het MIX formaat is een implementatie van de algemenere NISO standaard Z39.87 in XML.

Meer informatie: http://www.loc.gov/standards/mix/ en http://www.niso.org/standards/resources/Z39_87_trial_use.pdf.

Metagegevens

Ieder document is van een aantal metagegevens voorzien. Deze fuctioneren als zoekcriteria om documenten op de website te kunnen vinden. Een deel van de metagegevens geldt voor ieder document. Een ander deel van de metagegevens is per soort document verschillend.

Ieder document

De volgende metagegevens gelden voor ieder document:

  • Het soort document (documenttype). Dit kan zijn Handelingen, Kamerstuk of Aanhangsel. In de toekomst zullen hier de documenttypen Register en Naamlijst aan worden toegevoegd.
  • Het vergaderjaar. Dit bestaat over het algemeen uit twee jaartallen, bijvoorbeeld 1990-1991.

Ten slotte heeft ieder document een aantal metagegevens die niet als zoekcriterium worden gebruikt:

  • De rechten (die liggen bij de Tweede Kamer der Staten-Generaal)
  • Een identifier
  • Een beschrijving
  • Het aantal pagina's in het document.

Handeling

Voor documenten van het type Handeling gelden de volgende metagegevens:

  • De datum: dit betreft de datum waarop de vergadering is gehouden.
  • De paginanummers: dit betreft de paginanummers uit het originele document.
  • Sprekers: dit betreft de personen die tijdens een vergadering aan het woord zijn geweest.
  • Kamerstukken: dit betreft de kamerstukken die in een vergadering genoemd worden.

Kamerstuk

Voor documenten van het type Kamerstuk gelden de volgende metagegevens:

  • Kamerstuknummer: dit betreft het hoofdnummer van het document zoals dat in het oorspronkelijke document is vermeld.
  • Ondernummer: dit betreft het ondernummer van het document zoals dat in het oorspronkelijke document is vermeld.
  • Rijkswetnummer: sommige Kamerstukken bevatten een Rijkswet, die van een afzonderlijk nummer zijn voorzien.
  • Titel: dit betreft de titel zoals die bovenaan het oorspronkelijke document staat.

Aanhangsel

Voor documenten van het type Aanhangsel gelden de volgende metagegevens:

  • Nummer aanhangsel: dit betreft het aanhangselnummer zoals dat in het oorspronkelijke document is vermeld.
  • Onderwerp: dit betreft de kamervraag die in het Aanhangsel aan de orde is.
  • Vraagsteller: dit betreft de persoon die de kamervraag gesteld heeft. Er kunnen meerdere vraagstellers bij één Aanhangsel voorkomen.
  • Datum vraag: dit betreft de datum waarop de kamervraag is gesteld.
  • Beantwoorder: dit betreft de persoon die de kamervraag heeft beantwoord. Er kunnen meerdere beantwoorders bij één Aanhangsel voorkomen.
  • datum antwoord: dit betreft de datum waarop de kamervraag is beantwoord.
  • De paginanummers: dit betreft de paginanummers uit het originele document.