Wieneke 't Hoen


Sinds september 1995 wordt binnen het Constantijn Huygens Instituut gewerkt aan een kritische leeseditie van het Verzameld werk van Willem Elsschot. De uitgave zal alle literaire werken van Elsschot bevatten, aangevuld met een tekstgeschiedenis en een verantwoording.

Om tot een goed inzicht in de ontstaans- en publicatiegeschiedenis te komen, zijn alle bronnen van belang. Handschriften, drukproeven, brieven en drukken die tijdens Elsschots leven uitkwamen bevatten informatie die bruikbaar is voor het onderzoek. Op basis van deze gegevens kan de basistekst worden gekozen en kunnen corrupte plaatsen in de tekst worden aangemerkt en verbeterd.

Handmatige collatie van alle drukken is een tijdrovende klus en daarom is besloten de collatie van de gedrukte bronnen met behulp van de computer uit te voeren. Hiertoe moeten alle drukken gedigitaliseerd worden. Het scannen en OCR-en (OCR = Optical Character Recognition: het herkennen of ′lezen′ van de letters)[1] wordt uitbesteed aan het Nederlands Historisch Data Archief (NHDA, sinds kort onderdeel van het NIWI). De gedigitaliseerde teksten worden gecorrigeerd en er worden enkele elementen toegevoegd om ze geschikt te maken voor invoer in het programma TUSTEP.

TUSTEP is een uitgebreid programma, dat meer mogelijkheden biedt dan alleen collationeren. Het programma is als een blokkendoos: een pakket van op elkaar afgestemde modules in een eigen systeem. TUSTEP (afkorting van ′Tübinger System von Textverarbeitungs-Programmmen′) is ontwikkeld door Wilhelm Ott aan de Universiteit van Tübingen. Al vanaf 1966 wordt er aan het programma gewerkt, dat wordt aangepast en uitgebreid.[2] Inmiddels zijn er meer dan honderd edities verschenen met gebruikmaking van TUSTEP, alle buiten Nederland.[3]

De functies van TUSTEP beslaan het hele proces van editeren van het begin tot het eind: invoeren, zoeken, corrigeren, veranderen, kopiëren, vormgeven en printen van of in teksten (functies vergelijkbaar met die in een tekstverwerkingsprogramma), en collationeren van verschillende versies van teksten, corrigeren van teksten (niet alleen interactief in de editor van TUSTEP, maar ook aan de hand van correctie-aanwijzingen), sorteren van teksten of teksteenheden en samenstellen van een register. De halfautomatische correctie kan worden uitgevoerd voordat verschillende versies worden gecollationeerd. Twee mensen kunnen dezelfde tekst invoeren in de computer of de tekst wordt tweemaal geOCRed en vervolgens worden de teksten vergeleken. De gevonden varianten wijzen eventuele invoerfouten aan, die aangemerkt kunnen worden. Die correcties worden automatisch in de tekst gecorrigeerd, zodat een foutloze tekst kan worden gebruikt voor een latere collatie met andere versies van de tekst.

Ten behoeve van de uitgave van Elsschots Verzameld werk maak ik beperkt gebruik van TUSTEP. Alleen het onderdeel collationeren gebruik ik, of beter gezegd, benut ik. TUSTEP is geen eenvoudig systeem om te leren, men moet in Tübingen een cursus van drie weken volgen. Deze cursus heb ik niet gevolgd, omdat het bij aanvang van het Elsschot-project niet duidelijk was of het gebruik van TUSTEP voor het Constantijn Huygens Instituut in de toekomst voordelen zou hebben. Daarom is ervoor gekozen om het collationeren uit te besteden aan Wijnand van Poortvliet. Hij studeerde af op TUSTEP aan de Universiteit van Amsterdam en bleek bereid om voor het CHI de collatie uit te voeren.[4]

De werkwijze die momenteel met behulp van TUSTEP gevolgd wordt, levert een tijdwinst op van ongeveer twee maanden per titel in vergelijking met handmatige collatie en is bovendien meer secuur.

Stap 1 is het digitaliseren van alle geautoriseerde drukken. Voorwaarde voor een goed resultaat is een goed leesbaar zetsel, hetgeen in dit geval geen probleem is. Het scannen en OCR-en wordt door het NHDA gedaan met een zogeheten ′dynamo′ programma, waardoor meerdere OCR-programma's tegelijkertijd draaien met als resultaat dat de uitvoer veel beter is dan wanneer er slechts één OCR-programma wordt gebruikt.

Stap 2 is een correctieronde. De uitvoer van de OCR wordt gecorrigeerd in een ′gewoon′ tekstverwerkingsprogramma; niet na woord-voorwoord collatie maar door kritisch doorlezen van de tekst. Alle meegescande paginacijfers, vlekjes, paginascheidingen en dergelijke worden verwijderd zodat een doorlopende tekst ontstaat. Een correctie wordt altijd pas aangebracht als uit de bron blijkt dat de fout terug te voeren is op het OCR-en. Zetfouten in de bron blijven uiteraard staan in de gedigitaliseerde tekst.

Tijdens de correctieronde worden ook enkele aanpassingen gemaakt voor TUSTEP. De teksten in ASCII-formaat worden omgezet in TUSTEPs eigen systeem, en door het overzetten van WordPerfect in ASCII in TUSTEP gaan bepaalde kenmerken van een tekst verloren. ASCII kent geen cursief, zodat woorden of passages in cursief tussen sterretjes worden gezet.

TUSTEP kan maximaal negen teksten met elkaar vergelijken die niet te veel van elkaar afwijken. Als een tekst meer dan 600 tekens afwijkt, kan TUSTEP geen vergelijking meer maken. Hierdoor moeten sommige teksten worden gesplitst voordat ze gecollationeerd kunnen worden. Een ontgoocheling bijvoorbeeld is na de tijdschriftpublicatie flink uitgebreid.[5] Bij de collatie liep TUSTEP vast op de toegevoegde passage, omdat vergelijking met de doeltekst, de tijdschriftpublicatie, onmogelijk werd. De teksten werden toen gesplitst en het extra deel werd apart gecollationeerd.

Stap 3 is de collatie in TUSTEP. Er wordt een doeltekst gekozen, alle andere teksten worden dan met deze tekst vergeleken. De collatie zelf duurt maar zo'n tien minuten, en dan presenteert TUSTEP ze ook nog eens in een overzichtelijke synopsis.[6] Men kan kiezen voor een synoptisch of een lemmatisch apparaat.

Stap 4 is de analyse van de varianten. Elk verschil in de teksten wordt aangemerkt, waardoor de uitdraai van de varianten nogal veel bladzijden beslaat. Soms blijkt er nog een OCR-fout in de tekst te staan, maar veel vaker zijn de verschillen terug te voeren op de spellingherziening die doorgevoerd werd in 1954. Andere varianten worden aangemerkt en bekeken.

Stap 5 is de handmatige collatie van een typoscript of drukproef met de oudst gedrukte bron. Het had gekund om een handschriftelijke bron in de computer in te typen, zodat ook deze bron in TUSTEP gecollationeerd kon worden, maar het overtypen van een prozatekst is zoveel werk, dat het net zoveel tijd kost om de tekst handmatig te collationeren.

Stap 6: De basistekst hoeft niet meer overgetypt te worden, want die is al eerder gedigitaliseerd. Hij wordt nog wel in zijn geheel (handmatig) gecollationeerd met de bron om de overgebleven scanfouten te corrigeren. Na het aanbrengen van ingrepen en typografische aanpassingen is de leestekst gereed.

Samenvattend kan men zeggen dat de tijdwinst door het gebruik van TUSTEP — voor dit project — groot is. Als voorbeeld: Elsschots debuut Villa des Roses werd tijdens zijn leven acht maal gedrukt, bij elkaar zo'n 1600 bladzijden. Handmatige collatie van deze acht drukken zou ongeveer 54 dagen in beslag nemen, wat zo'n 3 maanden werktijd is bij een werkweek van vier dagen uitgaande van dertig pagina's per dag. De werkwijze met TUSTEP nam ongeveer een maand in beslag waarbij de kosten voor het digitaliseren en collationeren opgeteld moeten worden.

Doordat TUSTEP een systeem op zich is, sluiten formaten niet op elkaar aan. Teksten moeten in ASCII worden aangeleverd, waardoor waardevolle informatie verloren gaat. Met tussenoplossingen is dit euvel wel te verhelpen, maar het blijft wat omslachtig.

Het meest bekende alternatief voor TUSTEP is Collate, een programma ontwikkeld door Peter Robinson voor het Canterbury Tales Project in Oxford. Collate is niet zoals TUSTEP een pakket van modules (hetgeen voor- en nadelen heeft) maar alleen een collationeerprogramma. Oorspronkelijk is het ontworpen voor Macintosh, maar inmiddels is er ook een Windows-versie. Hoe en hoe goed dit programma werkt zal nog nader bekeken moeten worden.[7]

Een probleem blijft het digitaliseren van teksten. Overtypen van teksten kan altijd, maar is zeer arbeidsintensief en dus duur. Met scannen en OCR zijn goede resultaten te bereiken, maar dit is erg afhankelijk van de kwaliteit van het materiaal.

Noten

  • 1. Zie ook: Marita Mathijsen. Naar de letter. Handboek editiewetenschap. Assen, Van Gorcum, 1995, p. 410. [terug]
  • 2. Een heldere inleiding op TUSTEP geeft W. Ott in het artikel ′Computer-unter-stützte Edition′. In: Editio 3 (1989), p. 157-176. Zie ook http://www.uni-tuebingen.de/zdv/zrlinfo/tustep-des.html [terug]
  • 3. Een belangwekkende editie die met TUSTEP gemaakt is, is James Joyce. Ulysses. New York etc., 1984, bezorgd door Hans Walter Gabler. Over de gevolgde werkwijze publiceerde hij ′Computer-Aided Critical Edition of Ulysses′. In: ALLC Bulletin 8 (1981), p. 232-248. [terug]
  • 4. Wijnand-Jan van Poortvliet, TUSTEP als hulpmiddel bij het editeren van teksten. Amsterdam, 1993. Ongepubliceerde doctoraalscriptie UvA. [terug]
  • 5. bijvoorbeeld Kareltjes werkzaamheden bij de Beltransat komen pas voor vanaf de eerste druk. Zie ook: A. Kets-Vree. Woord voor woord. Theorie en praktijk van de historisch-kritische uitgave van een prozatekst, gedemonstreerd aan Een ontgoocheling van Willem Elsschot. Utrecht, HES, 1983, p. 177 e.v. [terug]
  • 6. Van Poortvliet. o.c., p. 103. 6 [terug]
  • 7. Voor informatie over de programma's zie: http://www.shef.ac.uk/uni/projects/ctp/main/collate.html [terug]

© 1998-2004 Wieneke 't Hoen & CTB.

This text is also published as Wieneke 't Hoen, ′Willem Elsschot en TUSTEP′ in: Edward Vanhoutte & Dirk Van Hulle (red.), Editiewetenschap <!--in de praktijk-->, Gent: Genese & KANTL, 1998. p. 87-92.