XML/TEI nella codifica delle fonti primarie

LINKS UTILI
(da Griseldaonline)

manuale su linguaggio XML e DTD Tei
slides TEI

Elenco dei codici
(immagini digitali)

f. 191r, UCB 102, The Bancroft Library, University of California, Berkeley

f. 17r, UCB 085, The Bancroft Library, University of California, Berkeley

f. 7r, Riccardiano 1035 (O.II.17), Biblioteca Riccardiana, Firenze

f. 44, Plimpton MS 119, Rare Book And Manuscript Library, Columbia University, New York

f. 183, De Bellis La. 01, J. Paul Leonard Library, San Francisco State University, San Francisco

f. 99, Lodge MS 02, Rare Book and Manuscript Library, Columbia University, New York

c. 701r, filza XXVIII, Fondo Mediceo avanti Principato, Archivio di Stato di Firenze

c. 413r, filza XII, Fondo Mediceo avanti Principato, Archivio di Stato di Firenze

XML/TEI per la trascrizione delle fonti primarie e la codifica dell'apparato

Francesca Tomasi

La fase di trascrizione delle fonti primarie è una forma di intervento interpretativo sulle istanze strutturali, semantiche e materiali trasmesse da una fonte testuale in quanto significa individuare quali sono gli elementi pertinenti ai fini di un'adeguata rappresentazione della fonte in oggetto.
In questo senso XML offre ampie possibilità, consentendo allo studioso di elaborare documenti well-formed in cui la codifica è espressione soggettiva, in-text, delle volontà dell'interprete o di sviluppare DTD (Document Type Definition) ad hoc per la tipologia testuale (testo in prosa, in versi, testo drammatico, ecc.) o per le esigenze ermeneutiche (scopi della resa elettronica).
Elaborare DTD è operazione complessa che richiede competenze di alto livello nell'ambito dei linguaggi di markup; la scelta della TEI (Text Encoding Initiative) orienta invece la codifica verso uno schema divenuto ormai oggetto di studi decennali e la completezza dei marcatori previsti assicura una codifica in grado di prevedere ogni fenomeno testuale (cfr. TEI P4, rilasciata nel 2002; sito ufficiale http://www.tei-c.org/). La stessa proliferazione di sistemi di implementazione di oggetti digitali dimostra l'esigenza di un sistema standard di codifica delle fonti primarie.
Per agevolare l'impiego della DTD i progettisti della TEI (Association for Computers and the Humanities (ACH) la Association for Computational Linguistics (ACL) e la Association for Literary and Linguistic Computing (ALLC)) hanno previsto una divisione dello schema di codifica in tre grandi blocchi, ognuno strutturato in frammenti: core tag set, elementi presenti in tutti i documenti TEI e quelli del TeiHeader; base tag set, suddiviso in prosa, versi, testo drammatico, testi parlati, dizionari, ecc.; additional tag set sono compresi, fra gli altri (links, analisi stilistica, gestione di corpora linguistici, nomi e date, ecc.), due frammenti:
a) TRASCRIZIONE DELLE FONTI PRIMARIE: TEI.transcr (teitran2.dtd e teitran2.ent)
b) CODIFICA DELL'APPARATO CRITICO: TEI.textcrit (teitc2.dtd e teitc2.ent)

È evidente che in fase editoriale questi marcatori andrebbero accompagnati da quelli base per la descrizione della struttura del documento, per la codifica degli elementi ritenuti rilevanti (per esempio nomi di persona o riferimenti di luogo), per la gestione dei link interni al documento, per la dichiarazione della presenza di intestazioni e piè di pagina, ecc. Ma soprattutto rispetto al trasferimento in MRF di qualsivoglia fonte testuale la trascrizione di fonti primarie (siano esse manoscritti, incunaboli o cinquecentine) non può esimersi dal registrare le informazioni trasmesse dalla componente "materiale" del testo. Il testo in questo senso non è solo una sequenza di stringhe di caratteri, altri elementi devono essere annotati: l'uso dei colori come strumento di enfasi, di struttura o decorativo; la resa in layout dei segni dello scriba nella pagina; i passaggi di mano e di scrittura; le indicazioni di correzioni, annotazioni, cancellazioni, le caratteristiche fisiche del manoscritto esso stesso.

Vediamo dunque nel dettaglio quali sono i marcatori che consentono di codificare gli aspetti specifici della trascrizione.

a) TRASCRIZIONE DELLE FONTI PRIMARIE (manoscritti, incunaboli e antichi testi a stampa)
Si possono individuare varie sezioni di interesse. Le più interessanti riguardano:
1. la codifica delle alterazioni del testo (abbreviazioni, cancellazioni, riscritture);
2. la codifica di fenomeni "non linguistici" (identificazione di mani diverse, punti illeggibili, danneggiati o deteriorati, inusuali spaziature nel testo)

1. Core set per la trascrizione del testo, cioè per la codifica delle "alterazioni" del testo come cancellazioni, sovrascritture e riscritture, espunzioni, aggiunte marginali, scioglimento di abbreviazioni, ecc. (Altered, Corrected, and Erroneous Texts, secondo la definizione delle TEI Guidelines ).
Nello specifico vediamo alcuni marcatori:

Abbreviazioni e scioglimento di abbreviazioni
<abbr> codifica un'abbreviazione di qualsiasi tipo.
<expan> codifica lo scioglimento di un'abbreviazione.
Possono essere usati uno come attributo dell'altro, a seconda si intenda trascrivere il testo abbreviato o lo scioglimento del testo. L'attributo type può essere poi usato per specificare il tipo di abbreviazione (nota tironiana, troncamento, contrazione, ecc.).
Le abbreviazioni andrebbero indicate sottoforma di riferimento di entità, le cui modalità di scioglimento o visualizzazione viene specificato nella dichiarazione di entità della DTD (p con l'asta inferiore tagliata sta per "per", la linea soprascritta sta per la lettera "n", ecc.).
Es.
<abbr expan="non">&n-trattosovrascritto;</abbr>
<expan abbr ="&p-astainferiore;">per</abbr>

Questo stesso sistema di impiego dei riferimenti di entità può essere utile anche per codificare alcuni caratteri che identificano il sistema scrittorio di un autore, vale a dire alcuni segni di scrittura particolari (cfr. Zibaldone Laurenziano). Questo significa che un riferimento di entità può essere associato ad un'immagine e quindi sostituito, in fase di layout, con l'immagine della lettera. Per esempio possiamo dire che &pro; venga sostituito, in fase di visualizzazione con la corrispettiva immagine digitale

Immagine delle più comuni abbreviazioni dei manoscritti latini medievali.
Tratto da G. Cencetti, Paleografia latina, II ed. Jouvence, Roma 1997, p. 163. Cfr. Anche A. Cappelli, Dizionario di abbreviature latine ed italiane, ristampa, Hoepli, Milano 1998.

Correzioni e congetture
<sic> codifica una porzione di testo che viene riprodotta anche se in apparenza scorretta.
<corr> codifica la forma corretta di un passaggio apparentemente errato.
Anche in questo caso possono essere usati uno come attributo dell'altro, a seconda della versione del testo si intenda riprodurre. In realtà più che di congetture, come vorrebbe la TEI, si può parlare di semplice errore del copista che viene corretto in fase di trascrizione.
<sic corr="uomo">umo</sic>
<corr sic="umo">uomo</corr>

Aggiunte e cancellazioni
<add> codifica lettere, parole o frasi inserite nel testo dall'autore, dal copista, da un correttore, da un glossatore o annotatore. L'attributo place può essere utilizzato per specificare la posizione dell'aggiunta (inline, supralinear, infralinear, left, right, top, bottom)
<del> codifica lettere, parole o frasi cancellate nel testo, o segnate come da cancellare, o comunque indicate come superflue dall'autore, dal copista, da un correttore, da un glossatore o annotatore. L'attributo rend può essere utilizzato per indicare il tipo di cancellazione (erasure, bracketed, overstrike, subpunction)

Esempio di aggiunta marginale e di cancellazione (testo espunto e depennato)

Sostituzioni
Spesso cancellazioni o errori vengono rimpiazzati dal copista o da altra mano con altre stringhe di testo; questo fenomeno può essere codificato con:
<sic> e <corr>, da utilizzare l'uno gerarchicamente dipendente dall'altro per codificare una sequenza di sostituzioni;
<del> e <add>, usati in sequenza per evidenziare che una porzione di testo è stata prima cancellata e poi è stato aggiunto altro testo.

Esempio di cancellazione e aggiunta

Ripristino di porzioni in precedenza cancellate e altri segni di evidenziazione
Un autore può decidere di evidenziare una parola o una frase in qualche modo e poi riflettere di cancellare l'evidenziazione. Ad esempio una porzione di testo può essere evidenziata come da cancellare e poi la cancellazione essere eliminata, e quindi provvedere al ripristino del testo prima cancellato.
L'elemento <restore> indica il ripristino di un testo ad uno stadio precedente la cancellazione o altro segno di evidenziazione o istruzione di modifica.

Testo omesso nella trascrizione
<gap> indica un punto del testo una porzione non è stata inserita nella trascrizione elettronica (per esempio in quanto illeggibile oppure perché mancante). L'attributo desc può essere utilizzato per spiegare la ragione dell'omissione, mentre l'attributo extent consente di specificare la dimensione della omissione (esprimibile in numero di lettere o in centimetri)
<supplied> indica la presenza di una stringa di testo come possibile integrazione della lacuna.

Esempio

Altri elementi rilevanti
<hi> evidenzia una parola o una porzione graficamente distinta dal testo circostante (per esempio un'iniziale rubricata). L'attributo per specificare le caratteristiche dell'evidenziazione è rend.

Clicca per l'esempio

Esiste poi l'attributo resp, o l'attributo hand, che consente di assegnare la paternità a certe operazioni, vale a dire di definire chi è il responsabile di certe azioni sul testo, delle interpretazioni o del markup: la mano per un'aggiunta o una cancellazione, lo scioglimento di un'abbreviazione, la correzione di un errore apparente, la regolarizzazione di una forma non standard (normalizzazione della voce), la trascrizione di porzioni non chiare, la decisione di non trascrivere alcune porzioni di testo.

2. Sezione dedicata ai marcatori per la codifica di fenomeni non linguistici nella fonte d'origine: il punto in cui cambia la mano dello scriba, con quali caratteristiche varia la scrittura (diverso inchiostro o diverso strumento di scrittura), punti in cui il testo è danneggiato o illeggibile, spazi inusuali o linee nella fonte.

Alcuni esempi di scritture. L'evoluzione dei sistemi scrittorei.
Tratto da A. Petrucci, Breve storia della scrittura latina, nuova ed. Bagatto, Roma 1992, p. 206.

Identificazione e descrizione delle mani diverse nei documenti
Elemento <hand>
Usato nell'intestazione <teiHeader> (nella sezione del <profileDesc>) per distinguere ogni scriba e ogni diverso stile di scrittura. Le indicazioni delle varie mani (cioè ogni elemento <hand>) vanno inserite all'interno del marcatore <handList> (cioè lista delle varie mani)
Vediamo alcuni degli attributi utilizzabili per identificare le varie mani :
id come identificativo univoco usato poi nel documento per riferirsi ad uno scriba o ad uno stile di scrittura;
type per identificare il tipo di scrittura
scribe per assegnare il nome o l'identificativo di ogni scriba;
style per indicare lo stile di scrittura;
ink per descrivere il colore dell'inchiostro;
character per descrivere altre caratteristiche della mano;
resp per indicare il nome dell'editore o del trascrittore responsabile per l'identificazione della mano.

Vediamo un esempio

Ogni punto del testo in cui la mano cambia viene codificato con l'elemento vuoto <handShift> accompagnato dagli attributi old e new per indicare il codice identificativo della precedente mano e il codice della successiva (codici che corrispondono agli id che accompagnano le varie hand specificate nell'handList).
Es. <handShift new='2' old='1'/>

Esempio

Danni, porzioni illeggibili, testi aggiunti
Abbiamo già visto gli elementi <gap> e <supplied>. Questi marcatori vengono fondamentalmente utilizzati quando il testo è quasi completamente illeggibile e quindi la porzione mancante è una congettura. Nell'eventualità in cui invece si possa effettuare una ragionevole integrazione della lacuna gli elementi da utilizzare sono:
<damage> fa riferimento ad un area di testo danneggiata. Fra gli attributi type, che permette di specificare la tipologia di danno (abrasione, macchia, ecc…), agent che consente di specificare, quando possibile, l'agente che ha causato il danno (attacco microbico, foxing) e extent che permette di specificare l'estensione del danno (espresso in numero di lettere, centimetri o porzioni strutturali).
Es.
<damage type='macchia' agent='foxing' extent='3 lettere'/>
<unclear> codifica una parola, una frase o un passaggio che non viene trascritto in quanto illegibile.
Questi elementi possono anche essere utilizzati uno all'interno dell'altro:
no<damage type='macchia' agent='foxing' extent='3 lettere'> <unclear>str</unclear>um</damage>

Esempio

Spazi
Lo scriba o il copista può aver lasciato uno spazio bianco nel testo (per un'iniziale miniata o in quanto non riusciva a leggere dalla fonte o per qualche altra ragione). L'elemento <space> consente di rilevare la presenza di una porzione bianca e l'attributo extent di definirne le dimensioni (in numero di lettere o centimetri). L'elemento <supplied> può essere utilizzato per integrare la mancanza.

Esempio

Sarà poi giudizio del codificatore decidere come utilizzare XSLT (Extensible Stylesheet Language - Transformation, linguaggio di visualizzazione di XML sul browser) per rendere in layout i vari fenomeni codificati, ricorrendo a strategie di visualizzazione e resa grafica.

Vediamo un esempio, tratto dalle Novelle Porrettane di Giovanni Sabadino degli Arienti (cod. Palatino 503, c. 64) di applicazione del linguaggio XML (TEI) per la codifica dei segni del manoscritto.


TRASCRIZIONE DIPLOMATICA	TRASCRIZIONE CODIFICATA
[…]/tate: che io uoglio incominciare a congiurare quello Spir/to: [che io uoglio]: il quale ala terça uolta uirá. Et cusi tre/uolte intorno alfacto Cerchio girando cum laiuto dela/ferla: perche sença epsa andare \non/ poteua: ponderatame(n)te/dimostrando pronuntiare certe parole: dicea cu(m) uoce […]	<p> […] <lb n="205">tate: che io uoglio incominciare a congiurare quello Spir<lb n="206">to: <del hand="Arienti">che io uoglio</del>: il quale ala terça uolta uirá. </p> <p>Et cusi tre<lb n="207"> uolte intorno alfacto Cerchio girando cum laiuto dela<lb n="208"> ferla: perche sença epsa andare <add hand="Arienti" place="interlinea">non</add> poteua: <abbr expan="ponderatamente">ponderatam&e-trattosopra;te</abbr> <lb n=209>dimostrando pronuntiare certe parole: dicea <abbr expan="cum">&cu-trattosopra;</abbr> uoce […]</p>

Si noti che nella trascrizione diplomatica il valore dei segni utilizzati per interpretare fenomeni di scrittura (aggiunte interlineari, cancellazioni, scioglimento di abbreviazioni) devono essere conosciuti da chi legge e quindi complicano la leggibilità. Con la codifica, gli interventi dell'editore possono essere esplicitamente interpretati.

b) L'apparato critico
L'apparato è il luogo destinato a documentare le scelte compiute in fase di definizione del testo critico. L'apparato riporta cioè le varianti riprodotte nei testimoni della tradizione testuale.Tutti gli elementi visti per la trascrizione delle fonti primarie possono essere utilizzati anche nell'apparato per codificare le varianti dei codici attestanti la tradizione testuale.

Le informazioni relative possono essere inserite all’interno del testo codificato e poi visualizzate secondo strategie variabili in sede di layout

L'elemento <app> contiene le varie lezioni ricondotte dai testimoni della tradizione.
L'elemento <lemm> riporta la lezione accettata nel testo critico, <rdg> (reading) ogni singola lezione variante. Questo elemento supporta l'attributo wit (witness) che, come valore, riporta la sigla identificativa del testimone che tramanda la lezione variante ed eventualmente l'attributo type che consente di specificare la tipologia della variante (errore di trascrizione, correzione o intervento sostitutivo).

Es. Tratto da Poggio Bracciolini, Lettere, vol. I Lettere a Niccolò Niccoli, a cura di H. Harth, Olscki, Firenze 1983, p. 109, riga 4.

<app>
<lemm wit='R'>avocarem</lemm>
<rdg wit='M'>avocam</rdg>
<rdg wit='F'>evocarem</rdg>
</app>

La serie delle informazioni sui vari testimoni della tradizione può essere racchiusa all'interno dell'elemento <witList>, che contiene la lista dei testimoni, ciascuno codificato con l'elemento <witness>. L'attributo sigil permette di assegnare una sigla identificativa per ogni testimone (con la quale viene poi richiamato nel testo).

Es.
<witList>
<witness sigil="R">Firenze, Biblioteca Riccardiana, 759</witness>
<witness sigil="M">Venezia, Biblioteca Marciana, Lat. XI, 66</witness>
<witness sigil="F">Ferrara, Biblioteca Comunale, Cl. II, 133</witness>
...
</witList>