Alla ricerca dei termini gaddiani. Una pre-concordanza Maria Luigia Ceccotti Manuela Sassi ILC-CNR 1999 INDICE 2. La lemmatizzazione e l'individuazione dei 'termini gaddiani' Altre precisazioni 'paradigmatiche' Questo quaderno propone le concordanze, a livello di forma, di parole del lessico-base degli archivi elettronici corrispondenti ai testi gaddiani del volume Romanzi e Racconti 1 (RR1) della edizione garzantiana, collana "I Libri della Spiga", 1988. Le concordanze sono: di forme, il cui lemma di riferimento non è registrato in dizionari di uso comune della lingua italiana (Migliorini 1965, Garzanti 1987, Zanichelli 1987), divise in tre elenchi:
Ogni elenco è seguito da una tabella (TAB1, TAB2, TAB3) in cui vi sono annotazioni linguistiche. Inoltre vi è un elenco di forme (CONC4) che sono alterati o varianti di lemmi registrati nei dizionari consultati. Le annotazioni sono state riportate a piè di pagina. Il Contini a proposito di Migliorini e Devoto, afferma: " Dei due soli linguisti che, per una rara quanto meritoria disposizione, tendono a farsi da noi "storici del presente", l'uno, il Migliorini, mira al limite assoluto del documentario e dell'assenza di elaborazione; l'altro, il Devoto, anche nei saggi su Carlo Emilio Gadda e Svevo, compara con un sottinteso modulo di normatività, in qualche maniera trascendente". Nostro intento prioritario è quello di 'documentare', ma non possiamo ignorare che nel selezionare dei dati, alla ricerca di 'termini gaddiani', abbiamo adottato criteri condizionanti il risultato. Chiarire la metodologia da noi applicata è d'altronde il primo passo doveroso. In questo quaderno proponiamo concordanze di forme che:
Questa decisione è facilmente giustificabile con i dati quantitativi: il corpus gaddiano nella versione dell'aprile '98 risulta composto, sulla base di 1.632.187 occorrenze, da 132.280 forme, delle quali 65.854 sono apax. Ci è sembrato che utilizzando come unità di misura un volume della collana garzantiana si potesse sperimentare un 'algoritmo' da migliorare in corso d'opera e d'applicare poi agli altri volumi; con il numero degli 'addetti ai lavori' : due (Ceccotti e Sassi). Il database gaddiano è stato codificato sì da poter distinguere innanzitutto il linguaggio-testo dal linguaggio-nota ed ancora il linguaggio-base dai singoli sottoinsiemi delle frasi (o parole singole) francesi, inglesi, spagnole, etc., che nel corpus gaddiano costituiscono una significativa quantità di dati (6.413 occorrenze di lingua francese, 4.982 di lingua latina, 4.171 di dialetto milanese, etc.). Si precisa che sono stati considerati forestierismi e quindi facenti parte del lessico-base quei termini isolati il cui lemma di riferimento è registrato nei dizionari cartacei, mentre le stesse forme, inserite in un contesto francese, inglese, etc, sono termini stranieri, appartenenti al sottoinsieme francese, inglese, etc. Caso emblematico è, ci pare, il termine réclame che è stato da noi due volte codificato come termine spagnolo, due volte come termine italiano, mai come voce francese, in considerazione dei contesti in cui è inserito: ¿sabe Usted? como en aquella réclame que vemos en todas partes RR1-SF.ADA.7.445.Pag.0438.10 ¿sabe Usted? como en aquella réclame que vemos en todas partes RR1-CD.2.VI.650.Pag.0702.29 L'occhio gli cadde girovagando sopra una réclame della "Colonia della Salute RR2-MEC.5.149.Pag.0552.3 un enorme quotidiano di 32 pagine) sulla réclame di una vasca da gabinettoRR2-RD.3.211.Pag.0974.18 A tal proposito possiamo far nostra la considerazione che 'nel continuum della lingua è, infatti, ben difficile poter tracciare dei limiti netti e dare delle classificazioni precise' Nel nostro caso si tratta della lingua di un autore, un insieme che abbiamo 'ingabbiato' in recinti lessicali per aumentare e non per limitare le possibilità di indagine, che d'altronde è possibile a tutto campo, consultando l'i ntero corpus. E tra gli stessi recinti ci sono delle intersezioni non vuote. L'inserimento di uno specifico codice permette di distinguere nel corpus le parole inizianti con la maiuscola dopo il punto dalla parola iniziante con maiuscola per norma (nome proprio di persona, di luogo, titolo di un'opera letteraria, etc.) o per volontà dell'autore. Questo sottoinsieme lessicale sarà proposto in un apposito quaderno. L'intento documentario ci sta guidando nel selezionare contesti di termini , quale ad esempio speranza, la cui frequenza è in tutto il corpus 255, uno dei quali (RR2-QP.5.343. Pag.0129.32) è identico a uno dei quattro contesti di Speranza (RR2-QPL.3.1422.Pag.0396.23). Facciamo presente che comunque abbiamo in questo lavoro, come vedremo in seguito, annotazioni che riguardano questo sottoinsieme lessicale. Opportuna una precisazione riguardo al significato che nel nostro corpus è da attribuire a forma. Oltre a distinguere la stessa stringa di lettere presente in due sottoinsiemi diversi (pressante del linguaggio base e pressante del linguaggio francese) o forme come diabòlici e diabolici che nello stesso linguaggio sono differenti, il sistema considera un'unica stringa la sequenza di caratteri codificata come data, numero, sigla. Se quindi nel file d'input di un archivio (ad esempio SA -Schede autobiografiche-) è stato inserito il codice D(ata) per '14 novembre 1893', la funzione del DBT che produce tutte le forme del corpus ci propone la forma 14 novembre 1893 con frequenza = 1. Queste speciali 'forme' sono state per ora ignorate.Per quanto riguarda la presenza cospicua di parole composte con il trait d'union, la maggior parte delle quali con frequenza 1, ci siamo convinte dell'opportunità di trattare a parte anche questo gruppo di cui in questo quaderno non mancano riferimenti. Premesso ciò, la procedura utilizzata è la seguente. Una funzione del DBT-Corpus ha prodotto l'elenco unificato (FREQ-COR) di tutte le forme dei 33 testi costituenti l'archivio. Ogni record di FREQ-COR propone quindi per ogni forma:
FREQ-COR sottoposto a varie selezioni relativamente a:
è risultato ridotto a 36.615 forme di frequenza 1, di cui 5.419 degli archivi RR1. La prassi lessicografica di analizzare gli apax di un autore per proporre una significativa testimonianza del suo lessico è stata quindi anche da noi attuata. Ricordiamo che un nostro lavoro contiene l'indice inverso di tutti gli apax del lessico-base dei testi gaddiani. 2. La lemmatizzazione e l'individuazione dei 'termini gaddiani' TAGGER è il sistema di analisi morfo-sintattica che può essere applicato ad archivi in formato DBT e questa procedura automatica di lemmatizzazione ha permesso di distinguere, delle 5.419 forme selezionate degli archivi RR1, gli apax, ai quali il TAGGER assegnava un lemma o proponeva più lemmi di riferimento, dagli apax che venivano ignorati. L'esempio seguente è un output del TAGGER (dal quale abbiamo tolto alcune parti per facilitarne la lettura) da cui risultano una o più proposte di lemmatizzazione (es.: 'cigola' come verbo [V] e 'chiarissimo' come aggettivo [A], avverbio [B] e verbo [V]) oppure due proposte che caratterizzano tutte le forme non riconosciute (es.: 'chiuncue', ' coléra' e 'confondarlo' che vengono proposte come lemma con categoria [SY] o [AY] dove la 'Y' è il codice che segnala la non presenza nel dizionario di macchina e che abbiamo mantenuto come tale nel nostr o lavoro). Una precisazi one importante è che le forme analizzate sono state sottoposte come puro elenco alfabetico, e quindi il risultato ottenuto segnala la presenza o meno nel dizionario della forma e dei possibili lemmi a cui ricondurla senza che venga applicata la procedura di disambiguazione, attivata attraverso l'analisi del contesto.
La distinzione tra forme 'accettate' e forme 'rifiutate' dal sistema è stata tenuta presente con cautela nel successivo controllo 'artigianale' della lemmatizzazione, in quanto il TAGGER, che si basa sul dizionario di macchina realizzato presso l'ILC, un dizionario di macchina che inizialmente corrispondeva al dizionario Zingarelli, X edizione 1964, è stato successivamente incrementato con altri dizionari. Questa lemmatiz zazione automatica non ha un filtro cronologico ed ino ltre ignora le forme con accento fonico e quelle con î finale, che in Gadda sono tra l'altro numerose. Una forma 'accettata' è di conseguenza revolverare che in Garzanti è registrato proprio con il contesto da MDF mentre forme 'ignorate' sono abbiàtici, studî per la presenza dell'accento. In considerazione di ciò abbiamo deciso di controllare l'output completo della lemmatizzazione automatica consultando:
Nella scelta e nella consultazione di questi dizionari abbiamo tenuto quindi presente la collocazione cronologica delle opere gaddiane e la sensibilità 'lessicale' attuale. Dovevamo comunque decidere un vocabolario di riferimento ed abbiamo optato per il Migliorini. Abbiamo quindi in questa fase di lavoro definito 'termine gaddiano' una forma presente in testi gaddiani riconducibile ad un lemma non registrato nel Vocabolario della lingua italiana di Bruno Migliorini, Paravia 19 65. Durante la fase di controllo ci siamo rese conto dell'opportunità:
Abbiamo quindi deciso di proporre due elenchi separati: CONC1 e CONC2 per le forme apax sottoposte alla lemmatizzazione e di ripartire dall'originario FREQ-COR per isolare tutte le forme del lessico-base che appaiono nell'insieme RR1 e che hanno frequenza maggiore di 1. L'insieme di tali forme di RR1 è risultato composto da 23.973 parole, con la scrematura, anche in questo caso, dei nomi propri, di quelli composti con il trait d'union, delle date, dei numeri e delle sigle. Il risultato di questa selezione è stato quindi un insieme di forme di frequenza > 1, che abbiamo sottoposto al TAGGER. In questo caso non abbiamo poi proceduto ad una verifica del risultato della lemmatizzazione automatica ed abbiamo invece sottoposto a controllo 'art igianale' solo le 1.700 forme che il TAGGER ha 'espulso'. In questa seconda fase quindi, diversamente dalla fase precedente relativa alle forme apax, abbiamo considerato il risultato del TAGGER prioritario rispetto alla consultazione dei dizionari cartacei, relativamente ai quali ci siamo comunque comportate così come per gli apax con la seguente variazione: abbiamo cominciato a consultare come appendice del Vocabolario Migliorini del 1965 il Dizionario d'ortografia e di pronunzia (DOP), pubblicato dalla ERI nel 1969, a cura di Migliorini, Tagliavini, Fiorelli. Questo controllo ha prodotto CONC3, in cui sono state inserite alcune concordanze di forme che inizialmente facevano parte di CONC1 e/o di CONC2. Il caso di euresi è esemplificativo. Euresi, parola-chiave in Gadda, è una forma che ha freq. 60 in tutto il lessico-base, una in ADA, due in VM e le rimanenti in MM, a cui si aggiunge l'apax èuresi in CD. Il lemma euresi non è registrato nei dizionari consultati. In questo caso e nei simili avevamo la forma accentata in CONC1, mentre in CONC3 la concordanza della forma in ADA. Abbiamo quindi modificato la norma applicata nella distribuzione delle concordanze nei tre elenchi e unificato in CONC3 le concordanze delle forme riconducibili ad un unico lemma, facendo sì che la peculiarità delle forme risulti comunque evidenziata. Per l'apax obduranti (ADA) invece che, insieme con obdurò (QP) e obdurato (VM), è da ricondurre al lemma obdurare un'annotazione in TAB1 segnala ciò. Altre precisazioni 'paradigmatiche' Cospicua è la presenza di termini etnici ed etnico-storici quali australiana, belgi, brasiliano, bresciane, egiziaco che è improprio definire 'termini gaddiani' alla stregua di forme quali abasurdito, animalava. Pur tuttavia per il fatto che il Migliorini, e a volte anche gli altri dizionari, non registrano il lemma di riferimento per questi termini è stata applicata la norma lessicografica di partenza. Per non perdere d'altronde i dati emersi dal confronto tra i dizionari consultati abbiamo deciso di inserire tali dati nelle tabelle che seguono gli elenchi proposti (dai quali si constata che australiano, belga, brasiliano, egiziaco sono lemmi registrati sia in Zingarelli che in Garzanti, mentre bresciano è registrato solo in Garzanti). Inoltre quando una forma compare con una frequenza > 1 la selezione è stata effettuata facendo riferimento anche al DOP e per questo motivo belgi, apax in CDU, e belghe, con freq. 4 di cui un'occorrenza in CDU, non compaiono in CONC3 in quanto nel DOP troviamo il lemma belga, assente in M. Differente il trattamento delle forme riconducibili al lemma americano, che non compare nè in M nè in DOP: in conformità a questa norma abbiamo in CONC3 tre contesti di americana (freq. 18) di MDF, un contesto di americane (freq. 11) di CDU, un contesto di americani (freq. 13), di CDU e di CD, un contesto di americano (freq. 13) di ADA e di CD, un contesto dell'apax americanina di MDF. Varianti: Eloquenzia è una delle tante varianti che non troviamo registrate nei dizionari consultati. "Beninteso. Dacché le 'parolacce', come le chiama il Trascrittore [ndr Antonio Baldini che nel 1944 pubblicò un florilegio di sonetti del Belli], sono sacre (filologicamente): non meno di qualunque altra parola o virgola o accento del testo: e l'espungerle o il mimetizzarle riescirebbe, e riuscì sempre difatti, a intollerabile profanazione." avverte Gadda in una nota del saggio 'Arte del Belli' in 'I viaggi la morte'. In questi casi abbiamo considerato la forma 'termine gaddiano' mentre le varianti riportate nei dizionari sono state ignorate o inserite in CONC4. Lo stesso comportamento ovviamente è stato adottato per termini quali gavbuglio, povesia. Bascùle, coréica sono esempi del Gadda che 'perlustra lo scibile seminando il suo discorso di minuscole invenzioni, limitandosi magari all'invenzione d'una spiritosa variante lessicale quando non ci sia proprio più nulla da inventare' (Sergio Antonielli, 'Bravura e storicità di Gadda', Belfagor, 1956/V). M/G/Z registrano il lemma bascùlla e la variante bàscula, Gadda italianizza il lemma francese bascule; G/Z ri portano il lemma corèico mentre Gadda propone una forma fedele al lemma greco choréia. Varianti con queste caratteristiche fanno parte di CONC1 quando abbiamo riscontrato che in tutto il corpus, per il lemma di riferimento, è da tenere presente solo la variante gaddiana (androgìna, androgìne); quando abbiamo verificato che vi sono anche altre forme raggruppabili sotto il lemma abbiamo deciso di registrare in CONC4 le eccezioni ( àriana rispetto ad ariana, ariani). Joniche, jodico, bajo sono forme apax caratterizzate dalla j condannata dal gusto generale ma non da Gadda che utilizza anche varianti accentate. In questo caso abbiamo registrato in CONC4 le forme con j se nel dizionario di riferimento è proposta la grafia moderna con i. Dacquarlo è un esempio di variante ortoepica sul cui uso citiamo il Nostro: "Le variazioni lessicali (sinonimi) e le varianti ortoepiche (riescire e riuscire; adacquare e dacquare, in aferesi) mi vengono buone secondo collocazione per varare al meglio o per varare all'ottimo la clausola prosodica." Per noi sono varianti valutate differentemente a seconda del responso del vocabolario. Segnaliamo ancora: I casi di occasionissima e pollarola che abbiamo registrato in CONC1 per il cambio di uso grammaticale. Il caso di idiotizzati registrato in M e non in G,Z (tenuta kaki con alamari, fez rosso e occhi idiotizzati dal pandemonio in RR1- SF.CDU.2.d.87 Pag.0199.16) è un'eccezione che ci sembra a maggior ragione opportuno evidenziare. Ramaglia è un lemma registrato in M con la spiegazione 'ripulitura dei rami' e in Z con due spiegazioni 'insieme di frasche e di rami tagliati' e 'chioma di pianta bassa', spiegazioni quasi identiche a quelle di G. In Gadda la forma ramaglia ricorre due volte, in ADA e in QP, e due sono i lemmi di riferimento in quanto in ADA è un derivato di rame mentre in QP è un calco dal francese ramaille, dal latino ramalia. Per coerenza con la decisione di ignorare le forme di freq. > 1 'accettate' dal TAGGER ramaglia non è presente in CONC3 ma neppure in CONC1, così come acmonitaglia e nichelaglia. Ribadiamo che molte forme con frequenza >1 accettate dal TAGGER sono da noi ignorate pur essendo riconducibili a lemmi non presenti nel Migliorini. Alcuni esempi sono: burocratizzata, colmigno, elongazione, festinando, orroroso. La convinzione espressa da Leibniz che 'i fatti hanno bisogno di collezioni, elenchi ed inventari, ed il metodo migliore che ci sia è quello di fare più confronti possibili e gli indici più esatti, più particolari e più diversificati che sia possibile' è stata da noi recepita in questi lavori gaddiani, con la speranza di proporre strumenti di lavoro utili e, perché no, dilettevoli. [Consultare il database per i contesti] |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
torna |