Cooccorrenze da un archivio DBT

In questa pagina proponiamo i risultati dell'applicazione della funzione cooccorrenze, una delle funzioni statistiche più significative del DBT, ad un archivio del corpus in DBT delle opere di Gadda.

Premesso che la cooccorrenza statistica è il calcolo della probabilità che hanno le parole di un testo di essere connesse, in quel testo, a una o più parole prestabilite, con l'ultima versione del DBT tale funzione può essere applicata al testo con due modalità: una interna e l'altra esterna al testo in esame.

 

Modalità interna

Nel primo caso la funzione è attiva in fase di consultazione del testo: l'utente chiede al sistema una o più parole e, se queste sono presenti nel testo, attiva la funzione suddetta, dopo aver definito l'ampiezza del contesto a cui applicarla e precisato se dal sistema devono essere considerate o ignorate le parole funzionali.

 
   

Il risultato sarà condizionato ovviamente dalle scelte fatte e quindi, ad esempio, selezionando le parole guerra, guerre, guerresco, guerriera, guerrieri, per un totale di 117 occorrenze nell'archivio GGP (Giornale di guerra e di prigionia) si ottiene, nel caso della finestra di sinistra, un sottoinsieme di 24 cooccorrenze in cui vengono tralasciate le parole funzionali, che compaiono invece nell'elenco successivo, per un totale di 60 occorrenze.

 

 
 
IMPORTANTE: cliccando su ogni riga delle precedenti tabelle vengono visualizzati i relativi contesti (ad es: guerra e volontario)
 

 

Modalità esterna

 

Nel secondo caso l'utente utilizza la funzione Cooccorrenze, senza attivare prima la consultazione di un testo, che verrà scelto dopo aver selezionato la voce Occorrenze statistiche dal Menu Indici Vari. A questo punto il sistema procede sulla base delle parole più frequenti del testo e di queste fornisce le cooccorrenze anche sulla base dei parametri indicati:

 

 

 

Ci è sembrato significativo proporre all'attenzione degli studiosi di Gadda il risultato dell'applicazione della seconda modalità, dopo aver assegnato il valore 2 a Dimensione finestra di testo e aver attivato il File di StopWord.

Per questa dimostrazione è stato scelto l'archivio GGP, contenente il Giornale di guerra e prigionia.

 

Il risultato si presenta sotto forma di tabella, dove sono presenti 6 colonne:

1

Indice

il valore risultato della formula della Mutual information

2

Distanza

la distanza media fra le due parole

3

Freq.Tot.

il contatore di cooccorrenza di Parola 1 e 2

4

Freq.1

frequenza della Parola 1 nel testo

5

Freq.2

frequenza della Parola 2 nel testo

6

Parola 1 e 2

la coppia di parole cooccorrenti

Nota: Nel primo rigo dell'elenco si trova la coppia hôtel victoria, dove risulta un valore di frequenza di cooccorrenza pari a 3, mentre victoria è presente solo 2 volte nel testo. Tale situazione si verifica per la presenza della parola hôtel sia prima che dopo victoria.

Vai all'elenco

 

torna
sali