Retrodatatore Automatico del Lessico Italiano Postunitario
ideato e realizzato da GIANLUCA BIASCI
 
HomeChe cos'è il RALIPIstruzioniFontiChi ha fatto il RALIPContatti


Che cos'è il RALIP

Il RALIP è uno strumento informatico che ha la finalità di estrarre in tempi rapidi da un testo immesso dall'utente (di cui sia noto l'anno di composizione o di pubblicazione, che deve essere compreso tra il 1861 e il 2006) le retrodatazioni in esso eventualmente contenute, a partire dal confronto con una serie di fonti di riferimento.
Il lemmario è formato da poco meno di 138.000 voci, vale a dire dalla totalità delle monorematiche e da una vasta selezione di polirematiche che nelle fonti sono registrate con una datazione coeva o successiva al 1861. Sono state però ridotte a un solo elemento le coppie di omografi che presentassero identità, oltre che di forma, anche di datazione e fonte, poiché ai fini dei risultati della ricerca avrebbero generato inutili doppioni (per esempio balto, registrato dal solo GRADIT in due voci distinte ma sempre con datazione 1967). È evidente che future ricerche in grado di retrodatare uno dei due elementi della coppia omografica (o anche entrambi, purché attestabili in anni diversi) comporterebbero una nuova entrata nel lemmario del RALIP.
Il lemmario contiene anche diverse voci non lemmatizzate dalle fonti, neppure come sottolemmi, che nel DELI si possono trovare corredate di datazioni all'interno di altri articoli lessicografici (per esempio foraggiatore, che si legge sotto foraggiare). Per l'utente sarà agevole ottenere il riscontro di queste parole utilizzando la funzione "ricerca completa nelle voci" del DELI in formato elettronico.
A tale composizione del lemmario vanno aggiunti circa mille significati, registrati in forma di entrate autonome.

OSSERVAZIONE. Il RALIP non fornisce informazioni di tipo grammaticale o semantico, per le quali occorre consultare le fonti. Conseguentemente, nessuna indicazione interviene a disambiguare gli omografi, neanche quelli non omofoni o appartenenti a categorie grammaticali diverse; tuttavia, a solo titolo sperimentale, sono stati distinti gli aggettivi in -are dai loro omografi verbali (per es. ovulare [a.] da ovulare [v.]) e i sostantivi con -io tonico da quelli con -io atono (per es. archeggio [-ìo] da archeggio [-é-]).

Per facilitare l'orientamento dell'utente e rendere più agevole la consultazione dei risultati, il lemmario è stato suddiviso nei seguenti cinque sottodizionari:

  1. base: di gran lunga il più ampio, contiene i lemmi privi di omografi più antichi che le fonti attestano fra il 1861 e il 2006. Data la sua importanza, in fase di impostazione della ricerca questo sottodizionario risulta selezionato automaticamente e non può essere deselezionato dall'utente, a differenza degli altri;

  2. omografi privilegiati: vi rientrano quei lemmi che possiedono un omografo antecedente, nei confronti del quale, tuttavia, sono parsi più comuni, come terapeuta 'medico' del 1949, rispetto alla voce più antica (1749) dal significato 'relativo alla comunità ascetica dei Terapeuti', o come campeggio del 1924 'forma di turismo, ecc.' rispetto all'omografo settecentesco dal significato di 'piccolo albero tropicale';

  3. altri omografi: ne fanno parte i lemmi che sono sembrati meno comuni di un loro omografo precedente, per es. calabrese 1981 'di Calabri' rispetto all'antichissimo omografo 'della Calabria'. Sono spesso comprese in questo sottodizionario parole con omografi anteriori ad altissima frequenza, che, se selezionate, comporterebbero la sicura presenza nei risultati di un elevatissimo numero di "falsi positivi" (per es. l'interiezione romanesca a, che collide con l'omonima e onnipresente preposizione);

  4. significati: si tratta di una selezione di lemmi che hanno sviluppato un'accezione recenziore apparsa più popolare rispetto a significati precedenti, come nel caso di aerodromo 'aeroporto, campo d'atterraggio' (1910) rispetto al senso di 'naviglio aereo' del 1822. Possono rientrare in questa categoria anche le nuove accezioni determinate da cambiamenti di categoria grammaticale (purché ciò non abbia comportato una nuova entrata nelle fonti lessicografiche), come accade per il sostantivo frigorifero 'elettrodomestico' (1908) rispetto all'aggettivo tardo-settecentesco 'che produce freddo';

  5. frequenti: questo sottodizionario contiene lemmi privi di omografi precedenti che, a causa della collisione grafica con forme ad altissima frequenza, sono stati espunti dai sottodizionari base, omografi privilegiati e significati; lo stesso trattamento è stato riservato a forme coincidenti con altre forme o lemmi assai comuni. Pochi esempi basteranno ad illustrare il tipo di espunzione operato: i lemmi chili, fai ed ero, le forme mesi, nasco e rete (queste ultime rispettivamente dalle voci meso, nascare e reto).

OSSERVAZIONE. Da quanto scritto, risulta evidente che il lemmario dei sottodizionari, ad eccezione di quello base, è stato composto secondo valutazioni personali. In particolare, è possibile che le inclusioni/esclusioni abbiano risentito della sopravvalutazione di lemmi o significati recenti rispetto a quelli più antichi.

Per ogni lemma che lo richiedesse (ad eccezione di quelli compresi nei sottodizionari altri omografi e frequenti) sono state previste le forme flesse e le varianti in misura più larga di quanto suggerito o ricavabile dalle fonti: ad esempio, per i plurali di nomi e aggettivi in -io sono state prese in considerazione le uscite -i, -ii, -î, -j anche al di qua della fase ottocentesca e primo-novecentesca.

Naturalmente, non è da aspettarsi che tutte le forme estratte dal RALIP costituiscano reali retrodatazioni. Anzi, nonostante la relegazione di moltissime forme nel sottodizionario dei frequenti, la pagina dei risultati presenta normalmente abbondanza di "falsi positivi", a causa dell'alto numero di omografi che inevitabilmente si annidano all'interno di un formario così ampio. Tra questi spiccano per ricorsività i sostantivi femminili, che non di rado coincidono con il femminile del corrispondente - e quasi sempre più comune - aggettivo o participio passato (calmata, legata, scientifica), e i sostantivi che confliggono con antroponimi e toponimi (minerva e rosalba, asiago e montecarlo); ma la casistica è molto ampia.
In ogni caso, impostando opportunamente le funzioni di ricerca e selezionando un adeguato contesto, è sempre possibile raggruppare e riconoscere a colpo d'occhio le forme estranee e quindi ignorarle.

CHE COSA TROVA IL RALIP? Il sistema è stato pensato per rintracciare all'interno del testo immesso il maggior numero possibile di forme rinviabili a lessemi che secondo le fonti di riferimento sono suscettibili di retrodatazione. Per questo motivo il RALIP prevede la possibilità che molte parole possano essere scritte in modi differenti, anche al di là delle varianti realmente documentate: per esempio, di ogni forma contenente -scie- è stata ipotizzata una possibile scrizione con -sce- e viceversa, così il programma reperirebbe il lessema anticonoscenza anche se scritto anticonoscienza e il lessema autocoscienza anche se scritto autocoscenza. In tal modo si è aumentata la probabilità di reperimento delle parole desiderate, benché, al contempo, con la proliferazione di forme cresca la possibilità di estrarre "falsi positivi".

CHE COSA NON TROVA IL RALIP? Un ostacolo al corretto funzionamento del sistema è costituito dalle forme generate da un'errata segmentazione delle parole (l'aradio invece di la radio), che possono leggersi, per esempio, nell'edizione di testi in italiano popolare. Più in generale, il RALIP incontra difficoltà con le scrizioni imprevedibili, come le parole dotate di accento grafico non obbligatorio (forme quali elicòttero e portacénere non verrebbero estratte) o le locuzioni che hanno un ordine dei componenti diverso da quello lemmatizzato (per esempio cercare per mare e per terra rispetto a cercare per terra e per mare), anche per l'inserimento occasionale di una parola "estranea" all'interno del sintagma (lavorare davvero come una bestia rispetto a lavorare come una bestia). Inoltre, posta l'improbabilità che un vezzeggiativo o uno spregiativo coincida con la prima attestazione di un lemma, il formario del RALIP di norma non prevede le forme alterate, se non quelle relative a qualche centinaio di parole ritenute più comuni: per questo motivo il sistema troverebbe aeroplanuccio ma non, per esempio, endorfinella (da endorfina).
In aggiunta alla casistica descritta è possibile che una grossa quota di parole che il RALIP non riesce a estrarre correttamente sia imputabile all'errore umano, dal momento che milioni di forme registrate avranno inevitabilmente prodotto migliaia di inesattezze.