Vai al contenuto

Controllo ortografico

Da Wikipedia, l'enciclopedia libera.

Nell'informatica, il controllo ortografico è un'applicazione che contrassegna le parole di un documento scritte non correttamente. I controllori[Nota 1] ortografici possono, in effetti, essere programmi autonomi (standalone, in inglese)[Nota 2] in grado di operare su un blocco di testo, oppure essere incorporati in applicazioni "maggiori", come un elaboratore di testi, un client di posta, un dizionario elettronico o un motore di ricerca.

Funzionamento

[modifica | modifica wikitesto]
Erronea grafia dell'espressione "Chop Suey"[1] in un menu di ristorante (Kandy, Sri Lanka).

I correttori ortografici base operano sulle singole parole, controllando se ciascuna di esse è presente nel dizionario interno del programma, eventualmente eseguendo la "tematizzazione" (stemming) della parola vagliata. Se quest'ultima non si trova nel dizionario, viene considerata errata, e di conseguenza il programma suggerisce una correzione sulle presunte intenzioni dello scrivente. Un algoritmo di suggerimento di questo tipo consiste nel raggruppare logicamente quelle parole del dizionario che presentino una distanza di Levenshtein ragionevolmente breve rispetto a quella digitata, ossia formata con l'uso della tastiera dall'utente assistito dal programma di correzione.

Quando viene rilevata una parola non presente nel dizionario, la maggior parte dei controllori ortografici dà la possibilità di aggiungerla alla lista delle parole corrette, che in quanto tali non vengono evidenziate; inserendo la parola "sbagliata" nell'elenco di cui al testo principale, si otterrà coerentemente che il correttore ignori in prosieguo tale supposto errore, ampliando di fatto il vocabolario della macchina con cui si sta scrivendo.

Elementi di architettura logico-programmatoria

[modifica | modifica wikitesto]

Di norma, un controllo ortografico consta di due parti:

  1. un set di routine (scanning routine) per analizzare sequenzialmente il testo estraendo le parole non riconosciute;
  2. un algoritmo per confrontare le parole estratte con una lista nota di parole dalla grafia corretta (ossia, il più volte nominato dizionario).

Le scanning routines a volte comprendono algoritmi dipendenti dal linguaggio per trattare la morfologia. Anche in una lingua dalla modesta flessione come l'inglese, le routine di estrazione debbono tener conto di fenomeni quali le contrazioni (es. don't, isn't) e il possessivo (es. tomorrow's meeting). È controverso se l'analisi morfologica arrechi un vantaggio significativo.[2]

La lista di parole può contenere soltanto un elenco di vocaboli, oppure anche informazioni aggiuntive, come punti di sillabazione o attributi grammaticali o lessicali.

Oltre a queste due componenti, l'interfaccia utente permetterà agli utilizzatori di approvare le sostituzioni, e anche di modificare, all'occorrenza, il funzionamento del programma.

Un'eccezione al paradigma che abbiamo testé delineato è dato da quei particolari correttori il cui uso si basa esclusivamente su informazioni statistiche, per esempio ricorrendo agli n-gram.[3] Questo approccio di solito esige un ragguardevole sforzo per ottenere informazioni statistiche sufficienti, e può richiedere una quantità ancor più grande di runtime storage.[4] Attualmente questi metodi non sono di uso generale. In alcuni casi i correttori usano una lista fissa di refusi con i relativi suggerimenti; questo approccio meno flessibile è più caratteristico di quel surrogato del controllo ortografico che nelle enciclopedie cartacee è rappresentato dai richiami vedi anche.

I primi controllori ortografici erano largamente disponibili sui mainframes dei primi anni settanta. Un gruppo di sei linguisti della Georgetown University sviluppò il primo sistema di controllo ortografico per la IBM.[5] I primi correttori per personal computer comparvero nel 1980 per gli elaboratori CP/M e TRS-80, seguiti da pacchetti applicativi per PC IBM al debutto di quest'ultimo (l'anno successivo). Sviluppatori quali Maria Mariani, Soft-Art, Microlytics, Proximity, Circle Noetics, and Reference Software immisero rapidamente sul mercato (in celere espansione) pacchetti OEM o prodotti per l'utente finale, soprattutto per piattaforma PC, ma non mancarono le versioni Apple Macintosh, VAX, e Unix. Sui PC, questi controllori ortografici erano programmi a sé, e molti potevano essere avviati nella modalità Terminate and Stay Resident[6][7] dall'interno dei pacchetti di videoscrittura sulle macchine dotate di sufficiente memoria.

Tuttavia, il mercato dei pacchetti standalone ebbe vita breve, poiché dalla metà degli anni ottanta gli sviluppatori di pacchetti di word processing di successo — quali WordStar e WordPerfect — avevano incorporato i controllori nei loro pacchetti, in gran parte licenziati dalle compagnie omonime, che presto avrebbero esteso la capacità di analisi e correzione dal solo inglese alle altre lingue europee, e poi perfino alle lingue afro-asiatiche. Questo però richiese una sempre maggior sofisticazione nelle routine morfologiche del software, segnatamente per le lingue dalla flessione complessa come l'ungherese ed il finlandese. Sebbene le dimensioni del mercato word processing di un paese come l'Islanda non giustificassero, in termini puramente economici, l'investimento necessario ad implementare la localizzazione dello specifico correttore, nondimeno compagnie quali WordPerfect tentarono di proporre il massimo numero di localizzazioni per ciascun idioma, soprattutto in omaggio alla propria strategia di marketing globale.

Successivamente, il controllo ortografico ha cessato di essere una prerogativa degli elaboratori di testo, visto che il browser Firefox (a partire dalla versione 2.0) fornisce assistenza ortografica per i contenuti web "autoprodotti", come nella scrittura di Wikitext,[8] di molti siti di webmail, e di social networking. I browser Konqueror e Opera, il client di posta elettronica Kmail ed il client di instant messaging Pidgin offrono supporto ortografico, dichiaratamente adoperando GNU Aspell quale "motore".[9] macOS ha ora il controllo ortografico praticamente in ogni applicazione fornita in bundle, e anche molte terze parti ne traggono profitto. In particolare, Safari, Mail, ed iChat (per nominare solo le applicazioni più famose della piattaforma di Apple) godono del controllo ortografico.

Aspetti ergonomici

[modifica | modifica wikitesto]

I primi controllori ortografici erano "verificatori" piuttosto che "correttori". Non proponevano alcun suggerimento su come correggere gli errori di scrittura. Andavano bene per i refusi in senso stretto, ma non altrettanto per gli errori logici o fonetici (nella lingua inglese, considerata la sua netta divaricazione tra ortografia e pronuncia, gli omofoni sono un fenomeno particolarmente insidioso). La sfida che gli sviluppatori dovevano affrontare era proprio nella difficoltà di offrire suggerimenti utili per gli errori di scrittura. Il percorso passava attraverso la riduzione delle parole ad una forma scheletrica e l'impiego di algoritmi pattern-matching.[10]

Potrebbe sembrare logico che, qualora i dizionari per il controllo ortografico fossero costruiti con la massima del "più roba c'è, meglio è", le parole esatte non venissero inopinatamente segnate come errate. In pratica, però, una misura ideale per l'inglese sembra aggirarsi sulle 90 000 voci.[Nota 3] Se si supera questa soglia, gli errori di battitura verranno più facilmente ignorati, perché confusi con vocaboli esistenti ma di uso improbabile, nel contesto statisticamente più prevedibile. Per esempio, un linguista può determinare con l'ausilio della linguistica dei corpora[11] che la parola "baht" è più comunemente un refuso per bath (bagno) o bat (mazza, o anche pipistrello), invece che un riferimento intenzionale alla valuta thailandese. Tanto premesso, è generalmente preferibile che siano un po' svantaggiate le poche persone che scrivono della valuta thailandese, invece che permettere che siano ignorati gli errori di battitura (frequentissimi) di chi fa riferimento ai due ricorrenti vocaboli ut supra.

I primi correttori ortografici per MS-DOS erano utilizzati soprattutto nella modalità "correttore di bozze" dall'interno di pacchetti di videoscrittura. Dopo aver preparato un documento, l'utente faceva scorrere dal controllore ortografico il testo, alla ricerca di refusi. Più tardi, comunque, il batch processing fu offerto da pacchetti come l'effimero CoAuthor[12] di Oracle. Questo permetteva all'utente di esaminare i risultati dopo che l'elaborazione del documento, e correggere solo le parole che detto utente riconosceva errate. Quando le risorse di memoria ed elaborazione divennero abbondanti, il controllo ortografico poté essere eseguito in background e in modo interattivo, come nel caso di Sector Software con il suo Spellbound del 1987,[13] e di Microsoft Word a partire dalla versione Word 95.

Negli anni più recenti, i correttori sono divenuti sempre più sofisticati; alcuni sono in grado di riconoscere semplici errori grammaticali. Ad ogni modo, anche nella più favorevole delle ipotesi, raramente riescono a "catturare" tutti gli errori in un testo (come nelle ipotesi di omonimia, ad esempio) e per giunta marchiano invece come errori neologismi e certe parole straniere.

Controllo ortografico in lingue diverse dall'inglese

[modifica | modifica wikitesto]

Una particolarità dell'inglese consiste nel fatto che le parole usate nella scrittura formale hanno per lo più un'ortografia sola, che può essere reperita in un tipico dizionario, tranne alcune parole di gergo, o modificate. In molte lingue, però, è normale combinare le parole in modi nuovi. In tedesco, si coniano spesso parole composte unendo nomi esistenti. Alcuni scripts non separano in modo esatto una parola dall'altra, richiedendo specifici algoritmi. Ogni lingua di questo genere presenta ardue sfide ai correttori per le lingue non-inglesi.

Correttori sensibili al contesto

[modifica | modifica wikitesto]

Per superare i limiti del controllo ortografico tradizionale sono stati condotti studi tendenti a sviluppare algoritmi in grado di riconoscere una parola errata, anche se presente nel vocabolario, mediante l'analisi del contesto rappresentato dalle parole circostanti. Oltre a limitare la possibilità che vi siano malintesi, questi meccanismi informatici dovrebbero contenere l'aspetto svantaggioso (già precisato) che accompagna tendenzialmente l'ampliamento dei dizionari, consentendo però un generale riconoscimento delle parole errate in virtù della riscontrata coerenza (o incoerenza) con il contesto. L'esempio più comune degli errori scoperti con gli accorgimenti in questione è dato dagli omofoni, quali le parole formattate in grassetto nella frase che segue:

Their coming too sea if its reel.

La frase, scritta in quel modo, non ha senso. La grafia corretta sarebbe stata: They're coming to see if it's real. ("[Essi] stanno venendo a vedere se è vero"). Le due frasi si pronunciano allo stesso modo in inglese, ma solo la seconda ha senso, anche se tutti i vocaboli omofoni della prima sono esistenti e corretti, ma inadatti allo specifico contesto.

Un esempio di tali algoritmi è opera di Andrew Golding e Dan Roth, ossia il Winnow-based spelling correction algorithm[14], pubblicato nel 1999, in grado di riconoscere circa il 96% degli errori "sensibili al contesto", oltre ai normali errori ortografici.

Le ricerche teoriche hanno già trovato applicazioni commerciali: un correttore sensibile al contesto appare in Microsoft Office 2007[15][16] in Google Wave,[17] nel Ginger Software[18] e in Ghotit Dyslexia Software[19] un correttore sensibile al contesto ottimizzato per assistere persone dislessiche.

Alcuni detrattori della tecnologia e dei computer hanno ipotizzato un nesso tra l'uso dei correttori ortografici e la tendenza a un calo generalizzato della competenza nello scrivere, nel leggere e nell'espressione verbale. Essi assumono che la comodità offerta dagli elaboratori elettronici abbia indotto la massa a divenire pigra, al punto che molti avrebbero abdicato alla rilettura dei loro scritti, rimpiazzata da una semplice "passata" con il correttore ortografico. I fautori dell'informatica ribattono, invece, che dette innovazioni possano principalmente giovare alla società, visto che rendono più semplici al grande pubblico la scrittura e l'apprendimento di nuove lingue. I "tecnofili" affermano che le abilità perdute a causa dell'introduzione di correttori automatici siano state compensate da attitudini ancor migliori, come ad esempio strumenti di ricerca superiori in efficacia e velocità. Altri sostenitori della tecnologia sostengono che le competenze indicate sopra non sono state perdute da chi ne fa uso con regolarità, come autori, critici e professionisti della lingua.[20]

Un buon esempio dei problemi che possono essere sorgere da un cieco e completo affidamento alle abilità dei correttori automatici è il componimento Spell Checker Poem[21], originariamente creato da Jerrold H. Zar nel 1991, con l'aiuto di Mark Eckman.[22] La poesia originale constava di 225 parole, di cui 123 usate scorrettamente di proposito. Si tratta di un testo ineccepibile per la maggior parte dei correttori ortografici, anche se la maggior parte degli anglofoni potrebbe dire a colpo d'occhio che si tratta di un testo zeppo di errori.

Annotazioni
  1. ^ Per comodità, in questa voce le espressioni "controllo", "controllore" e "correttore" ortografico sono considerate equivalenti.
  2. ^ In questa voce i termini tecnici vengono riportati, dove opportuno, con i loro riferimenti inglesi.
  3. ^ L'Oxford English Dictionary del novembre 2005 riporta oltre 600 000 voci. Il Webster's Third New International Dictionary si limita oggi a 475 000, indicando che il numero effettivo è molto più alto. È stato stimato che ne aggiunga 25 000 all'anno. (Kister, Ken. "Dictionaries defined." Library Journal, 6/15/92, Vol. 117 Issue 11, p43, 4p, 2bw)
Fonti
  1. ^ Chop Suey (Snopes.com).
  2. ^ A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine, articolo di Ilya Segalovich (Company.yandex.ru) (XML).
  3. ^ Stochastic Language Models (N-Gram) Specification.. Un n-gram è una sotto-sequenza di n oggetti di una data sequenza.
  4. ^ RUN-TIME STORAGE, Chuen-Liang Chen (Department of Computer Science and Information Engineering National Taiwan University) (PPT). URL consultato il 28 agosto 2008 (archiviato dall'url originale il 27 gennaio 2005).
  5. ^ Faculty & Staff: The Center for Language, Education & Development (archiviato dall'url originale il 5 febbraio 2009).
  6. ^ Un esempio della prima ora di programma operante in modalità "TSR".
  7. ^ What is Terminate and Stay Resident? (Indiana University — University Information Technology Services).. In parole povere, la modalità TSR qui accennata costituiva, nell'ambito DOS, un efficace espediente per simulare un'effettiva capacità multitasking come quella che sarebbe diventata comune negli elaboratori di epoche più recenti.
  8. ^ What you see is Wiki - Questioning WYSIWYG in the Internet Age (PDF) (archiviato dall'url originale il 3 ottobre 2008).
  9. ^ Sito ufficiale.
  10. ^ A Gentle Introduction to Haskell, Version 98 (Haskell.org).. In informatica, pattern matching è l'operazione di controllare la presenza dei componenti di un pattern dato.
  11. ^ Introduzione alla linguistica generale (Bmanuel.org).. È lo studio del linguaggio quale risulta da campioni (corpora) di testo del "mondo reale".
  12. ^ Oracle's Linguistic Gold Mine (Lim.nl), su lim.nl. URL consultato il 31 agosto 2008 (archiviato dall'url originale il 15 giugno 2008).
  13. ^ Sector Software - History (Sectorsoftware.demon.co.uk), su sectorsoftware.demon.co.uk. URL consultato il 31 agosto 2008 (archiviato dall'url originale l'11 maggio 2008).
  14. ^ A Winnow-Based Approach to Context-Sensitive Spelling Correction[collegamento interrotto]., in «Machine Learning», febbraio 1999, volume 34, n. 1-3, pp 107-130
  15. ^ CorrecteurOrthographiqueOffice : Contextual spelling in the 2007 Microsoft Office system.
  16. ^ Walt Mossberg, Review, Wall Street Journal, 4 gennaio 2007. URL consultato il 24 settembre 2010 (archiviato dall'url originale il 30 giugno 2007).
  17. ^ Google Operating System, su googlesystem.blogspot.com. URL consultato il 25 settembre 2010.
  18. ^ Ginger Software - The World's Leading Grammar and Spell Checker, su Gingersoftware.com, Gingersoftware.com.com. URL consultato il 19 giugno 2011.
  19. ^ Ghotit Dyslexia Software for People with Learning Disabilities, su Ghotit.com. URL consultato il 25 settembre 2010.
  20. ^ Baase, Sara. A Gift of Fire: Social, Legal, and Ethical Issues for Computing and the Internet. 3. Upper Saddle River: Prentice Hall, 2007. Pages 357-358. ISBN 0-13-600848-8.
  21. ^ Testo completo (Paulhensel.org).
  22. ^ The Spell Checker Poem (About.com). URL consultato il 31 agosto 2008 (archiviato dall'url originale il 31 gennaio 2009).

Voci correlate

[modifica | modifica wikitesto]

Altri progetti

[modifica | modifica wikitesto]

Collegamenti esterni

[modifica | modifica wikitesto]
  Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica