Naar inhoud springen

Computationele taalkunde

Uit Wikipedia, de vrije encyclopedie
(Doorverwezen vanaf Natural language processing)

Computationele taalkunde is een specialisatie op het grensvlak van taalkunde en informatica/kunstmatige intelligentie waarin de computationele modellering van taalkundige verschijnselen centraal staat. Computationele taalkunde beperkt zich niet tot een specifiek domein binnen de taalkunde (syntaxis, semantiek, pragmatiek, fonetiek, fonologie, sociolinguïstiek). Het vakgebied is sterk interdisciplinair: onder meer taalkundigen, informatici, KI'ers, cognitief psychologen en logici houden zich hiermee bezig. Computationele taalkunde wordt soms wel computertaalkunde genoemd, maar die term is ambigu omdat hij ook de wetenschap van computertalen zou kunnen aanduiden. Computerlinguïstiek is wel een algemeen aanvaard synoniem. Vanuit de informatica/kunstmatige intelligentie is de term natuurlijke taalverwerking gebruikelijk, maar dit richt zich specifiek op de praktische kant van de verwerking door verschillende algoritmes[1]. Voorbeelden van onderzoeksgebieden binnen de computationele taalkunde zijn:

  • Het detecteren en corrigeren van spelfouten
  • Automatische syntactische ontleding met parsers en taggers, inclusief het toekennen van semantische rollen tussen werkwoorden en zinsdelen
  • Het bepalen van de betekenis van ambigue woorden uit hun context (woordbetekenisverheldering), en het bepalen van onderwerpen van (passages in) spraak en tekst
  • Het uitspreken van tekst met spraaksynthese
  • Het bepalen van de pragmatische bedoeling van een uiting in een dialoog
  • Automatisch samenvatten
  • Automatisch vertalen

Grammaticamodellen en parsing

[bewerken | brontekst bewerken]

Enkele grammaticamodellen die binnen de computationele taalkunde belangrijk zijn geweest, zijn de unificatiegrammatica's en verwante theorieën zoals Generalized Phrase Structure Grammar (GPSG), Head Driven Phrase Structure Grammar (HPSG), lexicale functionele grammatica, PATR en PATR-II. Verder is er bijvoorbeeld binnen de categoriale grammatica's (CG) vruchtbaar computationeel taalkundig onderzoek gedaan. Chomskyaanse theorieën zoals de regeer-en-bindtheorie of - meer recent - het minimalistisch programma, wordt wel verweten, dat ze mathematisch niet rigoureus genoeg zijn, en dat ze de semantiek te sterk loskoppelen van de syntaxis, alsof dit losse modules zouden zijn die totaal onafhankelijk van elkaar behandeld kunnen worden. Vanuit het Chomskyaanse kader worden theorieën als CG en HPSG daarentegen weer beschouwd als een technische benadering, waarbij de analyse van taalkundige verschijnselen en de verklaring daarvan ondergeschikt is.

In de computationele semantiek worden de boomstructuren die een automatische ontleder produceert vertaald naar logische formules. Deze kunnen vervolgens gekoppeld worden aan bijvoorbeeld automatische redeneerprogramma's die conclusies uit de logische formules trekken.[2]

Dialectologie

[bewerken | brontekst bewerken]

Een jong deelgebied van de computationele taalkunde is de computationele dialectologie. In dit vakgebied worden technieken als Levenshteinafstand en clusteranalyse gebruikt om een gekwantificeerde vergelijking van dialecten te maken. Met deze technieken is een nieuwe dialectkaart van Nederland opgesteld, en er is onderzoek gedaan naar de verwantschap tussen Italiaans, Latijn en Sardijns.[3]