Hoppa till innehållet

Taligenkänning

Från Wikipedia
Uppslagsordet ”ASR” leder hit. För ASR hos fordon, se Antispinn.

Taligenkänning, ASR (engelska automatic speech recognition), kallas processen att elektroniskt eller datatekniskt tolka mänskligt, naturligt tal. Naturligt tal räknas som ett viktigt steg för att få intuitiva människostyrda gränssnitt till datorer.

Taligenkänning bör inte blandas ihop med röstigenkänning, som behandlar identifiering av vem som talar.

Det bedrivs omfattade forskning kring förståelsen av naturligt tal. Moderna taligenkänningssystem bygger oftast på statistiska metoder där tal tolkas i flera nivåer med hjälp av hypoteser och grammatiker som definierar troliga/kända kombinationer av språkelement. I mer avancerade system är dessa modeller ofta adaptiva och därmed öppna för inlärning av nya grammatikelement genom en halvautomatisk analys av vilka fraser som misslyckas att bli korrekt förstådda, följt av korrigering av de grammatiska och akustiska modellerna.

Nivåer i ASR:

  1. akustik - identifiering av fonem, dvs. ljudstyrka för frekvenserkombinationer och akustiskt förlopp
  2. ord - ihopsättning av fonem
  3. ordföljder - urval av troligaste ordföljder jämfört med en stor databas med talat språk
  4. grammatik - verifiering av hypotetiska ordföljder mot grammatik som gäller för den specifika domänen (till exempel en grammatik för biljettbokningar innehåller vanliga fraser och meningar som har med biljetter att göra, men det finns ingen anledning att till exempel ha med grammatik för fotbollssammanhang)
  5. semantik - uttydning av informationsbärande element

Enklare ASR förväntar sig enkla svar på frågor, till exempel

Fråga: Vart vill du åka? Ange orten! Svar: Malmö Fråga: Varifrån vill du åka? ange orten! Svar: Kiruna

ASR som kan hantera fritt tal kan under optimala omständigheter klara av komplicerade utsagor som till exempel:

Fråga: Beskriv din resa! Svar: Jag vill ta tåget från Kiruna till Malmö, andra klass.

Då folk inte talar grammatiskt, och ofta stakar sig så måste man kunna filtrera bort harklingar, upprepade ord, otydliga ord, ord utan betydelse, till exempel

Svar: Hmmm Ja just det, vi tar tåget, ta tåget från.. från öööö Kiru.. Kiruna var det till Skåne, till Malmö, ja just det till öööö Malmö skall jag åka.

Externa länkar

[redigera | redigera wikitext]