Taligenkänning
Den här artikeln behöver källhänvisningar för att kunna verifieras. (2016-06) Åtgärda genom att lägga till pålitliga källor (gärna som fotnoter). Uppgifter utan källhänvisning kan ifrågasättas och tas bort utan att det behöver diskuteras på diskussionssidan. |
- Uppslagsordet ”ASR” leder hit. För ASR hos fordon, se Antispinn.
Taligenkänning, ASR (engelska automatic speech recognition), kallas processen att elektroniskt eller datatekniskt tolka mänskligt, naturligt tal. Naturligt tal räknas som ett viktigt steg för att få intuitiva människostyrda gränssnitt till datorer.
Taligenkänning bör inte blandas ihop med röstigenkänning, som behandlar identifiering av vem som talar.
Det bedrivs omfattade forskning kring förståelsen av naturligt tal. Moderna taligenkänningssystem bygger oftast på statistiska metoder där tal tolkas i flera nivåer med hjälp av hypoteser och grammatiker som definierar troliga/kända kombinationer av språkelement. I mer avancerade system är dessa modeller ofta adaptiva och därmed öppna för inlärning av nya grammatikelement genom en halvautomatisk analys av vilka fraser som misslyckas att bli korrekt förstådda, följt av korrigering av de grammatiska och akustiska modellerna.
Nivåer i ASR:
- akustik - identifiering av fonem, dvs. ljudstyrka för frekvenserkombinationer och akustiskt förlopp
- ord - ihopsättning av fonem
- ordföljder - urval av troligaste ordföljder jämfört med en stor databas med talat språk
- grammatik - verifiering av hypotetiska ordföljder mot grammatik som gäller för den specifika domänen (till exempel en grammatik för biljettbokningar innehåller vanliga fraser och meningar som har med biljetter att göra, men det finns ingen anledning att till exempel ha med grammatik för fotbollssammanhang)
- semantik - uttydning av informationsbärande element
Enklare ASR förväntar sig enkla svar på frågor, till exempel
Fråga: Vart vill du åka? Ange orten! Svar: Malmö Fråga: Varifrån vill du åka? ange orten! Svar: Kiruna
ASR som kan hantera fritt tal kan under optimala omständigheter klara av komplicerade utsagor som till exempel:
Fråga: Beskriv din resa! Svar: Jag vill ta tåget från Kiruna till Malmö, andra klass.
Då folk inte talar grammatiskt, och ofta stakar sig så måste man kunna filtrera bort harklingar, upprepade ord, otydliga ord, ord utan betydelse, till exempel
Svar: Hmmm Ja just det, vi tar tåget, ta tåget från.. från öööö Kiru.. Kiruna var det till Skåne, till Malmö, ja just det till öööö Malmö skall jag åka.
Se även
[redigera | redigera wikitext]Externa länkar
[redigera | redigera wikitext]- Wikimedia Commons har media som rör Taligenkänning.
|