Stop lista (wyszukiwarki)
Wygląd
Stop lista (ang. stop word) – lista słów odrzucanych przez wyszukiwarki internetowe w celu zredukowania wielkości zbiorów.
Są to słowa o małym znaczeniu (spójniki: i, oraz, lub) oraz słowa popularne (mp3, sex), czyli niewpływające na identyfikację dokumentu. Listy takie można utworzyć dla określonej dziedziny lub dla określonego języka. Istnieją stop-listy dla języka angielskiego, zawierające ok. 450 słów.
Usuwanie wyrazów nieznaczących z tekstu może się odbywać w następujący sposób:
- słownikowy – z tekstu usuwane są wyrazy wymienione w specjalnym słowniku,
- statystyczny – z tekstu usuwane są wyrazy, których częstość występowania znajduje się w założonym przedziale,
- hybrydowy – połączenie powyższych technik.