WikiWoordenboek:Woordfrequentie in het Nederlands
Deze projectpagina beschrijft bevindingen van verkennend onderzoek of het mogelijk is op basis van open bronnen tot een goede lijst van woordfrequenties in het Nederlands te komen. Deze pagina geeft vooral de resultaten van de verkenning. Opvattingen en discussie over wat wenselijk is en verdere suggesties zijn welkom op de Overlegpagina.
Inleiding
[bewerken]Niet alle woorden uit een taal worden even vaak gebruikt. Voor iemand die een taal leert is het handig om te weten wat de meest gebruikte woorden zijn. Zo bleek bij een groot onderzoek naar Nederlandse teksten dat de 8 woorden ik, je, het, de, dat, is, niet en een samen 20 % van alle gesproken tekst uitmaken en dat 61 woorden samen goed waren voor de helft van alle gebruikte woorden. Enkele andere gegevens zijn samengevat in onderstaande tabel.
meestgebruikte woorden | gezamenlijk aandeel |
---|---|
8 | 20 % |
61 | 50 % |
1.000 | 82 % |
2.000 | 87 % |
3.000 | 90 % |
Toepassingsmogelijkheiden
[bewerken]Als je begrijpelijk wil schrijven helpt het ook om woorden te kiezen die veel worden gebruikt. Ook bij het verder ontwikkelen van een woordenboek is het handig om te weten wat meer- en mindergebruikte woorden zijn. Zo is de lijst van Open Subtitles al gebruikt om WikiWoordenboek aan te vullen. Het kan ook handig zijn om prioriteiten te stellen bij andere verbeteringen aan het woordenboek. Als de uitkomst voldoende degelijk is, zouden we de informatie ook op de Nederlandse lemma's kunnen weergeven, net zoals we dat voor enkele andere talen al doen.
Bestaand onderzoek
[bewerken]Onderzoek naar woordfrequentie dient om een indruk te krijgen hoe veel of weinig een woord gebruikt wordt. Voor dit onderzoek wordt een groot aantal teksten verzameld en opgedeeld in losse woorden die vervolgens worden geturfd. Uiteraard hangt het resultaat ook af van de teksten die zijn meegenomen. Uit welke periodes komen de teksten, uit welke delen van het taalgebied, ging het om geschreven of gesproken tekst, voor welk publiek waren ze bedoeld en waar gingen ze over: het heeft allemaal invloed op het resultaat. Zo vind je begrippen uit de landbouw en de zeilvaart veel meer in oude teksten, en zijn termen die met internet te maken hebben meer iets van de 21e eeuw. In Nederlandse teksten lees je vaker vacaturestop en in Belgische aanwervingsstop. Ik en jij komen in geschreven taal veel minder vaak voor dan in gesproken taal. De gemelde frequenties van woorden hebben dus nooit een algemene geldigheid. Hun waarde wordt beïnvloed door de mate waarin de herkomst van de gebruikte teksten overeenkomt met het doel waarvoor je de frequenties wil gebruiken. Voor "algemeen" gebruik helpt het als de verscheidenheid van teksten groot is. Daarnaast helpt het erg als het aantal getelde woorden groot is. In 1975 waren enkele honderdduizenden woorden al goed voor een wetenschappelijke publicatie, tegenwoordig gaat het om tientallen miljoenen woorden.
Woordfrequenties uit open bronnen
[bewerken]Het ligt voor de hand dat woordfrequentie nuttige informatie in een woordenboek kan zijn. Helaas zijn de resultaten van wetenschappelijk onderzoek naar het Nederlands niet onder een voldoende vrije licentie beschikbaar om in WikiWoordenboek te gebruiken. Maar er zijn van Open Taal en Open Subtitles wel bestanden met frequenties beschikbaar. Doel van deze projectpagina is om na te gaan of hieruit voor WikiWoordenboek bruikbare woordfrequenties zijn af te leiden.
Kenmerken van beide bestanden
[bewerken]- Beide bestanden bevatten "tokens": de stukjes tekst die je overhoudt als je uitzeeft wat er tussen spaties en andere woordscheidingstekens staat. In WikiWoordenboektermen zijn dat meestal de woordvormen waar wij een pagina voor maken en dat sluit dus aardig aan. Maar je kunt bij "zijn" niet zien hoe vaak het als werkwoord en hoe vaak het bezittelijk voornaamwoord werd gebruikt.
- Beide bestanden komen ongeveer uit dezelfde periode, zo rond 2010.
- Beide bestanden bevatten woorden die geen correct Nederlands zijn: spel- en scanfouten en woorden uit andere talen.
Kenmerken van Open Subtitles
[bewerken]- Dit zijn twee bestanden, 2011 en 2012 die een forse overlap vertonen, er zijn woorden bijgekomen en verdwenen, maar over het geheel genomen bevat 2012 iets meer woorden en wat hogere totalen per woord. Bij een beperkt aantal woorden is er een relatief groot verschil tussen beide jaren: dit lijken correcties.
- Hoofdletters, punten en apostrofs ontbreken.
- Diacritische tekens worden weergegeven, maar ook tekens die in het Nederlands niet voorkomen.
- Er staan nogal wat namen en spreektaalwoorden in die Engelstalig zijn.
- Bevat meer spreektaal.
Kenmerken van Open Taal
[bewerken]- Dit bestand is veel groter: het bevat een ordegrootte meer woorden en hogere aantallen.
- Diacritische tekens ontbreken.
- Er zijn ook woorden met hoofdletters en punten erin.
- Er staan nogal wat woorden uit vreemde talen en urls in.
- Bevat meer schrijftaal.
Aanpak
[bewerken]Een bruikbare lijst vereist allereerst het uitziften van de correct gespelde Nederlandse woorden. Kwestie van alle vormen vergelijken met het Groene Boekje. Om te beginnen is er een lijst gemaakt met de woorden die in een identieke schrijfwijze zowel in de lijst van Open Taal als in een lijst met ondertitels voorkomen, zodat één keer nagaan voor beide lijsten genoeg is. Dit zijn een kleine 200.000 woorden, dus deze klus gaat wel even duren.
Kwesties
[bewerken]Kwaliteit van de bestanden
[bewerken]Enige verkenning met de meest frequente woorden levert de volgende kwesties op:
- Woorden die toch wel in het woordenboek en in de telling horen
- ouderwetse verbogen vormen van woorden die het Groene Boekje alleen in vaste verbindingen vermeld
- verbogen vormen die het Groene Boekje niet vermeldt
- Woorden die na een correctie en met corresponderende aanpassing van de telling wel in WikiWoordenboek horen
- afkortingen zonder punt
- woorden die ten onrechte aaneengeschreven zijn
- afleidingen van namen zonder hoofdletter
- overige fout gespelde woorden
- goed herkenbare scanfouten
- Woorden die misschien wel in WikiWoordenboek horen, maar in eigenlijk niet in de telling voor het Nederlands
- woorden uit vreemde talen
- voornamen (vaak Engels)
- plaatsnamen
- html-codes, die kennelijk in de tekst zijn beland
- Woorden die niet in WikiWoordenboek horen en eigenlijk buiten de telling horen te blijven
- url's
- achternamen (vaak Engels)
Het lastige bij het ziften is dat er ook correct gespelde woorden zijn, die heel veel voorkomen omdat ze niet zijn te onderscheiden van één van de hiervoor genoemde fouten. De verkeerd gespelde naam "Ben" laat zich niet meer onderscheiden van de werkwoordsvorm "ben". En "mr" is zonder punt een correcte afkorting van medezeggenschapsraad, met punt een academische titel maar het is plausibel dat het in ondertitels veel vaker gaat om het Engelse "mister".
Welk bestand als uitgangspunt nemen?
[bewerken]De verschillen tussen de bestanden (Open Subtitles versus Open Taal en Open Subtitles onderling) leidden tot enig onderzoek of een combinatie van deze gegevens tot een voor WikiWoordenboek optimaal resultaat zou kunnen leiden: beide bestanden hebben immers hun sterke kanten. Als we deze bestanden vergelijken met bestanden waarin voor tienduizenden woorden is onderzocht hoeveel Belgen en Nederlanders ze (her-)kennen is er een opvallende conclusie: de correlatie met het bestand van Open Taal is duidelijk groter dan die van de beide bestanden uit Open Subtitles en het lukt niet een combinatie van gegevens uit beide bronnen te maken die nog beter correleert: op het niveau van afzonderlijke woorden kun je gemakkelijk zien wat de vreemde uitschieters omhoog en omlaag zijn, maar met welke weegfactoren je de bestanden in hun geheel ook combineert, het leidt niet tot een betere score dan Open Taal op zichzelf al oplevert. Tegenover de woorden waar Open Subtitles vooral de spreektaal beter weerspiegelt, staan ook woorden die vrijwel ontbreken of juist heel veel voorkomen omdat ondertitels natuurlijk niet echt een doorsnee van het normale taalgebruik vormen. Dit leidt tot de slotsom dat het voor de frequentiegegevens beter is om het bestand van Open Taal als basis te nemen. De gegevens uit Open Subtitles kunnen dan daarnaast worden vermeld, omdat overeenkomst of verschil wel degelijk informatief is. Naast het feit dat Open Taal beter correleert met de waargenomen bekendheid van woorden is een ander voordeel dat dit bestand veel meer verschillende woorden omvat en dus vaker uitsluitsel geeft.
Welke maatstaf voor frequenties gebruiken?
[bewerken]Je kunt de frequentie van woorden op verschillende manieren weergeven.
- Het absolute aantal keren dat een woord in de onderzochte teksten voorkwam, de absolute frequentie. Voordeel: dit is een feitelijk gegeven dat weinig uitleg behoeft. Nadeel: de getallen kunnen bij een groot bestand als Open Taal heel ver uit elkaar liggen en zijn dan cijfermatig moeilijk te interpreteren. Bovendien zijn de resultaten uit verschillende onderzoeken dan lastig te vergelijken.
- Het aantal keren dat een woord voorkomt gedeeld door het totale aantal woorden uit de teksten voorkwam, de relatieve frequentie. De vergelijking tussen bestanden wordt dan eenvoudiger, maar de waarden zijn nu merendeels zeer kleine getallen tussen 0 en 1 die nog steeds moeilijk te interpreteren zijn.
- Onderzoekers aan de Universiteit van Gent die woordfrequenties in verschillende talen onderzoeken, hebben als oplossing de Zipf voorgesteld (genoemd naar een beroemde onderzoeker van woordfrequenties): vermenigvuldig de relatieve frequentie met een miljard en neem daar de log10 van. Dit levert theoretisch per definitie een waarde tussen 0 en 9 en in de praktijk scores tussen 1 en 8 op.
- De relatieve frequentie kan ook ten opzichte van het meest frequente woord worden berekend. Belangrijk bezwaar is dat niet elk onderzoek voor dezelfde taal op hetzelfde meest frequente woord blijkt uit te komen: bij Open Taal is het "de", bij Open Subtitles "ik".
- Een andere benadering is om de woorden in volgorde van hun frequentie te zetten en te vermelden het hoeveelste woord het in die rangorde is. Dit werkt aardig bij de top van de lijst, maar naarmate de lijst langer wordt zijn er steeds meer woorden met een gelijke frequentie.
Alles afwegend lijkt voor dit project de Zipf het meest geschikt.
Tussenresultaat
[bewerken]Hieronder als eerste indruk een lijstje met de 1000 meest frequente woorden. Hierbij zijn bij een eerste benadering de frequenties zo gewogen dat Open Taal en Open Subtitles even veel effect hebben, en binnen Open Subtitles zo dat 2012 drie keer meer effect heeft dan 2011. Voor een definitieve lijst zou het aardig zijn om na te gaan welke wegingsfactoren een resultaat opleveren dat het meest consistent is met grotere onderzoeken. Het getal tussen haakjes geeft aan dat een woordvorm volgens het Groene Boekje bij meerdere woorden hoort.
- de
- het (2)
- ik
- je (2)
- van (2)
- een (3)
- is
- dat (3)
- en
- in (2)
- niet (6)
- op
- te
- zijn (2)
- voor (4)
- met (2)
- wat (4)
- die (2)
- we
- er
- maar (4)
- ze
- hij
- als
- aan (2)
- om (2)
- heb (2)
- me (2)
- dan (3)
- naar (3)
- dit
- was (6)
- ook
- ben (2)
- nog
- kan (2)
- u (2) ook: U
- heeft (2)
- of
- mijn (3)
- geen
- wel (4)
- hebben
- bij (3)
- hier
- zo (4)
- over (3)
- moet (3)
- uit (2)
- worden
- jij (2)
- weet (3)
- goed (2)
- wil (2)
- door (2)
- deze
- nu (3)
- ja
- hem (2)
- waar (5)
- meer (4)
- al (4)
- gaan
- wordt
- zal
- hoe
- haar (5)
- nee
- zou
- doen (2)
- kunnen (2)
- tot (2)
- mij (2)
- daar (2)
- ga
- gaat
- ons (4)
- kom (2)
- bent (2)
- moeten (2)
- had
- iets
- jullie (2)
- hebt
- laat (3)
- waarom
- dus (2)
- alleen
- jaar
- eens
- toch
- veel (4)
- zich
- zien
- alles
- wie (2)
- weg (3)
- echt (3)
- hun
- doe
- komt
- weer (7)
- denk
- mensen
- mee (2)
- komen
- jou (2)
- man (2)
- wij
- laten (2)
- andere (2)
- maken
- twee (2)
- tegen (2)
- terug
- nooit
- even
- m (2) ook: 'm
- onze
- tijd
- nou (2)
- niets (2)
- zij (3)
- heel (2)
- n ook: 'n
- werd
- omdat
- zei
- nodig (2)
- af
- leven (2)
- misschien
- zoals
- zeggen (2)
- uw
- iemand
- onder
- alle
- eerste (2)
- altijd
- na (3)
- hou
- toen (2)
- gewoon
- mag
- staat (2)
- weten (2)
- net (3)
- zit (2)
- nieuwe (2)
- dag (5)
- kijk (2)
- zullen
- binnen (2)
- zeg (3)
- zeker (2)
- willen
- zie
- gedaan (2)
- waren (4)
- keer (2)
- grote (2)
- allemaal (2)
- kunt
- t ook: 't
- doet
- dood (3)
- toe (3)
- geld (2)
- huis (2)
- erg (2)
- werk (2)
- anders
- beter (3)
- uur
- drie (2)
- geef
- vrouw
- wacht (3)
- zitten
- vinden
- zelf
- elkaar
- steeds (2)
- geven
- iedereen
- zegt
- eigen (2)
- krijgen
- vind
- vader (2)
- dank (2)
- tussen
- zonder (2)
- hele
- oh
- vraag (2)
- kon
- jouw (3)
- gezien (3)
- goede (2)
- maakt
- kinderen
- houden
- dacht
- blijven
- natuurlijk
- staan
- mr
- god
- wilt
- laatste (3)
- niemand
- want (5)
- vragen (2)
- niks (2)
- lang (2)
- wilde (3)
- helemaal
- genoeg (3)
- aantal
- snel (3)
- vast (2)
- ziet
- moeder (2)
- nemen
- plaats (2)
- geweest
- maak
- graag
- bedankt
- neem
- kwam
- mooi
- ging
- spijt (4)
- leuk
- per
- s ook: 's, S
- gemaakt (2)
- verder (2)
- mogelijk
- praten
- z ook: Z
- wanneer (2)
- achter (2)
- hallo
- naam
- klaar (2)
- hand (2)
- kijken
- dingen (2)
- zelfs
- beetje (2)
- lijkt (2)
- wereld
- helpen
- samen
- meneer (2)
- bedoel
- moest (2)
- wist (3)
- hadden
- paar (3)
- auto
- ten
- zouden
- werken (2)
- vriend
- eerst
- volgende (2)
- geeft
- blijf
- enige (2)
- buiten (4)
- gek (3)
- heer (3)
- vandaag
- volgens
- luister (2)
- jaren
- sorry
- ooit
- welke (2)
- kleine (2)
- zorgen (2)
- alsjeblieft
- eten (2)
- hen (2)
- moment
- verdomme
- idee
- beste (2)
- hoor (2)
- gezegd (2)
- groot (2)
- vindt
- jongen (3)
- manier
- deel (3)
- land (2)
- bijna
- zag
- denken
- a ook: à, A
- elke
- vertellen
- probleem
- krijgt
- deed
- kun
- dagen (2)
- onderzoek (2)
- artikel
- bang (2)
- jongens
- geleden (2)
- blijft
- geval
- tweede (2)
- week (6)
- open (2)
- politie
- ligt
- zeer (3)
- eigenlijk
- pas (4)
- echter (2)
- heen
- thuis (2)
- mannen (2)
- o (2) ook: O
- men (2)
- orde (2)
- halen (3)
- morgen (3)
- minder (3)
- gebeurd (2)
- hoop (3)
- soms
- houdt
- vier (3)
- brengen
- via
- kind
- school (3)
- vijf (2)
- gebruik (2)
- gelijk (3)
- later (2)
- stad
- geloof (2)
- kant (4)
- oude (2)
- horen (4)
- geweldig
- daarom
- meisje (2)
- problemen
- vaak (2)
- gebeurt
- ie
- water (2)
- tijdens
- werden
- enkele (2)
- minister
- rustig
- duidelijk
- denkt
- spelen (2)
- vooral
- ken
- informatie
- juist
- hoofd
- zoon
- krijg (2)
- precies
- gevonden
- wachten (3)
- gehad
- boven (2)
- ander (2)
- soort
- kans
- miljoen (2)
- stop (4)
- best (5)
- zaken
- eerder
- ter
- betekent
- vrouwen (2)
- rond (4)
- werkt
- zorg (2)
- vroeg (2)
- zodat
- familie
- vrienden
- ogen (2)
- zet (2)
- vertel
- zoveel
- lid
- zat (4)
- plan (3)
- minuten
- vond (2)
- vrij (3)
- gegeven (3)
- maanden (2)
- mooie
- begrijp
- terwijl
- stellen (2)
- gebruiken (2)
- vanaf (2)
- alsof
- lopen (2)
- begin (2)
- pak (3)
- zoek (2)
- mogen
- wou
- zaak
- zoeken
- procent
- recht (3)
- lekker
- heet (2)
- sinds (2)
- slecht (2)
- waarin
- vanavond
- ervan
- spreken
- belangrijk
- ding (2)
- gehoord (2)
- blij
- euro
- handen (2)
- voel
- hoeveel (2)
- liggen
- dollar
- gebruikt (2)
- druk (3)
- bijvoorbeeld
- probeer
- tien (2)
- word
- eruit
- verhaal (2)
- der (0)
- ouders
- gekomen
- klein
- hulp
- weinig (3)
- echte
- help (2)
- grond (2)
- haal (3)
- moeilijk
- beginnen
- proberen
- zetten (2)
- basis
- reden (5)
- deur
- zin (3)
- kent
- jezelf
- bezig (2)
- mevrouw (2)
- leren (5)
- kamer
- vermoord (2)
- geloven (2)
- dezelfde
- bel (2)
- schiet
- ergens
- pijn (3)
- zes (2)
- slechts (2)
- kreeg
- stuk (3)
- gebied (2)
- meteen
- neemt
- nieuw
- leden (2)
- groep (2)
- vol (2)
- bestaat
- betreft
- nummer (2)
- belang (2)
- weken (3)
- prima (2)
- direct
- vallen (4)
- punt (4)
- valt
- langs (3)
- bekend (2)
- kosten (2)
- hetzelfde
- elk
- gebeuren (2)
- extra (2)
- vanuit
- hoeft
- vergeten
- broer
- boek (2)
- vooruit (2)
- regering
- gemeente
- wees (3)
- voordat
- pakken (2)
- schat (2)
- afgelopen (2)
- los (3)
- film (2)
- waarschijnlijk
- geworden (2)
- genomen (2)
- ver
- oud
- aandacht
- gaf
- blijkt
- wet (2)
- stond (2)
- nacht
- derde (5)
- daarmee
- nieuws (2)
- bedrijf (2)
- foto
- anderen
- kop (2)
- betalen
- hart
- stoppen (2)
- enkel (3)
- sta
- licht (3)
- rol (2)
- bed
- breng
- antwoord (2)
- voorbij (3)
- rest (2)
- gelukkig
- praat (2)
- ongeveer
- liefde
- verteld
- plek (2)
- woord (2)
- situatie
- meest (2)
- opnieuw
- mis (3)
- dochter
- papa
- ieder
- neer (2)
- alstublieft
- klootzak
- dicht (3)
- kennen
- erop
- doden (2)
- klopt
- beneden
- einde
- inderdaad
- landen (3)
- dokter (2)
- avond
- hard (2)
- oorlog
- toekomst
- zult (2)
- grootste (2)
- waarbij
- bellen (2)
- rust (2)
- maakte
- verwacht (2)
- waarop
- gezicht (2)
- stel (2)
- wakker (2)
- liet
- mama
- slapen (2)
- daarna
- zichzelf
- mening
- meeste
- bedrijven (2)
- ruimte
- mens (2)
- rijden
- buurt (3)
- gevraagd (2)
- doel (2)
- bepaalde (2)
- zoiets
- acht (3)
- betrokken (2)
- loopt
- hoort
- sterk (2)
- gevallen (3)
- sprake (0)
- drinken
- beleid
- beide
- begrepen
- huidige
- brief (2)
- hoi
- e ook: E
- wijze (3)
- ervoor
- team
- overheid
- naast (4)
- geldt
- baan (2)
- lange
- woorden (2)
- daarvan
- eraan
- veilig
- snap (2)
- belangrijke
- overal (2)
- baby
- maand
- mond (2)
- vergeet
- gesteld (2)
- opgenomen
- begint
- lezen
- langer
- noemen
- gisteren
- rekening
- vorm (2)
- fout (2)
- president
- d ook: d
- gegevens (2)
- stelt (2)
- hond
- vraagt
- eind (2)
- straks (2)
- kennis (2)
- zowel
- sir
- muziek
- heren (2)
- waarheid
- stap (2)
- dient
- baas (2)
- voelt
- gevoel (2)
- vertrouwen (2)
- contact (2)
- volledig
- welkom (3)
- januari
- regels
- stil (2)
- gehouden (2)
- geluk (2)
- aardig
- programma
- daarbij
- dienst
- vorige
- gebracht (2)
- volgen
- hoorde
ok(0) wel: oké- fijn
dr(0) wel: d'r; dr.- gegaan
- la (2)
- schuld
- jack
- eerlijk
- he
- prijs (4)
- periode
- project
- half
- telefoon
- kopen (2)
- lichaam
- liever (2)
- bloed (3)
- agent
- kwamen
- systeem
- namelijk
- vermoorden
- persoon
- gang
- sterven
- meter (2)
- vriendin
- sommige
- maatregelen
- waarvan
- gemeenten
- kracht
- ermee
- veranderen
- prachtig
- gekregen
- ontwikkeling
- verloren (2)
- vandaan
- leiden
- redden
- klinkt
- vele
- daarvoor
- raad (2)
- onderwijs (2)
- bestaan (2)
- termijn
- gesproken (2)
- mezelf (2)
- hoog (2)
- voorstellen (2)
- geboren
- feit
- beeld
- organisatie
- kader (2)
- voldoende (3)
- brengt
- totaal (2)
- vent (2)
- schrijven (2)
- begon
- betrekking
- voorzitter
- lucht (2)
- spel (3)
- meisjes
- erin
- zeven (4)
- loop (2)
- hoge
- keuze
- nam
- verband
- succes
- juiste
- helft
- speelt
- niveau
- hield
- iedere
- nogal
- controle
- mam
- l (2) ook: L
- uiteindelijk
- kabinet
- waardoor
- schatje
- wonen
- april (2)
- kwijt (2)
- slechte
- kwaliteit
- jonge (2)
- vanwege
- ene (0)
- markt (2)
- leggen (2)
- voorzichtig
- maart (2)
- houd
- kerel
- voelen
- voorkomen (3)
- toepassing
- gingen
- dames
- besluit (2)
- normaal (2)
- sociale
- winnen
- kapitein
- bepaald (2)
- haat (2)
- nergens
- hoger
- hoogte
- relatie
- mei
- plezier (2)
- kwaad (2)
- richting (2)
- straat
- mogelijkheid
- geheel (2)
- pa
- trekken (2)
- les (2)
- wedstrijd
- ziekenhuis
- eindelijk
- positie
- bank (2)
- begonnen
- plaatsen (2)
- oog (2)
- onderdeel
- vroeger (2)
- voorstel (2)
- bedoeld
- gevolg
- delen (3)
- juni
- activiteiten
- kort (3)
- vertelde
- nadat
- samenwerking
- mogelijkheden
- koning
- partijen
- december
- shit
- koffie
- krant
- dragen
- trouwens
- uitvoering
- overleg (3)
- omhoog
- september
- waarmee
- aarde (2)
- vormen (2)
- ontmoeten
- advies
- ontvangen (2)
- punten (4)
- resultaten
- vechten
- name (0)
- des
- voeren (3)
- i ook: I
- schieten
- moesten
- plannen (3)
- ontmoet
- ziek (2)
- algemeen
- kaart (2)
- trouwen (2)
- erbij
- waard (4)
- bestuur (2)
- ruim (3)
- politieke
- komende
- kerk (2)
- volgt
- begrijpen
- links (3)
- lieverd
- genoemd (2)
- mocht
- wapen (3)
- grappig
- gekozen
- partij
- korte
- serieus
- lijn (2)
- verlaten (4)
- reeds
- algemene
- bieden
- kiezen (2)
- zover
- zomaar
- leger (3)
- vreemd
- beschikbaar
- groter
- immers
- miss
- risico
- b ook: B
- reactie
- verkeerd (2)
- terecht
- zwarte (2)
- sturen (2)
- start (2)
- rapport
- welk (3)
- rechter (3)
- betaald
- oktober
- makkelijk
- bereiken
- leuke
- belangrijkste
- naartoe
- bijzonder
- gezet (2)
- trots (3)
- verleden (3)
- discussie
- indien (2)
- aanwezig
- vervolgens
- lijst (2)
- verliezen (2)
- waarde (3)
- vuur (2)
- stand (2)
- eet
- zwaar
- vorig
- val (5)
- verkopen (2)
- kantoor
- perfect
- idioot (2)
- aldus
- trek (2)
- dienen
- leeft
- commissie
- kijkt
- ziens (0)
- lijken (3)
- veranderd
- fantastisch
- gewerkt
- verdomde (2)
- juli
- macht
- tenminste
- den
- middelen (2)
- website
- regeling
- stuur (2)
- onzin
- geschreven (2)
- hotel
- politiek (2)
- gevaar
- behalve (2)
- veiligheid
- goeie
- personen
- getrouwd (2)
- bestaande
- pap (2)
- probeert
- oplossing
- voorzien (2)
- wapens (2)
- zus (2)
- kost (2)
- november
- meestal
- slaan
- biedt
- diverse
- schip
- uitgevoerd (2)
Woorden uit vreemde talen
[bewerken]Er blijken zowel bij Open Taal als bij de Open Subtitles heel wat woorden uit vreemde talen in de lijst te zitten die niet (ook) in het Groene Boekje staan. Ik zal hieronder een paar lijsten met de meest voorkomende (frequentie boven de 2 per miljoen) geven. De lijsten worden nog steeds langer, maar dit zijn wel de meest voorkomende woorden die erop staan. Wat mij betreft zijn dit woorden die we gewoon als woorden uit de betreffende taal opnemen. Het lijkt me niet nodig om het totale aantal woorden (en dus de frequenties) te corrigeren: Je komt in Nederlandse teksten nu eenmaal wel eens buitenlandse woorden tegen. Bovendien is zo'n correctie niet mogelijk bij buitenlandse woorden die hetzelfde worden geschreven als Nederlandse woorden die wel in het Groene Boekje staat. Zo is bijvoorbeeld het Franse la niet meer te onderscheiden van het Nederlandse la, we kennen alleen het totale aantal keren dat la voorkomt.Het effect van een correctie zou overigens ook marginaal zijn. Het gaat om Engels, Frans, Duits en Italiaans, waarbij er tussen Engels en Frans overlap is. Soms is een kleine aanpassing in de schrijfwijze nodig, aangegeven met ->. Omdat mijn talenkennis beperkt is, leek het me in ieder geval nuttig deze lijsten voor commentaar aan te bieden. --MarcoSwart (overleg) 19 mei 2016 00:32 (CEST)
Engels
[bewerken]- able
- about
- above
- access
- action ook Frans
- activities
- addition
- administration ook Frans
- after
- against
- again
- age
- ago
- agreement
- all
- already
- also
- always
- am
- american -> American
- among
- an
- analysis
- and
- animal
- another
- any
- application
- areas
- area
- around
- article
- ash
- ass
- atlantic -> Atlantic
- authorities
- available
- average
- away
- aye
- banks
- based
- bay
- beach
- because
- become
- before
- being
- bell
- better
- between
- be
- bird
- bishop
- black
- blood
- blue
- bluray -> Blu-ray
- book
- boo
- boss
- both
- brooks
- brothers
- brother
- brown
- buck
- buffalo
- bull
- butch
- but
- buzz
- by
- cadillac -> Cadillac
- california -> California
- call
- can
- capacity
- capital
- card
- care
- car ook Frans
- castle
- cat
- cause ook Frans
- central ook Frans
- certain
- champ ook Frans
- changes
- change
- chase
- chicken
- chief
- children
- child
- chinatown -> Chinatown
- civil ook Frans
- class
- come
- coming
- commander
- comments
- comment
- common
- companies
- company
- conditions
- control
- cooperation
- copy
- core
- costs
- cost
- could
- countries
- course
- court
- crane
- creek
- crime
- crystal
- ctu -> CTU
- current
- cut
- daddy
- daily
- dark
- dawn
- days
- day
- dead
- death
- dea -> DEA
- decision
- deep
- deg
- diamond
- did
- director
- dodge ook: Dodge
- done
- doo
- double
- dude
- due
- duke
- during
- dutch ook: Dutch
- each
- eagle
- early
- east
- easy
- economic
- economy
- education
- effects
- energy
- enterprise
- ers -> ERS
- every
- example
- experience
- eyes
- eye
- face
- fact
- faith
- falls
- family
- far
- fast
- fearless
- feel
- few
- fields
- final
- finch
- find
- fire
- first
- fish
- five
- following
- football
- force
- for
- found
- four
- freedom
- free
- from
- frost
- fucking
- fuller
- full
- further
- fu
- general ook Frans
- get
- ginger
- girl
- given
- give
- global
- going
- gonna
- good
- got
- governance
- government
- grand
- gray
- great
- grey
- groups
- group
- growth
- halloween -> Halloween
- has
- hawk
- head
- health
- heart
- hell
- herb
- here
- hey
- higher
- hills
- hill
- him
- history
- hi
- holy
- honey
- hood
- hoo
- hours
- however
- how
- human
- hung
- if
- implementation
- include
- including
- income
- increased
- increase
- industry
- information ook Frans
- institutions ook Frans
- into
- island
- it's
- its
- it
- jedi -> Jedi
- joy
- june -> June
- justice
- just
- key
- knight
- knowledge
- know
- kung
- lake
- lane
- law
- least
- left
- legal ook Frans
- less
- life
- line
- ling
- little
- ll-> 'll
- locale ook Frans
- london -> London
- loss
- love
- lower
- low
- lucky
- lung
- mac
- magic
- main
- make
- many
- may
- means
- mean
- measures
- members
- member
- message
- might
- miles
- million
- mind
- mission ook Frans
- mister
- months
- mountain
- mount
- mouse
- mrs -> Mrs
- much
- music
- my
- nasa
- national ook Frans
- nature
- necessary
- needs
- need
- netherlands -> Netherlands
- network
- never
- news
- new
- next
- night
- north
- not
- now
- no
- number
- off
- often
- oil
- okay
- old
- olive
- one
- only
- on ook Frans
- opinion ook Frans
- orange
- other
- our
- own
- ow
- oz
- pacific -> Pacific
- pain
- palace
- particular
- parties
- patients
- pay
- peace
- pearl
- people
- period
- personal
- personnel ook Frans
- person
- phantom
- place
- play
- points
- point
- police
- political
- population
- position ook Frans
- possible
- posted
- powers
- practices
- practice
- price
- prince
- problems
- problem
- process
- production
- products
- programme ook Frans
- progress
- projects
- protection
- provided
- provide
- public
- published
- quality
- queen
- questions ook Frans
- question
- quick
- rabbit
- rate
- really
- real
- related
- relations ook Frans
- required
- requirements
- results
- result
- rich
- rights
- right
- river
- road
- role
- roll
- royal ook Frans
- rules
- rusty
- safety
- said
- saint ook Frans
- salt
- same
- santa
- say
- science
- sea
- second
- see
- several
- sex
- shaggy
- shall
- she
- shh
- should
- side
- silver
- simply
- since
- situation ook Frans
- six
- sky
- snake
- social ook Frans
- something
- some
- source
- south
- so
- space
- specific
- springs
- standard
- stark
- states
- street
- strong
- students
- study
- subtitle
- such
- sugar
- summer
- sun
- supply
- svm -> SVM
- swat
- sweet
- synced
- sync
- systems
- system
- take
- tax
- tdb -> TDB
- technology
- tech
- terms
- thanksgiving ook: Thanksgiving
- than
- that
- their
- them
- then
- therefore
- there
- they
- the
- things
- thing
- think
- third
- this
- those
- three
- through
- tiger
- times
- today
- together
- too
- total ook Frans
- touch
- town
- to
- trade
- treatment
- true
- two
- under
- union
- united
- university
- untranslated
- usa
- used
- use
- using
- us
- valley
- value
- various
- very
- ve
- village
- wall
- ward
- watch
- way
- wells
- well
- were
- what
- when
- where
- whether
- which
- while
- white
- whoa
- whoo
- who
- why
- will
- wing
- within
- with
- woman
- women
- wood
- woo
- working
- work
- world
- would
- wraith
- ya ook Frans
- yeah
- years
- year
- yet
- young
- your
- you
- yo
Duits
[bewerken]- auch
- auf
- aus
- bin
- da
- dem
- du
- ein
- eine
- hat
- herr -> Herr
- ich
- im
- ist
- mit
- oder
- sich
- sind
- um
- und
- von
- wer
- wird
- zu
Frans
[bewerken]- able ook Engels
- action ook Engels
- addition ook Engels
- administration ook Engels
- ainsi
- animal ook Engels
- article ook Engels
- aussi
- autre
- autres
- aux
- avec
- bien
- blanche
- ca
- capital ook Engels
- car ook Engels
- cause ook Engels
- ce
- central ook Engels
- centre
- cette
- champ ook Engels
- change ook Engels
- changes ook Engels
- civil ook Engels
- commander ook Engels
- comme
- comment ook Engels
- conditions ook Engels
- court ook Engels
- demande
- deux
- doit
- donc
- double ook Engels
- droit
- elle
- entre
- est
- et
- fait
- football ook Engels
- global ook Engels
- grand ook Engels
- général
- il
- information ook Engels
- institutions ook Engels
- le
- locale ook Engels
- loi
- lu
- légal
- membres
- ministre
- mission ook Engels
- monde
- national ook Engels
- ne
- ni
- notre
- nous
- olive ook Engels
- on ook Engels
- onde
- ont
- opinion ook Engels
- orange ook Engels
- ou
- pain ook Engels
- parties ook Engels
- pays
- personnel ook Engels
- police ook Engels
- population ook Engels
- position ook Engels
- possible ook Engels
- pour
- prince ook Engels
- production ook Engels
- programme ook Engels
- protection ook Engels
- public ook Engels
- qu'
- que
- question ook Engels
- questions ook Engels
- qui
- rate ook Engels
- relations ook Engels
- royal ook Engels
- rue
- saint ook Engels
- science ook Engels
- se
- ses
- situation ook Engels
- six ook Engels
- social ook Engels
- sont
- source ook Engels
- sur
- ta
- total ook Engels
- tous
- tout
- travail
- un
- une
- votre
- vous
- ya -> y'a ook Engels