Naar inhoud springen

WikiWoordenboek:Woordfrequentie in het Nederlands

Uit WikiWoordenboek

Deze projectpagina beschrijft bevindingen van verkennend onderzoek of het mogelijk is op basis van open bronnen tot een goede lijst van woordfrequenties in het Nederlands te komen. Deze pagina geeft vooral de resultaten van de verkenning. Opvattingen en discussie over wat wenselijk is en verdere suggesties zijn welkom op de Overlegpagina.

Inleiding

[bewerken]

Niet alle woorden uit een taal worden even vaak gebruikt. Voor iemand die een taal leert is het handig om te weten wat de meest gebruikte woorden zijn. Zo bleek bij een groot onderzoek naar Nederlandse teksten dat de 8 woorden ik, je, het, de, dat, is, niet en een samen 20 % van alle gesproken tekst uitmaken en dat 61 woorden samen goed waren voor de helft van alle gebruikte woorden. Enkele andere gegevens zijn samengevat in onderstaande tabel.

meestgebruikte woorden gezamenlijk aandeel
8 20 %
61 50 %
1.000 82 %
2.000 87 %
3.000 90 %

Toepassingsmogelijkheiden

[bewerken]

Als je begrijpelijk wil schrijven helpt het ook om woorden te kiezen die veel worden gebruikt. Ook bij het verder ontwikkelen van een woordenboek is het handig om te weten wat meer- en mindergebruikte woorden zijn. Zo is de lijst van Open Subtitles al gebruikt om WikiWoordenboek aan te vullen. Het kan ook handig zijn om prioriteiten te stellen bij andere verbeteringen aan het woordenboek. Als de uitkomst voldoende degelijk is, zouden we de informatie ook op de Nederlandse lemma's kunnen weergeven, net zoals we dat voor enkele andere talen al doen.

Bestaand onderzoek

[bewerken]

Onderzoek naar woordfrequentie dient om een indruk te krijgen hoe veel of weinig een woord gebruikt wordt. Voor dit onderzoek wordt een groot aantal teksten verzameld en opgedeeld in losse woorden die vervolgens worden geturfd. Uiteraard hangt het resultaat ook af van de teksten die zijn meegenomen. Uit welke periodes komen de teksten, uit welke delen van het taalgebied, ging het om geschreven of gesproken tekst, voor welk publiek waren ze bedoeld en waar gingen ze over: het heeft allemaal invloed op het resultaat. Zo vind je begrippen uit de landbouw en de zeilvaart veel meer in oude teksten, en zijn termen die met internet te maken hebben meer iets van de 21e eeuw. In Nederlandse teksten lees je vaker vacaturestop en in Belgische aanwervingsstop. Ik en jij komen in geschreven taal veel minder vaak voor dan in gesproken taal. De gemelde frequenties van woorden hebben dus nooit een algemene geldigheid. Hun waarde wordt beïnvloed door de mate waarin de herkomst van de gebruikte teksten overeenkomt met het doel waarvoor je de frequenties wil gebruiken. Voor "algemeen" gebruik helpt het als de verscheidenheid van teksten groot is. Daarnaast helpt het erg als het aantal getelde woorden groot is. In 1975 waren enkele honderdduizenden woorden al goed voor een wetenschappelijke publicatie, tegenwoordig gaat het om tientallen miljoenen woorden.

Woordfrequenties uit open bronnen

[bewerken]

Het ligt voor de hand dat woordfrequentie nuttige informatie in een woordenboek kan zijn. Helaas zijn de resultaten van wetenschappelijk onderzoek naar het Nederlands niet onder een voldoende vrije licentie beschikbaar om in WikiWoordenboek te gebruiken. Maar er zijn van Open Taal en Open Subtitles wel bestanden met frequenties beschikbaar. Doel van deze projectpagina is om na te gaan of hieruit voor WikiWoordenboek bruikbare woordfrequenties zijn af te leiden.

Kenmerken van beide bestanden

[bewerken]
  • Beide bestanden bevatten "tokens": de stukjes tekst die je overhoudt als je uitzeeft wat er tussen spaties en andere woordscheidingstekens staat. In WikiWoordenboektermen zijn dat meestal de woordvormen waar wij een pagina voor maken en dat sluit dus aardig aan. Maar je kunt bij "zijn" niet zien hoe vaak het als werkwoord en hoe vaak het bezittelijk voornaamwoord werd gebruikt.
  • Beide bestanden komen ongeveer uit dezelfde periode, zo rond 2010.
  • Beide bestanden bevatten woorden die geen correct Nederlands zijn: spel- en scanfouten en woorden uit andere talen.

Kenmerken van Open Subtitles

[bewerken]
  • Dit zijn twee bestanden, 2011 en 2012 die een forse overlap vertonen, er zijn woorden bijgekomen en verdwenen, maar over het geheel genomen bevat 2012 iets meer woorden en wat hogere totalen per woord. Bij een beperkt aantal woorden is er een relatief groot verschil tussen beide jaren: dit lijken correcties.
  • Hoofdletters, punten en apostrofs ontbreken.
  • Diacritische tekens worden weergegeven, maar ook tekens die in het Nederlands niet voorkomen.
  • Er staan nogal wat namen en spreektaalwoorden in die Engelstalig zijn.
  • Bevat meer spreektaal.

Kenmerken van Open Taal

[bewerken]
  • Dit bestand is veel groter: het bevat een ordegrootte meer woorden en hogere aantallen.
  • Diacritische tekens ontbreken.
  • Er zijn ook woorden met hoofdletters en punten erin.
  • Er staan nogal wat woorden uit vreemde talen en urls in.
  • Bevat meer schrijftaal.

Aanpak

[bewerken]

Een bruikbare lijst vereist allereerst het uitziften van de correct gespelde Nederlandse woorden. Kwestie van alle vormen vergelijken met het Groene Boekje. Om te beginnen is er een lijst gemaakt met de woorden die in een identieke schrijfwijze zowel in de lijst van Open Taal als in een lijst met ondertitels voorkomen, zodat één keer nagaan voor beide lijsten genoeg is. Dit zijn een kleine 200.000 woorden, dus deze klus gaat wel even duren.

Kwesties

[bewerken]

Kwaliteit van de bestanden

[bewerken]

Enige verkenning met de meest frequente woorden levert de volgende kwesties op:

  1. Woorden die toch wel in het woordenboek en in de telling horen
    1. ouderwetse verbogen vormen van woorden die het Groene Boekje alleen in vaste verbindingen vermeld
    2. verbogen vormen die het Groene Boekje niet vermeldt
  2. Woorden die na een correctie en met corresponderende aanpassing van de telling wel in WikiWoordenboek horen
    1. afkortingen zonder punt
    2. woorden die ten onrechte aaneengeschreven zijn
    3. afleidingen van namen zonder hoofdletter
    4. overige fout gespelde woorden
    5. goed herkenbare scanfouten
  3. Woorden die misschien wel in WikiWoordenboek horen, maar in eigenlijk niet in de telling voor het Nederlands
    1. woorden uit vreemde talen
    2. voornamen (vaak Engels)
    3. plaatsnamen
    4. html-codes, die kennelijk in de tekst zijn beland
  4. Woorden die niet in WikiWoordenboek horen en eigenlijk buiten de telling horen te blijven
    1. url's
    2. achternamen (vaak Engels)

Het lastige bij het ziften is dat er ook correct gespelde woorden zijn, die heel veel voorkomen omdat ze niet zijn te onderscheiden van één van de hiervoor genoemde fouten. De verkeerd gespelde naam "Ben" laat zich niet meer onderscheiden van de werkwoordsvorm "ben". En "mr" is zonder punt een correcte afkorting van medezeggenschapsraad, met punt een academische titel maar het is plausibel dat het in ondertitels veel vaker gaat om het Engelse "mister".

Welk bestand als uitgangspunt nemen?

[bewerken]

De verschillen tussen de bestanden (Open Subtitles versus Open Taal en Open Subtitles onderling) leidden tot enig onderzoek of een combinatie van deze gegevens tot een voor WikiWoordenboek optimaal resultaat zou kunnen leiden: beide bestanden hebben immers hun sterke kanten. Als we deze bestanden vergelijken met bestanden waarin voor tienduizenden woorden is onderzocht hoeveel Belgen en Nederlanders ze (her-)kennen is er een opvallende conclusie: de correlatie met het bestand van Open Taal is duidelijk groter dan die van de beide bestanden uit Open Subtitles en het lukt niet een combinatie van gegevens uit beide bronnen te maken die nog beter correleert: op het niveau van afzonderlijke woorden kun je gemakkelijk zien wat de vreemde uitschieters omhoog en omlaag zijn, maar met welke weegfactoren je de bestanden in hun geheel ook combineert, het leidt niet tot een betere score dan Open Taal op zichzelf al oplevert. Tegenover de woorden waar Open Subtitles vooral de spreektaal beter weerspiegelt, staan ook woorden die vrijwel ontbreken of juist heel veel voorkomen omdat ondertitels natuurlijk niet echt een doorsnee van het normale taalgebruik vormen. Dit leidt tot de slotsom dat het voor de frequentiegegevens beter is om het bestand van Open Taal als basis te nemen. De gegevens uit Open Subtitles kunnen dan daarnaast worden vermeld, omdat overeenkomst of verschil wel degelijk informatief is. Naast het feit dat Open Taal beter correleert met de waargenomen bekendheid van woorden is een ander voordeel dat dit bestand veel meer verschillende woorden omvat en dus vaker uitsluitsel geeft.

Welke maatstaf voor frequenties gebruiken?

[bewerken]

Je kunt de frequentie van woorden op verschillende manieren weergeven.

  1. Het absolute aantal keren dat een woord in de onderzochte teksten voorkwam, de absolute frequentie. Voordeel: dit is een feitelijk gegeven dat weinig uitleg behoeft. Nadeel: de getallen kunnen bij een groot bestand als Open Taal heel ver uit elkaar liggen en zijn dan cijfermatig moeilijk te interpreteren. Bovendien zijn de resultaten uit verschillende onderzoeken dan lastig te vergelijken.
  2. Het aantal keren dat een woord voorkomt gedeeld door het totale aantal woorden uit de teksten voorkwam, de relatieve frequentie. De vergelijking tussen bestanden wordt dan eenvoudiger, maar de waarden zijn nu merendeels zeer kleine getallen tussen 0 en 1 die nog steeds moeilijk te interpreteren zijn.
  3. Onderzoekers aan de Universiteit van Gent die woordfrequenties in verschillende talen onderzoeken, hebben als oplossing de Zipf voorgesteld (genoemd naar een beroemde onderzoeker van woordfrequenties): vermenigvuldig de relatieve frequentie met een miljard en neem daar de log10 van. Dit levert theoretisch per definitie een waarde tussen 0 en 9 en in de praktijk scores tussen 1 en 8 op.
  4. De relatieve frequentie kan ook ten opzichte van het meest frequente woord worden berekend. Belangrijk bezwaar is dat niet elk onderzoek voor dezelfde taal op hetzelfde meest frequente woord blijkt uit te komen: bij Open Taal is het "de", bij Open Subtitles "ik".
  5. Een andere benadering is om de woorden in volgorde van hun frequentie te zetten en te vermelden het hoeveelste woord het in die rangorde is. Dit werkt aardig bij de top van de lijst, maar naarmate de lijst langer wordt zijn er steeds meer woorden met een gelijke frequentie.

Alles afwegend lijkt voor dit project de Zipf het meest geschikt.

Tussenresultaat

[bewerken]

Hieronder als eerste indruk een lijstje met de 1000 meest frequente woorden. Hierbij zijn bij een eerste benadering de frequenties zo gewogen dat Open Taal en Open Subtitles even veel effect hebben, en binnen Open Subtitles zo dat 2012 drie keer meer effect heeft dan 2011. Voor een definitieve lijst zou het aardig zijn om na te gaan welke wegingsfactoren een resultaat opleveren dat het meest consistent is met grotere onderzoeken. Het getal tussen haakjes geeft aan dat een woordvorm volgens het Groene Boekje bij meerdere woorden hoort.

  1. de
  2. het (2)
  3. ik
  4. je (2)
  5. van (2)
  6. een (3)
  7. is
  8. dat (3)
  9. en
  10. in (2)
  11. niet (6)
  12. op
  13. te
  14. zijn (2)
  15. voor (4)
  16. met (2)
  17. wat (4)
  18. die (2)
  19. we
  20. er
  21. maar (4)
  22. ze
  23. hij
  24. als
  25. aan (2)
  26. om (2)
  27. heb (2)
  28. me (2)
  29. dan (3)
  30. naar (3)
  31. dit
  32. was (6)
  33. ook
  34. ben (2)
  35. nog
  36. kan (2)
  37. u (2) ook: U
  38. heeft (2)
  39. of
  40. mijn (3)
  41. geen
  42. wel (4)
  43. hebben
  44. bij (3)
  45. hier
  46. zo (4)
  47. over (3)
  48. moet (3)
  49. uit (2)
  50. worden
  51. jij (2)
  52. weet (3)
  53. goed (2)
  54. wil (2)
  55. door (2)
  56. deze
  57. nu (3)
  58. ja
  59. hem (2)
  60. waar (5)
  61. meer (4)
  62. al (4)
  63. gaan
  64. wordt
  65. zal
  66. hoe
  67. haar (5)
  68. nee
  69. zou
  70. doen (2)
  71. kunnen (2)
  72. tot (2)
  73. mij (2)
  74. daar (2)
  75. ga
  76. gaat
  77. ons (4)
  78. kom (2)
  79. bent (2)
  80. moeten (2)
  81. had
  82. iets
  83. jullie (2)
  84. hebt
  85. laat (3)
  86. waarom
  87. dus (2)
  88. alleen
  89. jaar
  90. eens
  91. toch
  92. veel (4)
  93. zich
  94. zien
  95. alles
  96. wie (2)
  97. weg (3)
  98. echt (3)
  99. hun
  100. doe
  101. komt
  102. weer (7)
  103. denk
  104. mensen
  105. mee (2)
  106. komen
  107. jou (2)
  108. man (2)
  109. wij
  110. laten (2)
  111. andere (2)
  112. maken
  113. twee (2)
  114. tegen (2)
  115. terug
  116. nooit
  117. even
  118. m (2) ook: 'm
  119. onze
  120. tijd
  121. nou (2)
  122. niets (2)
  123. zij (3)
  124. heel (2)
  125. n ook: 'n
  126. werd
  127. omdat
  128. zei
  129. nodig (2)
  130. af
  131. leven (2)
  132. misschien
  133. zoals
  134. zeggen (2)
  135. uw
  136. iemand
  137. onder
  138. alle
  139. eerste (2)
  140. altijd
  141. na (3)
  142. hou
  143. toen (2)
  144. gewoon
  145. mag
  146. staat (2)
  147. weten (2)
  148. net (3)
  149. zit (2)
  150. nieuwe (2)
  151. dag (5)
  152. kijk (2)
  153. zullen
  154. binnen (2)
  155. zeg (3)
  156. zeker (2)
  157. willen
  158. zie
  159. gedaan (2)
  160. waren (4)
  161. keer (2)
  162. grote (2)
  163. allemaal (2)
  164. kunt
  165. t ook: 't
  166. doet
  167. dood (3)
  168. toe (3)
  169. geld (2)
  170. huis (2)
  171. erg (2)
  172. werk (2)
  173. anders
  174. beter (3)
  175. uur
  176. drie (2)
  177. geef
  178. vrouw
  179. wacht (3)
  180. zitten
  181. vinden
  182. zelf
  183. elkaar
  184. steeds (2)
  185. geven
  186. iedereen
  187. zegt
  188. eigen (2)
  189. krijgen
  190. vind
  191. vader (2)
  192. dank (2)
  193. tussen
  194. zonder (2)
  195. hele
  196. oh
  197. vraag (2)
  198. kon
  199. jouw (3)
  200. gezien (3)
  201. goede (2)
  202. maakt
  203. kinderen
  204. houden
  205. dacht
  206. blijven
  207. natuurlijk
  208. staan
  209. mr
  210. god
  211. wilt
  212. laatste (3)
  213. niemand
  214. want (5)
  215. vragen (2)
  216. niks (2)
  217. lang (2)
  218. wilde (3)
  219. helemaal
  220. genoeg (3)
  221. aantal
  222. snel (3)
  223. vast (2)
  224. ziet
  225. moeder (2)
  226. nemen
  227. plaats (2)
  228. geweest
  229. maak
  230. graag
  231. bedankt
  232. neem
  233. kwam
  234. mooi
  235. ging
  236. spijt (4)
  237. leuk
  238. per
  239. s ook: 's, S
  240. gemaakt (2)
  241. verder (2)
  242. mogelijk
  243. praten
  244. z ook: Z
  245. wanneer (2)
  246. achter (2)
  247. hallo
  248. naam
  249. klaar (2)
  250. hand (2)
  251. kijken
  252. dingen (2)
  253. zelfs
  254. beetje (2)
  255. lijkt (2)
  256. wereld
  257. helpen
  258. samen
  259. meneer (2)
  260. bedoel
  261. moest (2)
  262. wist (3)
  263. hadden
  264. paar (3)
  265. auto
  266. ten
  267. zouden
  268. werken (2)
  269. vriend
  270. eerst
  271. volgende (2)
  272. geeft
  273. blijf
  274. enige (2)
  275. buiten (4)
  276. gek (3)
  277. heer (3)
  278. vandaag
  279. volgens
  280. luister (2)
  281. jaren
  282. sorry
  283. ooit
  284. welke (2)
  285. kleine (2)
  286. zorgen (2)
  287. alsjeblieft
  288. eten (2)
  289. hen (2)
  290. moment
  291. verdomme
  292. idee
  293. beste (2)
  294. hoor (2)
  295. gezegd (2)
  296. groot (2)
  297. vindt
  298. jongen (3)
  299. manier
  300. deel (3)
  301. land (2)
  302. bijna
  303. zag
  304. denken
  305. a ook: à, A
  306. elke
  307. vertellen
  308. probleem
  309. krijgt
  310. deed
  311. kun
  312. dagen (2)
  313. onderzoek (2)
  314. artikel
  315. bang (2)
  316. jongens
  317. geleden (2)
  318. blijft
  319. geval
  320. tweede (2)
  321. week (6)
  322. open (2)
  323. politie
  324. ligt
  325. zeer (3)
  326. eigenlijk
  327. pas (4)
  328. echter (2)
  329. heen
  330. thuis (2)
  331. mannen (2)
  332. o (2) ook: O
  333. men (2)
  334. orde (2)
  335. halen (3)
  336. morgen (3)
  337. minder (3)
  338. gebeurd (2)
  339. hoop (3)
  340. soms
  341. houdt
  342. vier (3)
  343. brengen
  344. via
  345. kind
  346. school (3)
  347. vijf (2)
  348. gebruik (2)
  349. gelijk (3)
  350. later (2)
  351. stad
  352. geloof (2)
  353. kant (4)
  354. oude (2)
  355. horen (4)
  356. geweldig
  357. daarom
  358. meisje (2)
  359. problemen
  360. vaak (2)
  361. gebeurt
  362. ie
  363. water (2)
  364. tijdens
  365. werden
  366. enkele (2)
  367. minister
  368. rustig
  369. duidelijk
  370. denkt
  371. spelen (2)
  372. vooral
  373. ken
  374. informatie
  375. juist
  376. hoofd
  377. zoon
  378. krijg (2)
  379. precies
  380. gevonden
  381. wachten (3)
  382. gehad
  383. boven (2)
  384. ander (2)
  385. soort
  386. kans
  387. miljoen (2)
  388. stop (4)
  389. best (5)
  390. zaken
  391. eerder
  392. ter
  393. betekent
  394. vrouwen (2)
  395. rond (4)
  396. werkt
  397. zorg (2)
  398. vroeg (2)
  399. zodat
  400. familie
  401. vrienden
  402. ogen (2)
  403. zet (2)
  404. vertel
  405. zoveel
  406. lid
  407. zat (4)
  408. plan (3)
  409. minuten
  410. vond (2)
  411. vrij (3)
  412. gegeven (3)
  413. maanden (2)
  414. mooie
  415. begrijp
  416. terwijl
  417. stellen (2)
  418. gebruiken (2)
  419. vanaf (2)
  420. alsof
  421. lopen (2)
  422. begin (2)
  423. pak (3)
  424. zoek (2)
  425. mogen
  426. wou
  427. zaak
  428. zoeken
  429. procent
  430. recht (3)
  431. lekker
  432. heet (2)
  433. sinds (2)
  434. slecht (2)
  435. waarin
  436. vanavond
  437. ervan
  438. spreken
  439. belangrijk
  440. ding (2)
  441. gehoord (2)
  442. blij
  443. euro
  444. handen (2)
  445. voel
  446. hoeveel (2)
  447. liggen
  448. dollar
  449. gebruikt (2)
  450. druk (3)
  451. bijvoorbeeld
  452. probeer
  453. tien (2)
  454. word
  455. eruit
  456. verhaal (2)
  457. der (0)
  458. ouders
  459. gekomen
  460. klein
  461. hulp
  462. weinig (3)
  463. echte
  464. help (2)
  465. grond (2)
  466. haal (3)
  467. moeilijk
  468. beginnen
  469. proberen
  470. zetten (2)
  471. basis
  472. reden (5)
  473. deur
  474. zin (3)
  475. kent
  476. jezelf
  477. bezig (2)
  478. mevrouw (2)
  479. leren (5)
  480. kamer
  481. vermoord (2)
  482. geloven (2)
  483. dezelfde
  484. bel (2)
  485. schiet
  486. ergens
  487. pijn (3)
  488. zes (2)
  489. slechts (2)
  490. kreeg
  491. stuk (3)
  492. gebied (2)
  493. meteen
  494. neemt
  495. nieuw
  496. leden (2)
  497. groep (2)
  498. vol (2)
  499. bestaat
  500. betreft
  501. nummer (2)
  502. belang (2)
  503. weken (3)
  504. prima (2)
  505. direct
  506. vallen (4)
  507. punt (4)
  508. valt
  509. langs (3)
  510. bekend (2)
  511. kosten (2)
  512. hetzelfde
  513. elk
  514. gebeuren (2)
  515. extra (2)
  516. vanuit
  517. hoeft
  518. vergeten
  519. broer
  520. boek (2)
  521. vooruit (2)
  522. regering
  523. gemeente
  524. wees (3)
  525. voordat
  526. pakken (2)
  527. schat (2)
  528. afgelopen (2)
  529. los (3)
  530. film (2)
  531. waarschijnlijk
  532. geworden (2)
  533. genomen (2)
  534. ver
  535. oud
  536. aandacht
  537. gaf
  538. blijkt
  539. wet (2)
  540. stond (2)
  541. nacht
  542. derde (5)
  543. daarmee
  544. nieuws (2)
  545. bedrijf (2)
  546. foto
  547. anderen
  548. kop (2)
  549. betalen
  550. hart
  551. stoppen (2)
  552. enkel (3)
  553. sta
  554. licht (3)
  555. rol (2)
  556. bed
  557. breng
  558. antwoord (2)
  559. voorbij (3)
  560. rest (2)
  561. gelukkig
  562. praat (2)
  563. ongeveer
  564. liefde
  565. verteld
  566. plek (2)
  567. woord (2)
  568. situatie
  569. meest (2)
  570. opnieuw
  571. mis (3)
  572. dochter
  573. papa
  574. ieder
  575. neer (2)
  576. alstublieft
  577. klootzak
  578. dicht (3)
  579. kennen
  580. erop
  581. doden (2)
  582. klopt
  583. beneden
  584. einde
  585. inderdaad
  586. landen (3)
  587. dokter (2)
  588. avond
  589. hard (2)
  590. oorlog
  591. toekomst
  592. zult (2)
  593. grootste (2)
  594. waarbij
  595. bellen (2)
  596. rust (2)
  597. maakte
  598. verwacht (2)
  599. waarop
  600. gezicht (2)
  601. stel (2)
  602. wakker (2)
  603. liet
  604. mama
  605. slapen (2)
  606. daarna
  607. zichzelf
  608. mening
  609. meeste
  610. bedrijven (2)
  611. ruimte
  612. mens (2)
  613. rijden
  614. buurt (3)
  615. gevraagd (2)
  616. doel (2)
  617. bepaalde (2)
  618. zoiets
  619. acht (3)
  620. betrokken (2)
  621. loopt
  622. hoort
  623. sterk (2)
  624. gevallen (3)
  625. sprake (0)
  626. drinken
  627. beleid
  628. beide
  629. begrepen
  630. huidige
  631. brief (2)
  632. hoi
  633. e ook: E
  634. wijze (3)
  635. ervoor
  636. team
  637. overheid
  638. naast (4)
  639. geldt
  640. baan (2)
  641. lange
  642. woorden (2)
  643. daarvan
  644. eraan
  645. veilig
  646. snap (2)
  647. belangrijke
  648. overal (2)
  649. baby
  650. maand
  651. mond (2)
  652. vergeet
  653. gesteld (2)
  654. opgenomen
  655. begint
  656. lezen
  657. langer
  658. noemen
  659. gisteren
  660. rekening
  661. vorm (2)
  662. fout (2)
  663. president
  664. d ook: d
  665. gegevens (2)
  666. stelt (2)
  667. hond
  668. vraagt
  669. eind (2)
  670. straks (2)
  671. kennis (2)
  672. zowel
  673. sir
  674. muziek
  675. heren (2)
  676. waarheid
  677. stap (2)
  678. dient
  679. baas (2)
  680. voelt
  681. gevoel (2)
  682. vertrouwen (2)
  683. contact (2)
  684. volledig
  685. welkom (3)
  686. januari
  687. regels
  688. stil (2)
  689. gehouden (2)
  690. geluk (2)
  691. aardig
  692. programma
  693. daarbij
  694. dienst
  695. vorige
  696. gebracht (2)
  697. volgen
  698. hoorde
  699. ok (0) wel: oké
  700. fijn
  701. dr (0) wel: d'r; dr.
  702. gegaan
  703. la (2)
  704. schuld
  705. jack
  706. eerlijk
  707. he
  708. prijs (4)
  709. periode
  710. project
  711. half
  712. telefoon
  713. kopen (2)
  714. lichaam
  715. liever (2)
  716. bloed (3)
  717. agent
  718. kwamen
  719. systeem
  720. namelijk
  721. vermoorden
  722. persoon
  723. gang
  724. sterven
  725. meter (2)
  726. vriendin
  727. sommige
  728. maatregelen
  729. waarvan
  730. gemeenten
  731. kracht
  732. ermee
  733. veranderen
  734. prachtig
  735. gekregen
  736. ontwikkeling
  737. verloren (2)
  738. vandaan
  739. leiden
  740. redden
  741. klinkt
  742. vele
  743. daarvoor
  744. raad (2)
  745. onderwijs (2)
  746. bestaan (2)
  747. termijn
  748. gesproken (2)
  749. mezelf (2)
  750. hoog (2)
  751. voorstellen (2)
  752. geboren
  753. feit
  754. beeld
  755. organisatie
  756. kader (2)
  757. voldoende (3)
  758. brengt
  759. totaal (2)
  760. vent (2)
  761. schrijven (2)
  762. begon
  763. betrekking
  764. voorzitter
  765. lucht (2)
  766. spel (3)
  767. meisjes
  768. erin
  769. zeven (4)
  770. loop (2)
  771. hoge
  772. keuze
  773. nam
  774. verband
  775. succes
  776. juiste
  777. helft
  778. speelt
  779. niveau
  780. hield
  781. iedere
  782. nogal
  783. controle
  784. mam
  785. l (2) ook: L
  786. uiteindelijk
  787. kabinet
  788. waardoor
  789. schatje
  790. wonen
  791. april (2)
  792. kwijt (2)
  793. slechte
  794. kwaliteit
  795. jonge (2)
  796. vanwege
  797. ene (0)
  798. markt (2)
  799. leggen (2)
  800. voorzichtig
  801. maart (2)
  802. houd
  803. kerel
  804. voelen
  805. voorkomen (3)
  806. toepassing
  807. gingen
  808. dames
  809. besluit (2)
  810. normaal (2)
  811. sociale
  812. winnen
  813. kapitein
  814. bepaald (2)
  815. haat (2)
  816. nergens
  817. hoger
  818. hoogte
  819. relatie
  820. mei
  821. plezier (2)
  822. kwaad (2)
  823. richting (2)
  824. straat
  825. mogelijkheid
  826. geheel (2)
  827. pa
  828. trekken (2)
  829. les (2)
  830. wedstrijd
  831. ziekenhuis
  832. eindelijk
  833. positie
  834. bank (2)
  835. begonnen
  836. plaatsen (2)
  837. oog (2)
  838. onderdeel
  839. vroeger (2)
  840. voorstel (2)
  841. bedoeld
  842. gevolg
  843. delen (3)
  844. juni
  845. activiteiten
  846. kort (3)
  847. vertelde
  848. nadat
  849. samenwerking
  850. mogelijkheden
  851. koning
  852. partijen
  853. december
  854. shit
  855. koffie
  856. krant
  857. dragen
  858. trouwens
  859. uitvoering
  860. overleg (3)
  861. omhoog
  862. september
  863. waarmee
  864. aarde (2)
  865. vormen (2)
  866. ontmoeten
  867. advies
  868. ontvangen (2)
  869. punten (4)
  870. resultaten
  871. vechten
  872. name (0)
  873. des
  874. voeren (3)
  875. i ook: I
  876. schieten
  877. moesten
  878. plannen (3)
  879. ontmoet
  880. ziek (2)
  881. algemeen
  882. kaart (2)
  883. trouwen (2)
  884. erbij
  885. waard (4)
  886. bestuur (2)
  887. ruim (3)
  888. politieke
  889. komende
  890. kerk (2)
  891. volgt
  892. begrijpen
  893. links (3)
  894. lieverd
  895. genoemd (2)
  896. mocht
  897. wapen (3)
  898. grappig
  899. gekozen
  900. partij
  901. korte
  902. serieus
  903. lijn (2)
  904. verlaten (4)
  905. reeds
  906. algemene
  907. bieden
  908. kiezen (2)
  909. zover
  910. zomaar
  911. leger (3)
  912. vreemd
  913. beschikbaar
  914. groter
  915. immers
  916. miss
  917. risico
  918. b ook: B
  919. reactie
  920. verkeerd (2)
  921. terecht
  922. zwarte (2)
  923. sturen (2)
  924. start (2)
  925. rapport
  926. welk (3)
  927. rechter (3)
  928. betaald
  929. oktober
  930. makkelijk
  931. bereiken
  932. leuke
  933. belangrijkste
  934. naartoe
  935. bijzonder
  936. gezet (2)
  937. trots (3)
  938. verleden (3)
  939. discussie
  940. indien (2)
  941. aanwezig
  942. vervolgens
  943. lijst (2)
  944. verliezen (2)
  945. waarde (3)
  946. vuur (2)
  947. stand (2)
  948. eet
  949. zwaar
  950. vorig
  951. val (5)
  952. verkopen (2)
  953. kantoor
  954. perfect
  955. idioot (2)
  956. aldus
  957. trek (2)
  958. dienen
  959. leeft
  960. commissie
  961. kijkt
  962. ziens (0)
  963. lijken (3)
  964. veranderd
  965. fantastisch
  966. gewerkt
  967. verdomde (2)
  968. juli
  969. macht
  970. tenminste
  971. den
  972. middelen (2)
  973. website
  974. regeling
  975. stuur (2)
  976. onzin
  977. geschreven (2)
  978. hotel
  979. politiek (2)
  980. gevaar
  981. behalve (2)
  982. veiligheid
  983. goeie
  984. personen
  985. getrouwd (2)
  986. bestaande
  987. pap (2)
  988. probeert
  989. oplossing
  990. voorzien (2)
  991. wapens (2)
  992. zus (2)
  993. kost (2)
  994. november
  995. meestal
  996. slaan
  997. biedt
  998. diverse
  999. schip
  1000. uitgevoerd (2)

Woorden uit vreemde talen

[bewerken]

Er blijken zowel bij Open Taal als bij de Open Subtitles heel wat woorden uit vreemde talen in de lijst te zitten die niet (ook) in het Groene Boekje staan. Ik zal hieronder een paar lijsten met de meest voorkomende (frequentie boven de 2 per miljoen) geven. De lijsten worden nog steeds langer, maar dit zijn wel de meest voorkomende woorden die erop staan. Wat mij betreft zijn dit woorden die we gewoon als woorden uit de betreffende taal opnemen. Het lijkt me niet nodig om het totale aantal woorden (en dus de frequenties) te corrigeren: Je komt in Nederlandse teksten nu eenmaal wel eens buitenlandse woorden tegen. Bovendien is zo'n correctie niet mogelijk bij buitenlandse woorden die hetzelfde worden geschreven als Nederlandse woorden die wel in het Groene Boekje staat. Zo is bijvoorbeeld het Franse la niet meer te onderscheiden van het Nederlandse la, we kennen alleen het totale aantal keren dat la voorkomt.Het effect van een correctie zou overigens ook marginaal zijn. Het gaat om Engels, Frans, Duits en Italiaans, waarbij er tussen Engels en Frans overlap is. Soms is een kleine aanpassing in de schrijfwijze nodig, aangegeven met ->. Omdat mijn talenkennis beperkt is, leek het me in ieder geval nuttig deze lijsten voor commentaar aan te bieden. --MarcoSwart (overleg) 19 mei 2016 00:32 (CEST)[reageren]

Engels

[bewerken]
  1. able
  2. about
  3. above
  4. access
  5. action ook Frans
  6. activities
  7. addition
  8. administration ook Frans
  9. after
  10. against
  11. again
  12. age
  13. ago
  14. agreement
  15. all
  16. already
  17. also
  18. always
  19. am
  20. american -> American
  21. among
  22. an
  23. analysis
  24. and
  25. animal
  26. another
  27. any
  28. application
  29. areas
  30. area
  31. around
  32. article
  33. ash
  34. ass
  35. atlantic -> Atlantic
  36. authorities
  37. available
  38. average
  39. away
  40. aye
  41. banks
  42. based
  43. bay
  44. beach
  45. because
  46. become
  47. before
  48. being
  49. bell
  50. better
  51. between
  52. be
  53. bird
  54. bishop
  55. black
  56. blood
  57. blue
  58. bluray -> Blu-ray
  59. book
  60. boo
  61. boss
  62. both
  63. brooks
  64. brothers
  65. brother
  66. brown
  67. buck
  68. buffalo
  69. bull
  70. butch
  71. but
  72. buzz
  73. by
  74. cadillac -> Cadillac
  75. california -> California
  76. call
  77. can
  78. capacity
  79. capital
  80. card
  81. care
  82. car ook Frans
  83. castle
  84. cat
  85. cause ook Frans
  86. central ook Frans
  87. certain
  88. champ ook Frans
  89. changes
  90. change
  91. chase
  92. chicken
  93. chief
  94. children
  95. child
  96. chinatown -> Chinatown
  97. civil ook Frans
  98. class
  99. come
  100. coming
  101. commander
  102. comments
  103. comment
  104. common
  105. companies
  106. company
  107. conditions
  108. control
  109. cooperation
  110. copy
  111. core
  112. costs
  113. cost
  114. could
  115. countries
  116. course
  117. court
  118. crane
  119. creek
  120. crime
  121. crystal
  122. ctu -> CTU
  123. current
  124. cut
  125. daddy
  126. daily
  127. dark
  128. dawn
  129. days
  130. day
  131. dead
  132. death
  133. dea -> DEA
  134. decision
  135. deep
  136. deg
  137. diamond
  138. did
  139. director
  140. dodge ook: Dodge
  141. done
  142. doo
  143. double
  144. dude
  145. due
  146. duke
  147. during
  148. dutch ook: Dutch
  149. each
  150. eagle
  151. early
  152. east
  153. easy
  154. economic
  155. economy
  156. education
  157. effects
  158. energy
  159. enterprise
  160. ers -> ERS
  161. every
  162. example
  163. experience
  164. eyes
  165. eye
  166. face
  167. fact
  168. faith
  169. falls
  170. family
  171. far
  172. fast
  173. fearless
  174. feel
  175. few
  176. fields
  177. final
  178. finch
  179. find
  180. fire
  181. first
  182. fish
  183. five
  184. following
  185. football
  186. force
  187. for
  188. found
  189. four
  190. freedom
  191. free
  192. from
  193. frost
  194. fucking
  195. fuller
  196. full
  197. further
  198. fu
  199. general ook Frans
  200. get
  201. ginger
  202. girl
  203. given
  204. give
  205. global
  206. going
  207. gonna
  208. good
  209. got
  210. governance
  211. government
  212. grand
  213. gray
  214. great
  215. grey
  216. groups
  217. group
  218. growth
  219. halloween -> Halloween
  220. has
  221. hawk
  222. head
  223. health
  224. heart
  225. hell
  226. herb
  227. here
  228. hey
  229. higher
  230. hills
  231. hill
  232. him
  233. history
  234. hi
  235. holy
  236. honey
  237. hood
  238. hoo
  239. hours
  240. however
  241. how
  242. human
  243. hung
  244. if
  245. implementation
  246. include
  247. including
  248. income
  249. increased
  250. increase
  251. industry
  252. information ook Frans
  253. institutions ook Frans
  254. into
  255. island
  256. it's
  257. its
  258. it
  259. jedi -> Jedi
  260. joy
  261. june -> June
  262. justice
  263. just
  264. key
  265. knight
  266. knowledge
  267. know
  268. kung
  269. lake
  270. lane
  271. law
  272. least
  273. left
  274. legal ook Frans
  275. less
  276. life
  277. line
  278. ling
  279. little
  280. ll-> 'll
  281. locale ook Frans
  282. london -> London
  283. loss
  284. love
  285. lower
  286. low
  287. lucky
  288. lung
  289. mac
  290. magic
  291. main
  292. make
  293. many
  294. may
  295. means
  296. mean
  297. measures
  298. members
  299. member
  300. message
  301. might
  302. miles
  303. million
  304. mind
  305. mission ook Frans
  306. mister
  307. months
  308. mountain
  309. mount
  310. mouse
  311. mrs -> Mrs
  312. much
  313. music
  314. my
  315. nasa
  316. national ook Frans
  317. nature
  318. necessary
  319. needs
  320. need
  321. netherlands -> Netherlands
  322. network
  323. never
  324. news
  325. new
  326. next
  327. night
  328. north
  329. not
  330. now
  331. no
  332. number
  333. off
  334. often
  335. oil
  336. okay
  337. old
  338. olive
  339. one
  340. only
  341. on ook Frans
  342. opinion ook Frans
  343. orange
  344. other
  345. our
  346. own
  347. ow
  348. oz
  349. pacific -> Pacific
  350. pain
  351. palace
  352. particular
  353. parties
  354. patients
  355. pay
  356. peace
  357. pearl
  358. people
  359. period
  360. personal
  361. personnel ook Frans
  362. person
  363. phantom
  364. place
  365. play
  366. points
  367. point
  368. police
  369. political
  370. population
  371. position ook Frans
  372. possible
  373. posted
  374. powers
  375. practices
  376. practice
  377. price
  378. prince
  379. problems
  380. problem
  381. process
  382. production
  383. products
  384. programme ook Frans
  385. progress
  386. projects
  387. protection
  388. provided
  389. provide
  390. public
  391. published
  392. quality
  393. queen
  394. questions ook Frans
  395. question
  396. quick
  397. rabbit
  398. rate
  399. really
  400. real
  401. related
  402. relations ook Frans
  403. required
  404. requirements
  405. results
  406. result
  407. rich
  408. rights
  409. right
  410. river
  411. road
  412. role
  413. roll
  414. royal ook Frans
  415. rules
  416. rusty
  417. safety
  418. said
  419. saint ook Frans
  420. salt
  421. same
  422. santa
  423. say
  424. science
  425. sea
  426. second
  427. see
  428. several
  429. sex
  430. shaggy
  431. shall
  432. she
  433. shh
  434. should
  435. side
  436. silver
  437. simply
  438. since
  439. situation ook Frans
  440. six
  441. sky
  442. snake
  443. social ook Frans
  444. something
  445. some
  446. source
  447. south
  448. so
  449. space
  450. specific
  451. springs
  452. standard
  453. stark
  454. states
  455. street
  456. strong
  457. students
  458. study
  459. subtitle
  460. such
  461. sugar
  462. summer
  463. sun
  464. supply
  465. svm -> SVM
  466. swat
  467. sweet
  468. synced
  469. sync
  470. systems
  471. system
  472. take
  473. tax
  474. tdb -> TDB
  475. technology
  476. tech
  477. terms
  478. thanksgiving ook: Thanksgiving
  479. than
  480. that
  481. their
  482. them
  483. then
  484. therefore
  485. there
  486. they
  487. the
  488. things
  489. thing
  490. think
  491. third
  492. this
  493. those
  494. three
  495. through
  496. tiger
  497. times
  498. today
  499. together
  500. too
  501. total ook Frans
  502. touch
  503. town
  504. to
  505. trade
  506. treatment
  507. true
  508. two
  509. under
  510. union
  511. united
  512. university
  513. untranslated
  514. usa
  515. used
  516. use
  517. using
  518. us
  519. valley
  520. value
  521. various
  522. very
  523. ve
  524. village
  525. wall
  526. ward
  527. watch
  528. way
  529. wells
  530. well
  531. were
  532. what
  533. when
  534. where
  535. whether
  536. which
  537. while
  538. white
  539. whoa
  540. whoo
  541. who
  542. why
  543. will
  544. wing
  545. within
  546. with
  547. woman
  548. women
  549. wood
  550. woo
  551. working
  552. work
  553. world
  554. would
  555. wraith
  556. ya ook Frans
  557. yeah
  558. years
  559. year
  560. yet
  561. young
  562. your
  563. you
  564. yo

Duits

[bewerken]
  1. auch
  2. auf
  3. aus
  4. bin
  5. da
  6. dem
  7. du
  8. ein
  9. eine
  10. hat
  11. herr -> Herr
  12. ich
  13. im
  14. ist
  15. mit
  16. oder
  17. sich
  18. sind
  19. um
  20. und
  21. von
  22. wer
  23. wird
  24. zu

Frans

[bewerken]
  1. able ook Engels
  2. action ook Engels
  3. addition ook Engels
  4. administration ook Engels
  5. ainsi
  6. animal ook Engels
  7. article ook Engels
  8. aussi
  9. autre
  10. autres
  11. aux
  12. avec
  13. bien
  14. blanche
  15. ca
  16. capital ook Engels
  17. car ook Engels
  18. cause ook Engels
  19. ce
  20. central ook Engels
  21. centre
  22. cette
  23. champ ook Engels
  24. change ook Engels
  25. changes ook Engels
  26. civil ook Engels
  27. commander ook Engels
  28. comme
  29. comment ook Engels
  30. conditions ook Engels
  31. court ook Engels
  32. demande
  33. deux
  34. doit
  35. donc
  36. double ook Engels
  37. droit
  38. elle
  39. entre
  40. est
  41. et
  42. fait
  43. football ook Engels
  44. global ook Engels
  45. grand ook Engels
  46. général
  47. il
  48. information ook Engels
  49. institutions ook Engels
  50. le
  51. locale ook Engels
  52. loi
  53. lu
  54. légal
  55. membres
  56. ministre
  57. mission ook Engels
  58. monde
  59. national ook Engels
  60. ne
  61. ni
  62. notre
  63. nous
  64. olive ook Engels
  65. on ook Engels
  66. onde
  67. ont
  68. opinion ook Engels
  69. orange ook Engels
  70. ou
  71. pain ook Engels
  72. parties ook Engels
  73. pays
  74. personnel ook Engels
  75. police ook Engels
  76. population ook Engels
  77. position ook Engels
  78. possible ook Engels
  79. pour
  80. prince ook Engels
  81. production ook Engels
  82. programme ook Engels
  83. protection ook Engels
  84. public ook Engels
  85. qu'
  86. que
  87. question ook Engels
  88. questions ook Engels
  89. qui
  90. rate ook Engels
  91. relations ook Engels
  92. royal ook Engels
  93. rue
  94. saint ook Engels
  95. science ook Engels
  96. se
  97. ses
  98. situation ook Engels
  99. six ook Engels
  100. social ook Engels
  101. sont
  102. source ook Engels
  103. sur
  104. ta
  105. total ook Engels
  106. tous
  107. tout
  108. travail
  109. un
  110. une
  111. votre
  112. vous
  113. ya -> y'a ook Engels

Italiaans

[bewerken]
  1. con
  2. della
  3. monte
  4. una