WikiWoordenboek:Woordfrequentie in het Nederlands

Uit WikiWoordenboek
Naar navigatie springen Naar zoeken springen

Deze projectpagina beschrijft bevindingen van verkennend onderzoek of het mogelijk is op basis van open bronnen tot een goede lijst van woordfrequenties in het Nederlands te komen. Deze pagina geeft vooral de resultaten van de verkenning. Opvattingen en discussie over wat wenselijk is en verdere suggesties zijn welkom op de Overlegpagina.

Inleiding[bewerken]

Niet alle woorden uit een taal worden even vaak gebruikt. Voor iemand die een taal leert is het handig om te weten wat de meest gebruikte woorden zijn. Zo bleek bij een groot onderzoek naar Nederlandse teksten dat de 8 woorden ik, je, het, de, dat, is, niet en een samen 20 % van alle gesproken tekst uitmaken en dat 61 woorden samen goed waren voor de helft van alle gebruikte woorden. Enkele andere gegevens zijn samengevat in onderstaande tabel.

meestgebruikte woorden gezamenlijk aandeel
8 20 %
61 50 %
1.000 82 %
2.000 87 %
3.000 90 %

Toepassingsmogelijkheiden[bewerken]

Als je begrijpelijk wil schrijven helpt het ook om woorden te kiezen die veel worden gebruikt. Ook bij het verder ontwikkelen van een woordenboek is het handig om te weten wat meer- en mindergebruikte woorden zijn. Zo is de lijst van Open Subtitles al gebruikt om WikiWoordenboek aan te vullen. Het kan ook handig zijn om prioriteiten te stellen bij andere verbeteringen aan het woordenboek. Als de uitkomst voldoende degelijk is, zouden we de informatie ook op de Nederlandse lemma's kunnen weergeven, net zoals we dat voor enkele andere talen al doen.

Bestaand onderzoek[bewerken]

Onderzoek naar woordfrequentie dient om een indruk te krijgen hoe veel of weinig een woord gebruikt wordt. Voor dit onderzoek wordt een groot aantal teksten verzameld en opgedeeld in losse woorden die vervolgens worden geturfd. Uiteraard hangt het resultaat ook af van de teksten die zijn meegenomen. Uit welke periodes komen de teksten, uit welke delen van het taalgebied, ging het om geschreven of gesproken tekst, voor welk publiek waren ze bedoeld en waar gingen ze over: het heeft allemaal invloed op het resultaat. Zo vind je begrippen uit de landbouw en de zeilvaart veel meer in oude teksten, en zijn termen die met internet te maken hebben meer iets van de 21e eeuw. In Nederlandse teksten lees je vaker vacaturestop en in Belgische aanwervingsstop. Ik en jij komen in geschreven taal veel minder vaak voor dan in gesproken taal. De gemelde frequenties van woorden hebben dus nooit een algemene geldigheid. Hun waarde wordt beïnvloed door de mate waarin de herkomst van de gebruikte teksten overeenkomt met het doel waarvoor je de frequenties wil gebruiken. Voor "algemeen" gebruik helpt het als de verscheidenheid van teksten groot is. Daarnaast helpt het erg als het aantal getelde woorden groot is. In 1975 waren enkele honderdduizenden woorden al goed voor een wetenschappelijke publicatie, tegenwoordig gaat het om tientallen miljoenen woorden.

Woordfrequenties uit open bronnen[bewerken]

Het ligt voor de hand dat woordfrequentie nuttige informatie in een woordenboek kan zijn. Helaas zijn de resultaten van wetenschappelijk onderzoek naar het Nederlands niet onder een voldoende vrije licentie beschikbaar om in WikiWoordenboek te gebruiken. Maar er zijn van Open Taal en Open Subtitles wel bestanden met frequenties beschikbaar. Doel van deze projectpagina is om na te gaan of hieruit voor WikiWoordenboek bruikbare woordfrequenties zijn af te leiden.

Kenmerken van beide bestanden[bewerken]

 • Beide bestanden bevatten "tokens": de stukjes tekst die je overhoudt als je uitzeeft wat er tussen spaties en andere woordscheidingstekens staat. In WikiWoordenboektermen zijn dat meestal de woordvormen waar wij een pagina voor maken en dat sluit dus aardig aan. Maar je kunt bij "zijn" niet zien hoe vaak het als werkwoord en hoe vaak het bezittelijk voornaamwoord werd gebruikt.
 • Beide bestanden komen ongeveer uit dezelfde periode, zo rond 2010.
 • Beide bestanden bevatten woorden die geen correct Nederlands zijn: spel- en scanfouten en woorden uit andere talen.

Kenmerken van Open Subtitles[bewerken]

 • Dit zijn twee bestanden, 2011 en 2012 die een forse overlap vertonen, er zijn woorden bijgekomen en verdwenen, maar over het geheel genomen bevat 2012 iets meer woorden en wat hogere totalen per woord. Bij een beperkt aantal woorden is er een relatief groot verschil tussen beide jaren: dit lijken correcties.
 • Hoofdletters, punten en apostrofs ontbreken.
 • Diacritische tekens worden weergegeven, maar ook tekens die in het Nederlands niet voorkomen.
 • Er staan nogal wat namen en spreektaalwoorden in die Engelstalig zijn.
 • Bevat meer spreektaal.

Kenmerken van Open Taal[bewerken]

 • Dit bestand is veel groter: het bevat een ordegrootte meer woorden en hogere aantallen.
 • Diacritische tekens ontbreken.
 • Er zijn ook woorden met hoofdletters en punten erin.
 • Er staan nogal wat woorden uit vreemde talen en urls in.
 • Bevat meer schrijftaal.

Aanpak[bewerken]

Een bruikbare lijst vereist allereerst het uitziften van de correct gespelde Nederlandse woorden. Kwestie van alle vormen vergelijken met het Groene Boekje. Om te beginnen is er een lijst gemaakt met de woorden die in een identieke schrijfwijze zowel in de lijst van Open Taal als in een lijst met ondertitels voorkomen, zodat één keer nagaan voor beide lijsten genoeg is. Dit zijn een kleine 200.000 woorden, dus deze klus gaat wel even duren.

Kwesties[bewerken]

Kwaliteit van de bestanden[bewerken]

Enige verkenning met de meest frequente woorden levert de volgende kwesties op:

 1. Woorden die toch wel in het woordenboek en in de telling horen
  1. ouderwetse verbogen vormen van woorden die het Groene Boekje alleen in vaste verbindingen vermeld
  2. verbogen vormen die het Groene Boekje niet vermeldt
 2. Woorden die na een correctie en met corresponderende aanpassing van de telling wel in WikiWoordenboek horen
  1. afkortingen zonder punt
  2. woorden die ten onrechte aaneengeschreven zijn
  3. afleidingen van namen zonder hoofdletter
  4. overige fout gespelde woorden
  5. goed herkenbare scanfouten
 3. Woorden die misschien wel in WikiWoordenboek horen, maar in eigenlijk niet in de telling voor het Nederlands
  1. woorden uit vreemde talen
  2. voornamen (vaak Engels)
  3. plaatsnamen
  4. html-codes, die kennelijk in de tekst zijn beland
 4. Woorden die niet in WikiWoordenboek horen en eigenlijk buiten de telling horen te blijven
  1. url's
  2. achternamen (vaak Engels)

Het lastige bij het ziften is dat er ook correct gespelde woorden zijn, die heel veel voorkomen omdat ze niet zijn te onderscheiden van één van de hiervoor genoemde fouten. De verkeerd gespelde naam "Ben" laat zich niet meer onderscheiden van de werkwoordsvorm "ben". En "mr" is zonder punt een correcte afkorting van medezeggenschapsraad, met punt een academische titel maar het is plausibel dat het in ondertitels veel vaker gaat om het Engelse "mister".

Welk bestand als uitgangspunt nemen?[bewerken]

De verschillen tussen de bestanden (Open Subtitles versus Open Taal en Open Subtitles onderling) leidden tot enig onderzoek of een combinatie van deze gegevens tot een voor WikiWoordenboek optimaal resultaat zou kunnen leiden: beide bestanden hebben immers hun sterke kanten. Als we deze bestanden vergelijken met bestanden waarin voor tienduizenden woorden is onderzocht hoeveel Belgen en Nederlanders ze (her-)kennen is er een opvallende conclusie: de correlatie met het bestand van Open Taal is duidelijk groter dan die van de beide bestanden uit Open Subtitles en het lukt niet een combinatie van gegevens uit beide bronnen te maken die nog beter correleert: op het niveau van afzonderlijke woorden kun je gemakkelijk zien wat de vreemde uitschieters omhoog en omlaag zijn, maar met welke weegfactoren je de bestanden in hun geheel ook combineert, het leidt niet tot een betere score dan Open Taal op zichzelf al oplevert. Tegenover de woorden waar Open Subtitles vooral de spreektaal beter weerspiegelt, staan ook woorden die vrijwel ontbreken of juist heel veel voorkomen omdat ondertitels natuurlijk niet echt een doorsnee van het normale taalgebruik vormen. Dit leidt tot de slotsom dat het voor de frequentiegegevens beter is om het bestand van Open Taal als basis te nemen. De gegevens uit Open Subtitles kunnen dan daarnaast worden vermeld, omdat overeenkomst of verschil wel degelijk informatief is. Naast het feit dat Open Taal beter correleert met de waargenomen bekendheid van woorden is een ander voordeel dat dit bestand veel meer verschillende woorden omvat en dus vaker uitsluitsel geeft.

Welke maatstaf voor frequenties gebruiken?[bewerken]

Je kunt de frequentie van woorden op verschillende manieren weergeven.

 1. Het absolute aantal keren dat een woord in de onderzochte teksten voorkwam, de absolute frequentie. Voordeel: dit is een feitelijk gegeven dat weinig uitleg behoeft. Nadeel: de getallen kunnen bij een groot bestand als Open Taal heel ver uit elkaar liggen en zijn dan cijfermatig moeilijk te interpreteren. Bovendien zijn de resultaten uit verschillende onderzoeken dan lastig te vergelijken.
 2. Het aantal keren dat een woord voorkomt gedeeld door het totale aantal woorden uit de teksten voorkwam, de relatieve frequentie. De vergelijking tussen bestanden wordt dan eenvoudiger, maar de waarden zijn nu merendeels zeer kleine getallen tussen 0 en 1 die nog steeds moeilijk te interpreteren zijn.
 3. Onderzoekers aan de Universiteit van Gent die woordfrequenties in verschillende talen onderzoeken, hebben als oplossing de Zipf voorgesteld (genoemd naar een beroemde onderzoeker van woordfrequenties): vermenigvuldig de relatieve frequentie met een miljard en neem daar de log10 van. Dit levert theoretisch per definitie een waarde tussen 0 en 9 en in de praktijk scores tussen 1 en 8 op.
 4. De relatieve frequentie kan ook ten opzichte van het meest frequente woord worden berekend. Belangrijk bezwaar is dat niet elk onderzoek voor dezelfde taal op hetzelfde meest frequente woord blijkt uit te komen: bij Open Taal is het "de", bij Open Subtitles "ik".
 5. Een andere benadering is om de woorden in volgorde van hun frequentie te zetten en te vermelden het hoeveelste woord het in die rangorde is. Dit werkt aardig bij de top van de lijst, maar naarmate de lijst langer wordt zijn er steeds meer woorden met een gelijke frequentie.

Alles afwegend lijkt voor dit project de Zipf het meest geschikt.

Tussenresultaat[bewerken]

Hieronder als eerste indruk een lijstje met de 1000 meest frequente woorden. Hierbij zijn bij een eerste benadering de frequenties zo gewogen dat Open Taal en Open Subtitles even veel effect hebben, en binnen Open Subtitles zo dat 2012 drie keer meer effect heeft dan 2011. Voor een definitieve lijst zou het aardig zijn om na te gaan welke wegingsfactoren een resultaat opleveren dat het meest consistent is met grotere onderzoeken. Het getal tussen haakjes geeft aan dat een woordvorm volgens het Groene Boekje bij meerdere woorden hoort.

 1. de
 2. het (2)
 3. ik
 4. je (2)
 5. van (2)
 6. een (3)
 7. is
 8. dat (3)
 9. en
 10. in (2)
 11. niet (6)
 12. op
 13. te
 14. zijn (2)
 15. voor (4)
 16. met (2)
 17. wat (4)
 18. die (2)
 19. we
 20. er
 21. maar (4)
 22. ze
 23. hij
 24. als
 25. aan (2)
 26. om (2)
 27. heb (2)
 28. me (2)
 29. dan (3)
 30. naar (3)
 31. dit
 32. was (6)
 33. ook
 34. ben (2)
 35. nog
 36. kan (2)
 37. u (2) ook: U
 38. heeft (2)
 39. of
 40. mijn (3)
 41. geen
 42. wel (4)
 43. hebben
 44. bij (3)
 45. hier
 46. zo (4)
 47. over (3)
 48. moet (3)
 49. uit (2)
 50. worden
 51. jij (2)
 52. weet (3)
 53. goed (2)
 54. wil (2)
 55. door (2)
 56. deze
 57. nu (3)
 58. ja
 59. hem (2)
 60. waar (5)
 61. meer (4)
 62. al (4)
 63. gaan
 64. wordt
 65. zal
 66. hoe
 67. haar (5)
 68. nee
 69. zou
 70. doen (2)
 71. kunnen (2)
 72. tot (2)
 73. mij (2)
 74. daar (2)
 75. ga
 76. gaat
 77. ons (4)
 78. kom (2)
 79. bent (2)
 80. moeten (2)
 81. had
 82. iets
 83. jullie (2)
 84. hebt
 85. laat (3)
 86. waarom
 87. dus (2)
 88. alleen
 89. jaar
 90. eens
 91. toch
 92. veel (4)
 93. zich
 94. zien
 95. alles
 96. wie (2)
 97. weg (3)
 98. echt (3)
 99. hun
 100. doe
 101. komt
 102. weer (7)
 103. denk
 104. mensen
 105. mee (2)
 106. komen
 107. jou (2)
 108. man (2)
 109. wij
 110. laten (2)
 111. andere (2)
 112. maken
 113. twee (2)
 114. tegen (2)
 115. terug
 116. nooit
 117. even
 118. m (2) ook: 'm
 119. onze
 120. tijd
 121. nou (2)
 122. niets (2)
 123. zij (3)
 124. heel (2)
 125. n ook: 'n
 126. werd
 127. omdat
 128. zei
 129. nodig (2)
 130. af
 131. leven (2)
 132. misschien
 133. zoals
 134. zeggen (2)
 135. uw
 136. iemand
 137. onder
 138. alle
 139. eerste (2)
 140. altijd
 141. na (3)
 142. hou
 143. toen (2)
 144. gewoon
 145. mag
 146. staat (2)
 147. weten (2)
 148. net (3)
 149. zit (2)
 150. nieuwe (2)
 151. dag (5)
 152. kijk (2)
 153. zullen
 154. binnen (2)
 155. zeg (3)
 156. zeker (2)
 157. willen
 158. zie
 159. gedaan (2)
 160. waren (4)
 161. keer (2)
 162. grote (2)
 163. allemaal (2)
 164. kunt
 165. t ook: 't
 166. doet
 167. dood (3)
 168. toe (3)
 169. geld (2)
 170. huis (2)
 171. erg (2)
 172. werk (2)
 173. anders
 174. beter (3)
 175. uur
 176. drie (2)
 177. geef
 178. vrouw
 179. wacht (3)
 180. zitten
 181. vinden
 182. zelf
 183. elkaar
 184. steeds (2)
 185. geven
 186. iedereen
 187. zegt
 188. eigen (2)
 189. krijgen
 190. vind
 191. vader (2)
 192. dank (2)
 193. tussen
 194. zonder (2)
 195. hele
 196. oh
 197. vraag (2)
 198. kon
 199. jouw (3)
 200. gezien (3)
 201. goede (2)
 202. maakt
 203. kinderen
 204. houden
 205. dacht
 206. blijven
 207. natuurlijk
 208. staan
 209. mr
 210. god
 211. wilt
 212. laatste (3)
 213. niemand
 214. want (5)
 215. vragen (2)
 216. niks (2)
 217. lang (2)
 218. wilde (3)
 219. helemaal
 220. genoeg (3)
 221. aantal
 222. snel (3)
 223. vast (2)
 224. ziet
 225. moeder (2)
 226. nemen
 227. plaats (2)
 228. geweest
 229. maak
 230. graag
 231. bedankt
 232. neem
 233. kwam
 234. mooi
 235. ging
 236. spijt (4)
 237. leuk
 238. per
 239. s ook: 's, S
 240. gemaakt (2)
 241. verder (2)
 242. mogelijk
 243. praten
 244. z ook: Z
 245. wanneer (2)
 246. achter (2)
 247. hallo
 248. naam
 249. klaar (2)
 250. hand (2)
 251. kijken
 252. dingen (2)
 253. zelfs
 254. beetje (2)
 255. lijkt (2)
 256. wereld
 257. helpen
 258. samen
 259. meneer (2)
 260. bedoel
 261. moest (2)
 262. wist (3)
 263. hadden
 264. paar (3)
 265. auto
 266. ten
 267. zouden
 268. werken (2)
 269. vriend
 270. eerst
 271. volgende (2)
 272. geeft
 273. blijf
 274. enige (2)
 275. buiten (4)
 276. gek (3)
 277. heer (3)
 278. vandaag
 279. volgens
 280. luister (2)
 281. jaren
 282. sorry
 283. ooit
 284. welke (2)
 285. kleine (2)
 286. zorgen (2)
 287. alsjeblieft
 288. eten (2)
 289. hen (2)
 290. moment
 291. verdomme
 292. idee
 293. beste (2)
 294. hoor (2)
 295. gezegd (2)
 296. groot (2)
 297. vindt
 298. jongen (3)
 299. manier
 300. deel (3)
 301. land (2)
 302. bijna
 303. zag
 304. denken
 305. a ook: à, A
 306. elke
 307. vertellen
 308. probleem
 309. krijgt
 310. deed
 311. kun
 312. dagen (2)
 313. onderzoek (2)
 314. artikel
 315. bang (2)
 316. jongens
 317. geleden (2)
 318. blijft
 319. geval
 320. tweede (2)
 321. week (6)
 322. open (2)
 323. politie
 324. ligt
 325. zeer (3)
 326. eigenlijk
 327. pas (4)
 328. echter (2)
 329. heen
 330. thuis (2)
 331. mannen (2)
 332. o (2) ook: O
 333. men (2)
 334. orde (2)
 335. halen (3)
 336. morgen (3)
 337. minder (3)
 338. gebeurd (2)
 339. hoop (3)
 340. soms
 341. houdt
 342. vier (3)
 343. brengen
 344. via
 345. kind
 346. school (3)
 347. vijf (2)
 348. gebruik (2)
 349. gelijk (3)
 350. later (2)
 351. stad
 352. geloof (2)
 353. kant (4)
 354. oude (2)
 355. horen (4)
 356. geweldig
 357. daarom
 358. meisje (2)
 359. problemen
 360. vaak (2)
 361. gebeurt
 362. ie
 363. water (2)
 364. tijdens
 365. werden
 366. enkele (2)
 367. minister
 368. rustig
 369. duidelijk
 370. denkt
 371. spelen (2)
 372. vooral
 373. ken
 374. informatie
 375. juist
 376. hoofd
 377. zoon
 378. krijg (2)
 379. precies
 380. gevonden
 381. wachten (3)
 382. gehad
 383. boven (2)
 384. ander (2)
 385. soort
 386. kans
 387. miljoen (2)
 388. stop (4)
 389. best (5)
 390. zaken
 391. eerder
 392. ter
 393. betekent
 394. vrouwen (2)
 395. rond (4)
 396. werkt
 397. zorg (2)
 398. vroeg (2)
 399. zodat
 400. familie
 401. vrienden
 402. ogen (2)
 403. zet (2)
 404. vertel
 405. zoveel
 406. lid
 407. zat (4)
 408. plan (3)
 409. minuten
 410. vond (2)
 411. vrij (3)
 412. gegeven (3)
 413. maanden (2)
 414. mooie
 415. begrijp
 416. terwijl
 417. stellen (2)
 418. gebruiken (2)
 419. vanaf (2)
 420. alsof
 421. lopen (2)
 422. begin (2)
 423. pak (3)
 424. zoek (2)
 425. mogen
 426. wou
 427. zaak
 428. zoeken
 429. procent
 430. recht (3)
 431. lekker
 432. heet (2)
 433. sinds (2)
 434. slecht (2)
 435. waarin
 436. vanavond
 437. ervan
 438. spreken
 439. belangrijk
 440. ding (2)
 441. gehoord (2)
 442. blij
 443. euro
 444. handen (2)
 445. voel
 446. hoeveel (2)
 447. liggen
 448. dollar
 449. gebruikt (2)
 450. druk (3)
 451. bijvoorbeeld
 452. probeer
 453. tien (2)
 454. word
 455. eruit
 456. verhaal (2)
 457. der (0)
 458. ouders
 459. gekomen
 460. klein
 461. hulp
 462. weinig (3)
 463. echte
 464. help (2)
 465. grond (2)
 466. haal (3)
 467. moeilijk
 468. beginnen
 469. proberen
 470. zetten (2)
 471. basis
 472. reden (5)
 473. deur
 474. zin (3)
 475. kent
 476. jezelf
 477. bezig (2)
 478. mevrouw (2)
 479. leren (5)
 480. kamer
 481. vermoord (2)
 482. geloven (2)
 483. dezelfde
 484. bel (2)
 485. schiet
 486. ergens
 487. pijn (3)
 488. zes (2)
 489. slechts (2)
 490. kreeg
 491. stuk (3)
 492. gebied (2)
 493. meteen
 494. neemt
 495. nieuw
 496. leden (2)
 497. groep (2)
 498. vol (2)
 499. bestaat
 500. betreft
 501. nummer (2)
 502. belang (2)
 503. weken (3)
 504. prima (2)
 505. direct
 506. vallen (4)
 507. punt (4)
 508. valt
 509. langs (3)
 510. bekend (2)
 511. kosten (2)
 512. hetzelfde
 513. elk
 514. gebeuren (2)
 515. extra (2)
 516. vanuit
 517. hoeft
 518. vergeten
 519. broer
 520. boek (2)
 521. vooruit (2)
 522. regering
 523. gemeente
 524. wees (3)
 525. voordat
 526. pakken (2)
 527. schat (2)
 528. afgelopen (2)
 529. los (3)
 530. film (2)
 531. waarschijnlijk
 532. geworden (2)
 533. genomen (2)
 534. ver
 535. oud
 536. aandacht
 537. gaf
 538. blijkt
 539. wet (2)
 540. stond (2)
 541. nacht
 542. derde (5)
 543. daarmee
 544. nieuws (2)
 545. bedrijf (2)
 546. foto
 547. anderen
 548. kop (2)
 549. betalen
 550. hart
 551. stoppen (2)
 552. enkel (3)
 553. sta
 554. licht (3)
 555. rol (2)
 556. bed
 557. breng
 558. antwoord (2)
 559. voorbij (3)
 560. rest (2)
 561. gelukkig
 562. praat (2)
 563. ongeveer
 564. liefde
 565. verteld
 566. plek (2)
 567. woord (2)
 568. situatie
 569. meest (2)
 570. opnieuw
 571. mis (3)
 572. dochter
 573. papa
 574. ieder
 575. neer (2)
 576. alstublieft
 577. klootzak
 578. dicht (3)
 579. kennen
 580. erop
 581. doden (2)
 582. klopt
 583. beneden
 584. einde
 585. inderdaad
 586. landen (3)
 587. dokter (2)
 588. avond
 589. hard (2)
 590. oorlog
 591. toekomst
 592. zult (2)
 593. grootste (2)
 594. waarbij
 595. bellen (2)
 596. rust (2)
 597. maakte
 598. verwacht (2)
 599. waarop
 600. gezicht (2)
 601. stel (2)
 602. wakker (2)
 603. liet
 604. mama
 605. slapen (2)
 606. daarna
 607. zichzelf
 608. mening
 609. meeste
 610. bedrijven (2)
 611. ruimte
 612. mens (2)
 613. rijden
 614. buurt (3)
 615. gevraagd (2)
 616. doel (2)
 617. bepaalde (2)
 618. zoiets
 619. acht (3)
 620. betrokken (2)
 621. loopt
 622. hoort
 623. sterk (2)
 624. gevallen (3)
 625. sprake (0)
 626. drinken
 627. beleid
 628. beide
 629. begrepen
 630. huidige
 631. brief (2)
 632. hoi
 633. e ook: E
 634. wijze (3)
 635. ervoor
 636. team
 637. overheid
 638. naast (4)
 639. geldt
 640. baan (2)
 641. lange
 642. woorden (2)
 643. daarvan
 644. eraan
 645. veilig
 646. snap (2)
 647. belangrijke
 648. overal (2)
 649. baby
 650. maand
 651. mond (2)
 652. vergeet
 653. gesteld (2)
 654. opgenomen
 655. begint
 656. lezen
 657. langer
 658. noemen
 659. gisteren
 660. rekening
 661. vorm (2)
 662. fout (2)
 663. president
 664. d ook: d
 665. gegevens (2)
 666. stelt (2)
 667. hond
 668. vraagt
 669. eind (2)
 670. straks (2)
 671. kennis (2)
 672. zowel
 673. sir
 674. muziek
 675. heren (2)
 676. waarheid
 677. stap (2)
 678. dient
 679. baas (2)
 680. voelt
 681. gevoel (2)
 682. vertrouwen (2)
 683. contact (2)
 684. volledig
 685. welkom (3)
 686. januari
 687. regels
 688. stil (2)
 689. gehouden (2)
 690. geluk (2)
 691. aardig
 692. programma
 693. daarbij
 694. dienst
 695. vorige
 696. gebracht (2)
 697. volgen
 698. hoorde
 699. ok (0) wel: oké
 700. fijn
 701. dr (0) wel: d'r; dr.
 702. gegaan
 703. la (2)
 704. schuld
 705. jack
 706. eerlijk
 707. he
 708. prijs (4)
 709. periode
 710. project
 711. half
 712. telefoon
 713. kopen (2)
 714. lichaam
 715. liever (2)
 716. bloed (3)
 717. agent
 718. kwamen
 719. systeem
 720. namelijk
 721. vermoorden
 722. persoon
 723. gang
 724. sterven
 725. meter (2)
 726. vriendin
 727. sommige
 728. maatregelen
 729. waarvan
 730. gemeenten
 731. kracht
 732. ermee
 733. veranderen
 734. prachtig
 735. gekregen
 736. ontwikkeling
 737. verloren (2)
 738. vandaan
 739. leiden
 740. redden
 741. klinkt
 742. vele
 743. daarvoor
 744. raad (2)
 745. onderwijs (2)
 746. bestaan (2)
 747. termijn
 748. gesproken (2)
 749. mezelf (2)
 750. hoog (2)
 751. voorstellen (2)
 752. geboren
 753. feit
 754. beeld
 755. organisatie
 756. kader (2)
 757. voldoende (3)
 758. brengt
 759. totaal (2)
 760. vent (2)
 761. schrijven (2)
 762. begon
 763. betrekking
 764. voorzitter
 765. lucht (2)
 766. spel (3)
 767. meisjes
 768. erin
 769. zeven (4)
 770. loop (2)
 771. hoge
 772. keuze
 773. nam
 774. verband
 775. succes
 776. juiste
 777. helft
 778. speelt
 779. niveau
 780. hield
 781. iedere
 782. nogal
 783. controle
 784. mam
 785. l (2) ook: L
 786. uiteindelijk
 787. kabinet
 788. waardoor
 789. schatje
 790. wonen
 791. april (2)
 792. kwijt (2)
 793. slechte
 794. kwaliteit
 795. jonge (2)
 796. vanwege
 797. ene (0)
 798. markt (2)
 799. leggen (2)
 800. voorzichtig
 801. maart (2)
 802. houd
 803. kerel
 804. voelen
 805. voorkomen (3)
 806. toepassing
 807. gingen
 808. dames
 809. besluit (2)
 810. normaal (2)
 811. sociale
 812. winnen
 813. kapitein
 814. bepaald (2)
 815. haat (2)
 816. nergens
 817. hoger
 818. hoogte
 819. relatie
 820. mei
 821. plezier (2)
 822. kwaad (2)
 823. richting (2)
 824. straat
 825. mogelijkheid
 826. geheel (2)
 827. pa
 828. trekken (2)
 829. les (2)
 830. wedstrijd
 831. ziekenhuis
 832. eindelijk
 833. positie
 834. bank (2)
 835. begonnen
 836. plaatsen (2)
 837. oog (2)
 838. onderdeel
 839. vroeger (2)
 840. voorstel (2)
 841. bedoeld
 842. gevolg
 843. delen (3)
 844. juni
 845. activiteiten
 846. kort (3)
 847. vertelde
 848. nadat
 849. samenwerking
 850. mogelijkheden
 851. koning
 852. partijen
 853. december
 854. shit
 855. koffie
 856. krant
 857. dragen
 858. trouwens
 859. uitvoering
 860. overleg (3)
 861. omhoog
 862. september
 863. waarmee
 864. aarde (2)
 865. vormen (2)
 866. ontmoeten
 867. advies
 868. ontvangen (2)
 869. punten (4)
 870. resultaten
 871. vechten
 872. name (0)
 873. des
 874. voeren (3)
 875. i ook: I
 876. schieten
 877. moesten
 878. plannen (3)
 879. ontmoet
 880. ziek (2)
 881. algemeen
 882. kaart (2)
 883. trouwen (2)
 884. erbij
 885. waard (4)
 886. bestuur (2)
 887. ruim (3)
 888. politieke
 889. komende
 890. kerk (2)
 891. volgt
 892. begrijpen
 893. links (3)
 894. lieverd
 895. genoemd (2)
 896. mocht
 897. wapen (3)
 898. grappig
 899. gekozen
 900. partij
 901. korte
 902. serieus
 903. lijn (2)
 904. verlaten (4)
 905. reeds
 906. algemene
 907. bieden
 908. kiezen (2)
 909. zover
 910. zomaar
 911. leger (3)
 912. vreemd
 913. beschikbaar
 914. groter
 915. immers
 916. miss
 917. risico
 918. b ook: B
 919. reactie
 920. verkeerd (2)
 921. terecht
 922. zwarte (2)
 923. sturen (2)
 924. start (2)
 925. rapport
 926. welk (3)
 927. rechter (3)
 928. betaald
 929. oktober
 930. makkelijk
 931. bereiken
 932. leuke
 933. belangrijkste
 934. naartoe
 935. bijzonder
 936. gezet (2)
 937. trots (3)
 938. verleden (3)
 939. discussie
 940. indien (2)
 941. aanwezig
 942. vervolgens
 943. lijst (2)
 944. verliezen (2)
 945. waarde (3)
 946. vuur (2)
 947. stand (2)
 948. eet
 949. zwaar
 950. vorig
 951. val (5)
 952. verkopen (2)
 953. kantoor
 954. perfect
 955. idioot (2)
 956. aldus
 957. trek (2)
 958. dienen
 959. leeft
 960. commissie
 961. kijkt
 962. ziens (0)
 963. lijken (3)
 964. veranderd
 965. fantastisch
 966. gewerkt
 967. verdomde (2)
 968. juli
 969. macht
 970. tenminste
 971. den
 972. middelen (2)
 973. website
 974. regeling
 975. stuur (2)
 976. onzin
 977. geschreven (2)
 978. hotel
 979. politiek (2)
 980. gevaar
 981. behalve (2)
 982. veiligheid
 983. goeie
 984. personen
 985. getrouwd (2)
 986. bestaande
 987. pap (2)
 988. probeert
 989. oplossing
 990. voorzien (2)
 991. wapens (2)
 992. zus (2)
 993. kost (2)
 994. november
 995. meestal
 996. slaan
 997. biedt
 998. diverse
 999. schip
 1000. uitgevoerd (2)

Woorden uit vreemde talen[bewerken]

Er blijken zowel bij Open Taal als bij de Open Subtitles heel wat woorden uit vreemde talen in de lijst te zitten die niet (ook) in het Groene Boekje staan. Ik zal hieronder een paar lijsten met de meest voorkomende (frequentie boven de 2 per miljoen) geven. De lijsten worden nog steeds langer, maar dit zijn wel de meest voorkomende woorden die erop staan. Wat mij betreft zijn dit woorden die we gewoon als woorden uit de betreffende taal opnemen. Het lijkt me niet nodig om het totale aantal woorden (en dus de frequenties) te corrigeren: Je komt in Nederlandse teksten nu eenmaal wel eens buitenlandse woorden tegen. Bovendien is zo'n correctie niet mogelijk bij buitenlandse woorden die hetzelfde worden geschreven als Nederlandse woorden die wel in het Groene Boekje staat. Zo is bijvoorbeeld het Franse la niet meer te onderscheiden van het Nederlandse la, we kennen alleen het totale aantal keren dat la voorkomt.Het effect van een correctie zou overigens ook marginaal zijn. Het gaat om Engels, Frans, Duits en Italiaans, waarbij er tussen Engels en Frans overlap is. Soms is een kleine aanpassing in de schrijfwijze nodig, aangegeven met ->. Omdat mijn talenkennis beperkt is, leek het me in ieder geval nuttig deze lijsten voor commentaar aan te bieden. --MarcoSwart (overleg) 19 mei 2016 00:32 (CEST)

Engels[bewerken]

 1. able
 2. about
 3. above
 4. access
 5. action ook Frans
 6. activities
 7. addition
 8. administration ook Frans
 9. after
 10. against
 11. again
 12. age
 13. ago
 14. agreement
 15. all
 16. already
 17. also
 18. always
 19. am
 20. american -> American
 21. among
 22. an
 23. analysis
 24. and
 25. animal
 26. another
 27. any
 28. application
 29. areas
 30. area
 31. around
 32. article
 33. ash
 34. ass
 35. atlantic -> Atlantic
 36. authorities
 37. available
 38. average
 39. away
 40. aye
 41. banks
 42. based
 43. bay
 44. beach
 45. because
 46. become
 47. before
 48. being
 49. bell
 50. better
 51. between
 52. be
 53. bird
 54. bishop
 55. black
 56. blood
 57. blue
 58. bluray -> Blu-ray
 59. book
 60. boo
 61. boss
 62. both
 63. brooks
 64. brothers
 65. brother
 66. brown
 67. buck
 68. buffalo
 69. bull
 70. butch
 71. but
 72. buzz
 73. by
 74. cadillac -> Cadillac
 75. california -> California
 76. call
 77. can
 78. capacity
 79. capital
 80. card
 81. care
 82. car ook Frans
 83. castle
 84. cat
 85. cause ook Frans
 86. central ook Frans
 87. certain
 88. champ ook Frans
 89. changes
 90. change
 91. chase
 92. chicken
 93. chief
 94. children
 95. child
 96. chinatown -> Chinatown
 97. civil ook Frans
 98. class
 99. come
 100. coming
 101. commander
 102. comments
 103. comment
 104. common
 105. companies
 106. company
 107. conditions
 108. control
 109. cooperation
 110. copy
 111. core
 112. costs
 113. cost
 114. could
 115. countries
 116. course
 117. court
 118. crane
 119. creek
 120. crime
 121. crystal
 122. ctu -> CTU
 123. current
 124. cut
 125. daddy
 126. daily
 127. dark
 128. dawn
 129. days
 130. day
 131. dead
 132. death
 133. dea -> DEA
 134. decision
 135. deep
 136. deg
 137. diamond
 138. did
 139. director
 140. dodge ook: Dodge
 141. done
 142. doo
 143. double
 144. dude
 145. due
 146. duke
 147. during
 148. dutch ook: Dutch
 149. each
 150. eagle
 151. early
 152. east
 153. easy
 154. economic
 155. economy
 156. education
 157. effects
 158. energy
 159. enterprise
 160. ers -> ERS
 161. every
 162. example
 163. experience
 164. eyes
 165. eye
 166. face
 167. fact
 168. faith
 169. falls
 170. family
 171. far
 172. fast
 173. fearless
 174. feel
 175. few
 176. fields
 177. final
 178. finch
 179. find
 180. fire
 181. first
 182. fish
 183. five
 184. following
 185. football
 186. force
 187. for
 188. found
 189. four
 190. freedom
 191. free
 192. from
 193. frost
 194. fucking
 195. fuller
 196. full
 197. further
 198. fu
 199. general ook Frans
 200. get
 201. ginger
 202. girl
 203. given
 204. give
 205. global
 206. going
 207. gonna
 208. good
 209. got
 210. governance
 211. government
 212. grand
 213. gray
 214. great
 215. grey
 216. groups
 217. group
 218. growth
 219. halloween -> Halloween
 220. has
 221. hawk
 222. head
 223. health
 224. heart
 225. hell
 226. herb
 227. here
 228. hey
 229. higher
 230. hills
 231. hill
 232. him
 233. history
 234. hi
 235. holy
 236. honey
 237. hood
 238. hoo
 239. hours
 240. however
 241. how
 242. human
 243. hung
 244. if
 245. implementation
 246. include
 247. including
 248. income
 249. increased
 250. increase
 251. industry
 252. information ook Frans
 253. institutions ook Frans
 254. into
 255. island
 256. it's
 257. its
 258. it
 259. jedi -> Jedi
 260. joy
 261. june -> June
 262. justice
 263. just
 264. key
 265. knight
 266. knowledge
 267. know
 268. kung
 269. lake
 270. lane
 271. law
 272. least
 273. left
 274. legal ook Frans
 275. less
 276. life
 277. line
 278. ling
 279. little
 280. ll-> 'll
 281. locale ook Frans
 282. london -> London
 283. loss
 284. love
 285. lower
 286. low
 287. lucky
 288. lung
 289. mac
 290. magic
 291. main
 292. make
 293. many
 294. may
 295. means
 296. mean
 297. measures
 298. members
 299. member
 300. message
 301. might
 302. miles
 303. million
 304. mind
 305. mission ook Frans
 306. mister
 307. months
 308. mountain
 309. mount
 310. mouse
 311. mrs -> Mrs
 312. much
 313. music
 314. my
 315. nasa
 316. national ook Frans
 317. nature
 318. necessary
 319. needs
 320. need
 321. netherlands -> Netherlands
 322. network
 323. never
 324. news
 325. new
 326. next
 327. night
 328. north
 329. not
 330. now
 331. no
 332. number
 333. off
 334. often
 335. oil
 336. okay
 337. old
 338. olive
 339. one
 340. only
 341. on ook Frans
 342. opinion ook Frans
 343. orange
 344. other
 345. our
 346. own
 347. ow
 348. oz
 349. pacific -> Pacific
 350. pain
 351. palace
 352. particular
 353. parties
 354. patients
 355. pay
 356. peace
 357. pearl
 358. people
 359. period
 360. personal
 361. personnel ook Frans
 362. person
 363. phantom
 364. place
 365. play
 366. points
 367. point
 368. police
 369. political
 370. population
 371. position ook Frans
 372. possible
 373. posted
 374. powers
 375. practices
 376. practice
 377. price
 378. prince
 379. problems
 380. problem
 381. process
 382. production
 383. products
 384. programme ook Frans
 385. progress
 386. projects
 387. protection
 388. provided
 389. provide
 390. public
 391. published
 392. quality
 393. queen
 394. questions ook Frans
 395. question
 396. quick
 397. rabbit
 398. rate
 399. really
 400. real
 401. related
 402. relations ook Frans
 403. required
 404. requirements
 405. results
 406. result
 407. rich
 408. rights
 409. right
 410. river
 411. road
 412. role
 413. roll
 414. royal ook Frans
 415. rules
 416. rusty
 417. safety
 418. said
 419. saint ook Frans
 420. salt
 421. same
 422. santa
 423. say
 424. science
 425. sea
 426. second
 427. see
 428. several
 429. sex
 430. shaggy
 431. shall
 432. she
 433. shh
 434. should
 435. side
 436. silver
 437. simply
 438. since
 439. situation ook Frans
 440. six
 441. sky
 442. snake
 443. social ook Frans
 444. something
 445. some
 446. source
 447. south
 448. so
 449. space
 450. specific
 451. springs
 452. standard
 453. stark
 454. states
 455. street
 456. strong
 457. students
 458. study
 459. subtitle
 460. such
 461. sugar
 462. summer
 463. sun
 464. supply
 465. svm -> SVM
 466. swat
 467. sweet
 468. synced
 469. sync
 470. systems
 471. system
 472. take
 473. tax
 474. tdb -> TDB
 475. technology
 476. tech
 477. terms
 478. thanksgiving ook: Thanksgiving
 479. than
 480. that
 481. their
 482. them
 483. then
 484. therefore
 485. there
 486. they
 487. the
 488. things
 489. thing
 490. think
 491. third
 492. this
 493. those
 494. three
 495. through
 496. tiger
 497. times
 498. today
 499. together
 500. too
 501. total ook Frans
 502. touch
 503. town
 504. to
 505. trade
 506. treatment
 507. true
 508. two
 509. under
 510. union
 511. united
 512. university
 513. untranslated
 514. usa
 515. used
 516. use
 517. using
 518. us
 519. valley
 520. value
 521. various
 522. very
 523. ve
 524. village
 525. wall
 526. ward
 527. watch
 528. way
 529. wells
 530. well
 531. were
 532. what
 533. when
 534. where
 535. whether
 536. which
 537. while
 538. white
 539. whoa
 540. whoo
 541. who
 542. why
 543. will
 544. wing
 545. within
 546. with
 547. woman
 548. women
 549. wood
 550. woo
 551. working
 552. work
 553. world
 554. would
 555. wraith
 556. ya ook Frans
 557. yeah
 558. years
 559. year
 560. yet
 561. young
 562. your
 563. you
 564. yo

Duits[bewerken]

 1. auch
 2. auf
 3. aus
 4. bin
 5. da
 6. dem
 7. du
 8. ein
 9. eine
 10. hat
 11. herr -> Herr
 12. ich
 13. im
 14. ist
 15. mit
 16. oder
 17. sich
 18. sind
 19. um
 20. und
 21. von
 22. wer
 23. wird
 24. zu

Frans[bewerken]

 1. able ook Engels
 2. action ook Engels
 3. addition ook Engels
 4. administration ook Engels
 5. ainsi
 6. animal ook Engels
 7. article ook Engels
 8. aussi
 9. autre
 10. autres
 11. aux
 12. avec
 13. bien
 14. blanche
 15. ca
 16. capital ook Engels
 17. car ook Engels
 18. cause ook Engels
 19. ce
 20. central ook Engels
 21. centre
 22. cette
 23. champ ook Engels
 24. change ook Engels
 25. changes ook Engels
 26. civil ook Engels
 27. commander ook Engels
 28. comme
 29. comment ook Engels
 30. conditions ook Engels
 31. court ook Engels
 32. demande
 33. deux
 34. doit
 35. donc
 36. double ook Engels
 37. droit
 38. elle
 39. entre
 40. est
 41. et
 42. fait
 43. football ook Engels
 44. global ook Engels
 45. grand ook Engels
 46. général
 47. il
 48. information ook Engels
 49. institutions ook Engels
 50. le
 51. locale ook Engels
 52. loi
 53. lu
 54. légal
 55. membres
 56. ministre
 57. mission ook Engels
 58. monde
 59. national ook Engels
 60. ne
 61. ni
 62. notre
 63. nous
 64. olive ook Engels
 65. on ook Engels
 66. onde
 67. ont
 68. opinion ook Engels
 69. orange ook Engels
 70. ou
 71. pain ook Engels
 72. parties ook Engels
 73. pays
 74. personnel ook Engels
 75. police ook Engels
 76. population ook Engels
 77. position ook Engels
 78. possible ook Engels
 79. pour
 80. prince ook Engels
 81. production ook Engels
 82. programme ook Engels
 83. protection ook Engels
 84. public ook Engels
 85. qu'
 86. que
 87. question ook Engels
 88. questions ook Engels
 89. qui
 90. rate ook Engels
 91. relations ook Engels
 92. royal ook Engels
 93. rue
 94. saint ook Engels
 95. science ook Engels
 96. se
 97. ses
 98. situation ook Engels
 99. six ook Engels
 100. social ook Engels
 101. sont
 102. source ook Engels
 103. sur
 104. ta
 105. total ook Engels
 106. tous
 107. tout
 108. travail
 109. un
 110. une
 111. votre
 112. vous
 113. ya -> y'a ook Engels

Italiaans[bewerken]

 1. con
 2. della
 3. monte
 4. una