Overleg WikiWoordenboek:Woordfrequentie in het Nederlands

Hallo Marco,

Dit is een geweldig project !!

Ik ben daar min of meer ook mee bezig geweest.

- Ik heb een heel aantal leerboeken voor het NT2 (nederlands als tweede taal) onderwijs gescand. (o.a. Code Plus Takenboek deel 1-4) en daar OCR op los gelaten.

- Ik heb hier alle losse woorden uitgehaald.

- Deze losse woorden heb ik gealfabetiseerd en de woordfrequenties bepaald.

- Daarna heb ik alle 'verkeerd' gespelde woorden er uitgehaald (spellingscontrole van open office = de spellingschecker van open taal).

- De woorden heb ik tussen vierkante haakjes gezet en op een van mijn gebruikerspagina's gezet.

- Alle woorden die nog niet in het wikiwoordenboek staan worden dan rood.

- En daarna ben ik bezig geweest deze woorden in het wikiwoordenboek te zetten. Veel van de frequente rode 'woorden' waren cijfers (vandaar dat ik de cijfers heb ingevoerd). Veel van de frequente rode 'woorden' waren eigennamen (vandaar dat ik een hele rits jongens- en meisjenamen heb in gevoerd maar de creativiteit van ouders is dermate groot dat het haast ondoenlijk is deze lijst compleet te krijgen om nog maar te zwijgen over een lijst met (buitenlandse) familienamen). Veel van de rode 'woorden' zijn vervoegingen van naam- en werkwoorden (vandaar dat ik die nu in het wikiwoordenboek aan het zetten ben).

Een zelfde soort actie heb ik ook losgelaten op een corpus van NRC artikelen die ik zo in de jaren heb verzameld, en ook op de woordenlijsten voor Amsterdamse kinderen.

Maar er zit een addertje onder het gras ik mag wel zeggen een compleet slangennest! En dat slangennest heeft een naam nl. de Wet van Zipf [[1]]. In niet wiskundige termen: Er zijn weinig woorden (enkele duizenden) die heel frequent zijn, maar er zijn wel heel veel woorden die weinig frequent zijn. In de praktijk houdt dit in dat ik in de corpora waar ik mee bezig ben geweest tot 50% van alle unieke woorden een hapax legomenon Hapax of een dis legomenon zijn (woorden die slechts eenmaal of tweemaal in een corpus voorkomen). In het voorbeeld grafiekje van Moby Dick dat bij Hapax staat op de wikipedia gaat het om 61% van de unieke woorden. Bij deze lage woordfrequenties is de gevonden waarde volgens mij niet meer statistisch relevant.

Ik ben ook aan het experimenteren geweest met een omgekeerde methode van 'missende woorden vinden'. Ik nam een tekst, zette om alle woorden vierkante haakjes, en dan maar zien op een van mijn gebruikerspagina's welke woorden ontbraken. Hierbij gebruikte ik voornamelijk boekjes die gebruikt woorden bij NT2 onderwijs en boekjes gemaakt voor laaggeletterden. Behalve eigennamen leverde dat een bijna 100% score op: al die woorden staan wel in het wikiwoordenboek. NRC artikelen die ik gebruik bij hogeropgeleide NT2 cursisten staan (uiteraard) vol met rode (dus missende) woorden. Voor deze hogeropgeleide NT2 cursisten bestaat een van Dale woordenboek: van Dale pocketwoordenboek Nederlands als tweede taal (NT2) steekproefsgewijs heb ik dat vergeleken met het wikiwoordenboek: het wikiwoordenboek lijkt redelijk compleet.

In het NT2 onderwijs aan lager opgeleide cursisten (inburgeringsexamen) wordt gebruik gemaakt van een woordenlijst van 2000 woorden WikiWoordenboek:Woordenschat ERK-A2. Deze lijst is (uiteraard) helemaal blauw: het wikiwoordenboek is wat dat betreft compleet, maar kan altijd verbeterd worden met mooie voorbeeldzinnen.

En last but not least:

Er zijn meerdere gratis woordenboeken in Nederland bijvoorbeeld synoniemen.net, woorden.org, encyclo.nl die doorverwijzen naar het wikiwoordenboek (als het lemma niet bij hen zelf te vinden is). Misschien is onze meerwaarde juist gelegen in die woorden die juist niet zo frequent zijn ..........

Groetjes Marcel Marcel coenders (overleg) 28 apr 2016 16:12 (CEST)Reageren

Hallo Marcel!

Dank voor bovenstaande ervaringen en inzichten. In feite vestig je de aandacht op iets waar we vaak niet nadrukkelijk bij nadenken: net als de andere Wikimediaprojecten werken we voor een universeel publiek, in ons geval uiteenlopend van mensen die net beginnen Nederlands te leren tot mensen die juist alles van de taal willen weten. Terwijl ik je reactie las, kreeg ik het beeld van de persoonlijke nutscurve van een woordenboek. Wat zijn voor mij de nuttigste woorden in een woordenboek? Niet de woorden die ik allang ken. En niet de woorden die ik nooit zal tegenkomen. Dus als ik de woorden op een rijtje zet van 'zeer frequent' tot de 'hapaxen' scoren de woorden links wel hoog op de kans dat ik ze tegenkom en juist laag op de kans dat ik ze op wil zoeken, terwijl de woorden rechts weinig kans maken dat ik ze tegenkom, maar dan wel veel meer kans maken dat ik ze op wil zoeken. Dat geeft een grafiek met een bult ergens in het midden. Het aardige is dat de ligging van die bult persoonsgebonden is. Als je de taal begint te leren ligt je bult veel meer naar links en naarmate je de taal beter kent, schuift hij naar rechts. Toen Van Dale op zijn site nog een top 100 van meest opgezochte woorden publiceerde, viel mij op dat het om (in mijn ogen) redelijk gangbare woorden ging. Net zoals Wikipedia in beginsel elk onderwerp behandelt, als er maar betrouwbare bronnen voor zijn, zou WikiWoordenboek elk woord moeten beschrijven dat te attesteren is. Waar onze meerwaarde dan ligt, hangt dan af van de gebruiker. In ieder geval is onze licentie (creative commons - naamsvermelding - gelijk delen) vrij uniek. Bovendien geven wij per woord vrij veel informatie. Om maar iets te noemen: de uitspraak ;-)
Misschien is het volgende nog wel aardig om te melden. Ik ben op dit project gekomen door de vraag: als ik ontbrekende IPA-weergaves wil toevoegen, waar zou ik dan moeten beginnen. Woordfrequentie kan niet alleen richting geven aan de uitbreiding, maar ook aan de kwalitatieve verbeteringen van WikiWoordenboek.
Het lijkt me de moeite waard om als de lijst eenmaal goed is nagegaan hem eens te vergelijken met de Woordenschat ERK-A2, de Amsterdamse lijsten voor basisschool en vmbo, onze eigen 1000 basiswoorden en de lijst uit "De Taalhacker". Mijn indruk is dat dit soort lijsten meestal gemaakt wordt door te beginnen met een lijst naar frequentie en er dan beredeneerd woorden uit te schrappen of aan toe te voegen. Voor zover ik weet is er nog geen algemene lijst die onder een vrije licentie beschikbaar is.
De wet van Zipf is geen probleem, maar een gegeven. Als je met grotere corpora werkt, vind je vanzelf meer woorden met een significante frequentie. Maar inderdaad ook nog veel meer onjuiste vormen en nieuwe hapaxen. Vandaar het ziften door een vergelijking met het Groene Boekje. Dat is de kern van deze klus. Wat ook zou helpen: woorden selecteren op het voorkomen in veel verschillende teksten. Maar naast de brute force frequentiegestuurde aanpak blijf ik het ook leuk vinden het bestaan van 'zeldzame' woorden of woordvormen te attesteren. --MarcoSwart (overleg) 28 apr 2016 18:05 (CEST)Reageren

Hallo Marco,

Nog even gekeken in paragraaf 5.2 Woordselectie van het handboek Nederlands als tweede taal: - De selectie van te leren woorden is slechts gedeeltelijk gebaseerd op hoe frequent een woord voorkomt in taaluitingen. De omgeving is ook van groot belang 'chondrodermatitis nodularis helicis' is voor een kno-arts en dermatoloog van belang maar voor een advocaat toch een stuk minder.

- Je zou een woord zeker 7 keer moeten tegenkomen voordat je het leert. Stel dat je 4 uur lang luistert per dag met een tempo van 145 woorden per minuut dan hoor je rond de 12 miljoen woorden per jaar (dit verzin ik hier ter plaatse). Belangrijke woorden zouden dus in een corpus van ongeveer 10 miljoen woorden 7 of meer keer moeten voorkomen. Om maar eens een poging te doen tot een opzetje. En dan heb ik het over woordenboekvormen en niet over alle verschillende vervoegingen.

Welke woorden van belang zijn is dus afhankelijk van de gebruiker

=> Bij woorden.org zou men ook bijhouden naar welke woorden vergeefs gezocht werd en dat als leidraad gebruiken voor het uitbreiden van het woordenboek. Ik weet niet of deze gegevens beschikbaar zouden kunnen gemaakt worden voor het wikiwoordenboek.

Bij de zoek functie van de NRC kun je zien in hoeveel artikelen een woord voorkomt in het NRC maar dat is natuurlijk geen open bron.

En wat betreft je IPA-weergaves lijkt me een heel goed plan maar misschien is daar weer een ander criterium van belang namelijk hoe 'moeilijk' is een woord uit te spreken en wat zouden mogelijke uitspraak varianten kunnen zijn (motor en moter) om maar eens een voorbeeld te noemen. Het uitspraak woordenboek van Josée Heemskerk en Wim Zonneveld ISBN 90.274.4482x is misschien interessant voor je (80.000 woorden in IPA-weergave)

Titel:Uitspraakwoordenboek Auteur:Heemskerk, Josée S. ISBN:978-90-274-4482-0

Groetjes Marcel Marcel coenders (overleg) 28 apr 2016 19:31 (CEST)Reageren

Dank voor de suggesties.

Het uitspraakwoordenboek staat bij mij al in de kast (als het niet naast de computer ligt).
Het criterium dat je voorstelt lijkt me inhoudelijk heel goed, maar nog niet zo eenvoudig stelselmatig op wat grotere schaal te gebruiken. Weet je een lijst van Nederlandse woorden die als uitspraakprobleem gelden?
Helaas houdt de Mediawikiprogrammatuur geen vergeefse zoekpogingen bij. Het blijkt zelfs al een uitdaging om over een periode van langer dan een etmaal een overzicht van de meest opgevraagde pagina's te krijgen. Maar als mijn theorie over de nutscurve hierboven opgaat, vormen de veelgebruikte woorden een aardige benadering voor de veelgevraagde woorden.
Mijn indruk is dat de zoekfunctie van de NRC soms hetzelfde artikel twee keer meldt, dus ik weet niet zeker hoe betrouwbaar hun aantallen zijn. Iets vergelijkbaars speelt ook een bij delpher.nl: de totalen bevatten soms veel scanfouten. Bij dbnl.org is het aantal scanfouten veel kleiner, maar die laten soms dezelfde tekst meer keren terugkomen in de resultaten.
Een eerste tussenresultaatje is dat er bij de eerste bijna 10.000 woorden nog zo'n 170 vormen zitten die wel op woordenlijst.org, maar niet op WikiWoordenboek staan. --MarcoSwart (overleg) 29 apr 2016 00:58 (CEST)Reageren

Een mooi en nuttig project! Alleen een kleine opmerking terzijde: de meest opgevraagde pagina's kun je hier vinden: [2] . -- Curious (overleg) 29 apr 2016 12:38 (CEST)Reageren