WikiWoordenboek:Project Gangbaarheid Nederlandse woorden

Uit WikiWoordenboek
Naar navigatie springen Naar zoeken springen

Doel[bewerken]

Aan de lemma's van Nederlandse woorden informatie toevoegen over de gangbaarheid daarvan. Dit gebeurt in samenwerking met het Centrum voor Leesonderzoek (Ugent), dat de uitkomsten van zijn onderzoek uit 2013 voor dit doel ter beschikking heeft gesteld. Rapportages over iets eerdere fases van dit onderzoek zijn Woordenkennis van Nederlanders en Vlamingen anno 2013: Resultaten van het Groot Nationaal Onderzoek Taal (Nederlands) en Word Knowledge in the Crowd: Measuring vocabulary size and word prevalence in a massive online experiment. (Engels). Voor dit project gebruiken we een bestand dat identiek is aan het bestand dat op woorden.org wordt gebruikt.

Achtergrond[bewerken]

Als je Nederlands leert of wanneer je begrijpelijk wil schrijven is het nuttig om te weten of het om een veelgebruikt woord gaat. Je kunt daar op verschillende manieren naar kijken, die op Gangbaarheid zijn beschreven. Deze invalshoeken vullen elkaar aan. In het project Woordfrequenties worden andere gegevens die hierbij van belang zijn verzameld.

Daarnaast zijn deze gegevens ook van waarde bij het uitbreiden van WikiWoordenboek, zie onze Nederlandstalige Top 70.

Opzet[bewerken]

kopje Gangbaarheid[bewerken]

De bedoeling is om aan de betreffende lemma's aan het eind, net voor {{refs}}/{{-ref-}} en {{-info-}} een kopje Gangbaarheid toe te voegen, dat net als de vergelijkbare kopjes naar een projectpagina verwijst. Omdat de sjablonen voor kopjes allemaal op het Engels zijn gebaseerd, heet het sjabloon zelf {{-preval-}} van "prevalence".

Aangezien de lezer nu al vrij veel informatie door moet, voor hij bij de betekenissen komt, lijkt het verstandig deze informatie aan het eind te plaatsen. Voorlopig gaat het vooral om gegevens die gekoppeld zijn aan het woord als lettercombinatie, in dat opzicht lijkt het wel op {{-info-}}. Het lastige van deze keus is dat het vinden van de gekozen plaats aan het eind van een Nederlandstalig lemma niet zo gemakkelijk te automatiseren is: zowel wat erna als wat ervoor komt kan nogal verschillen. Een combinatie van zoekopdrachten en handmatige correcties via AutoWikiBrowser zou hier soelaas moeten bieden.

link woordenlijst.org[bewerken]

Aangezien de Woordenlijst deels ook gebaseerd is op onderzoek naar het gebruik van woorden is het gegeven of een woord daarin staat ook van betekenis voor de gangbaarheid. Dit kan met een sjabloon met een link worden aangetoond. Het valt te overwegen om dit in de toekomst uit te breiden met gegevens over opneming in eerdere edities van het Groene Boekje.

Het sjabloon voor dit doel is {{wel-GB}} gedoopt; sinds december 2018 wordt na een voorstel in De kroeg ook informatie van {{niet-GB}} op deze plaats aangeboden voor zover zij niet op een specifieke vorm betrekking heeft.

categorieën[bewerken]

De pagina's waarop getalsmatige uitkomsten van het onderzoek worden gegeven worden alle in twee categorieën geplaatst die corresponderen met het percentage in Vlaanderen respectievelijk Nederland. Deze categorieën staan weer in twee overkoepelende categorieën: Prevalentie Vlaanderen en Prevalentie Nederland.

prevalentie[bewerken]

Vervolgens worden de gegevens getoond uit het van het Centrum voor Leesonderzoek van de Universiteit Gent, met een link naar de projectpagina van dit onderzoek. Die dient primair als bronvermelding, maar het is natuurlijk ook wel mooi dat een crowdsourced onderzoek en een crowdsourced woordenboek elkaar een beetje van dienst zijn.

Het gaat om twee percentages, respectievelijk voor Nederland en voor Vlaanderen. Er is in het verleden wel eens discussie geweest of er bij sommige woorden een label moest komen dat dit niet in het hele taalgebied (even) gangbaar was. Bezwaar was dan dat dit vaak nogal subjectief zou zijn. Nu kunnen we de lezer daar redelijk neutraal over informeren.

Aangezien nog niet alle woorden uit dit onderzoek een lemma op WikiWoordenboek hebben, worden de woorden per gebied en percentage in een categorie gestopt, waarbij is aangegeven hoeveel woorden die uiteindelijk zou moeten bevatten. Omgekeerd vermeldt WikiWoordenboek ook veel worden die niet in het onderzoek zijn opgenomen, zoals verbogen vormen woorden, schrijfwijzen die verouderd zijn, namen en vaktermen.

Deze gegevens worden met het sjabloon {{crr13}} getoond. Deze benaming verwijst naar de Engelse naam van het instituut " Center for Reading Research) en het jaar van het onderzoek.

Aanpak[bewerken]

  1. Aankondiging in De Kroeg
  2. Projectpagina
  3. Sjablonen en categorieën aanmaken en op zichzelf testen
  4. Testen gecombineerde plaatsing
  5. Plaatsing van sjablonen op al bestaande lemma's met behulp van AutoWikiBrowser
  6. Aanvullen ontbrekende woorden (blijft ook in de toekomst doorlopen)
  7. Op bestaande pagina's die nu een woord alleen in een vreemde taal beschrijven, ook het Nederlandse woord toevoegen

Onderdelen 1-5 zijn ondertussen uitgevoerd.

Aanpassingen in lijst[bewerken]

De vorm die in het onderzoek aan de deelnemers is voorgelegd blijft bepalend voor de vermelding in WikiWoordenboek. In een klein aantal gevallen zijn dit vormen die niet meer tot de huidige officiële spelling behoren. De gegevens uit het onderzoek zijn in dat geval vermeld op het lemma in de oude schrijfwijze en op het lemma in de huidige schrijfwijze wordt onder Gangbaarheid naar het lemma in de oude schrijfwijze verwezen.

Naast gechargeerd was ook de schrijfwijze "gecharcheerd" in het onderzoek opgenomen. Deze vorm werd herkend door 86% van de Nederlanders en 63% van de Vlamingen, maar is nooit officiële spelling geweest en wordt daarom niet in WikiWoordenboek opgenomen.

In plaats van geliket is de schrijfwijze "geliked" in het onderzoek opgenomen. Deze vorm werd herkend door 83% van de Nederlanders en 75% van de Vlamingen, maar is nooit officiële spelling geweest en wordt daarom niet in WikiWoordenboek opgenomen.

Het woord sardonisch is in een deel van het onderzoek meegenomen met een (onzichtbare) spatie achter het woord. Hierdoor staat het tweemaal in de uiteindelijke lijst met resultaten. De vermelde waarden zijn die van het totaal: 81% van de Nederlanders en 75% van de Vlamingen.

Het woord balu is voor het Nederlands niet te attesteren en wordt daarom niet in WikiWoordenboek opgenomen.

Het te bereiken totaal voor de betreffende categorieën is conform de betreffende correcties aangepast.

Voortgang in beeld[bewerken]

Een overzicht in tabelvorm van de voortgang bij 6. staat op de subpagina Voortgang.

In onderstaande afbeelding is de oppervlakte evenredig gehouden met het aantal woorden. De linkerrechthoek bevat dezelfde woorden als de rechterrechthoek, alleen de verdeling daarbinnnen verschilt. De onderste laag links zijn de woorden die door alle Nederlanders werden herkend, de onderste laag rechts de woorden die door alle Vlamingen werden herkend. De hoogte van elke laag komt overeen met het aantal woorden dat eenzelfde percentage bekendheid scoort; daardoor lopen de lagen links en rechts niet gelijk op. De bovenste lagen met woorden die nauwelijks werden herkend zijn erg dun, omdat het maar om kleine aantallen gaat. Om een indruk te geven van de woordenschat van de Nederlanders en Vlamingen uit het onderzoek is elke laag vanuit het midden diep gekleurd tot het herkenningspercentage van die laag. Dit geeft een poortvormig beeld. Het aantal woorden dat al in WikiWoordenboek is opgenomen komt overeen met het groen gekleurde gebied, de ontbrekende woorden met het gele.

De afbeelding laat duidelijk zien hoe de woordenschat van WikiWoordenboek en die van de onderzoeksdeelnemers verschillen. Aanvankelijk had WikiWoordenboek relatief veel onbekende woorden (lichtgroen bovenin), maar miste nog veel relatief bekende woorden (gele stukken "binnen de poort"). Door het voortdurend toevoegen van de meest bekende woorden is inmiddels al het (hard-)geel "binnen de poort" van de afbeelding verdwenen en zijn er nu links en rechts zelfs stukken lichtgroen: WikiWoordenboek beschrijft meer woorden dan de gemiddelde deelnemer aan het onderzoek herkende. Alleen bovenin (bij de minder bekende woorden) zijn er nog gele stukken, maar die beslaan nog maar zelden meer dan de helft van de breedte.

0% herkenning in Nederland0% herkenning in Vlaanderen
100% herkenning in Nederland100% herkenning in Vlaanderen

Toekomst[bewerken]

In de toekomst kunnen andere relevante gegevens zoals de woordfrequenties (Open Taal, Open Subtitles) onder hetzelfde kopje een plek krijgen. Die gegevens vormen een goede aanvulling van elkaar. Hoewel je op het eerste gezicht misschien zou denken dat bekendheid en frequentie van woorden op hetzelfde neerkomen, blijkt er heel wat bekende woorden een lage frequentie te hebben. Dat kan komen doordat de teksten waaruit de frequenties worden berekend niet helemaal representatief zijn voor het taalgebruik en doordat weinig gebruikte woorden voor mensen toch van grote betekenis kunnen zijn. Aan de andere kant omvat Open Taal juist wel verbuigingen en functiewoorden, waardoor het voor 5 tot 6 keer meer lemma's informatie zal bieden.

Contactpersonen[bewerken]