WikiWoordenboek:Project Gangbaarheid Nederlandse woorden

Uit WikiWoordenboek
Naar navigatie springen Jump to search

Doel[bewerken]

Aan de lemma's van Nederlandse woorden informatie toevoegen over de gangbaarheid daarvan. Dit gebeurt in samenwerking met het Centrum voor Leesonderzoek (Ugent), dat de uitkomsten van zijn onderzoek uit 2013 voor dit doel ter beschikking heeft gesteld. Rapportages over iets eerdere fases van dit onderzoek zijn Woordenkennis van Nederlanders en Vlamingen anno 2013: Resultaten van het Groot Nationaal Onderzoek Taal (Nederlands) en Word Knowledge in the Crowd: Measuring vocabulary size and word prevalence in a massive online experiment. (Engels). Voor dit project gebruiken we een bestand dat identiek is aan het bestand dat op woorden.org wordt gebruikt.

Achtergrond[bewerken]

Als je Nederlands leert of wanneer je begrijpelijk wil schrijven is het nuttig om te weten of het om een veelgebruikt woord gaat. Je kunt daar op verschillende manieren naar kijken, die op Gangbaarheid zijn beschreven. Deze invalshoeken vullen elkaar aan. In het project Woordfrequenties worden andere gegevens die hierbij van belang zijn verzameld.

Daarnaast zijn deze gegevens ook van waarde bij het uitbreiden van WikiWoordenboek, zie onze Nederlandstalige Top 70.

Opzet[bewerken]

kopje Gangbaarheid[bewerken]

De bedoeling is om aan de betreffende lemma's aan het eind, net voor {{refs}}/{{-ref-}} en {{-info-}} een kopje Gangbaarheid toe te voegen, dat net als de vergelijkbare kopjes naar een projectpagina verwijst. Omdat de sjablonen voor kopjes allemaal op het Engels zijn gebaseerd, heet het sjabloon zelf {{-preval-}} van "prevalence".

Aangezien de lezer nu al vrij veel informatie door moet, voor hij bij de betekenissen komt, lijkt het verstandig deze informatie aan het eind te plaatsen. Voorlopig gaat het vooral om gegevens die gekoppeld zijn aan het woord als lettercombinatie, in dat opzicht lijkt het wel op {{-info-}}. Het lastige van deze keus is dat het vinden van de gekozen plaats aan het eind van een Nederlandstalig lemma niet zo gemakkelijk te automatiseren is: zowel wat erna als wat ervoor komt kan nogal verschillen. Een combinatie van zoekopdrachten en handmatige correcties via AutoWikiBrowser zou hier soelaas moeten bieden.

link woordenlijst.org[bewerken]

Aangezien de Woordenlijst deels ook gebaseerd is op onderzoek naar het gebruik van woorden is het gegeven of een woord daarin staat ook van betekenis voor de gangbaarheid. Dit kan met een sjabloon met een link worden aangetoond. Het valt te overwegen om dit in de toekomst uit te breiden met gegevens over opneming in eerdere edities van het Groene Boekje.

Het sjabloon voor dit doel is {{wel-GB}} gedoopt; het valt te overwegen om in de toekomst ook informatie van {{niet-GB}} op deze plaats aan te bieden.

prevalentie[bewerken]

Vervolgens worden de gegevens getoond uit het van het Centrum voor Leesonderzoek van de Universiteit Gent, met een link naar de projectpagina van dit onderzoek. Die dient primair als bronvermelding, maar het is natuurlijk ook wel mooi dat een crowdsourced onderzoek en een crowdsourced woordenboek elkaar een beetje van dienst zijn.

Het gaat om twee percentages, respectievelijk voor Nederland en voor Vlaanderen. Er is in het verleden wel eens discussie geweest of er bij sommige woorden een label moest komen dat dit niet in het hele taalgebied (even) gangbaar was. Bezwaar was dan dat dit vaak nogal subjectief zou zijn. Nu kunnen we de lezer daar redelijk neutraal over informeren.

Aangezien nog niet alle woorden uit dit onderzoek een lemma op WikiWoordenboek hebben, worden de woorden per gebied en percentage in een categorie gestopt, waarbij is aangegeven hoeveel woorden die uiteindelijk zou moeten bevatten. Omgekeerd vermeldt WikiWoordenboek ook veel worden die niet in het onderzoek zijn opgenomen, zoals verbogen vormen woorden, schrijfwijzen die verouderd zijn, namen en vaktermen.

Deze gegevens worden met het sjabloon {{crr13}} getoond. Deze benaming verwijst naar de Engelse naam van het instituut " Center for Reading Research) en het jaar van het onderzoek.

Aanpak[bewerken]

  1. Aankondiging in De Kroeg
  2. Projectpagina
  3. Sjablonen en categorieën aanmaken en op zichzelf testen
  4. Testen gecombineerde plaatsing
  5. Plaatsing van sjablonen op al bestaande lemma's met behulp van AutoWikiBrowser
  6. Aanvullen ontbrekende woorden (blijft ook in de toekomst doorlopen)
  7. Op bestaande pagina's die nu een woord alleen in een vreemde taal beschrijven, ook het Nederlandse woord toevoegen

Onderdelen 1-5 zijn ondertussen uitgevoerd.

Voortgang in beeld[bewerken]

Een overzicht in tabelvorm van de voortgang bij 6. staat op de subpagina Voortgang.

In onderstaande afbeelding is de oppervlakte evenredig gehouden met het aantal woorden. De linkerrechthoek bevat dezelfde woorden als de rechterrechthoek, alleen de verdeling daarbinnnen verschilt. De onderste laag links zijn de woorden die door alle Nederlanders werden herkend, de onderste laag rechts de woorden die door alle Vlamingen werden herkend. De hoogte van elke laag komt overeen met het aantal woorden dat eenzelfde percentage bekendheid scoort; daardoor lopen de lagen links en rechts niet gelijk op. De bovenste lagen met woorden die nauwelijks werden herkend zijn erg dun, omdat het maar om kleine aantallen gaat. Om een indruk te geven van de woordenschat van de Nederlanders en Vlamingen uit het onderzoek is elke laag vanuit het midden diep gekleurd tot het herkenningspercentage van die laag. Dit geeft een poortvormig beeld. Het aantal woorden dat al in WikiWoordenboek is opgenomen komt overeen met het groen gekleurde gebied, de ontbrekende woorden met het gele. De afbeelding laat duidelijk zien dat de woordenschat van WikiWoordenboek en die van de onderzoeksdeelnemers nogal verschillen. WikiWoordenboek heeft wel veel onbekende woorden (lichtgroen), maar mist nog veel relatief bekende woorden (hardgeel).

'0% herkenning in Nederland0% herkenning in Vlaanderen
100% herkenning in Nederland100% herkenning in Vlaanderen

Toekomst[bewerken]

In de toekomst kunnen andere relevante gegevens zoals de woordfrequenties (Open Taal, Open Subtitles) onder hetzelfde kopje een plek krijgen. Die gegevens vormen een goede aanvulling van elkaar. Hoewel je op het eerste gezicht misschien zou denken dat bekendheid en frequentie van woorden op hetzelfde neerkomen, blijkt er heel wat bekende woorden een lage frequentie te hebben. Dat kan komen doordat de teksten waaruit de frequenties worden berekend niet helemaal representatief zijn voor het taalgebruik en doordat weinig gebruikte woorden voor mensen toch van grote betekenis kunnen zijn. Aan de andere kant omvat Open Taal juist wel verbuigingen en functiewoorden, waardoor het voor 5 tot 6 keer meer lemma's informatie zal bieden.

Contactpersonen[bewerken]