WikiWoordenboek:Gangbaarheid

Uit WikiWoordenboek
Ga naar: navigatie, zoeken

De gangbaarheid van een woord geeft informatie over hoeveel het wordt gebruikt of hoeveel mensen het kennen. Dit kan op verschillende manieren die elkaar aanvullen.

Bekendheid[bewerken]

Het is via internet goed uitvoerbaar om grote aantallen taalgebruikers een reeks woorden voor te leggen (bestaand en niet-bestaand) en hun vragen bij elk woord aan te geven of ze dit (her-)kennen of niet. Met grote aantallen respondenten en doordacht variëren van de reeksen wordt het mogelijk om van tienduizenden woorden vast te stellen hoe bekend ze zijn. Dit wordt ook wel prevalentie genoemd.

Woordfrequentie[bewerken]

Sinds er computers zijn is het mogelijk om grote aantallen teksten op te splitsen in losse woorden en dan te tellen hoe vaak elk woord voorkomt. Het blijkt dat een beperkt aantal woorden een heel groot deel van alle teksten uitmaakt en dat er aan de andere kant enorme aantallen woorden zijn die weinig voorkomen. Dit verschijnsel heet naar een van de ontdekkers de wet van Zipf. Tegenwoordig worden er vaak bestanden met vele miljoenen woorden gebruikt. Als je frequenties uit verschillende bronnen wil vergelijken, is het nodig ze in een percentage uit te drukken, maar de verschillen in frequentie leveren dan al snel onoverzichtelijk lange getallen op. Het is daarom overzichtelijker om alle frequenties om te rekenen naar een bestand met 1 miljard woorden en van dat aantal de log10 te nemen. Deze maat heet Zipf.

Woordspreiding[bewerken]

Het maakt voor de gangbaarheid van een woord wel verschil of het in één tekst honderd keer voorkomt of dat het in honderd teksten één keer voorkomt. In het eerste geval kan het gaan om een heel specifieke term die weinig betekenis heeft voor mensen de die tekst niet lezen, in het tweede geval is het mogelijk juist een woord dat veel mensen kennen, maar dat niet zo vaak herhaald wordt. Onderzoekers splitsen daarom hun tekstbestanden soms op in min of meer even grote delen en tellen dan in hoeveel verschillende delen een woord voorkomt.

Woordenlijsten[bewerken]

Traditioneel worden er ook woordenlijsten gemaakt met woorden die je in een bepaalde situatie zou moeten kennen. Tegenwoordig spelen de voorgaande soorten onderzoek hier vaak een rol bij, maar vroeger gebeurde dit meer op basis van de opvattingen die één of meer deskundigen daar over hadden. In de meest eenvoudige vorm is de informatie beperkt tot wel of niet in de lijst. Soms wordt er via etiketten als "frequent" of "zeldzaam" nog wat meer informatie gegeven. Voor het hedendaagse Nederlands is de "Woordenlijst Nederlandse taal" van de Taalunie van belang: deze is voor een belangrijk deel gebaseerd op onderzoek naar het voorkomen van woorden.