Overleg WikiWoordenboek:Project Gangbaarheid Nederlandse woorden

Aantal ontbrekende woorden[bewerken]

Hallo Marco,

Dit vind ik een heel mooi project !! Het riekt naar echte wetenschap en het is gericht op een belangrijke doelgroep voor het wikiWoordenboek. Dus ik ploeter enthousiast verder, ben ondertussen wel benieuwd wat je verstaat onder vele duizenden woorden die nog geen lemma hebben. 3 duizend 10 duizend 30 duizend ??

Groetjes Marcel Marcel coenders (overleg) 7 jan 2017 14:10 (CET)[reageer]

Het antwoord kan ik niet helemaal exact geven, want het krimpt voortduren

. Het is op dit moment iets meer dan 18.000. Maar dan tel ik alles, ook volstrekt onbekende woorden als tussor en wimber. Er is ergens een moment dat woordfrequentie weer een interessanter richtsnoer voor uitbreiding biedt. Als ik afkap bij woorden die over Nederland en Vlaanderen gewogen door minstens de helft werd herkend, zijn het er overigens nog altijd iets meer dan 15.000. We praten dan over woorden als guano en drenkbak. En vanaf de zonnige kant bekeken: er zijn meer dan 33.000 woorden die we al wel hebben. Maar het lijkt me niet verkeerd als er meer mensen komen die Nederlandse woorden toevoegen. --MarcoSwart (overleg) 7 jan 2017 15:47 (CET)[reageer]

dode link[bewerken]

De link naar het Centrum voor Leesonderzoek doet het op dit moment niet. Omdat ik verwacht dat dit probleem opgelost gaat worden, laat ik deze link nu voor wat hij is. --MarcoSwart (overleg) 7 jan 2017 15:50 (CET)[reageer]

Percentages leesonderzoek fout[bewerken]

https://nl.wiktionary.org/w/index.php?title=bestiaal&action=history
"7 mei 2017 17:39‎ MarcoSwart (553 bytes) (+44) (→‎top: prevalentie-informatie met AWB)"
Toegevoegd was:
{{crr13|N=70|V=77}}
Het pdfje zegt:
bestiaal 72.8 65.4 267 301
Bij verpatsen klopt het ook al niet. 99/97 NL/VL volgens jou, pdfje zegt 98.5/95.4. Zou dus 99/95 moeten zijn. Waarschijnlijk klopt het dan nergens, behalve wanneer het puur toevallig eens wel klopt. Waar komen die cijfers vandaan? Gebruik je een andere bron?
Om met Jochem Myjer te spreken: ik begrijp er niks van! W3ird N3rd (overleg) 26 jul 2017 04:49 (CEST)[reageer]

Het bestand dat ik gebruik is vorig jaar rechtstreeks van de onderzoekers ontvangen. De informatie die wij vermelden staat overigens ook zo op woorden.org. Het kan zijn dat het CRR de gegevens zelf heeft aangepast met later verzamelde data, ik zal het bij ze navragen. --MarcoSwart (overleg) 27 jul 2017 13:15 (CEST)[reageer]

Wil je ze meteen vragen om dat bestand ergens voor iedereen online te zetten? Mocht dat onmogelijk zijn, dan wil ik voorstellen om die data niet meer te gebruiken. Want hoewel ik er best op wil vertrouwen dat MarcoSwart geen schuilnaam is voor Diederik Stapel ben ik toch van mening dat deze informatie controleerbaar moet zijn. Daarnaast spreekt het sjabloon over het leesonderzoek uit 2013, als er latere testgegevens bij inzitten zou dit moeten worden aangepast.

Trouwens nog een opmerking over het onderzoek. Het is heel interessant en zeker waardevol, maar de uitkomst is natuurlijk niet representatief. Diverse woorden worden door 100.0% van de deelnemers herkend. Dan zijn de deelnemers dus niet representatief voor de Nederlandse bevolking want meer dan 0.1% van de bevolking heeft een Nederlands paspoort terwijl ze niet of amper Nederlands spreken. Denk aan oudkomers en mensen die de België-route hebben gebruikt maar nooit zijn ingeburgerd. Daarnaast is er nog een groep Nederlanders (en Vlamingen natuurlijk) die door een geestelijke beperking helemaal geen of uitzonderlijk weinig woorden kennen. Die groepen zijn natuurlijk zo goed als onbereikbaar, maar het onderzoek spreekt dus niet voor alle Nederlanders en Vlamingen. Maar ik moet de intro van het onderzoek nog eens in zijn geheel lezen, hopelijk staat er iets hierover in. W3ird N3rd (overleg) 27 jul 2017 14:23 (CEST)[reageer]

Het antwoord kwam al binnen voor jouw vervolgvraag. De meest voor de hand liggende verklaring voor de verschillen is dat het bestand na het verslag is aangemaakt. Het onderzoeksverslag zelf (p. 17) vermeldt dat eind oktober 2013 met de data-analyse is begonnen, terwijl het onderzoek doorliep tot 15 december 2013. Over de manier waarop de gegevens worden vrijgegeven zijn bij de aanvang van het project afspraken gemaakt. De onderzoekers voelen er niet voor dat een handige uitgever simpel met hun lijst aan de haal gaat. Zoals je op mijn gebruikerspagina kunt lezen, is mijn gebruikersnaam geen pseudoniem. De informatie is grotendeels controleerbaar doordat het om dezelfde data gaat als bij woorden.org. Het onderzoeksverslag gaat uitvoerig in op het niet representatief zijn van het onderzoek. Dat is meteen ook de reden waarom wij niet kiezen voor de formulering op woorden.org "Volgens het Centrum voor Leesonderzoek kent 70% van de Nederlanders en 77% van de Vlamingen het woord `bestiaal`." Dit onderzoek kan wel uitspraken doen over woorden, niet over groepen mensen. Vandaar: "In onderzoek van het Centrum voor Leesonderzoek uit 2013 werd 'bestiaal' herkend door 70 % van de Nederlanders / 77 % van de Vlamingen."

Tenslotte: het lijkt me voor de samenhang beter om dit hele kopje te verplaatsen naar de overlegpagina van het project. Of zie je daar bezwaren tegen? --MarcoSwart (overleg) 27 jul 2017 16:40 (CEST)[reageer]

"Over de manier waarop de gegevens worden vrijgegeven zijn bij de aanvang van het project afspraken gemaakt. De onderzoekers voelen er niet voor dat een handige uitgever simpel met hun lijst aan de haal gaat."

Dit is echt een uitzonderlijk raar verhaal. Ik heb de gegevens ondertussen al gevonden: http://crr.ugent.be/programs-data/word-prevalence-values. Die gegevens zijn ook best te achterhalen, ook als ze daar niet hadden gestaan. Alleen om dit als betrouwbare bron te gebruiken moeten ze daar staan.

"Zoals je op mijn gebruikerspagina kunt lezen, is mijn gebruikersnaam geen pseudoniem."

Dit is geheel irrelevant. Diederik Stapel was ook geen pseudoniem. Je moet grappen nooit uitleggen, maar "hoewel ik er best op wil vertrouwen dat MarcoSwart geen schuilnaam is voor Diederik Stapel" was dus een grapje. ;-) Maar wel met serieuze ondertoon: als we voor de juistheid van die gegevens compleet afhankelijk zijn van jou en de gegevens verder angstvallig geheim zouden worden gehouden, dan kunnen we ze hier niet serieus gebruiken. Dat de gegevens ook via woorden.org zijn op te vragen is leuk maar voegt eigenlijk weinig toe. Het is een privé-initiatief dus als de advertenties niet meer voldoende opbrengen kunnen ze in principe morgen de stekker eruit trekken. Daarbij weten we niet of we woorden.org kunnen vertrouwen, dat hoeft niet eens kwade wil te zijn maar hoe weten we of ze de gegevens wel op de juiste manier hebben geïmporteerd in hun site? Wat betreft ugent.be, ik heb archive.org verzocht om de csv-bestanden te archiveren dus voorlopig zijn we die niet zomaar kwijt. W3ird N3rd (overleg) 28 jul 2017 08:52 (CEST)[reageer]

Op WikiWoordenboek is het nog altijd goed gebruik om uit te gaan van de goede trouw van alle bewerkers. Die is daarom zelden onderwerp van discussie en ik vrees dat ik je grapje daardoor inderdaad anders heb opgevat dan je bedoelde. Dat is het lastige van online communicatie waarbij je elkaar niet hoort of ziet. Laten we onze humor hier verder maar richten op minder gevoelige kwesties dan persoonlijke integriteit

.

Misschien berust onze discussie op een verschil in invalshoek. In mijn ogen is een woordenboek iets anders dan een encyclopedie. Voor Wikipedia is het een bruikbaar uitgangspunt om artikelen hoofdzakelijk te baseren op secundaire bronnen en daar stelselmatig naar te verwijzen. Een project als Commons daarentegen maakt gretig gebruik van primaire bronnen en eigen werk. Wikiwoordenboek zit daar een beetje tussenin: bij sommige elementen van onze lemma's (bijv. etymologie) ligt gebruik van secundaire bronnen voor de hand, bij anderen (bijv. uitspraak) zijn we vaak zelf primaire bron. Daarom is de betrouwbaarheid van WikiWoordenboek niet louter op verwijzing naar publicaties gebaseerd, maar moeten we onderdeelsgewijs afspraken maken hoe we die waarborgen.

In mijn benadering is de informatie over prevalentie geen citaat met bronvermelding, maar de integratie van een bestand met onderzoeksgegevens. Het publiceren van een bestand houdt niet in dat het intellectuele eigendom daarop is vrijgegeven. Het hele verhaal is vorig jaar begonnen met het bestand dat jij noemt en mijn vraag aan de onderzoekers of wij die gegevens zouden mogen verwerken in WikiWoordenboek. Het zomaar stelselmatig overnemen van een volledig gegevensbestand zou vrij zeker een schending van het databankenrecht opleveren, ook al zou je het met bronvermelding doen. Daarom heb ik het netjes gevraagd. De onderzoeker heeft positief gereageerd, door mij hetzelfde bestand ter beschikking te stellen als woorden.org en ermee in te stemmen dat ik die gegevens onder onze licenties publiceer. Het project is in die vorm aan de gemeenschap voorgelegd en aanvaard, waarbij er royaal gelegenheid is geweest om bedenkingen te uiten. Het is zeker uitzonderlijk dat onderzoeksgegevens op deze manier onder een vrije licentie beschikbaar komen, maar bekeken vanuit intellectueel eigendomsrecht lijkt het mij niet zo'n rare benadering. Tussen "angstvallig geheim houden" en "voor iedereen vrijgeven" zijn tussenwegen denkbaar en zo'n weg bewandelen we nu. Als je die gaat toetsen vanuit het model "verwijzing openbare publicatie" lijkt het niet te kloppen. Maar in feite wordt de bron met diens instemming rechtstreeks bij de gepubliceerde gegevens vermeld. Het CRR heeft uiteraard geen toestemming gegeven om onjuiste informatie onder zijn naam te publiceren. Helemaal zonder vertrouwen in elkaar wordt het lastig om van WikiWoordenboek een succes te maken, maar naast het vertrouwen dat CRR en de gemeenschap in de gekozen werkwijze lijken te hebben, bieden de gepubliceerde bestanden en woorden.org wel degelijk de mogelijkheid die ook te toetsen, zij het niet voor de volle 100%. Maar dat laatste geldt wel voor meer informatie in WikiWoordenboek. Wat overigens zeker reden is om kritisch te blijven kijken naar de informatie die we aanbieden en die bij twijfel ter discussie te stellen. Daarvoor dank. En ik ben uiteraard benieuwd of de voorgaande overwegingen wat tegemoet komen aan je bezwaren. --MarcoSwart (overleg) 28 jul 2017 17:27 (CEST)[reageer]

Mijn bezwaren waren al volledig vervallen op het moment dat ik die csv-bestanden had gevonden.

"Het project is in die vorm aan de gemeenschap voorgelegd en aanvaard, waarbij er royaal gelegenheid is geweest om bedenkingen te uiten."

Als je mijn bijdragengeschiedenis bekijkt zal je zien dat ik 5 jaar met andere dingen bezig ben geweest, dus dat ik die vergadering gemist heb is niet zo gek. :-)

"Het is zeker uitzonderlijk dat onderzoeksgegevens op deze manier onder een vrije licentie beschikbaar komen, maar bekeken vanuit intellectueel eigendomsrecht lijkt het mij niet zo'n rare benadering. Tussen "angstvallig geheim houden" en "voor iedereen vrijgeven" zijn tussenwegen denkbaar en zo'n weg bewandelen we nu."

Niet echt, tenminste niet wat betreft de oorspronkelijke reden dat ik deze discussie begon. De csv-bestanden zijn gewoon voor iedereen te bekijken, die worden (gelukkig) niet angstvallig geheim gehouden. Alleen zijn ze via Wikiwoordenboek onvindbaar. Het sjabloon verwijst naar http://woordentest.ugent.be/ en vanuit daar kan je de test doen of klikken op "Boek met resultaten" wat verwijst naar https://www.academiapress.be/nl/woordenkennis-van-nederlanders-en-vlamingen-anno-2013.html. (een morsdode link) Of je kan klikken op "Groot Nationaal Onderzoek" wat verwijst naar http://www.wetenschap24.nl/programmas/grootnationaalonderzoek.html. (ook zo dood als een pier)

Via een zoekmachine had ik die pdf al gevonden. Toen ben ik nog maar eens gaan kijken of daar nog meer was te vinden. Een mapje hoger kreeg ik een lijst met allerlei gerelateerde papers. Nog een mapje hoger vond ik hun site en daar bleken de gezochte bestanden gewoon op te staan. Mogen we hun site niet linken in het sjabloon en op deze projectpagina? W3ird N3rd (overleg) 29 jul 2017 04:38 (CEST)[reageer]

Voorstel om de links naar de onderzoeksverslagen op te nemen in de projectbeschrijving heb ik uitgevoerd. Je moet je wel realiseren dat onze gegevens niet volledig overeenkomen met de gegevens uit één van die twee verslagen: die zijn elk weer op net iets andere (oudere) bestanden gebaseerd. De link vanuit het sjabloon zelf is onderdeel van de afspraken, eerlijk gezegd vermoed ik dat ze met ons dezelfde afspraak hebben gemaakt als met woorden.org. Zij hebben in de eerste plaats belang bij nieuwe deelnemers aan hun onderzoek en op den duur is dat ook in ons belang als dat in de toekomst tot een update leidt. Ik zal ze attenderen op de dode links op hun pagina. --MarcoSwart (overleg) 29 jul 2017 12:42 (CEST)[reageer]

Ik had al zo'n vermoeden dat wat er precies gelinkt moet worden mogelijk onderdeel van de afspraken is. Is die afspraak trouwens ergens te vinden? Want die zal dan alleen gelden voor Wikiwoordenboek zelf neem ik aan? Waar ik op doel is de mogelijkheid dat hiervan afgeleide werken die link mogelijk weglaten. (en mogelijk niet eens op de hoogte zijn van de hier gemaakte afspraken) Mijn indruk is dat de pdf de oudste variant is en de csv-bestanden iets nieuwer, daar die wel overeenkwamen met de gegevens hier op de paar lemma's die ik had bekeken. Wat nu wel spijtig is is dat een willekeurige gebruiker de informatie eigenlijk niet kan toevoegen omdat we daar dus weer een nèt iets ander bestand voor gebruiken. Mijn voorstel is dan om één van de volgende dingen te doen:

De onderzoekers vragen of ze het bestand wat Wikiwoordenboek gebruikt ook op hun site willen zetten. Misschien kunnen ze het zelfs voor iedereen beschikbaar stellen onder bepaalde voorwaarden, zoals het linken. Dat bestand zou mogelijk ook beperkt zijn in het aantal cijfers achter de komma, dat is misschien al zo maar ik ken dat hele bestand dus niet.
De onderzoekers vragen of ze het csv-bestand willen updaten zodat dit overeenkomt met de waarden zoals die in het Wikiwoordenboekbestand staan.
Als dit niet mogelijk is stel ik voor om de waarden uit de csv-bestanden (maar dan afgerond) hier te gebruiken. De verschillen zijn vermoedelijk toch minimaal, maar dan is het voor iedereen (ook zonder speciale privileges) mogelijk om dat aan een lemma toe te voegen en is het controleerbaar. Anders krijgen we mogelijk in de toekomst hetzelfde wat ik recent deed: ik verving de cijfers die jij had toegevoegd door de cijfers uit de pdf.

Het aller-aller-allerminste wat er gedaan kan worden is duidelijk aangeven op deze projectpagina wat voor mysterieus bestand dat momenteel alleen toegankelijk is voor een happy few nu precies de bron is voor Wikiwoordenboek, en een levensgrote waarschuwing dat iedereen die geen lid is van dit selecte clubje vooral niet het crr13-sjabloon moet gebruiken. Mijn woordkeuze verraadt al dat deze optie niet mijn voorkeur heeft, maar het mysterie wat nu rond dit bestand hangt moet wat mij betreft sowieso uit de lucht. W3ird N3rd (overleg) 29 jul 2017 20:37 (CEST)[reageer]

Je laatste voorstel is gegeven de overwegingen die ik hierboven heb gegeven het meest praktisch. Ik begrijp dat je een ander (op zichzelf respectabel) uitgangspunt kiest, maar je geeft geen argumenten waarom dat te verkiezen is boven het mijne. Het elegante van de gekozen werkwijze is dat de link een zelfstandige afspraak is, zonder de complicaties van een auteursrechtelijke naamsvermelding. "Mysteries", "privileges" "happy few": ik neem aan dat dat weer humor is. Wat mij betreft beschrijft de projectpagina de afspraken en als die verduidelijking behoeven vul ik haar met alle genoegen aan. --MarcoSwart (overleg) 30 jul 2017 11:30 (CEST)[reageer]

Dat is half humor. Happy few is een overdrijving, maar privileges is gewoon een feit. En die zijn aan te vragen via WikiWoordenboek:AutoWikiBrowser en misschien moet je dat bestand daar dan nog apart bijhebben. En mysterieus is dat bestand zeker. Ik weet niet wat de bestandsnaam is, hoe groot dat bestand is, wat de checksum is, hoeveel cijfers er achter de komma staan, ik weet niet in wat voor forma(a)t(en) jij het bestand hebt gekregen, in hoeverre het afwijkt van de publieke csv-bestanden, onder welke voorwaarden precies het bestand gebruikt mag worden (zelfs de linkvereiste staat niet op deze projectpagina, niet als vereiste), ik weet niet wie er allemaal toegang toe heeft en ik weet niet of het een los bestand is of deel van AWB.

Zwarte doos.

Mijn argumenten zijn volgens mij duidelijk. De csv-bestanden zijn kwalitatief niet of amper slechter dan het bestand wat jij gebruikt, maar ze zijn voor iedereen inzichtelijk, controleerbaar en kunnen door iedere gebruiker die dat wenst gebruikt worden om prevalentieinformatie toe te voegen. Dat is ook meer in lijn met de filosofie van Wikimedia. Ik draai het zelfs om: jij geeft amper een argument om het mysterieuze bestand te gebruiken in plaats van de openbare csv. Het mysterieuze bestand zou op resultaten gebaseerd zijn die een fractie nieuwer zijn, maar dat is dan ook het enige argument en weegt wat mij betreft niet op tegen de voordelen van de openbare csv. W3ird N3rd (overleg) 31 jul 2017 02:11 (CEST)[reageer]

Ik heb niet gezegd dat je argumenten niet duidelijk zijn, ik heb ze zelfs letterlijk respectabel genoemd. De aanpak die jij bepleit is praktisch identiek aan het idee dat ik had toen ik het CRR benaderde. Dat contact met het CRR leidde tot een andere aanpak, waarvoor ik de argumentatie heb gegeven. Je stelt een hele serie detailvragen die van belang zouden zijn in de aanpak die we niet gekozen hebben. Het is eenvoudiger dan je denkt. Hoe weten we dat welk bestand dan ook geldige onderzoeksresultaten bevat? Omdat het CRR dat zegt. Hoe weet je de gegevens op onze pagina's straks kloppen? Omdat het CRR dat zegt: de link is daarom een gedeeld belang. --MarcoSwart (overleg) 31 jul 2017 08:35 (CEST)[reageer]