Ding 21: crowdsourcing, de kracht van de menigte

crowdsourcingMoeders zeggen het al eeuwen: “Vele handen maken licht werk.” Dat hebben de meeste archiefdiensten ervaren met het werken met vrijwilligers, die sinds jaar en dag met name genealogische gegevens verwerken, aanvankelijk in handmatige systemen, later via de computer in verschillende databases. Op het web wordt het principe ‘Vele handen maken licht werk’ ook toegepast. We noemen het dan crowdsourcing. Via het web worden mensen gevraagd om mee te doen. Van te voren is geen exacte inschatting te maken van het aantal mensen dat zal deelnemen, waardoor het lastig kan zijn om te voorspellen of het beoogde doel gehaald zal worden. Maar als het werkt kunnen de resultaten verbluffend zijn.

Wetenschap en crowdsourcing

Comic-page-picture-500x375In de wetenschap wordt al langer met crowdsourcingprojecten gewerkt. Eén van de bekendste voorbeelden is Zooniverse. Geïnteresseerden kunnen vanuit pure belangstelling hun steentje bijdragen aan een groot project. Je kunt er als onbekende deelnemer zelfs wereldberoemd mee worden. Dat overkwam de Nederlandse lerares Hanny van Arkel. Zij beschreef als vrijwilliger NASA-foto’s van sterrenstelsels in het programma Galaxy Zoo en ontdekte een nog ongeïdentificeerde blauwe vlek. De officiële Engelse naam van de mysterieuze vlek is nu Hanny’s Voorwerp (of ‘the Voorwerp’) en er wordt speciaal studie van gemaakt.

Erfgoed en crowdsourcing

De erfgoedsector – met name de archieven – kent al jarenlang het fenomeen van vrijwilligers die data overtypen of foto’s scannen, maar door het internet is het in een aantal gevallen gemakkelijker geworden om mensen te laten meedoen. Het Gutenberg project digitaliseert literaire werken en vrijwilligers hebben inmiddels vele duizenden werken uit de wereldliteratuur ingescand en overgetypt. Nog meer mensen helpen bij het corrigeren. Dat gebeurt via de Distributed Proofreaders, waar je losse pagina’s krijgt aangeboden. Opdelen van het werk in brokjes is een kenmerk van crowdsourcing en bevordert dat mensen in korte tijd toch een bijdrage kunnen leveren.

Musea en bibliotheken hebben ook crowdsourcingprojecten opgezet. Internationale voorbeelden zijn het helpen verbeteren van afbeeldingen in de database van het verbeteren van afbeeldingen van afbeeldingen in de database van het Victoria & Albert Museum, het geotaggen van kaarten in de database van de National Library of Scotland en het verbeteren van teksten in de Australian Newspapers in een database van de National Library of Australia. En ook archieven ontbreken niet. Begin 2012 lanceerde the National Archives in de VS een transcriptiemodule, waarmee je online teksten in drie moeilijkheidsgraden kunt transcriberen.

Op archiefgebied zijn er verschillende taken waarvoor mensen warm lopen om te helpen: transcriberen en/of vertalen, indiceren/invoeren van gegevens en het beschrijven/taggen van afbeeldingen, kaarten en archiefstukken. Daarin vinden we dan ook de meeste crowdsourcingprojecten.

Nederlandse crowdsourcingprojecten op archiefgebied

MonkEr zijn verschillende crowdsourcing-trancriptieprojecten in Nederland. Een ervan is Monk, een database ontwikkeld door de Rijks Universiteit Groningen in samenwerking met het Nationaal Archief met scans van teksten die getranscribeerd en geannoteerd kunnen worden. Via dit programma kun je kleine stukjes tekst, ‘probleemwoorden‘, transcriberen. Op die manier kun je helpen het programma te ‘leren lezen’. Het gaat om “een ontsluitingsmethode voor historische (ook handgeschreven) archieven die met traditionele OCR-methoden nog niet goed te verwerken zijn. Het systeem omvat twee hoofdcomponenten: (1) een opzet voor de opslag en de web-gebaseerde annotatie van ‘gescande’ beelden van pagina’s en de onderdelen daarop; (2) een verzameling herkennings- en zoekalgoritmen”, staat er op de website. Als Monk volledig ‘getraind’ is kan het programma CATCHplus skratch4all worden ingezet, om gedigitaliseerde handgeschreven documenten te kunne doorzoeken op woorden.

Op het Schiedamblog is een experiment gaande waarbij digitale bezoekers teksten uit dag- en nachtrapporten van de Schiedamse politie en uit de Memorabiliën van Hendrik Verhoef kan transcriberen. Je kunt ook aanvullende informatie kwijt en, zo staat er in de uitleg geschreven: “Je kunt ook bijdragen door gebruik te maken van andere toepassingen, bijvoorbeeld taggen in Delicious of bijdragen aan de Google-kaart.” Opmerkelijk is, zo schreef Christian van der Ven in zijn blog De Digitale Archivaris, dat er bij dit Schiedamse project, evenals bij een buitenlands crowdsourcingproject dat hij eerder beschreef, sprake was van ‘nerdsourcing’: één enkel persoon die in zijn eentje een enorme hoeveelheid transcripties maakt. Dat schijnt vaker voor te komen. Een persoon of een klein groepje dat zich vol overgave stort op al het mooie werk dat voorhanden is.

In de Virtuele Studiezaal van het Gemeentearchief Den Haag kunnen digitale bezoekers zoeken naar gescande akten van de burgerlijke stand, maar ze kunnen ook helpen met het toegankelijk maken van akten die nog niet beschreven zijn. Anderen kunnen dan direct op de ingevoerde informatie zoeken. Ook kunnen mensen correcties aanbrengen in ingevoerde beschrijvingen van anderen. Op de website wordt duidelijk gemaakt dat bezoekers die meehelpen met het indiceren van aktes van de burgerlijke stand belangrijk werk verrichten.

In Friesland wordt via Tresoar een crowdsourcingsproject Invoeren Volkstelling 1744 uitgevoerd. In feite hebben de gebruikers van Treoar het project geïnitieerd en het archief is gaan faciliteren. Het forum speelt bij dit project een belangrijke rol. Op het blog van De Digitale Archivaris staat hierover een artikel met een discussie. En onlangs startte Tresoar met een spannend crowdsourcingsproject op Facebook onder de naam Cold Case Tresoar om onopgeloste zaken op te helderen en af te kunnen sluiten. Ook via Twitter kun je meedoen. Mensen kunnen bijvoorbeeld helpen geheimschrift te ontcijferen.

Als documenten online beschikbaar worden gesteld zijn ze meestal raadpleegbaar in de hele wereld. Dat levert dan meteen (ver)taalproblemen op. Je kunt wel een eindje komen met vertaalprogramma’s zoals Google Translate, maar daarmee krijg je soms hele rare ‘vertalingen’.  Op het gebied van genealogie deed Bob Coret in 2010 de nodige ervaring op met crowdsourcing in een vertaalproject van genealogische data.

Ook Google doet aan crowdsourcen en daar doen wij allemaal aan mee. Als je Captcha’s moet invullen om te laten zien dat je geen robot bent (zoals wanneer je een reactie op een blog wilt schrijven) doe je automatisch mee aan reCaptcha-crowdsourcingsprojecten: eentje om de computer te ‘leren’ hoe hij woorden moet lezen uit boeken die via OCR gescand zijn door middel van woordverificatie en eentje om de computer te ‘leren’ huisnummers uit Google Streetview te lezen door het ‘decoderen’ van de soms onleesbare cijfers. De reCaptcha’s zullen ook worden ingezet voor het ‘decoderen’ van straatnamen en verkeersborden.

vele handen

Een digitaal platform dat gelegenheid biedt om crowdsourcingprojecten op te zetten is Vele Handen. Inmiddels worden onder de paraplu van Vele Handen verschillende crowdsourcingprojecten uitgevoerd: Militieregisters 1814-1941 dat in december 2012 zijn eide naderde, Bevolkingsregisters Amsterdam, Missing Links, Overgenomen delen en Kunstenaars (Alumni KABK). De projecten worden opgesomd in het overzicht op de website.  Het idee om publiek in te zetten bij het indexeren van scans van archiefstukken ontstond in het Stadsarchief Amsterdam. In ruil voor gratis scans leveren vele vrijwilligers een bijdrage in het beschrijven van de gedigitaliseerde archiefstukken. In 2011 won de website Vele Handen de Geschiedenis Online Juryprijs.

Een crowdsourcingproject waaraan zowel archiefmedewerkers als archiefgebruikers aan kunnen meewerken is de archiefwiki. Samen werken en samen leren zijn de basisprincipes. Het doel is het digitaliseren van archivistische naslagwerken tot open content voor archivarissen en archiefgebruikers.

Veel archieven betrekken het publiek ook bij het taggen en beschrijven van afbeeldingen. Dat kan op Flickr-pagina’s, zoals Flickr The Commons, waarop bijvoorbeeld het Nationaal Archief en andere grote erfgoedinstellingen een photostream hebben. Gebruikers kunnen foto’s taggen en van commentaar voorzien. Deze informatie wordt door de archieven weer gebruikt voor een betere ontsluiting van het materiaal op de eigen website.

Je kunt de crowd in principe voor van alles inzetten. Het Brabants Historisch Informatie Centrum zet bijvoorbeeld hun forumcommunity om te helpen bij het doen van hun inlichtingenwerk. Ze sturen vraagtellers regelmatig door naar het forum (bijvoorbeeld vragen die wij per mail, telefoon of chat krijgen).

Waar doen ze het voor?

Waarom werken mensen mee aan dit soort internetprojecten? Willen ze er iets voor terug en zo ja, wat dan? Op het blog De Digitale Archivaris ontspon zich naar aanleiding van een artikel van Christian van der Ven een hele discussie over de aandacht voor de deelnemers aan crowdsourcingprojecten. In zijn blogartikel over Vele Handen komt onder meer beloning aan de orde. Daarin wordt ook verwezen naar een onderzoek waarop Irma Borst promoveerde: “Understanding Crowdsourcing; The effects of motivation and rewards on performance in voluntary online activities” (zie literatuurlijst voor de tekst van het proefschrift).

Wat geeft mensen die meewerken aan een crowdsourcingproject een fijn gevoel? Dat kan heel verschillend zijn. De een focust op kwaliteit en kwantiteit en is blij met het resultaat dat hem een tevreden gevoel geeft, een ander gaat vooral voor de kwantiteit omdat je daar ‘credits’ voor kunt krijgen, en weer een ander gaat alleen voor de kwaliteit en kan uren aan een zinnetje in een middeleeuws charter werken. Wat alle deelnemers aan crowdsourcingprojecten gemeen hebben is dat ze er prijs op stellen dat hun werk online beschikbaar wordt gesteld. Zo hebben zij eer van hun werk en kunnen anderen er ook gebruik van maken.

Crowdfunding

Je kunt ook proberen geld bij elkaar te krijgen voor een project door middel van crowdfunding: een inzameling via het web. Er zijn verschillende croudfundingswebsites, zoals Sellaband (artiesten), TenPages (auteurs), het Amerikaanse Kickstarter, met een variëteit aan creatieve en journalistieke projecten. In Nederland hebben we Voor De Kunst, en voor ‘visuele journalistiek is er emphas.is. Door de forse bezuinigingen in de culturele sector is crowdfunding daar ‘hot’. Via je zoekmachine kun je heel wat crowdfundingsites vol ideeën en optimisme vinden.

achtergrondinformatie

Ontdekoefeningen

1. Bekijk een buitenlands crowdsourcingproject en bekijk een Nederlandse archiefproject. Zijn er overeenkomsten en verschillen?

2. Lees een of meerdere artikelen over motiveren en belonen van deelnemers aan crowdsourcingprojecten.

3. Schrijf op je blog welke mogelijkheden jij binnen het archiefwezen of in samenwerking met andere instellingen ziet voor het opzetten van een crowdsourcingproject.

Speel- en leeroefeningen

4. Ga naar Monk, de database met scans van teksten die getranscribeerd en geannoteerd kunnen worden. Via dit programma kun je kleine stukjes tekst, ‘probleemwoorden‘, transcriberen. Doe er zelf eens een paar.

5. Ga naar Vele Handen en lees hoe het project werkt. Bij Ding 20 heb je de indexeeroefening al gedaan. Probeer nu zelf eens iets in te voeren.

extra

6. Probeer eens een afbeelding in de catalogus van het Victoria & Albert Museum te verbeteren (gebruiker: 23dingenvoormusea, wachtwoord: drie&20)

7. Probeer een kaart te geotaggen bij de National Library of Scotland. Kies eerst een kaart en log dan in (gebruiker: 23dingenvoorarchieven, wachtwoord: drie&20)

8. Tot slot kun je nog een woord in een krant verbeteren. Ga naar de Australian Newspapers.

  • Tik een zoekterm in (zie voorbeeld), iets dat verband houdt met Nederland is wel slim, dan kun je vaak fouten ontdekken in namen enzo. Klik via de lijst met resultaten door naar een krantenpagina.
  • Rechts zie je het gescande plaatje uitgelicht, links een kolom met de tekst. Zie voorbeeld dat mooi laat zien waarom jouw hulp nodig is. Extra leuk: omdat je de tekst alleen hoeft over te nemen kun je ook meedoen als je niet zo goed bent in Engels.
  • Als je met je muis over de tekst in de linkerkolom beweegt verschijnt een potloodje en ‘fix this text’ (zie voorbeeld). Klik daarop om een verbetering te maken. Je hoeft niet in te loggen, alleen een captcha (vervormde letters/cijfers) overtypen.
  • De tekst in de linkerkolom wordt geactiveerd zodat je er direct in kunt typen en verbeteren (zie voorbeeld)
  • Je kunt ook een tag toevoegen. Je verbeteringen en toevoegingen kun je opslaan en ze zijn dan direct zichtbaar (zie voorbeeld).

9. Vertel over je bevindingen op je weblog. Wat vond je leuk, makkelijk? Wat vond je minder leuk, lastig? Welke mogelijkheden zie je voor archieven?


<< Ding 20: genealogie 2.0
>> Ding 22: archief 2.0