Organisatie
Achtergrond

De krenten in de datapap: supercomputer analyseert en filtert bestaande kennis

Welk gewas kan waar het beste groeien? Welke soorten hebben allemaal gen X? Het zijn complexe vragen waar nog niet goed raad mee weten. Maar voer alle bestaande data aan een supercomputer, en de antwoorden kunnen er zomaar uitrollen.
Stijn van Gils

tekst Stijn van Gils illustratie Pascal Tieman

De hoeveelheid data binnen WUR is de afgelopen jaren gigantisch toegenomen. Waar vroeger met veel pijn en moeite aan één plantje werd gemeten welke afweerstoffen het aanmaakt, kunnen drones dit nu aan de hand van lichtreflectie realtime inschatten voor een veld vol planten. En ook wereldwijd kunnen we ontwikkelingen beter volgen. Zo werkt het Laboratorium voor Geo-informatiekunde en Remote Sensing aan een systeem dat dagelijks in kaart brengt waar illegale houtkap plaatsvindt en hoeveel.

Dick de Ridder, hoogleraar bij de leerstoelgroep Bioinformatica, ziet ook in zijn vakgebied dat de hoeveelheid data rap is toegenomen. ‘In 1988 startte een gigantisch project om het gehele menselijke genoom in kaart te brengen, in 2003 was de operatie klaar. Inmiddels zijn zo’n 14 duizend genomen volledig in kaart gebracht en nog eens 85 duizend vrijwel volledig.’

Te groot voor Excel

Met die gigantische databerg kunnen nieuwe vragen worden beantwoord, vertelt De Ridder. ‘Vragen van een hele andere orde. Bijvoorbeeld: welke soorten hebben precies een bepaald gen en met welke andere genen hangt dit samen?’ Ook andere groepen binnen WUR proberen het potentieel van big data – zeg maar datasets die echt te groot zijn voor Excel – steeds meer te benutten. Zo werkt Animal Sciences veel met machine learning, een techniek waarbij een computer relatief zelfstandig op zoek gaat naar patronen in grote bergen data. Leerstoelgroepen als Genetica en Bioinformatica hebben hierover veel kennis. ‘De kennis en kunde is alleen nog sterk verspreid in de organisatie’, vertelt Willem Jan Knibbe, hoofd van het Wageningen Data Competence Center (WDCC, zie kader).

Het WDCC wil de versnippering tegengaan en via voorbeeldprojecten de bestaande kennis over big data beter aan elkaar knopen. ‘Je kunt denken aan simpele vragen’, zegt Knibbe. ‘Zoals de aloude vraag: welk gewas kan waar het beste groeien? Verschillende groepen binnen WUR verrichten hieraan al jaren onderzoek. Onderzoekers hebben groeimodellen gemaakt, proeven op verschillende bodems opgezet en economische analyses gemaakt. Maar met zulke datasets alleen kan je slechts een deel van de puzzel beantwoorden’, legt Knibbe uit. ‘Het is namelijk een hele brede vraag, die afhangt van allerlei uiteenlopende factoren. De bodem, maar ook de nabijheid van fabrieken, een afzetmarkt of infrastructuur zoals havens en wegen. Het leuke is, bij WUR hebben we al die informatie.’

Combinaties maken

Zo werken maatschappijwetenschappers van WUR met de Global Detector, een informatiesysteem met marktinformatie. Bij Milieuwetenschappen is de AgroDataCube in ontwikkeling, een grote dataportal met daarin onder meer weersomstandigheden op percelen en informatie over de gewasgroei. Plantenwetenschappen heeft het platform Akkerweb, dat informatie over bodemgesteldheid en ziektedruk combineert om boeren van adviezen te voorzien. Het WDCC probeert deze initiatieven te ondersteunen en waar mogelijk combinaties te maken.

Het WDCC wil ook kijken naar methoden om risico’s in de voedselveiligheid beter te snappen. ‘Verwachten we vooral risico’s in het transport, bij de certificering of elders in het proces? Er is veel data die daar iets over kan zeggen en daarmee kunnen we bepalen waar specifiek op gecontroleerd moet worden’, vertelt Knibbe. En wat te denken van de uitstoot aan methaan uit stallen? ‘Is het nodig dit per stal of zelfs per koe te meten? Of kunnen we aan de hand van al geregistreerde informatie hiervan een goede schatting maken?’

Supercomputer

Voor het analyseren van gigantische datasets zijn nieuwe analysemethoden in ontwikkeling, aldus Knibbe. Normaal gesproken wordt namelijk veel gewerkt met een steekproef, waarbij een deel van een groep – onder vergelijkbare omstandigheden – gemeten wordt. Bij big data is er vaak informatie over de gehele groep, maar die is wel onder verschillende omstandigheden gemeten. ‘We kunnen dan met bijvoorbeeld Bayesiaanse analyse of verschillende methoden van machine learning allerlei interessante verbanden ontdekken. Dit vereist wel veel meer rekenkracht; gewone pc’s kunnen dat niet bolwerken.’

WUR heeft een eigen centrale supercomputer die grootschalige berekeningen aankan. Dit high performance cluster, bestaande uit een aantal aan elkaar geschakelde servers, kan tegelijkertijd meerdere berekeningen maken die anders achter elkaar zouden plaatsvinden. Het wordt de laatste tijd intensiever gebruikt, vertelt Dick de Ridder. Vooral het plan om leerstoelgroepen niet meer voor elke berekening apart te laten betalen, stimuleert volgens de hoogleraar het gebruik. ‘Het cluster is echter bijna afgeschreven, en het is de vraag wat we er nu mee moeten gaan doen.’

Opnieuw investeren is een optie, maar uitbesteden aan een extern bedrijf zou ook kunnen. Er zijn groepen, zoals Remote Sensing, die dit al doen omdat ze data van externe partijen gebruiken en de berekeningen liefst laten uitvoeren op computers die fysiek dicht bij die datasets staan. Aan de andere kant zorgt een eigen, gezamenlijk high performance cluster ervoor dat groepen elkaar tips en adviezen kunnen geven over het gebruik, zeg Petra Caessens, manager bij Shared Research Facilities. Ze verwacht daarom dat zo’n gezamenlijke supercomputer het meest voor de hand ligt. Maar een beslissing is nog niet genomen.

Tropische boskaartVraag het de Datadesk
Een mooi voorbeeld van het combineren van grote datasets is Lucid (Land Use, Carbon & Emission Data), een wereldkaart met daarop de hoeveelheid biomassa van tropisch bos per hectare. De makers combineerden satellietgegevens met een groot aantal veldobservaties. Onderzoekers kunnen de informatie over biomassa bijvoorbeeld gebruiken om te kijken waar bosherstel kan leiden tot extra CO2-opslag. De kaart is te bekijken op lucid.wur.nl.WUR heeft afgelopen najaar het Wageningen Data Competence Center opgericht om big data een boost te geven. Het WDCC ondersteunt leerstoelgroepen bij het ontsluiten van data en is betrokken bij het onderwijs over big data. Het centrum inventariseert welke expertise er binnen WUR beschikbaar is en kijkt welke nieuwe mogelijkheden er ontstaan door bestaande kennis te combineren. Individuele docenten en onderzoekers kunnen voor vragen aankloppen bij de Data Desk, die mede wordt beheerd door het WDCC.

Leave a Reply


Je moet inloggen om een comment te plaatsen.