Takeaways from ODSC Europe

Last week Martine Ros and I visited London for the Open Data Science Europe Conference. What a relief to be on a relatively non-commercial data science conference. We were able catch up on some serious research.

My takeaways:

1) Ethical AI is essentially about methodology. About applying basic and widespread methodological concepts already known, practiced and institutionalized in other scientific disciplines.

2) Testing and tuning algorithms will be automated. Without all the manual tweaking, we have more time for better business analysis, applying methodology, data governance & data management.

3) Under the hood, machine learning techniques are still developing. Neural networks are not only mimicking human reasoning, but also memory and attention. Awesome.

I’ll explain them in a bit more detail.


1) Ethical AI is essentially about methodology

A lot of talks on ODSC Europe were related to ethical AI. Interpretability, explainability, reliability, safety and fairness are all hugely important of course. However, sometimes it seems to me we are very busy reinventing the wheel.

An algorithm represents knowledge. Knowledge on ‘how to do things’ (for example: driving a car) or knowledge on ‘how thing are’ (for example: the chance of an insurance claim being fraudulent or not). The first type of knowledge is sometimes called a skill. The second one propositional knowledge. I will focus on this type of knowledge. Before we used algorithms, we used protocols or rule-based systems to represent knowledge. And of course, we still use them. An example are medical protocols or complex rules for calculating the risk of an insurance claim. The difference with algorithms is, that algorithms can be made very adaptive and self-learning. Protocols and rules are often quite static. There are controlled processes for updating them. This makes it difficult to incorporate new insights in a timely manner.

A lot of those protocols and rule-based systems (not all of them) are based on scientific evidence. It is impossible for any human to understand all the science behind all decisions influenced by protocols or rules. This is why we have methodology in science. It enables trust. Trust in decisions based on evidence we are not always able to understand. This empirical scientific method worked very well for centuries. (At least for a long time. Nowadays serious amounts of people distrust scientists if outcomes are not in line with their own views and opinions and instead, they trust lying politicians…)

During the years I’ve been working within the Utrecht University Hospital I’ve learned a lot about the way knowledge is derived in a medical scientific institute. How quality systems controlling this process work. How the rights and safety of patients and participants monitored. I’ve contributed myself to make the way data is collected and preserved part of this quality system. It is remarkable how much of the already established way of doing medical scientific research is about eliminating bias, interpretability, reliability and fairness.

It seems to me the science part in data science does not really refer to applying empirical scientific methods to validate the trustworthiness of analysis and interpretation of the results. More likely it refers to inventors, the Gary Gearloose type of scientist. If we want our algorithms to be trustworthy, we need to think like empirical scientists in the design of how we create and monitor algorithms.

I would recommend to all people of all disciplines who are currently debating on how to achieve trustworthy and ethical AI, to read up about history and philosophy of science and follow a course on research methodology and statistics. And to inform themselves how medical research is regulated to control both the impact on participants and people impacted by the outcomes of studies. The CCMO website is an exellent resource. Of course, there are differences, but the main concepts and ideas are applicable on how algorithms can be regulated.


2) Testing & Tuning will be automated within 10 years

Ironically, the work of a data scientist can easily be automated by…. algorithms. This so called AutoAI or AutoML is not even a complex algorithm, but simply a method of selecting the highest performing algorithm by looping through candidate algorithms and their tuning options. Methodology only becomes more important when the data scientist is automated. For example, we need to think upfront what the algorithm should optimize for. Minimizing false positives? Or minimizing false negatives? And we need to define a metric for fairness, so the AutoAI can take that into account. This can’t be done without a thorough understanding of the problem we are solving.

AutoAI can’t automate the understanding and availability of data. There is a causal relationship between the trustworthiness of algorithms and the trustworthiness of the data the algorithm consumes. The way organizations care for their data-assets will become even more important when the use of algorithms increases. Instead of regarding data as a side-effect of applications, we should treat it as our primary asset and make sure data is understandable, accessible and usable without a lot of fixing downstream. This cannot be achieved within the scope of a single project. It requires major changes in how applications are architected and developed. Examples here in the Netherlands are: Common ground and Registratie aan de bron . Dutch Tax Office (my current client) is also taking huge steps on becoming data centric.


3) Under the hood

Most popular techniques in AI and data science are known for decades. The only difference is they are widely available, closed or open source, for everybody to use. I was surprised and impressed by on how they evolved over the past few years. Neural nets are not only used for reasoning, but recurrent neural nets are kind of mimicking memory. Add transformers to them, and they also have something that can be explained as attention. The huge number of parameters to be trained require huge training sets and quite a bit of compute. But not every big problem is solved with big data. There are very good algorithms available which don’t require thousands of parameters to be trained, for example Gaussian curves.

Multi-agent systems are less futuristic as they were 13 years ago when I had to incorporate the theory into my master thesis. Still quite far away, though. Micheal Woolridge was quite convincing that multi agents are the future of AI… The only question is when our Tesla’s are going to communicate with each other…

To conclude. The sexiest job on earth is going to be automated soon. I suggest we start thinking about a successor. I would vote for methodologist or data architect. Because we are doomed without sound methodology and good quality data.



Verantwoorde inzet van AI; hoe kun je richtlijnen hiervoor toepassen?

Algoritmes raken steeds meer beslissingen die daadwerkelijk invloed op ons hebben. Terecht gaan veel discussies rond AI over ethiek, respect voor fundamentele rechten, zorgvuldig gebruik van gegevens en betrouwbaarheid. En terecht worden er vraagtekens geplaatst bij de kwaliteit van huidige algoritmen, zeker in het publieke domein.

De vraag hoe we algoritmes duurzaam en op grote schaal kunnen inzetten, houdt mij dagelijks bezig. Hoe kunnen we het potentieel benutten, zonder dat we hiermee inbreuk doen op privacy, fundamentele rechten en het vertrouwen van burgers, bedrijven, patiënten, consumenten?

Als antwoord op deze vragen publiceren veel organisaties die actief zijn op dit vlak richtlijnen voor verantwoorde inzet van AI. Voorbeelden zijn de Ethical Guidelines voor Trustworthy AI van de EU, de AI Principles van de OECD (VN), en een studie van de Universiteit Utrecht naar Algoritmes en grondrechten.

Uit de praktijk blijkt dat de structurele toepassing van dit soort richtlijnen nog niet eenvoudig is. Waarom is dat dan zo moeilijk? Ik zie (tenminste) 3 oorzaken.

1) De ontwikkeling van algoritmen is vaak een innovatieproject. Er is veel aandacht voor de marketing van deze projecten, weinig voor kwaliteit, risico’s en hoe die afgedekt worden. In elk project wordt het wiel opnieuw uitgevonden. Structurele toepassing van richtlijnen zoals die van de EU, vereisen professionalisering in de wijze waarop algoritmen worden gemaakt.

2) De grondstof, data, is niet van voldoende kwaliteit en actualiteit. We kunnen niet achterhalen waar de data ontstaan is, hoe integer de gegevens zijn, of ze compleet zijn etcetera. Het verbeteren van datakwaliteit en logistiek binnen organisaties zijn complexe projecten met behoorlijke investeringen en doorlooptijden. Zeker als de data wordt geboren in applicaties die niet data-centrisch zijn ontwikkeld. Denk bijvoorbeeld aan een patiëntendossier in een ziekenhuis, waar de vraag ‘rookt u?’ op talloze wijzen aan patiënten wordt voorgelegd, waardoor het een enorme klus is om een simpele lijst van alle patiënten die roken van dit ziekenhuis te genereren. Een algoritme betrouwbaar maken waarin de factor of iemand rookt meeweegt, is dus ook heel lastig.

3) Het toepassen van richtlijnen voor duurzame inzet is multidisciplinair en daarom ingewikkeld. Juristen, ethici, data-scientisten, vakinhoudelijke specialisten, management, data-engineers, zij allemaal spelen een rol. Deze mensen spreken andere talen: lastig!

Een goed hulpmiddel in het beter op orde krijgen van je risicobeheersing en governance over data en algoritmes vind ik het werken met kwaliteitslabels. In samenwerking met diverse collega’s ontwikkeld, wordt deze methode nu stapsgewijs geïntroduceerd in verschillende organisaties. De kwaliteitslabels zijn een methode om algoritmes (en ook andere, traditionelere informatieproducten zoals dashboards, rapportages, data leveringen aan toezichthouders etcetera) op een verantwoorde wijze in te zetten en de verantwoordelijkheden voor de risico’s van algoritmen op de juiste plek neer te leggen in organisaties. Het is een vertaling van de hier boven genoemde principes naar concrete handvaten die consequent kunnen worden toegepast in organisaties. De labels zijn een manier om zowel de productontwikkeling als de noodzakelijke voorzieningen te professionaliseren. Zonder in een bureaucratie te vallen waar elke vorm van innovatie gesmoord wordt door regels, richtlijnen en kaders.

De kern van deze methode, is het onderscheiden van verschillende impact categorieën in informatieproducten. Een A-label staat voor producten met een hoge impact: een algoritme waarvan de uitkomsten direct mensen raken, en daarom uitlegbaar, reproduceerbaar, eerlijk en transparant moet zijn, waarvoor een hoge kwaliteit van gegevens noodzakelijk is en technisch zeer betrouwbaar en stabiel moet zijn. Een F-label staat voor producten met een lage impact: het product komt niet in productie, wordt eenmalig geproduceerd en heeft daarom weinig risico’s. Denk aan analyses die gedaan worden tijdens een hackaton. Over het algemeen geldt: een product met een hoge impact, heeft meer risico’s, en wordt daarom gecontroleerd tot stand gebracht en geëxploiteerd. Voor een product met een lage impact geldt het omgekeerde. Bijgevoegd figuur geeft de verschillende risico’s aan op basis waarvan je labels kunt definiëren. De groene vlakjes geven aan, wel label welk type risico afdekt.

Voor elk label wordt vervolgens een blauwdruk vastgesteld. Deze blauwdruk geeft aan hoe een product met dit label ontwikkeld moet worden. De productie van A-label producten is volledig beheerst en gecontroleerd. De productie van F-label producten gebeurt met minimale richtlijnen. Het vaststellen van deze blauwdrukken is multidisciplinair: business, ethici, juristen, vakinhoudelijke specialisten, data-scientisten, IT, de privacyfunctionaris, ze hebben hier allen inbreng! In deze blauwdruk specificeren we de richtlijnen zoals hierboven genoemd.

Wanneer we de blauwdrukken hebben gedefinieerd, kunnen we voor elk individueel informatieproduct een label gaan toekennen. Bijvoorbeeld, als er een algoritme is wat uitkeringsfraude detecteert, dan is het risico dat de fundamentele rechten niet worden gerespecteerd, persoonsgegevens worden gebruikt voor andere doeleinden dan waarvoor ze verzameld zijn, en brave burgers als fraudeur worden aangemerkt. En het risico dat dit niet uit te leggen is, want dit algoritme is een black box. Het gewenste label is A. In de ontwikkeling van het product, kan het team gebruik maken van de blauwdruk voor een A label.

Wanneer de blauwdruk correct wordt toegepast, worden de geïdentificeerde risico’s zo goed mogelijk beheerst.

Dit kan natuurlijk alleen als de organisatie hiervoor de noodzakelijke voorzieningen heeft, zoals kwalitatief hoogwaardige data, infrastructuur en productieprocessen. Wanneer de organisatie dit niet op orde heeft, kan deze methodiek helpen bij het overtuigen van bestuurders dat het noodzakelijk is om middelen op het juiste niveau beschikbaar te hebben. Je kunt nu namelijk heel goed aangeven waarvoor je dit nodig hebt, en wat de risico’s zijn van het ontwikkelen van deze producten met een lager kwaliteitslabel.

Als je als organisatie serieus bent met de inzet van AI, en je algoritmes hebben impact, op burgers, bedrijven, consumenten, patiënten, cliënten, of wat dan ook je doelgroep is, dan is het werken met deze labels een goede methode om stapsgewijs te gaan professionaliseren. In plaats van AI als innovatie te beschouwen, kun je op deze manier je energie gaan steken in het bouwen van een professionele capability waarmee je duurzaam deze krachtige technologie kunt inzetten.


‘Medisch handelen specialisten loopt tot 17 jaar achter op inzichten wetenschap’

Vandaag wordt er een heel interessant boek gepubliceerd: Het nieuwe brein van de dokter. Arts en ondernemer Erik-Jan Vlieger neemt zijn lezers mee in zijn zoektocht naar hoe we in Nederland de beste zorg voor patiënten kunnen bereiken. Hij ontdekte dat het handelen van artsen tot 17 jaar achterloopt op de wetenschap. Wat een geweldig onderwerp!

Data en analytics gedreven gaan werken, verandert fundamenteel de rol van de kenniswerker. Of dat nu een arts, een belastinginspecteur, rechercheur of marketeer is. Daarom spreekt onderwerp van het boek van Erik-Jan Vlieger mij zo aan. “Door nieuwe technologie en slim gebruik van data gaat het beroep van arts veranderen, wordt de zorg goedkoper en de kans op medische fouten gereduceerd. Dit vraagt om verandering in denken van artsen, opleiders, beslissers, beleidsmakers en de politiek.”

Dit sluit prachtig aan op waar ik afgelopen jaren mee bezig ben geweest binnen de muren van een groot academisch ziekenhuis. Er is volgens mij geen ander domein waar zo veel research wordt gedaan en dagelijks zoveel kennis wordt geproduceerd. Maar hoe zorg je dat deze kennis door artsen op het juiste moment gebruikt gaat worden? Hoe implementeer je kennis op grote schaal? Het tussenresultaat van deze zoektocht, is het framework waar in mijn vorige blog mee afsloot. In die blog ging ik in op de problematiek waar je tegenaan loopt, als je als organisatie wilt overgaan van pionieren met data en analytics naar een datagedreven organisatie. De complexiteit waar je in kunt vastlopen. Het mooie is, dat dit framework veel breder toepasbaar is dan alleen de medische sector. Elk bedrijfsproces, waar de input (data) of de hoeveelheid regels en kennis (algoritmen) groter is dan dat je met je menselijk brein kunt verwerken binnen de tijd die je hebt om een beslissing te nemen, is een kandidaat om data gedreven te gaan worden

Een van de grootste uitdagingen bij het implementeren van kennis, is dat het multidiciplinaire professionals vereist. Zonder mensen die multidisciplinair kunnen denken, kom je snel in of een technology push of een onrealistische verwachting vanuit de business. Ik ben het dan ook helemaal eens met Vlieger dat er een verandering van denken nodig is om een generatie artsen op te leiden die data-savvy is. Ik zou zelfs nog wel een stapje verder willen gaan, we hebben niet alleen data-savvy artsen nodig, maar ook data savvy bedrijfskundigen, organisatiewetenschappers, fiscalisten, marketeers, ingenieurs. Of business georiënteerde data scientists, in deze categorie schaar ik mezelf. Want deze mensen kunnen een cruciale rol spelen in de transformatie naar data gedreven organisaties. Ze kunnen namelijk herkennen en communiceren waar data gedrevenheid een meerwaarde gaat bieden. Ze zien de mogelijkheden. In mijn model noem ik dit ‘opportunity development’. In the early days van Data Mining en Advanced Analytics, toen ik nog bij een grote IT multinational werkte, wilden we graag analytics projecten verkopen. Dat bleek best een stuk lastiger dan gedacht. We waren nog niet zo bedreven in het kunnen herkennen en communiceren waar in je processen je winst kunt behalen door data gedreven te gaan werken. Gartner noemt deze mensen process engineers. Mensen die bedrijfsprocessen kunnen doorgronden, bottlenecks kunnen identificeren en in een taal die iedereen begrijpt kunnen uitleggen wat het verbeterpotentieel is als je data en analytics gedreven gaat werken. Waar je in applicatie ontwikkeling de business analist hebt, heb je een process engineer nodig bij het ontwikkelen van analytische modellen.

Data gedreven gaan werken is niet alleen maar leuk voor de mensen die het betreft. Elke verandering betekent ook weerstand. Aan de process engineer de taak om je publiek mee te nemen in 3 stappen: Explain, enlighten, engage.


Het startpunt van de process engineer is je narrative, je verhaal. Het verhaal van hoe een bepaald bedrijfsproces verloopt. Breng in kaart hoe het huidige proces eruit ziet, en ondersteun dit met data waarbij je de bottlenecks illustreert. Dit lijkt wellicht veel werk, maar het is zo nodig om je oplossing straks in een context te kunnen zetten. Vervolgens ga je inzicht geven in hoe het anders kan. Met visualisaties laat je zien hoe je output of kwaliteit kunt verhogen. Daarna ga je weer terug naar je verhaal. Je enthousiasmeert mensen om mee te gaan in de transitie naar data gedreven werken. Afhankelijk van je publiek, switch je tussen operationeel, tactisch of strategische focus van je verhaal.

Ik heb gemerkt dat in organisaties, er erg veel discussie kan ontstaan waar dergelijke activiteiten horen te liggen. Bij business of bij IT? Een logisch gevolg van data gedreven procesverbetering, is dat je als organisatie je gat moet gaan verkleinen tussen de ‘business’ en je ‘IT’ afdeling. Om te blijven bij het boek van de Vlieger, nieuwe technologie en slim gebruik van data gaan niet alleen het beroep van arts veranderen, maar ook de manier waarop er in organisaties wordt samengewerkt. Daarover meer in een volgende blog!

Van pionieren met data en analytics naar een intelligente organisatie

Je hebt in jouw organisatie gepionierd op het gebied van data en analytics. Misschien heb je een data lab neergezet, waar je leuke modellen hebt gemaakt die je bedrijfsprocessen drastisch zouden kunnen verbeteren. Of misschien heb je vanuit je business intelligence club de slag gemaakt naar interactieve dashboards. Nu is (haast) iedereen overtuigd van de meerwaarde van het intensief gebruiken van data en analytics om beter te functioneren als organisatie.

Hoe maak je als organisatie de stap van pionieren met data science naar een intelligente organisatie?

De analytische modellen gaan een voor een in productie. Prachtig, eindelijk echt toegevoegde waarde voor de eindgebruiker en de organisatie! Maar langzamerhand loop je vast op een ijsberg. Voorheen kon je je werkveld overzien – je lab, handje vol scientists, je data lake. Er waren korte lijnen en de spirit was ondernemend en positief. 

Nu moet je het complete veld van data en analytics bevatten. En het is zo complex! Bovendien lijkt er elke week een term of technologie bij te komen die heel erg veelbelovend is. Daarnaast is data enorm multidisciplinair. Je hebt domeinkennis nodig en moet je eigen processen kennen, om te analyseren waar de opportunities liggen. Vervolgens moet je kennis hebben van data science, niet alleen van de technieken maar ook van onderzoeksmethodologie, want voor je het weet vergelijk je appels met peren. Je model had zo’n hoge betrouwbaarheidsfactor, maar het werkt in praktijk niet. Hoe kan dat? Daarna kom je er achter, dat de output van jouw legertje data scientists achterblijft. Het blijkt dat iedereen voortdurend het wiel opnieuw uitvindt, en dat georganiseerd kennismanagement een uitdaging is. En dat er weinig tijd overblijft voor innovatie, nu ontwikkelde modellen ook beheerd moeten worden. Omdat ze zo enorm complex zijn, worden je beste mensen steeds maar weer benaderd om productie issues op te lossen.

De business begint te klagen over de tijdigheid en betrouwbaarheid van de gegevens in de modellen. Leuk dashboard, maar hij klopt niet? De gegevens die ik gister heb ingevoerd zijn niet meegenomen? Welke datadefinities gebruik je eigenlijk, want mijn eigen analist komt op hele andere waarden uit. Ineens begrijp je waarom die mensen bij IT zo lang doen over het toevoegen van een kolommetje aan een tabel in het EDW. Want een nette datavault of stermodel, vraagt behoorlijk wat denkwerk.

Ook de Functionaris Gegevensbescherming meldt zich. Oh die GDPR/AVG, je hebt er slapeloze nachten van. Want wat, als blijkt dat je persoonsgegevens hebt verwerkt, voor een ander doel dan verzameld? En je kunt niet laten zien, welke verwerkingen je allemaal hebt lopen? En is anoniem nog wel anoniem, als je data verrijkt? Je data lake is misschien toch niet zo privacy-by-design...

En last but not least, de CFO dacht dat je met het budget voor je innovatielab voor de komende jaren goed zat. Maar nu blijkt, dat onder de zichtbare resultaten, een ijsberg schuilt aan data management en data en analytics infrastructuur, wat flink in de papieren gaat lopen. Dit wordt een lastig verhaal. Je moet terug naar de tekentafel, voor een nieuwe business case.

Herken je op het punt te zijn, van pionieren naar rubuuste data -en analytics gedreven organisatie? Zou je het fijn vinden om af en toe te reflecteren op je koers, of te sparren?  Ik vind het leuk om met je mee te denken. Als zelfstandig business en informatie architect hou ik 1 dag in de week vrij voor ad-hoc klussen en kennisontwikkeling. Op basis van mijn eigen kennis en ervaring heb ik een framework ontwikkeld, voor de transitie naar een data gedreven organisatie. In onderstaande figuur zie je deze op hoofdlijnen staan.


Ik heb gemerkt, dat het overgaan van data pionieren naar datagedreven organisatie, nog best wel zoeken, euh, pionieren is. Daarom zal ik komende weken van mijn vrije vrijdagen gebruik maken om te bloggen over de verschillende blokjes in mijn framework. Voorkeur voor een onderwerp? Laat het weten in de comments op LinkedIn!