IT Archives - Hersenspinsels

Inleiding

Artifical Intelligence, we worden met het woord om de oren geslagen, iedereen heeft er de mond van vol en elk bedrijf moet AI in zijn werk integreren, of dat nu zinvol is of niet. Wat denk ik daar nu zelf van? Hieronder mijn eerlijke eigen mening (anno oktober 2025)

AI = machine learning

AI, of vroeger “machine learning” genoemd, bestaat al lang. Ik herinner me al lang geleden dat er voor specifieke doelen machine learning werd toegepast, het creëren van een “neuraal netwerk”, om specifieke doelen te bereiken. Hierbij geef je de computer geen specifieke instructies meer van het principe “als dit gebeurt, dan moet je dat ermee doen” maar geef je de computer een hele reeks voorbeelden van situaties of toepassingen zodat die hiermee aan de slag kan en zelf kan berekenen wat het resultaat moet zijn, zonder te kunnen verklaren hoe hij tot deze conclusie kwam… en bijgevolg zonder ons de kans te geven te controleren of dit dan ook wel klopt! En net daarin zit voor mij het gevaar want ik controleer de zaken graag eens, zodat ik weet waarop ik me baseer om een idee of mening te vormen.

Waarvoor wel? Waarvoor niet?

Nu vind ik het toepassen van machine learning of AI voor specifieke doelen nog steeds heel relevant, op basis van een duidelijk afgelijnde scope en met een duidelijk controleerbare kennis-input zal het systeem gewoon verder gaan en het logische gevolg genereren. Omdat deze input controleerbaar is, durf ik vertrouwen dat de output ook vrij goed zal zijn, maar dan kwamen daar onze vrienden van OpenAI. Op basis van “alles wat ze op internet konden vinden” hebben ze een taalmodel gebouwd (want al deze “kennis” is nog steeds gebaseerd op woorden waarvan de computer totaal niet weet wat ze precies betekenen) en wat je ook vraagt, het systeem zal wel een antwoord bedenken. Bedenken, wat dus wil zeggen dat hij ook zonder de juiste gegevens wel iets zal produceren of dat hij dingen aan elkaar plakt die helemaal niet samen horen, om toch maar een antwoord te genereren… het zogenaamde “ghosting”. En waar dit voor het verzinnen van een gedicht over een bepaald onderwerp heel leuke en originele resultaten oplevert, is dit voor het weergeven van feiten natuurlijk minder ideaal. Als wetenschapsadept (waar kennis gebaseerd is op ervaring, testing en controle), vind ik dit echt geen goede evolutie. Daarbij komt dat Google door OpenAI op snelheid gepakt is, waardoor zij inderhaast hun model (met dezelfde gebreken) hebben live gezet, met alle gevolgen van dien. Google is dé bron van info voor de overgrote meerderheid van onze bevolking en ze geven standaard bovenaan AI-resultaten weer, dus denkt iedereen dat dit correct is. Weinigen zullen de antwoorden verifiëren (zelfs al worden er bronnen weergegeven) want Google zal het toch wel weten, niet? Zelf probeer ik vaak de antwoorden te verifiëren via de bijhorende links en helaas kom ik in meer dan de helft van de gevallen tot de conclusie dat het antwoord dus niet (helemaal) klopt. Toen ik vroeg welke restaurants vegetarische gerechten serveerden, dan kreeg ik een veelbelovende lijst van restaurants maar de meeste serveerden helemaal niet wat er werd beweerd en er werden zelfs restaurants weergegeven die niet bestonden, typisch ghosting dus want taalkundig leek alles in orde!

Het gevolg is dat heel veel mensen halve waarheden aannemen en waar dit voor het opzoeken van een restaurant vooral vervelend is, kan dit voor belangrijke onderwerpen wel problematisch zijn. Dokters hebben nu al het probleem dat mensen Dr. Google geraadpleegd hebben en zo denken het antwoord al te kennen, maar als die dan ook nog eens ziektes zal toekennen op basis van taal, zonder wetenschappelijke basis (want bepaalde symptomen komen bij heel veel ziektes voor), dan kan het wel eens gevaarlijk worden. Wekelijks hoor ik mensen de uitspraak doen “ChatGPT heeft me gezegd dat…”, helaas zonder hierbij te horen “en ik heb het opgezocht en het leek te kloppen”, mensen gaan makkelijkheidshalve de vraag stellen en het antwoord voor waar aannemen, zowel in ChatGPT als in Google. Agentic AI is de volgende heilige graal want dan moeten we zelf ook niets meer doen met de resultaten van de vraag, de computer zal het nodige wel uitvoeren. Of we allemaal zo tevreden zullen zijn met het hotel dat AI dan voor ons geboekt heeft is maar de vraag, in ieder geval kan iedereen zich dan verbergen achter AI want ze hebben die stommiteit zelf niet begaan, het was de computer…

Ik denk soms nostalgisch terug aan de tijd dat we nog moesten zoeken in verschillende artikels of op meerdere websites om het antwoord te vinden. Veel lastiger en tijdrovender, helemaal mee eens, maar de bron van de info was meteen een graadmeter van de betrouwbaarheid van het resultaat!

Waar gaat dat eindigen?

Momenteel zitten we nog in een “race to the top”, iedereen wil zoveel mogelijk nieuwe AI-zaken uitbrengen, nieuwe modellen lanceren (of die nu goed werken of niet, dat maakt niet uit), om het meest. Persoonlijk denk ik (of moet ik zeggen “hoop ik”) echter dat de vele problemen, onnauwkeurigheden, ghosting etc zullen leiden tot ontevreden gebruikers en dat het streven naar de hoogste kwantiteit zal worden vervangen door de hoogste kwaliteit. Nieuwe AI-systemen die de graad van nauwkeurigheid als een factor beschouwen en die eventueel zeggen “ik weet het antwoord niet, maar kom binnenkort eens terug want wellicht heb ik dan wél meer data om deze vraag te beantwoorden”. Of wie weet, komt er een AI-systeem dat met je vraag op zoek gaat naar specifieke, betrouwbare bronnen, om zo een gefundeerd antwoord te vormen? Een mens mag toch al eens dromen, hé?

INLEIDING

Op het einde van het jaar is het traditioneel tijd voor de lijstjes, elke lijst die wekelijks een top samenstelt, doet dat in de kerstperiode voor het hele jaar en komt dan met een “Top X van het jaar Y”. Als IT’er stel ik me dan automatisch de vraag “welke query zou er schuilen achter die samengestelde Top X?”. Uiteraard weten wij niet hoe hun database er precies uitziet, maar toch wil ik graag een poging doen om een fictieve SQL-statement samen te stellen.

DATA

Aangezien we ergens moeten beginnen, stel ik eerst even vast hoe de tabel eruit ziet die de gegevens bevat met de Top.

rakingid	year	week	song	songranking
1	2018	23	AAA	49
2	2018	24	BBB	4
3	2018	24	AAA	46
4	2018	25	BBB	6
5	2018	25	AAA	4
6	2018	25	CCC	8
…

Opmerking: In een echte database zal de song geen tekst bevatten maar de ID van een liedje, waarvan de details in een aparte tabel zijn opgeslagen. In dit voorbeeld hebben we voor het gemak echter het liedje als tekst opgeslagen.

BEREKENING

Om deze berekening goed te kunnen uitvoeren, splitsen we de opzoeking in een aantal stappen zodat het duidelijk wordt hoe het opzoeken precies in zijn werk gaat.

Basis-query

Eerst maken we een simpele query om alle gegevens op te halen van het jaar 2018, zodat oude rankings niet worden meegeteld

SELECT * FROM ranking WHERE year = 2018

Groeperen per liedje

Daarna gaan we alle records groeperen per liedje om een lijst te krijgen die we verder zullen ordenen

SELECT * FROM ranking WHERE year = 2018 GROUP BY song

Aantal vermeldingen opzoeken

Vervolgens zoeken we het aantal vermeldingen per liedje op (= rankingcount) en geven die samen met de naam weer

SELECT song, count(songranking) as rankingcount FROM ranking WHERE year = 2018 GROUP BY song ORDER BY rankingcount DESC

Score berekenen

Tot slot willen we rekening houden met de plaats van het liedje elke week aangezien een liedje dat telkens hoger staat in de lijst, ook in de finale lijst hoger moet eindigen. Hiervoor kennen we het punten toe waarbij we de plaats in de hitparade aftrekken van 51 (zodat de hoogste 50 punten krijgt, de 2e 49 punten enz tot het liedje op plaats 50 nog 1 punt krijgt toegekend)

SELECT song, count(songranking) as rankingcount, sum(51-songranking) as rankingscore FROM ranking WHERE year = 2018 GROUP BY song ORDER BY rankingscore DESC

RESULTATEN

Als we met bovenstaande gegevens het resultaat uitrekenen, dan krijgen we de volgende scores:

song	rankingcount	rankingscore
BBB	2	92
AAA	3	54
CCC	1	43

Zoals je kan zien, staat het liedje BBB hoger dan AAA, terwijl het er een week langer heeft ingestaan. De plaatsen op de ranglijst waren echter veel lager, waardoor de plaats in de finale ranking eveneens daalt

CONCLUSIE

Het is af en toe wel eens leuk om een real-life berekening te gaan uitwerken om te zien hoe dit gebeurt. Zo blijven we onze hersenen gezond houden en kunnen we die theorie van weleer nog eens in de praktijk toepassen!

okt, 2025

AI, een zegen of een vloek?

Inleiding

AI = machine learning

Waarvoor wel? Waarvoor niet?

Waar gaat dat eindigen?

dec, 2018

Berekening “Top X van het jaar Y”

INLEIDING

DATA

BEREKENING

Basis-query

Groeperen per liedje

Aantal vermeldingen opzoeken

Score berekenen

RESULTATEN

CONCLUSIE

Categorie archieven: IT

okt, 2025

Inleiding

AI = machine learning

Waarvoor wel? Waarvoor niet?

Waar gaat dat eindigen?

dec, 2018

INLEIDING

DATA

BEREKENING

Basis-query

Groeperen per liedje

Aantal vermeldingen opzoeken

Score berekenen

RESULTATEN

CONCLUSIE