donderdag, 06 20th

Last updatevr, 29 mrt 2013 11am

System S

"S?"
-"Ja, S."
"Van uh ... Snel?"
-"Nope."
"Super?"
-"Nai"
"Sloom, dan?"
-"Ook niet, nee."
"Sladverdikkeme, dan geef ik het op!" Op het gevaar af dat ik als een soort defecte grammofoonplaat wordt gezien, gaat deze versie van "Mag IT iets méér zijn" andermaal over Smarter Planet. Inmiddels weten we het verhaal wel: de onnoemelijke hoeveelheid apparaatjes die ons omringen en die instaat zijn data te verzamelen en te distribueren over 'n netwerk. Waar ik het nu over wil hebben is de grote uitdaging om van die grote hoeveelheid, in eerste instantie misschien nutteloze, data, zinnige informatie te maken.
Da's geen sinecure.
Natuurlijk, bedrijven weten inmiddels best wel hoe grote hoeveelheden data verwerkt moeten worden. Maar de kneep zit hem in het soort en de kwaliteit van data. Als je het, in een traditionele omgeving, over data hebt, dan is die constant van kwaliteit, hij is aanwezig en betrouwbaar. Technisch gezien, dan. Het is niet zo dat je 'misschien' een bankrekening hebt en daarop misschien een saldo van 265,89 Euro. Nee, het zijn vaste gegevens.
Nu de andere situatie.
Misschien wil een financiële instelling continue weten welke klanten er een saldo hebben van 265,89 Euro hebben. Elke seconde weer. Met name de continuïteit is een belangrijk verschil met de traditionele wereld. Als je continue meet dan krijg je continue data voor je kiezen. Dat heet streaming. Bij streaming gelden andere wetten dan bij het bewerken van data die statisch is. Want behalve de grote hoeveelheid data kan bij streaming de kwaliteit van de data zeer wisselend zijn. Of het formaat. Neem een video camera die data streamt. Door (inferieure) netwerkverbindingen, slechte lichtopbrengst of anders kan het rapportcijfer voor kwaliteit een mager zesje krijgen. Tóch kan deze camera plots nuttige data gaan streamen die op dát moment verwerkt moet gaan worden. Want stel dat deze camera een overval registreert. Dan wil je die data goed kunnen analyseren. Maar je wil er ook voor zorgen dat er meerdere camera's in de buurt zich richten op die ene plek. Nóg meer ongestructureerde data van dubieuze kwaliteit en verschillende formaten stroom simultaan binnen. Ai, hoe dat te bewerken?
Of neem een voorbeeld van het bewerken van financiële gegevens. Het is niet ongebruikelijk dat er 1 miljoen berichten per seconde (!!) binnenstromen en geanalyseerd dienen te worden om een gefundeerde beslissing te maken. Niets ten nadele van spreadsheets, maar met deze aantallen gaat je dat niet meer lukken.
Delen van die berichten zijn perfect en compleet, andere delen slecht interpreteerbaar en incompleet. Sommige van die berichten bestaan uit gestructureerde data, maar het overgrote deel uit ongestructureerde data. Hiermee bedoelen we video, audio, pdf's, nieuwsberichten, weersvoorspellingen etc.. Toch zit er in die data streams informatie die belangrijke invloed kan hebben op een beslissing. Hoe daarmee om te gaan?

System S, dus. 'S' staat voor Streaming. De naam verklaart veel van het systeem, maar kan ook tot verwarring leiden. Het is namelijk geen hardware. Vraag een willekeurige STG collega naar System S en ze kijken als konijntjes in koplampen. System S behoort toe aan de Software Groep, en wel onder InfoSphere.

Al 5 jaar geleden heeft IBM Research ingezien dat het bewerken van grote hoeveelheden gelijktijdige data wel eens nuttig zou kunnen worden. System S werd als project geboren om deze uitdaging aan te gaan. En recentelijk heeft dit project het gebracht tot een volwaardig product. System S is losgekoppeld van de hardware, maar je hebt krachtige systemen nodig om de vreemde data te verwerken. IBM's BlueGene en natuurlijk de onvolprezen Cell processor zijn daar perfecte bouwstenen voor.

System S als motor om de wereld Slimmer te maken. Hé, ook een 'S'. Toeval?
U bevindt zich hier: Home System S