zondag 20 mei

SPSS modeller, prachtig spul

In vorige columns heb ik een aantal keren geschreven over de grote hoeveelheden data die er in bedrijven , en op hoger niveau, in de wereld is. Laten we eens naar data in een onderneming kijken. Dat groeit. De cijfers variëren maar als je aanneemt dat het tussen de 40% en 60% jaar-over-jaar is, zit je veelal goed. Dus dit jaar 100 Terabyte, een jaar erop 150 Terabyte het jaar daarop 225 Terabyte enz. Die groei zit hem in wat we noemen ongestructureerde data. Daar bestaat verwarring over bij niet die-hard techneuten. Een korte beschrijving dus: Ongestructureerde data is data in bestanden. Dus ook een spreadsheet waar alle getalletjes mooi onder en naast elkaar gezet zijn, is ongestructureerde data. Echt waar! Gestructureerd is data pas als het niet om bestanden gaat maar om bijvoorbeeld records in een database.

De grote uitdaging is om de ongestructureerde data goed op te slaan en ook nog goed te kunnen interpreteren. Dat waren koude kunstjes in de gestructureerde omgevingen. Een database was er per slot van rekening voor gemaakt om snel in te zoeken, relaties te leggen etc, 
Nu de interpretatie van gegevens in ongestructureerde data. Dat is lastig. Probeer maar eens een zoekopdracht te geven over alle spreadsheet bestanden heen. Met Google Desktop kom je een aardig eind. Die kan in de niet-gestructureerde data goed zoeken naar losse woorden. Lastiger wordt het als je verbanden over je zoekargumenten wil vinden.
Ook op Google.com kan je aardig zoeken schijnt het, maar op 'n zoekargument als "hoe herken ik een grutto", krijg je verassende resultaten. Als iemand ooit eens een artikel heeft geschreven met precies deze woorden, dan heb je geluk. In bovengenoemde zoekstring is dat niet het geval. Plaats ik de zoekstring tussen dubbele quotes, dan geeft Google 0 zoekresultaten en meldt dat de losse zoekwoorden wel 6410 resultaten heeft opgeleverd, die best aardig in de buurt komen, overigens.  Google heeft moeite om semantisch te zoeken. Laat staan als je op zoek bent naar samenhang en sentimenten (jawel!) uit ongestructureerde data. Dat behoord tot de hoge school van data interpretatie.

En toch kan het! Tada!  Met een van IBM's recente acquisities op het gebied van software is het mogelijk. SPSS text mining heet het. Damiaan Zwietering, mijn zeer gewaardeerde collega, helpt me nu een omgeving op te zetten waarbij we twitter informatie opslaan en vervolgens text mining gaan toepassen om er sentimenten uit te distilleren. Ik heb voorbeelden gezien waarbij Damiaan de laatste aflevering van "Boer zoekt vrouw" heeft geanalyseerd aan de hand van een kleine 30.000 twitter berichten. Na wat primaire bewerkingen van de data, kan er met text mining verbanden en combinaties tussen woorden worden gelegd en weergegeven. Er kan worden geteld hoe vaak combinatie van woorden als "leuk" met "vrouw" en met "Zweedse Boer" voorkomen. Die met "vrouw" kwam aanzienlijk vaker voor dan met "Zweedse Boer". Opvallend was ook te zien dat er bijna evenveel tweets werden geplaatst met de combinatie "ketting" en "mooi" als met "kettinkje" en "Niet romantisch". Leuk te zien is dan dat de spelling van ketting anders is als er negatief over wordt gewitterd.

SPSS text mining kan voor meer dan 80 verschillende talen de text doorgraven en combinaties en sentimenten naar boven halen. Vanzelfsprekend niet alleen op twitterdata, maar ook op andere publieke sites en van allerlei interne bestanden.
Neem bijvoorbeeld een helpdesk die verslagen maakt van de telefoongesprekken. Of de emails die men op een helpdesk ontvangt.  Het text-minen kunnen bedrijven heel veel gefundeerd inzicht krijgen over hoe men nu denkt over een bepaalde dienst, of product. In plaats van op onderbuikgevoel een beslissing nemen kan men nu met harde gegevens komen.
IBM SPSS, prachtig spul!

You are here Home
Share/Save/Bookmark