I Big Data e il Potere dei Sentimenti

di Dan Pejeroni [Infosphere]

Come realizzare nella pratica un ambiente di Sentiment Analysis. Dalla selezione delle possibili sorgenti dati, alla scelta dei componenti nell’ecosistema Hadoop. Come scegliere quale ambiente adottare per l’elaborazione (in-house o in-cloud) e infine qualche algoritmo di base per il calcolo dei risultati.

nuvi-facebook-channel

Marketing e Sentiment Analysis

Prima che l’affermazione dei big data fornisse una concreta capacità di osservazione analitica sul mercato, gli uffici marketing spesso improvvisavano, per poi porsi domande a cui era difficile dare risposte: dove hanno funzionato le campagne? Chi hanno raggiunto? Quale è stata la reazione dei nostri clienti?

Oggi i big data hanno cambiato il paradigma funzionale da: azioni stimate a scelte predittive guidate dai dati. Lo sviluppo della sentiment analysis come strumento di marketing, cioè la tecnologia per determinare il tono emozionale delle opinioni online sui brand, compie un ulteriore passo avanti. Questa scienza, conosciuta anche come opinion mining, utilizza nuove tecnologie e algoritmi per raccogliere e analizzare i dati che rappresentano la percezione di un prodotto, di un servizio o di un intero brand. Non si tratta solo di opinioni, ma attitudini ed emozioni espresse attraverso ogni menzione online. La sentiment analysis cerca di comprendere cosa la gente pensa, non solo cosa dice.

Mettiamo in pratica la Sentiment Analysis

L’analisi del sentiment si basa sull’elaborazione in tempo reale di stream di dati prelevati da una o più piattaforme social media, dove i singoli messaggi, che rappresentano informazioni di stato degli utenti (tweets, post), vengono valutati rispetto a parole chiave (hashtag, keyword) e dizionari, per associarli infine ad una di tre diverse polarità: “neutrale”, “positivo” o “negativo”. Si consideri che il solo public stream di Twitter, produce un volume di oltre 6000 messaggi al secondo.

L’insieme di queste informazioni viene comunemente definito Big Data e la sua analisi consente di ricavare efficaci previsioni di marketing, orientamento politico o trend sociale, poiché rappresenta direttamente il punto di vista delle masse.

Per realizzare un sistema di questo tipo è necessario disporre di:

  • Una o più sorgente dati dai social media;
  • Una tecnologia in grado di gestire in tempo reale un’enorme volume di dati, contenendo ragionevolmente i costi di implementazione e di gestione;
  • Un ambiente di elaborazione in-house o in-cloud;
  • Una o più strategie di analisi statistica, data mining e dizionari per il calcolo dei risultati.

Nei prossimi capitoli proveremo a dare una risposta concreta a queste tre esigenze.

1. Le sorgenti dei dati social media

1.1 Le API dei Social Network

Per effettuare la raccolta dei dati dai social network, è possibile oggi una scelta tra diverse strategie:

Accesso tramite API (Application Programming Interface).

Le API sono messe a diposizione dalle stesse piattaforme. Il vantaggio di questo approccio è senza dubbio la possibilità di costruire strumenti ad hoc, per procedere alla raccolta di informazioni secondo le proprie esigenze. D’altro canto lo svantaggio è costituito dal fatto di dipendere dalle decisioni delle piattaforme, per quanto riguarda i dati ai quali accedere e in quale modo.

Per esempio Twitter fornisce una serie di API (Streaming API e Search API) che permettono di raccogliere una grande quantità di informazioni, ma impone limiti a questi dati, con il meccanismo del rate limit.

Anche Facebook fornisce delle API, limitate e relative solo alle performance, pertanto le informazioni dei singoli profili non sono accessibili per vari motivi, uno fra tutti la privacy degli utenti.

Servizi sviluppati da terze parti.

E’ disponibile una grande varietà di applicazioni per il social media analytics, ovvero strumenti che consentono di raccogliere dati ed elaborare semplici metriche per poter effettuare analisi. Alcuni di questi servizi sono gratutiti o open source e hanno lo scopo di usare in maniera creativa le API delle piattaforme per testare un algoritmo, per sperimentare una visualizzazione, ecc. Ovviamente questi servizi, dato che incorporano nel loro codice le istruzioni delle API, hanno gli stessi limiti che queste impongono loro. Altre volte questi servizi sono a pagamento e sono pensati per finalità commerciali. In questo caso non hanno limiti attribuibili alle API, poiché hanno accordi commerciali con le singole piattaforme. Spesso questi servizi sono freemium, ovvero in parte gratutiti e in parte a pagamento. In questo modo è possibile usare la versione gratuita per sperimentare e passare alla versione a pagamento, quando si avrà bisogno di performances migliori.

Acquisto dei dataset direttamente dalle piattaforme di social media.

I vari social network mettono a disposizione direttamente o attraverso data reseller, i dataset ottenuti dai social media per poterli utilizzare per i propri scopi (di ricerca o di mercato). Esistono tre società che forniscono questo servizio, ognuna specializzata in uno specifico settore.

Gnip (http://gnip.com), recentemente acquisita dallo stesso Twitter, si tratta di una società specializzata nella vendita di dati relativi a Twitter e altre piattaforme (Tumblr, Foursquare, WordPress, Facebook, Google Plus, Youtube).

Datasift (http://datasift.com), che oltre a fornire dataset di tutti i principali servizi web fornisce anche dati relativi a social media cinesi (Sina Weibo, un SNS a metà tra Twitter e Facebook, Tencent Wibo, molto simile a Twitter).

Topsy (http://topsy.com) che fornisce accesso completo ai dati Twitter, consente anche di effettuare delle ricerche sui social media grazie alla sua applicazione che si presenta come un motore di ricerca per contenuti in tempo reale.

1.2 Twitter e il suo firehose

Il social media di maggior interesse per l’Analisi del Sentiment è senza dubbio Twitter, che offre un servizio completo che comprende API, servizi di terze parti, data reseller, partner certificati. Il flusso dati costante, relativo a tutti i tweet che vengono inviati nel web, è denominato: firehose.

L’utilizzo diretto del public stream di Twitter, direttamente dalle API, è attualmente gratuito, ma è limitato all’1% del volume totale di tweets generati (circa 60 messaggi al secondo). Per le modalità di accesso e acquisizione dei dati si consulti direttamente la documentazione ufficiale disponibile presso https://dev.twitter.com/streaming/overview.

In alternativa si può ottenere lo strem completo (oltre 6000 messaggi al secondo) attraverso l’offerta commerciale della piattaforma GNIP (http://gnip.com).

2. Tecnonologie di elaborazione dei dati

2.1 Elaborazione del sentiment con Apache Storm e Kafka

Sinonimo di gestione e analisi dei Big Data è oggi Apache Hadoop, la tecnologia studiata e messa a punto in più riprese da Google, Yahoo, Facebook, Twitter ed infine donata alla comunità open source.

L’originale orientamento di Hadoop all’elaborazione batch (modello Map/Reduce), negli ultimi anni è stato integrato ed affiancato da una serie di componenti (Yarn, Tez, Hive) che ne hanno aumentato la flessibilità e hanno reso disponibili funzionalità per l’elaborazione in-memory (Spark) e real-time (Storm, Kafka, Samza). In particolare il padadigma real time è la base per lo sviluppo delle infrastrutture IoT (Internet of Things) e per l’elaborazione dei flussi dei social network.

Nella progettazione di un’infrastruttura per la Sentiment Analysis la scelta privilegiata è rappresentata quindi dalla tecnologie Apache Storm e Kafka, che in seguito saranno brevemente descritte.

senza-titolo

2.2 Apache Storm

Apache Storm è un ambiente di elaborazione veloce, scalabile che può essere programmato utilizzando una varietà di linguaggi. La sua architettura consiste in tre set di nodi primari:

Nodi Nimbus

Rappresentano i nodi master che caricano i calcoli che dovranno essere eseguiti nel cluster, lanciano i nodi di lavoro ed eventualmente li riassegnano in caso di errori. In un cluster esiste un solo nodo master.

Nodi Zookeeper

Questi nodi sono assegnati ad ogni macchina slave. La funzione di base dei nodi Zookeeper è il controllo dei nodi di lavoro. Nimbus comunica con i nodi di lavoro attraverso Zookeeper.

Nodi Supervisor

Il supervisor, avvia e arresta i worker nelle macchine slave in base ai comandi del nimbus. Una singola macchina slave può ospitare più nodi worker.

Una astrazione chiave in Storm è la topologia rappresentata dal progrmma che mantiene attivo il cluster Storm. E’ rappresentato visualmente da una rete di spout e bolt che Storm utilizza per eseguire i calcoli. Uno spout è uno stream di input che genera elementi denominati tuple. Per ricevere dati in real time, uno spout può essere configurato mediante un’API oppure un framework di code, come Kafka. Lo spout invia dati ai bolt dove vengono eseguiti i processi. Un cluster può essere costituito da diversi blot assegnati ai vari passi di processo per ottenere i risultati desiderati. I bolt possono trasferire dati ad altri bolt o ad un nodo di storage.

L’architettura elaborativa che utilizzeremo per il sentiment analysis è costituita dai seguenti componenti:

  • Twitter Kafka producer: l’elemento che si occupa della lettura dei tweets dalla Twitter Streaming API, per la loro memorizzazione in Kafka;
  • Twitter Storm Topology: una topologia Storm che legge i tweets da Kafka e, dopo aver applicato le regole di filtraggio e sanitarizzazione, processa i messagi in parallelo per la gestione della:
  • Sentiment Analysis: utilizzando specifici algoritmi di sentiment analysis classifica i tweets in feeling positivi, negativi o neutri.

2.3 Apache Kafka

Apache Kafka è un sistema di messaggistica distribuito, che consente di creare applicazioni in tempo reale tramite flussi di dati. I flussi vengono inviati al cluster Kafka, che li memorizza nel buffer e li inoltra ad Apache Storm.

senza-titolo

3. Opzioni per l’ambiente di elaborazione

Per la realizzazione dell’ambiente di elaborazione descritto nel precedente capitolo, abbiamo oggi alcune valide alternative, caratterizzate da differenti:

  • livelli di investimento economico per la realizzazione dell’infrastruttura tecnologica;
  • competenze tecniche necessarie per il suo avviamento e successiva gestione;
  • oneri per la gestione e la manutenzione dell’impianto a regime.

Possiamo dividere queste soluzioni in due categorie principali:

  • realizzazione di un’infrastruttura Hadoop in-house
  • sottoscrizione di servizi Hadoop cloud

3.1 Realizzazione di un’infrastruttura Hadoop in-house

La migliore offerta di distribuzioni commerciali del framework Hadoop è oggi concentrata sui tre leader di mercato: Cloudera, Hortonworks e MapR.

L’analisi comparativa delle rispettive offerte esula dagli obiettivi di questo post e sarà approfondita in seguito. Ci limiteremo qui a fornire qualche considerazione generale per distinguere le diverse suite.

Tutti e tre i grandi player utilizzano il core framework Hadoop per fornirlo ad uso enterprise, includendo affidabili servizi di supporto.

Cloudera Distribution for Hadoop (CDH)

Cloudera è leader di mercato nel segmento Hadoop e sono stati i primi a rilasciare una distribuzione commerciale. Con oltre 350 clienti e con una attiva contribuzione di codice per l’ecosistema Hadoop, sono i primi quando si tratta di sviluppare tool innovativi. La loro console di management – Cloudera Manager – è facile da implementare e da utilizzare con una ricca interfccia utente che mostra tutte le informazioni in modo organizzato e chiaro. La suite Cludera Management automatizza anche i processi di installazione e fornisce molti servizi avanzati all’utente. Cloudera offre servizi di consulenza per colmare il gap tra ciò che la comunità fornisce e ciò di cui necessita l’organizzazione per integrare la tecnologia Hadoop nella sua strategia di data management. Per contro CDH è più lenta della distribuzione MapR.

MapR Hadoop Distribution

La distribuzione MapR Hadoop è basata sul concetto che un fornitore market driven deve supportare i bisogni del mercato velocemente. Aziende leader come Cisco, Ancestry.com, Boeing, Google Cloud Platform e Amazon EMR utilizzano MapR Hadoop Distribution per i loro servizi Hadoop. Diversamente da Cloudera e Hortonworks, MapR ha un approccio più distribuito per la memorizzazione dei metadata sui nodi di processo, poiché dipendono dal file system proprietario MapRFS, che non ha un’architettura NameNode.

Anche se attualmente la distribuzione MapR è posizionata in terza posizione in termini di numero di installazioni, è certamente, rispetto alle concorrenti, una delle più facili e performanti.

Hortonworks Data Platform (HDP)

Hortonworks, fondata da ex tecnici di Yahoo, fornisce un modello per Hadoop service only. Hortonworks è diversa dalle altre distribuzioni, essendo una open enterprise data platform disponibile in uso gratuito. La distribuzione Hortonworks HDP può essere facilmente scaricata e integrata per essere quindi utilizzata in varie applicazioni enterprise. Ebay, Samsung Electronics, Bloomberg and Spotify utilizzano HDP. Hortonworks è stato il primo vendor a fornire una distribuzione Hadoop 2.0 production ready. HDP è la sola distribuzione che supporta la piattaforma Windows. L’utente può quindi eseguire il deploy di un cluster Windows sul cloud Microsoft Azure, utilizzando il servizio HDInsight.

Sebbene i tre grandi vendor del mercato Hadoop siano caratterizzati da specifiche strategie e forniscano diverse funzionalità, non emerge un chiaro vincitore. Dovrà essere quindi fatta una scelta in relazione agli specifici requisiti di dettaglio. In termini generali possiamo concludere che MapR potrebbe rappresentare la strada giusta se l’impostazione open source è must aziendale, altrimenti la scelta dovrebbe orientarsi sulla suite di Hortonworks. In casi intermedi, le ottime caratteristiche della distribuzione Cloudera, potrebbe rappresentare il mix di funzionalità e facilità di gestione vincente.

Le alternative nella modalità di implementazione in house

Tutte e tre le distibuzioni descritte nei paragrafi precedenti sono disponibili nel formato macchina virtuale VmWare già configurate e praticamente pronte all’uso. Per la realizzazione di un prototipo per la Sentiment Analysis, è consigliabile avviare una fase di sperimentazione attraverso l’utilizzo di uno di questi ambienti:

MapR Sandbox                     https://www.mapr.com/products/mapr-sandbox-hadoop

Cloudera QuickStart           http://www.cloudera.com/downloads/quickstart_vms/5-8.html

Hortonworks Sandbox      http://it.hortonworks.com/products/sandbox/

L’avviamento delle macchine virtuali (che sono disponibili anche per VirtualBox e Docker) non richiede ambienti server particolarmente dotato di risorse. Sui siti non mancoano validi tutorial, che accompagnano le fasi di installazione, configurazione e primo utilizzo. 

3.2 Utilizzo di Servizi di Cloud Computing

A causa della rapidissima evoluzione tecnologica, la maturità degli ambienti su cui costruire un’infrastruttura Big Data, rappresenta oggi un criterio incerto. Costruire e amministrare cluster Hadoop in produzione in modo affidabile ed efficiente, si può rivelare un compito complesso con numerosi fattori di rischio. Per questo l’offerta Cloud Computing è diventata nell’ultima decade uno standard de facto per la gestione dei flussi di lavoro dei Big Data.

Gli indiscussi leader di mercato del cloud computing, caratterizzati da una completa offerta Apache Hadoop, a cui rivolgersi per l’infrastruttura tecnologica sono:

  • Google Cloud Platform (Cloud Dataproc)
  • Amazon Web Services (Elastic MapReduce)
  • Microsoft Azure (HDInsight)

Tutte e tre queste offerte consentono un rapidissimo deployment, una profonda integrazione con i sistemi di Cloud Storage e modelli di prezzo pay-only-for-what-you-use.

I tre sistemi forniscono una distribuzione dello stesso software open-source Hadoop. Le offerte EMR e Dataproc iniziano dalla distribuzione del repository Apache, per poi adattare una configurazione personalizzata della piattaforma cloud. HDInsight utilizza di base la piattaforma Hortonworks (HDP). Le differenze programmatiche e di esecuzione fra i tre sistemi derivano dalle differenze di versione dei pacchetti sorgenti.

HDInsight supporta la distribuzione di 17 diversi tipi di istanza di calcolo, che variano per prezzo e proprietà sistema quali core, RAM e la tecnologia disco. EMR, allo stesso modo, supporta 37 diversi tipi di istanza sottostanti. Dataproc supporta 19 tipi di istanza predefiniti e, in aggiunta, fornisce agli utenti infinite configurazioni personalizzate, per ottimizzare prestazioni e costi.

4. Strategie di Sentiment Analysis

4.1 Descrizione dei dati

I messaggi di Twitter sono limitati a 140 caratteri. A causa di questo limite gli utenti utilizzano frequentemente acronimi ed emoticons che esprimono le loro opinioni. Di seguito sono descritti gli elementi fondamentali di un tweet:

Hashtags

Il simbolo hashtag (#) è utilizzato per categorizzare il tweet in un dominio. E’ possibile utilizzare più hashtag in un singolo tweet.

es. #Independenceday : questo tag si riferisce al dominio

Independence Day, tutti i tweet che contengono questo hashtag saranno categorizzati in questo dominio.

Acronimi

I tweet che vengono postati non sempre sono costituiti da parole intere. Spesso vengono utilizzati abbreviazioni e acronimi per risparmiare caratteri. Nel corso dell’analisi questi acronimi devono essere espansi e analizzati, in quanto possono contenere una considerevole quantità di informazioni. Per questo scopo è necessario mantenere un dizionario separato degli acronimi:

es1. LOL : Risata. Categoria: Positiva

es2. Fab : Favoloso. Categoria: Positiva

es3. Plz : Per favore. Category: Neutra

Emoticon

Questi simboli vengono utilizzati per esprimere emozioni, in modo da mantenere conciso il tweet. Poiché gli emoticon rappresentano una significativa quantità di informazioni relative alla polarità del tweet, è necessario mantenere un dizionario dedicato.

es1. J Sorriso. Categoria: Positivo

es2. L Triste. Categoria: Negativo

es3. 😥 Piangere. Categoria: Negativo

URL

Le URL nei tweet vengono abbrevviate con degli URL shortners (es. Bit.ly

and tinyurl.com) allo scopo di contenerne la lunghezza. Questi URL

che puntano a citazioni esterne (gli URL vengono identificati dalla stringa “http://”, “https://” e www.)

es1. http://goo.gl/l6MS

Twitter Handles

Il simbolo @ viene utilizzato per citare un nome utente in un tweets: “Ciao

@DanPejeroni!” riferito anche come handle. Gli utenti utilizzano

@username per menzionare un altro utente in un tweet, inviare un

messaggio con un link ad un profilo.

Ripetizione di caratteri

Comunemente gli utenti enfatizzano i loro sentimenti nei tweet ripetendo alcuni caratteri. “@DanPejeroni oggi è stata una lungaaaaa giornata” Il termine “lungaaaa” è caratterizzato da una ripetizione di caratteri.

Parole intensificate:

Una parola in caratteri maiuscoli intensifica il proprio significato. “@DanPejeroni I

LOVE today’s weather.” Il termine LOVE è intensificato, quindi aiuta a comprendere la polarità del tweet.

4.2 Classificazione dei sentiment

I tweets sono scompost in token e assegnati ad una polarità (un numero a virgola mobile) compresa tra -1 e 1, dove -1 rappresenta un sentiment negativo, 0 neutro e 1 positivo. Il sentiment medio è quindi calcolato aggiungendo le polarità di ogni token. La somma viene quindi arrotondata all’intero più vicino, assegnando infine la polarità risultante al tweet.

Tweets positivi

  • Tweets che indicano un successo o un festeggiamento
  • Tweets di auguri o congratulazioni a qualcuno
  • Tweets che utilizzano emoticons come 🙂 , 😀 , =) , =D, ^_^ , ❤

es.: Chasing 275 to win, India comfortably reached the target with 28 balls to spare due to some excellent batting from the top order. #IndvsSL

Tweets Negativi

  • Tweet che indicano noia (es. se un film non è stato divertente)
  • Tweet che indicano sconforto (es. a causa di una tragedia nella vita)
  • Tweet che indicano ira (es. a causa di disordini in una zona)
  • Tweet che utilizzano emoticon come 😦 , 😥 , :/ , -_-

Tweets neutri

  • Tweet che includono commenti sia negativi che positivi
  • Tweet che non includono sentimenti nè positivi, né negativi
  • Tweet che presentano fatti o teorie (es.: Ho studiato tutto il giorno, ho bisogno di aiuto!!!!)

4.3 Risorse

Per l’analisi dei tweet, utilizzeremo vari dizionari, dai quali può essere derivata la polarità. Normalmente vengono utilizzati quattro tipi di dizionari dedicati:

Dizionario lessicale

Faremo uso di un dizionario lessicale, dove sono riportati la maggior parte dei termini italiani. Questo dizionario ci aiuterà ad analizzare i tweet senza errori, facendo corrispondere le parole nel tweet con quelle del dizionario. Se un termine non viene trovato, controlleremo se se la parola contiene ripetizioni e sarà quindi categorizzata di conseguenza. Nel nostro sistema utilizzeremo il database Dante, che contiene lemmi, parole multiple, idiomi e frasi.

Dizionari di acronimi

Questo dizionario è utilizzato per espandere tutte le abbreviazioni e gli acronimi. Il processo di espansione degli acronimi genererà parole che richiedono ulteriori analisi utilizzando il dizionario lessicale per classificarle nelle polarità.

Dizionario degli emoticon

I tweet possono contenere emoticon utili a comprendere i sentimenti. Il dizionario degli emoticon svolge questo compito.

Dizionario delle Stop Word

In un tweet non tutte le parole hanno una polarità e non necessitano quindi di essere analizzate. Saranno quindi contrassegnate come stop word ed eliminate.

4.4 Processing dei dati

Suddivisione in token

Tutte le parole in un tweet devono essere suddivise in token. Per esempio ‘@DanPejeroni oggi ho passato una bellissima giornata!’ viene spezzata nei token ‘@DanPejeroni‘, ‘oggi’, ‘ho passato’, ‘una’, bellissima, ‘giornata’.

Emoticon, abbreviazioni, hashtag e URL vengono riconosciute come singoli token. Inoltre, ogni parola in un tweet è separata da uno spazio, quindi ad ogni spazio viene identificato, un nuovo token.

Normalizzazione

Inizialmente il processo di normalizzazione verifica ogni token e esegue alcuni calcoli specifici sulla sua tipologia:

  • Se il token è un emoticon, gli viene attribuita una corrispondente polarità, in base al dizionario degli emoticon;
  • Se il token è un acronimo, gli viene attribuita una corrispondente polarità, in base al dizionario degli acronimi
  • Termini intensificati, come ‘SPENDIDO’ vengono convertite in lettere minuscole e il token è memorizzato come ‘I_spendido’. L’idea di base è quella di preservare l’enfasi dell’emozione dell’utente, codificandola con la codifica ‘I_’;
  • Le sequenze di ripetizione di caratteri come ‘belloooo’ vengono corretti in ‘bello’ quindi memorizzati come ‘R_bello’. La codifica ‘R_’ è utilizzata con lo stesso scopo di quella ‘I_’;
  • Il processo di normalizzazione elimina inoltre tutti i token che non contribuiscono al sentiment del tweet. Le Stop Word, come ‘questo’, ‘mentre’, ‘qundo, poichè non indicano alcun sentiment.quindi vengono eliminate. Similarmente le URL specified nel weet nei Twitter Handle possono essere sicuramente eliminate.

Analisi grammaticale

I token validi vengono passati al processo di analisi grammaticale che associa un tag (etichetta) ad ognuno di essi, specificando se si tratta di un sostantivo, verbo, avverbio, aggettivo, ecc. Il tagging relativo all’analisi grammaticale aiuta a determinare il sentiment complessivo del tweet in quanto i termini hanno un significato differente quando sono rappresentate come diverso elemento grammaticale. Per esempio, la parola ‘buono’ quando utilizzata come aggettivo, es. ‘vino buono’, esprime un sentiment positivo, dove lo stesso termine è usato come sostantivo in un contesto postale non indica tono né negativo, né positivo.

Implementazione

I Bolt sono componenti della topologia di Storm, che possono ricevere un input, processare i dati e inviare un output. Questo output può essere a sua volta inviato ad un altro Bolt o a una locazione di memorizzazione. In questa implementazione proponiamo di utilizzare sei Bolt, su ogni nodo worker. Lo stream di tweet ottenuto dallo Spout viene inviato al primo Bolt. Questo esegue la scomposizione in token che quindi invia al secondo Bolt, dove viene eseguito il processo di normalizzazione e solo i token validi vengono mantenuti. Gli elementi risultanti sono inviati al terzo Bolt, che realizza l’analisi grammaticale e il relativo processo di tagging. Sul quarto Bolt, a ogni token, viene assegnata la sua polarità, eseguendo la ricerca nei dizionari ed estraendo la sua corrispondente polarità a virgola mobile. La polarità complessiva di un tweet è quindi calcolata e inviata al quinto Bolt. Questo elemento di processo riceve le polarità di ogni tweet e calcola la sua media. Il valore medio è quindi passato al sesto Bolt, dove viene arrotondato al valore più vicino all’intero e rappresentato in forma di grafico o diagramma a torta.

4.5 Presentazione dei dati

Il risultato dell’elaborazione dei tweet su Apache Storm può essere prodotto in varie tipologie di output, per aiutare l’utente nell’analisi e nell’interpretazione del sentiment sui social media.

Grafici a torta

I grafici a torta o Graph Chart sono grafici circolari che rappresentano le statistiche in forma di settori percentili. Per esempio, il numero dei tweet che hanno una certa polarità saranno classificati in un settore della torta.

Timeline

Le timeline sono rappresentazioni della popolarità di un tweet o di una categoria di appartenenza. La durata del tempo può variare da un numero di ore in un dato giorno, a un numero di giorni di un dato mese.

Mappe

Le mappe mostrano un’area dove i tweet sono stati prodotti, eventualmente indicandone la polarità. Questo tipo di rappresentazione può risultare particolarmente utile per sondaggi locali, in quanto possono rappresentare la polarità in un’area in termini geografici. E’ possibile utilizzare la libreria Google Maps Javascript per la renderizzazione sulla mappa.

L’IoT non funzionerà senza Intelligenza Artificiale

Analytics Experience 2017: SAS esplora i trend delle imprese che innovano

Technology

Internet of Things (IoT) è un argomento sempre più di diffuso, al punto che l’interesse si è esteso al grande pubblico. In ambito aziendale nessuno mette più in discussione i benefici e le opportunità che derivano dall’utilizzo di queste tecnologie. La preoccupazione è piuttosto: come farle effettivamente funzionare.

L’IoT produrrà un tesoro di dati. Dati che potranno aiutare le città a evitare incidenti e crimini, consentire ai medici di ottenere in tempo reale le informazioni dei pacemaker e dei biochip dei pazienti, ottimizzare la produttività industriale attraverso la manutenzione preventiva di attrezzature e macchinari, creare case veramente intelligenti con apparecchi collegati e fornire comunicazioni critiche tra autovetture. Le opportunità offerte da IoT sono praticamente infinite.

La conseguenza della rapida affermazione di dispositivi e sensori collegati all’Internet delle Cose è un incredibile incremento del volume di dati che vengono da loro generati. Questi dati forniranno un prezioso punto di vista su cosa funziona bene e cosa no, fornendo una visione di alto valore su rischi e opportunità per aziende.

Tuttavia, il problema è trovare il modo per analizzare il diluvio di informazioni che tutti questi dispositivi creano. Cercare informazioni in terabyte di dati macchina è molto difficile. Con tecnologie tradizionali è impossibile riesaminare e comprendere questa massa di dati, in quanto richiederebbe troppo tempo.

Affinché l’IoT rispetti la sua promessa, è indispensabile migliorare la velocità e l’accuratezza dell’analisi dei dati. In caso contrario le conseguenze potrebbero essere disastrose. La tecnologia in grado di tenere il passo dei dati generati dall’IoT per ricavarne informazione e significato si chiama Machine Learning e si occupa della costruzione e dello studio di sistemi che apprendono dai dati stessi, piuttosto che seguire istruzioni esplicitamente programmate.

Sarà questo uno dei temi di Analytics Experience 2017, l’evento organizzato da SAS in programma ad Amsterdam dal 17 al 18 ottobre.

Durante l’evento internazionale, centinaia di esperti, thought leader, professionisti e manager si confronteranno sull’importante ruolo degli analytics nel costruire relazioni più forti con i clienti, combattere le frodi, gestire il rischio e migliorare i processi. Ed esploreranno i trend emergenti, come Machine Learning, Internet of Things, Intelligenza Artificiale e la nuova normativa in tema protezione dei dati (GDPR).

Ad Analytics Experience 2017, SAS presenterà i risultati della survey internazionale che vuol far luce sulla maturità delle imprese in ambito Intelligenza Artificiale.

Il mercato del lavoro è maturo per la digital transformation?

di Dan Pejeroni [Infosphere]

Com’è cambiato il mondo del lavoro, al di là del Job Atc; Di quali nuove tecnologie disponiamo oltre a LinkedIn; Anche il mondo delle agenzie per il lavoro sta per essere travolto dalla Uber-izzazione?


A partire dagli ormai lontani tempi della New Economy, ho avuto l’occasione di occuparmi dei modi in cui le tecnologie digitali e la rete cambiano i modelli di business in diversi settori di mercato.

I semi di questa straordinaria rivoluzione erano già stati sparsi nel 1999, da Shawn Fanning e Sean Parker, con la creazione di Napster, che ha avviato di fatto la “disruption” del mercato discografico e da Netflix, che avrebbe portato al clamoroso fallimento di Blockbuster nel novembre 2013.

Nel 2004 la nascita di Facebook ha inaugurato la Social Economy, che sarà consolidata definitivamente nel 2006 da Jack Dorsey, con Twitter. Il fenomeno Social sarebbe diventato negli anni seguenti un fiume in piena, ispirando, una nuova generazione d’imprenditori del mercato digital, alla distruzione dei vecchi modelli di business.

Dopo il mercato discografico e homevideo, la disruption si è estesa a ogni settore, causando molta preoccupazione – spesso ingiustificata – nel mondo delle piccole aziende, fino ai grandi gruppi industriali. Tutti in qualche modo si sono sentiti minacciati, o perlomeno stimolati a comprendere il fenomeno per coglierne le opportunità e valutarne i rischi potenziali per il loro business.

E il mondo del recruiting è maturo per la disruption?

La prima ondata: LinkedIn

Era inevitabile che la social economy travolgesse anche il mondo del lavoro e quindi le aziende che in qualche modo gli ruotano intorno. La situazione fino al 2003 era controllata dai colossi Monster e Stepstone. In Italia, qualche portale locale (Bancalavoro, Job24 e, un po’ più tardi, Infojobs), ne replicavano la formula. Si trattava di siti sui quali, le persone in cerca di lavoro, postavano i loro CV. D’altro canto, in questi database le agenzie per il lavoro – dietro sottoscrizione – pubblicavano gli annunci di lavoro e cercavano i candidati, per i loro clienti.

linkedin

Il primo contagio avviene ufficialmente il 5 maggio 2003, con la nascita di LinkedIn. Reid Hoffman e i colleghi di PayPal, Peter Thiel e Keith Rabois, sparigliano il tavolo di Monster e Stepstone, con un nuovo modello. Tutto social.

In poco più di un decennio, mandano in pensione il vecchio curriculum vitae, catturando oltre 380 milioni di utenti e diventando uno dei principali canali per le ricerche delle staffing agencies.

Il modello di business di LinkedIn si basa su tre fonti di introiti: la vendita di abbonamenti premium del servizio (27% dei ricavi), le hiring solution (41%) e le marketing solution (32%).

La seconda ondata: gli aggregatori

L’onda ormai inarrestabile e la mole di informazioni prodotta dalla galassia social networks (alcune stime parlano nel 2015 di oltre 1000 ExaBytes) determina, alla fine del primo decennio, l’avvento dei Big Data, evoluzione del concetto di Business Intelligence applicata allo studio dei comportamenti e alla previsioni dei fenomeni sociali.

A questo punto una dopo l’altra, nascono una serie di disruptor (per lo meno dell’ormai indebolito modello LinkedIn). Si tratta di soluzioni web-based che operano sui Big Data aggregando le informazioni disponibili sui social networks: Connectifier, Dice Open Web, Entelo, HiringSolved, TalentBin, Yatedo.

connect

Connectifier, fondata da due ex tecnici di Google, mette a disposizione un ambiente recruiter-side, progettato per combinare capacità di ricerca avanzata, big data, analytics e machine learning, per assistere le ricerche dei recruiter.

Si tratta del principale competitor di LinkedIn, anch’esso può contare su un database di circa 380 milioni di profili, ma sostiene di avere il 30% di data points in più per persona. Tutti i dati dei candidati sono indicizzati da sorgenti pubbliche in modo molto simile al modo di operare di Google e includono interessi, hobby, relazioni personali e professionali, nonché interazioni sui social networks.

Le informazioni presenti nei CV e profili raccolti dai siti di recruiting tradizionali, tendono a diventare rapidamente obsolete e comunque non rappresentano una vista inclusiva del candidato. L’approccio olistico di Connectifier va alla ricerca di come le persone interagiscono professionalmente, con chi si relazionano, se rispondono a domande nelle loro comunità o – nel caso dei programmatori – postano codice su GitHub.

OpenWeb, Entelo e HiringSolved utilizzano il medesimo schema operativo: aggregazione, big data e analytics, per fornire al recruiter una più agile ricerca dei candidati, che poi verranno convocati e intervistati con modalità tradizionali. Il focus delle soluzioni di questa categoria, è sui candidati introvabili poiché “passivi” – ovvero che non sono dichiaratamente alla ricerca di un nuovo lavoro.

HiringSolved propone inoltre la “Search by example”, una sorta di clonazione di un profilo campione, per cercarne altri con caratteristiche simili.

Yatedo, è il più immediato, in quanto permette la ricerca dei profili senza registrazione. E’ al centro oggi di molte polemiche e legate alla privacy, in quanto chi prova a digitare il proprio nome nel campo di ricerca (molto simile a Google) presente nella home page del loro sito, si trova sullo schermo un bel profilo, che non sapeva di avere e che di certo non aveva autorizzato a pubblicare.

La risposta di Monster, alla nuova ondata di aggregatori è invece rappresentata da TalentBin, che promette di trovare anche i profili tecnici più difficili.

Purtroppo al momento gli algoritmi di job matching (6Sense ranked matching di Monster, Top candidates for your job di LinkedIn, Quality of programming code di Gild), non sono ancora del tutto maturi.  Sfortunatamente il criterio di differenziazione per ciò che in definitiva porta all’assunzione è spesso personality-based, invece che skill-based. Abbiamo quindi a che fare con un criterio meno oggettivo di quello che utilizza Amazon per i propri prodotti.

Chi sta tentando di affrontare il problema è 10rule.com che, con una tecnologia cloud, tenta di misurare il capitale umano per creare un benchmark sui top 10% performers di ogni posizione professionale. Il processo prevede poi di procedere con l’assunzione di nuovi talenti e lo sviluppo delle risorse che fanno già parte dell’organizzazione aziendale, sulla base di questo stesso benchmark.

Vettery

L’ultima frontiera delle staffing agencies che sono considerate disruptor di successo, è quindi nello sfruttamento intensivo dei big data e dei migliori algoritmi di ranking, per accumulare tutte le informazioni disponibili sui migliori candidati (nuova scuola), per quindi affidarli a un gruppo di recruiter esperti, per contatto e ingaggio vis-a-vis (vecchia scuola). Questa è la filosofia di Vettery.

Quando Brett Adcock e Adam Goldstein erano analisti presso l’hedge fund Cedar Hill Capital, occupandosi del mercato staffing & headhunting, notarono che nel loro lavoro mancava qualcosa: la tecnologia. Quindi, a marzo 2013, decisero di assumere un team di otto programmatori e di creare Vettery, società specializzata nella ricerca di profili professionali per banche d’investimento, private equity, hedge funds e altre posizioni nell’alta finanza. Hanno successivamente esteso il loro raggio d’azione alla technology industry. Nel corso del 2014, sono riusciti a piazzare ben 100 posizioni, con lo sgomento dei recruiter tradizionali che, pur avendo utilizzato le stesse tecniche, si servivano di software tradizionale.

In pratica, Vettery sta al recruiting, come Uber sta al tradizionale mercato dei taxi. Combinando i big data con una piattaforma dove candidati e recruiter possono interagire in tempo reale, Vettery sta cercando di superare la concorrenza. Il loro principale punto di forza è costituito da un esteso database, che contiene i profili dei professionisti del mercato. Raccogliendo dati da molte fonti disponibili pubblicamente, Vettery è in grado di identificare efficacemente anche i candidati passivi.

Vettery inoltre raccoglie e correla informazioni da molte fonti non convenzionali, come università, scuole, circoli e centri di ricerca. Ad esempio detiene le biografie di ogni singolo analista che, nel 2014, ha completato con successo il corso di banking investment, presso le principali scuole del settore. Questi dati includono formazione, luogo di residenza ed informazioni dettagliate di ogni loro esperienza di lavoro.

Il curioso caso di ElevatedCarreers

Neil Clark Warren, consulente matrimoniale, fondò eHarmony nel 2000, quando si rese conto dei problemi di compatibilità in molte coppie che erano state sue clienti. Più di 600.000 utenti si sono sposati tra il 2000 e il 2012, con solo il 3.8% di divorzi, contro una media del 40-50% degli Stati Uniti.

ElevatedCarreers ha riutilizzato la tecnologia di compatibility matching di eHarmony, adattandola al matching tra candidati e aziende.

Elevated utilizza algoritmi predittivi che, sulla base delle informazioni contenute nei profili dei candidati, in quelli delle aziende e  nelle job description, cerca le migliori corrispondenze sulla base di tre tipi di compatibilità: skill, cultura e personalità.

Le soluzioni verticali: Gild

L’approccio di Gild è invece molto verticale e ha l’obiettivo di cambiare il modo in cui le software house assumono i programmatori. Ad oggi sono riusciti a classificare più di un milione di sviluppatori, in base alla qualità del codice che producono.

In questa industry, il sistema è essenzialmente pregiudiziale e la discriminazione è la norma: programmatori eccellenti, ma sprovvisti di diplomi prestigiosi, sono normalmente sepolti nella pila dei CV. Gild cerca di riportare la meritocrazia nel recruiting.

Il problema che LinkedIn non ha ancora risolto è l’impossibilità di stabilire chi è bravo e quanto bravo sia. Gild sembra aver trovato la soluzione a questo limite, almeno per gli sviluppatori di software. L’azienda ha lanciato ufficialmente uno strumento che analizza il codice che i programmatori sottopongono alle piattaforme open-source, come GoogleCode, SouceForce, Github e StackOverflow. Quindi classifica gli sviluppatori in base alla qualità del software che producono. L’idea è quella di proporre alle aziende che cercano programmatori il loro sistema di ranking.

Naturalmente può essere difficile dire cosa renda un certo codice migliore di un altro. Un indicatore chiave è la semplicità. Chi risolve un problema utilizzando relativamente poche, eleganti linee di codice, è generalmente considerato migliore. Gild guarda anche a quanto sia ben documentato, quanti lo riutilizzano e se sia stato accettato da progetti open-source di alto profilo, come Linux.

Le limitazioni comunque sono costituite dal fatto che Gild classifica solo sviluppatori che sottopongono il loro software alle piattaforme open source e molti talenti ancora non lo fanno, o non lo faranno mai. Inoltre, se può dire qualcosa a proposito della qualità del codice che la gente produce, Gild non potrà dire se un candidato è simpatico o affidabile. Queste informazioni devono essere ancora ricavate dalle interviste tradizionali.

Per ora, molte aziende utilizzano Gild in combinazione con i metodi tradizionali: i selezionatori cercano i programmatori su LinkedIn, quindi controllano la loro capacità di sviluppo con il sistema di ranking di Gild.

Nuovi orizzonti: il caso Somewhere

LinkedIn ha fornito la possibilità di mettere il CV online, rendendo questo processo più efficiente.  Ma, in un mondo dove le relazioni, la cultura e la forma sono più importanti del modo in cui si fa business, c’è l’urgente necessità di reinventare il modo in cui ci proponiamo o cerchiamo le nostre controparti.

Somewhere è una piattaforma visuale dove esporre il proprio lavoro e le proprie capacità.  Una specie di Pinterest per il business.

Tim Leberecht ha recentemente definito Somewhere una piattaforma di ricerca visuale per le imprese: “Somewhere rappresenta un emblematico cambiamento della natura del posto di lavoro. La nostra concezione del lavoro si è spostata da cartellino e qualifica professionale a “mentalità e narrazione”.

somewhere

La generazione dei millenial, in particolare vede il lavoro come un potente veicolo per trovare un significato alle loro vite. Somewhere illustra come stiamo procedendo con l’immagine contestuale e non lineare di noi stessi al lavoro. Il sito ridefinisce il lavoro come qualcosa di bello, come carriera in continua evoluzione e come identità professionale di persona fluida.

Somewhere punta ad aiutare i lavoratori della conoscenza a sostituire i loro CV tradizionali, con un diverso modo di rappresentare se stessi, in un contesto di business. Justin McMurray, cofondatore di Somewhere, osserva che la domanda di lavoro tradizionale si basa ancora su “quello che hai fatto”, non su “quello che fai” o “chi sei”.

Eravamo nella fase in cui le persone che non conoscevi approvavano le competenze di cui non disponevi” [cit. LinkedIn]. McMurray sostiene di aver fondato Somewhere, per “riportare le persone al centro e restituirgli la possibilità di raccontare le storie del proprio lavoro“. Ritiene che “il lavoro non dovrebbe negare la nostra umanità, ma dovrebbe accoglierla. Il lavoro è, più che mai, un fatto personale“.

Oltre il lavoro convenzionale: il fenomeno GitHub

github

Il posto di lavoro quindi sta diventando sempre più un’arena sociale, che un luogo per la produttività. Presso GitHub, la più grande comunità di sviluppatori open-source e code-sharing, quasi tutto il lavoro avviene remotamente. Nei primi tempi l’azienda non aveva nemmeno un ufficio fisico. Dopo aver adibito a headquarter un loft, l’azienda ne ha trasformato la gran parte in bar ed area per incontri dagli arredi stravaganti. Secondo la visione di Scott Chacon, cofoundatore e CIO di GitHub, il quartier generale è principalmente un social hub, non un luogo di lavoro.

La struttura di GitHub riconosce che la soddisfazione nel lavoro è un evento sociale, ampiamente basato sui momenti di condivisione.

Chacon sostiene che il fatto di essere costretti a essere una persona diversa durante le ore di lavoro, tende a non essere più accettato dalle nuove generazioni di lavoratori. Come sottolinea Stowe Boyd,  “Nel nostro modello, il lavoro non è un posto dove vai, è una cosa che fai. Sei tu“. Il lavoro della conoscenza può avvenire ovunque.

La rivoluzione del mondo del lavoro

Sotto queste spinte la job industry, sta subendo una completa trasformazione. Nello stesso modo in cui la nostra economia è cambiata attraverso i secoli scorsi, da agraria ad industriale ed infine a società dell’informazione, il ruolo delle risorse umane sta per essere completamente sovvertito.

Women At Arms

Un tempo le aziende avevano il completo controllo su attività e informazioni industriali, quindi non necessitavano di individui particolari. Henry Ford non aveva bisogno del miglior lavoratore in assoluto per la sua catena di montaggio. Per definizione, i lavoratori erano intercambiabili. Facendo un salto avanti di cento anni, Google dipende al 100% dalle persone, per innovazione, invenzione e sviluppo.

Nella società industriale, i lavoratori non avevano informazioni, trasparenza o mobilità. Non c’era LinkedIn o Monster. Oggi i migliori programmatori sono inondati di proposte per nuovi e migliori opportunità di lavoro, circostanza storicamente mai avvenuta.

In altre parole, la guerra dei talenti è finita e i talenti hanno vinto.

Questo significa che anche le job agencies e i recruiter, i direttori e i dipartimenti delle risorse umane devono cambiare. Non si tratta più di pubblicare annunci o gestire liste di candidati. Oggi le aziende hanno bisogno competere per attrarre talenti oppure saranno costrette a morire. Devono proiettare la migliore immagine possibile per procurarsi un’adeguata forza lavoro. Devono essere proattive e attente, per portare le migliori risorse a lavorare nelle loro organizzazioni. Chi, in questo settore, non comprenderà questo paradigma, non sarà in grado di aiutare le aziende ad acquisire talenti e sarà inesorabilmente messo da parte.

I recruiter ci saranno ancora

Se da un lato stiamo assistendo ad un’impetuosa evoluzione tecnologica, dall’altro sempre più aziende tentano di mostrare un volto umano e la generazione dei millenial dimostra chiaramente di essere attratta da organizzazioni che mettono al centro il valore e le persone.

Le aziende stanno iniziando a comprendere che i candidati sono molto di più, di una lista di esperienze. Sono persone e, spesso, il fattore di successo è nelle cose che non possono essere misurate.

In questo articolo abbiamo considerato molti strumenti in grado di scoprire talenti, ma identificare è molto lontano da coinvolgere. In futuro, il job matching sarà di enorme utilità, ma solo se gli specifici skill, conoscenze ed esperienze potranno essere verificate con le effettive prestazioni nel lavoro. Dopo tutto, la ragione per cui le persone vengono assunte, è per risolvere problemi che devono essere risolti, per sviluppare prodotti che devono essere sviluppati o per fornire servizi a clienti che devono essere serviti. Essere in grado di trovare la “perfetta corrispondenza” – come amano dire i datingpreneurs – non può risultare efficace, a meno che non si disponga di un campione di riferimento, attraverso il quale misurare quanto perfetta sia stata realmente la corrispondenza.

Il modello di riferimento è chiamato “prestazione futura” e la tecnologia certamente potrà aiutare in questo compito con gli algoritmi predittivi.

Ci sono però molti fattori che pesano su questo metodo e nella professione del recruiter. Al momento si sta solo iniziando a raccogliere dati.

Molti degli strumenti descritti possono aiutare nel produrre una lista di candidati, i contenuti dei quali siano reperibili da qualche parte online. Si deve tener presente però del crescente numero di persone che, per diversi motivi, sta nascondendo i propri comportamenti online, anche evitando del tutto l’online. Inoltre è necessario comprendere che una rivoluzione del mondo del recruiting non potrà rimuovere gli ostacoli normativi che ancora attendono una risposta da governi e politica, che recruiter mediocri continueranno a fornire prestazioni mediocri e che la Rivoluzione Digitale, da sola, non renderà migliore l’esperienza di un candidato.

La mera definizione del termine disruption non implica che sia possibile creare un modello sostenibile, primariamente perché sarebbe necessario conoscere esattamente cos’è che non funziona nel recruiting. Da parte mia non posso che lasciare questo interrogativo ai professionisti del settore e concludere con la considerazione che, dopo tutto, le persone continueranno a essere la parte fondamentale dell’equazione.

SAS Forum Milan 2017: Analytics drives Everything

di Dan Pejeroni [Infosphere]

Schermata 2017-04-03 alle 20.39.29

La Digital Transformation, fino a poco tempo fa forse solo uno slogan aziendale, è diventata finalmente realtà e continuerà a guadagnare terreno nei prossimi anni. In azienda, la figura del Data Scientist diventerà il collante sociale che costringerà i team di business e tecnologia a lavorare in stretta collaborazione, perché i team responsabili dei dati continueranno a scoprire forti correlazioni tra le metriche di business e quelle tecniche.

L’Intelligenza Artificiale (AI) e il Machine Learning (ML) passeranno dalla teoria agli ambienti di business fornendo risposte mirate a problemi concreti. AI e ML saranno un punto chiave, perché i dati sono diventati troppi, il tempo limitato e sarà impossibile elaborarli manualmente. Machine Learning porterà valore, risparmio di tempo e maggiore comprensione delle dinamiche del business.

I prossimi anni saranno caratterizzati da costante cambiamento e i Data Analytics rappresenteranno il faro per le organizzazioni che navigano in acque inesplorate. In un’economia iper-competitiva, sistemi, applicazioni e pagine web meno performanti saranno più facilmente identificati, aiutando il Marketing e l’IT a prepararsi agli eventi critici.

La Data Analysis assumerà sempre maggior valore per le organizzazioni digitali, fornendo loro supporto per intuizioni significative che rivelano abitudini di acquisto dei consumatori, preferenze e comportamenti.

Di questi e altri temi, si occuperà la XII edizione di SAS Forum Milan, l’appuntamento annuale durante il quale ospiti, esperti internazionali e keynote speaker si confronteranno sul futuro degli analytics, sulle nuove frontiere dell’Internet of Things e sull’evoluzione dell’intelligenza artificiale.

“Stiamo vivendo un cambiamento epocale, in cui la convergenza tra fisico e digitale è ormai compiuta. Generiamo quotidianamente un patrimonio informativo d’inestimabile valore che ora, opportunamente gestito, permetterà di avvicinare l’uomo alla comprensione totale del mondo” afferma Emanuela Sferco, SAS Regional Marketing Director, “Oggi gli analytics guidano ogni cosa e occorrono nuovi strumenti per padroneggiare, tradurre e trasformare i dati con modalità innovative che liberino nuove forme di valore”.

Grazie al contributo di esperti, clienti, partner e Università, verranno esplorate tutte le potenzialità e gli strumenti degli analytics, in molteplici aree applicative. Dalla digitalizzazione dei processi a una customer experience sempre più personalizzata, dalla gestione del dato come elemento di differenziazione alla sua regolamentazione, dall’adeguamento alle normative in ambito rischio alla gestione delle frodi, dall’Internet of Things all’Analytics of Things.

Studenti universitari, degli istituti superiori e neo laureati potranno inoltre raccogliere le testimonianze dirette dei protagonisti aziendali e accademici e assistere a sessioni specifiche dedicate alle professioni emergenti e alle digital skill nell’industria 4.0.

SAS Forum Milan è un appuntamento annuale di rilevanza internazionale rivolto ad aziende private ed enti pubblici, partner e mondo accademico. Riunisce ogni anno una community in continua espansione di manager e professionisti di tutti i settori di mercato, favorendo innovazione, crescita manageriale e attività di networking. Un luogo dove esperti, manager e imprenditori presentano il loro approccio vincente, le sfide da affrontare e le strade da intraprendere tra cultura analitica e innovazione tecnologica.

Registratevi all’evento visitando il sito: SAS Forum Milan e tenete d’occhio L’hashstag ufficiale su Twitter: #SASForumMilan.

Lo Zen e la complessità dei dati

Data Strategy: gestione della qualità, coerenza e compliance dei dati aziendali

di Dan Pejeroni [Infosphere]

metropolis_at_night-wallpaper-960x600

Il fenomeno Internet of Things ha portato ad una nuova grande accelerazione nell’universo di dati che le organizzazioni devono controllare. Trarre profitto ed evitare le minacce provenienti da questa impensabile mole di dati è una sfida difficile da affrontare, senza un’efficace gestione.

Si parla molto oggi di Big Data e delle tecnologie che sovrintendono alle fasi di acquisizione e analisi (Data ingestion e Analytics), ma le problematiche relative alla standardizzazione, validazione e assicurazione sono spesso drammaticamente trascurate. Se i dati sono incompleti, duplicati e obsoleti le analisi che verranno prodotte dai sofisticati processi Analytics, Data Mining o Machine Learning saranno irrimediabilmente compromessi e non potranno che fornire analisi non corrispondenti alla realtà.

Di questo si occupa il Data Management che, per essere efficace, deve essere contestualizzato. I dati devono essere disponibili in modo definito, consistente, integrato e trasversale tra molteplici fonti. L’adozione di un sistema di Data Management limita il rischio di avere dati poco attendibili o non conformi in fase di analisi.

I processi necessari per garantire che i dati che vengono resi disponibili agli utenti siano efficaci, funzionali al raggiungimento degli obiettivi e possano effettivamente costituire un supporto per le decisioni strategiche sono:

  • Data Integration
  • Data Quality

La Data Integration è l’elemento base di un processo di Data Management, preposto alla standardizzazione dei dati, spesso provenienti da fonti diverse, per unificarne i risultati e aumentarne il valore. Ciò consente ad ogni nuovo dato che entra nel processo di analisi, non solo di aggiungersi alla quantità di informazioni già presenti, ma di moltiplicare il suo valore combinandosi con quelli attuali.

La Data Quality migliora l’affidabilità dei dati, certifica e governa le successive fasi di produzione e distribuzione dei dati. Si tratta del controllo qualità delle informazioni, che assicura che gli elementi che avranno un impatto decisivo sulle decisioni di business, siano corretti e completi.

 Ma la complessità della gestione dei dati non riguarda solo qualità e integrazione, ci sono anche aspetti normativi e di compliance piuttosto delicati. Il GDPR EU Personal Data Protection Act 2018 prescrive che ogni organizzazione operativa in uno o più paesi del EU debba rendersi compliant con la nuova direttiva entro la primavera del 2018. Le sanzioni rischiano di essere pesanti (da 20 milioni di euro o 4% del revenue complessivo).

Il Data Management è anche questo e punta a raggiungere l’agilità, l’accessibilità e la flessibilità necessarie per integrare tutti questi sforzi nella Data Strategy e ottenere un concreto governo dei dati.

A riguardo, segnalo un interessante evento di SAS Italy: SAS Road Show, il 7 febbraio a Milano e il 9 febbraio a Roma.

#IoT Domus: una Goccia nell’Oceano dei Big Data

di Dan Pejeroni [Infosphere]

 L’evoluzione del progetto IoT Domus su hardware Arduino Uno, per utilizzare ora il cloud Blynk.

Temperature

Il progetto Domus prevede una sezione attuatori per il comando dei sistemi di riscaldamento, irrigazione e illuminazione giardino e una sezione sensori che raccoglie e gestisce le varie sonde sul campo (tensione, corrente, flusso acqua, temperatura, umidità terreno, luce, pioggia) e allarmi (blocco caldaia, intrusione, incendio, allagamento, gas).

Nella prima serie di articoli avevo descritto un prototipo di telecontrollo affidato ad un PLC controller (basato su un Asus EEE-Box con Windows 7) che svolgeva funzioni di data logger, reporting e automazione di processo e ad un’applicazione Android (per il comando remoto degli attuatori), sviluppata con Tasker.

Questa nuova versione si basa sul Cloud IoT Blynk.

cwqpfohwiaaj6xg-jpg-large

Blynk è una piattaforma per iOS e Android che permette il controllo di schede Arduino, Raspberry Pi e altre, collegate a Internet tramite Wi-Fi, Ethernet o mediante il nuovo chip ESP8266. Si tratta di un cruscotto digitale dove è possibile costruire una interfaccia grafica per progetti IoT, semplicemente trascinando e rilasciando widget.

Blynk è stato finanziato su Kickstarter da 2.321 sostenitori che hanno creduto nell’idea. È possibile visitare la loro pagina della campagna e sapere di più.

Il Cloud Blynk è in grado di acquisire e memorizzare i dati rilevati dai sensori, collegati ad una scheda tra le molte supportate.

La piattaforma è costituita da tre componenti principali:

Blynk App – che permette di creare interfacce grafiche per i progetti IoT, semplicemente utilizzando vari widget forniti.

Blynk Server – che è responsabile di tutte le comunicazioni tra lo smartphone e l’hardware. È possibile utilizzare il Cloud Blynk o installare un server Blynk localmente. E completamente open-source e può facilmente gestire migliaia di dispositivi in comunicazione con il server (o il Cloud) elaborando tutti i comandi in entrata e in uscita

architecture

Ogni volta che un sensore rileva una nuova misura, oppure viene premuto un pulsante sull’app Blynk, i messaggi di controllo vengono trasferiti verso/dal Cloud Blynk, che acquisisce i dati oppure attiva un attuatore sulla scheda.

cwpaxetwiaqlmcq

Per iniziare con Blynk è necessario scaricare l’app Android o IOS, registrarsi sul sito per ottenere un Auth Token (che dovrà essere utilizzato sia nell’app che nello sketch della scheda), installare la libreria fornita da Blynk e scrivere il codice specifico da installare sulla scheda.

La versione 4.2 Cloud di Domus è disponibile su GitHub.

schermata-2016-11-24-alle-14-27-59

Internet of Things: qual è il vero impatto sul business?

di Dan Pejeroni [Infosphere]

SAS, leader mondiale degli Analytics, si concentra sulle esperienze compiute in Europa da 75 gruppi di lavoro in svariati settori di mercato che hanno implementato queste tecnologie

senza-titolo

Mentre molti studi stanno ancora esplorando il potenziale teorico dell’Internet of Things, gli early adopters hanno già acquisito una rilevante esperienza. SAS, leader mondiale degli Analytics, si concentra sulle esperienze già compiute in Europa da 75 gruppi di lavoro, in svariati settori di mercato che hanno implementato queste tecnologie con diversi obiettivi.

Il mercato attende che l’IoT raggiunga il mainstream entro il 2020 e il ritmo del cambiamento di un’economia sempre più digitale sta imponendo cicli di adozione più rapidi. Osservare gli insegnamenti degli erly adopter ci fornisce un punto di vista privilegiato.

Le interviste, con gli executive e i team leader, sono state strutturate per comprendere a quali obiettivi abbiano puntato i loro progetti, come siano stati sponsorizzati, dotati di risorse e rilasciati. Lo studio ha ricavato quattro punti chiave:

1 – L’obiettivo è quasi sempre sottostimato

L’immediata opportunità di una riduzione dei costi o di un inalzamento dei profitti sostiene gli specifici progetti IoT ma, non appena i nuovi dati cominciano a fluire, i potenziali impatti su altri workflow attraggono nuovi stakeholder e i fattori di successo vengono posti sotto pressione con l’inserimento di nuove esigenze. Questo è un inevitabile compromesso tra velocità e distanza. I team di progetto devono gestire le comunicazioni e le aspettative degli stakeholder, introducendo rigorosi phasing di progetto.

2 – La user experience definisce i risultati

L’IoT viene normalmente rilasciato ad un mondo che si aspetta che le informazioni vengano servite in formati comprensibili, sempre e ovunque. Questo significa che i team di progetto IoT devono considerare esattamente come ciascuno dei loro utenti target utilizzerà queste informazioni. Progettare pensando che la user experience sia il fattore critico di successo.

3 – Gli skill di data management e governance sono fondamentali

Sebbene il compito immediato dell’IoT sia quello di collegare lo scollegato, il valore è realizzato solo quando i dati sono analizzati e consumati. Il percorso dal sensore alla decisione è denso di data quality, data privacy, data management, analisi e distribuzione. I data manager devono essere coinvolti dagli esperti IoT già nelle fasi iniziali dei progetti.

4 – La maturità detta il valore

Lo studio ci offre un quadro sulla maturità degli Analytics all’interno delle organizzazioni. Il movimento Big Data necessita di frameworks di Analytics e di cooperazione orizzontale nell’organizzazione per identificare gli user case. L’IoT ha dimostrato di essere una più ampia e veloce manifestazione dei Big Data e richiede che le organizzazioni stesse investano risorse di leadership e management per superare gli ostacoli sul percorso che conduce alla maturità organizzativa degli Analytics.

Internet of Things ha molti (diversi) significati

Agli intervistati è stato chiesto cosa si aspettavano che l’Internet of Things avrebbe potuto rappresentare per i loro clienti e concorrenti. Data la sua ampia applicabilità, le risposte sono cadute in ben 17 diverse categorie, confermando la grande varietà di significati attribuiti all’IoT dalle diverse società e dai diversi settori industriali.

Una visione condivisa sui benefici futuri

In definitiva c’è stato un grande consenso sul vertice della classifica dei risultati attesi dall’introduzione di questa tecnologia: oltre il 40% degli intervistati ritiene che comporti una maggiore efficienza operativa e più di un terzo, circa il 36%, una migliore user experience. Se questa sia già esperienza o rappresenti solo speranze e ambizioni, resta ancora da accertare. Probabilmente sarà un mix tra le due, implicando una tecnologia ancora relativamente nuova e non completamente sperimentata. L’ambito condiviso della visione, tuttavia, è notevolmente costante. Era forse prevedibile che l’opinione si dividesse su chi possa maggiormente beneficiare delle implementazioni IoT: l’organizzazione o i clienti. Può essere difficile separare i benefici, poiché le due componenti sono strettamente intrecciate e una maggiore enfasi sulla esperienza cliente significa che i benefici per l’organizzazione spesso diventano anche vantaggi per i clienti.

Sono emerse anche altre tre categorie supportate da almeno un quarto degli intervistati: circa il 29% di questi ha dichiarato che l’IoT favorirebbe la definizione di nuovi prodotti e servizi o un miglioramento degli esistenti. Poco più del 25% ritiene che l’utilizzo dell’IoT migliorerebbe il resource management.

La categoria meno popolare è stata infine la convenienza per i consumatori, collegabile alla convinzione che la user experience possa risultare migliorata e che una più ampia user experience comprenda un migliore rapporto qualità-prezzo.

Scarica il booklet completo (pdf)

SAS Analytics Experience 2016

di Dan Pejeroni [Infosphere]

From Internet of Things to Internet of Emotions

“La Digital Disruption – la Trasformazione Digitale – è ormai un fatto inevitabile e ogni organizzazione sarà costretta a dotarsi di un piano per gestirla”. Carl Farrell (Executive Vice President & Chief Revenue Officer di SAS) apre con queste parole la SAS Analytics Experience 2016, tenutasi a Roma dal 7 al 9 novembre scorsi.

analytics-experience-roma-2016

Oltre mille, tra professionisti dell’Information Technology, sviluppatori, esponenti delle maggiori testate specializzate, blogger e influencer del mondo digitale si sono riuniti nella sala grande del Marriot Hotel, per seguire su un palcoscenico, degno di un concerto rock, l’evento dell’anno su Big Data, Internet of Things e Analytics

img_20161109_092106
Jon Briggs

Jon Briggs, per trent’anni giornalista della BBC e oggi voce di Siri (l’assistente vocale di iPhone), con un’ironia squisitamente anglosassone, dialoga con Carl Farrell, che pone subito l’accento sulla punta di diamante degli Analytics di SAS: la piattaforma open Viya.

“Open” in quanto dedicata a tutte le tipologie di utenti, non solo professionali, aperta all’accesso alle applicazoni di terze parti e a tutti i linguaggi del momento, come Java e Python.

I mega screens e i subwoofer della macchina scenica di Analytics 2016 eruttano ancora immagini e musica mentre Randy Guard (Executive Vice President e Chief Marketing Officer di SAS), sale sul palco del Marriott.

Viya non solo per risolvere i problemi correnti, ma per crescere, perché “Analytics è un mercato in crescita”. Oggi le aziende non si chiedono “Perché dovrei usare Google Analytics?”, ma piuttosto “Come faccio a ottenere di più dei miei dati?”.

E’ il momento poi di Oliver Schabenberger (Executive Vice President e CTO). Nell’Internet of Things ogni dispositivo, ogni sensore raccoglie dati e “Analytics è dove sono i dati”, che siano dati live che scorrono in streaming, che storicizzati nei Data Lakes. Entrambe le fasi richiedono diversi approcci analitici ma, secondo il CTO, comunque richiedono analisi.

E’ la volta di Jim Zemlin, direttore esecutivo della Linux Foundation . “Tecnicamente, sono il capo di Linus Torvalds, anche se di fatto lui non mi ascolta mai”.

“C’è ancora troppo software da scrivere”, sostiene Zemlin e i programmatori di software tradizionale non riusciranno a tenere il passo richiesto dall’evoluzione dell’IoT. E’ indispensabile scrivere questo software insieme, dice e come esempio cita Linux: ogni giorno si aggiungono 10.800 linee di codice, 5300 vengono rimosse e 1875 modificate, in questo modo il sistema operativo è in grado di adattarsi rapidamente alle mutevoli condizioni e alle esigenze dei clienti.

Ma l’open source non sarà la fine del software proprietario, aggiunge Zemlin e propone una combinazione di entrambi i modelli. E’ già una realtà per molte software house e la maggior parte delle soluzioni sono rappresentate oggi da codice open source.

Utilizzando come un team di sviluppo esterno la comunità open source, si può ottenere un più rapido time-to-market . Il team di sviluppo proprietario dovrebbe prendersi cura solo di una piccola parte delle soluzioni, per creare caratteristiche differenzianti e quindi valore aggiunto. “Il futuro è open source“, conclude Zemlin.

David Shing, il profeta digitale che ha collaborato con AOL, irrompe sulla scena come uscito da un quadro di Pollock, con una criniera di capelli neri che sfumano al blu.

shingy
Dan Pejeroni e David Shing

Shingy supera il concetto di Internet of Things, per parlare di Internet of Emotions: “Servono capacità predittive per seguire i comportamenti umani, per capire le abitudini delle persone e soddisfare i loro bisogni senza imporli”.

“La tecnologia modifica i comportamenti ma non i bisogni”, aggiunge. “Senza i dati non c’è creatività, ma senza creatività non ci sono i dati. Così, anche se gli smartphone possono ormai fare quasi tutto, è necessario convincere gli utenti a scaricare le app”. Servono nuovi modelli di marketing, che tengano conto che “le persone comprano ancora dalle persone”.

L’intervento di Tamara Dull (Director of Emerging Technologies di SAS) è dominato da Alexa di Amazon, che campeggia a lungo sullo sfondo della scena. Ci parla dei rischi e delle opportunità dell’Internet of Things e della necessità di formazione per una generazione di data scientists in grado di utilizzare la potenza degli Analytics. Ci dice che l’IoT è un movimento e ci propone il suo IoT IQ Test.

tamara-dull
Tamara Dull (Director of Emerging Technologies di SAS)

Tamara prosegue poi a raccontare il suo punto di vista in sala stampa, rispondendo alle domande che giornalisti e blogger le rivolgono nel corso dell’attesa intervista. Abbiamo parlato a lungo di fattori che possono ostacolare o favorire la diffusione dell’Internet of Things, di standard, di privacy e del fatto che sia indispensabile inalzare i livelli di sicurezza dei protocolli di comunicazione dei Big Data.

Alla fine ho avuto l’opportunità di scambiare alcune battute con lei a proposito del lungo thread che avevo seguito nel 2015 sul blog SmartDataCollective dove Tamara e Anne Buff si sfidarono per oltre due mesi a colpi di pros e cons sul Data Lake Debate, con la mediazione di Jill Dychè e che si concluse con le considerazioni che: un Data Lake non è data warehouse, è caratterizzato da costi sensibilmente più bassi, permette l’uso di Advanced Analytics, ma che sarà necessario provvedere alla carenza di skills per un suo adeguato utilizzo.

L’Analytics Experience 2016 non è stata solo una full immersion nel mondo delle tecnologie informatiche, ma anche un incontro con l’arte. Mi sono ritrovato così, con il naso all’insù, nella Cappella Sistina ad ammirare la Sublime Infografica con cui Raffaello, Botticelli, Michelangelo e molti altri hanno realizzato la Biblia Pauperum, meglio definita come “teologia visiva”.

sistina
Cappella Sistina – La volta di Michelangelo

In fin dei conti un’enorme quantità di dati, che non si limitano a raccontare la storia del cristianesimo, ma che hanno rappresentato per più di cinque secoli un punto un riferimento culturale e sociale universale, attraverso il quale milioni di individui hanno condiviso un comune ideale spirituale, ma anche un’idea di società e di organizzazione.

I Big Data ci proteggeranno dal terrorismo?

di Dan Pejeroni [Infosphere]

Si discute molto oggi su come i Big Data stanno rivoluzionando il mondo del business. Tuttavia, le loro possibili applicazioni nel campo della sicurezza e dell’intelligence sono ancora relativamente poco conosciute.

Big-Data-Will-Effectively-Fight-Terrorism-In-The

In futuro, potrebbe diventare possibile prevedere con sicurezza potenziali azioni terroristiche, combinando osservazioni da fonti quali attività di social media, ricerche su Internet, abitudini di acquisto e posizione dei dispositivi mobili utilizzati.

La gente (quindi anche i soggetti potenzialmente pericolosi) sta generando una quantità sempre maggiore di dati attraverso i propri smartphone, elettrodomestici, satelliti, terminali, macchine fotografiche. Una moltitudine di altri sensori, comunemente installati su edifici, infrastrutture e veicoli, catturano in tempo reale dati che riguardano spostamenti e azioni sul territorio. Inoltre, tutte le attività online possono essere intercettate, memorizzate, analizzate e correlate.

La Predictive Analytics sui Big Data comprende una varietà di tecniche statistiche di modellazione, machine-learning e data-mining che analizzano fatti attuali e storici, per fare previsioni su eventi futuri, altrimenti imprevedibili. Con queste tecnologie possiamo efficacemente anticipare anche potenziali minacce alla sicurezza.

L’analisi predittiva nella prevenzione del terrorismo, avrà tuttavia anche un profondo impatto sulla nostra società e sui diritti democratici. L’analisi predittiva dei Big Data è basata sulla correlazione, non sulla causalità. Tuttavia, anche quando gli algoritmi sono molto accurati nel identificare pattern di comportamento potenzialmente ostili, ci saranno sempre “falsi positivi”, che corrispondono a questi modelli solo per coincidenza.

L’Analisi predittiva sui Big Data potrebbe ridurre significativamente l’incidenza del terrorismo e rendere il mondo un posto più sicuro, ma solo se riusciremo a ridurre al minimo il rischio di abusi e gli effetti collaterali indesiderati.