IBM Cloud: Data refining e overview di Watson Studio

Questo articolo fa parte di una serie scritta in collaborazione con Raoul Alfredo Rocher e Massimo Loaldi. Come IT Solution Architect in ambito Cloud e Intelligenza artificiale vogliamo proporvi alcune brevi review per facilitare l'uso e l'adozione di tecnologie emergenti e innovative.

IBM Cloud è la piattaforma cloud di IBM che aiuta gli sviluppatori a realizzare e ad eseguire applicazioni e servizi innovativi. Oggi approfondiremo l’area tecnologica della Data Science, nello specifico vedremo come utilizzare e muovere i primi passi con il servizio di intelligenza artificiale Watson studio sulla piattaforma cloud di IBM.

Come spiegato nell’articolo relativo ai moduli di intelligenza artificiale di IBM, Watson non è altro che un servizio di intelligenza artificiale, suddiviso in moduli. Ogni servizio di Watson è responsabile di un dominio specifico di intelligenza artificiale. Essi sono moduli componibili ed integrabili tra loro all’interno di soluzioni esistenti.

L’analisi dei dati o Data Analytics in realtà esiste fin da quando il computer è stato inventato, e ha mantenuto fino ad oggi il nome di Business intelligence. Essa si focalizza sul descrivere i dati storici per analizzare e descrivere in modo migliore i dati strutturati o tabellari contenuti in database SQL piuttosto che in Data warehouse. L’analisi attraverso la business intelligence produce delle dashboard interattive, utilizzate per capire visivamente meglio i dati e per prendere decisioni migliori. La Data science invece amplia l’orizzonte della Business Intelligence ponendosi parallelamente a quest’ultima e abbracciando non solo dati strutturati ma anche dati do qualsiasi natura, L’analisi attraverso la Data science produce dei modelli matematici e statistiche di tipo predittivo o negli ultimi tempi prescrittivo.

Watson studio è il servizio IBM Cloud che permette di gestire a 360° un progetto di data science con i più comuni linguaggi di programmazione tra cui Python, Scala e R, inoltre integra funzioni di AutoAI per poter sviluppare automaticamente, dando in input solo i dataset, dei modelli predittivi.

Requisito necessario per il proseguo della lettura e per la creazione delle risorse è essere in possesso dell’account IBM Cloud. Se non si disponesse dell’account seguire il tutorial per la creazione di un free account.

Dopo aver eseguito il login alla piattaforma IBM Cloud tramite il link, recarsi nel catalogo nella sezione AI, successivamente cliccare sul quadrato Watson studio, esattamente come indicato nell’immagine sottostante.

No alt text provided for this image

Successivamente recarsi nell’elenco risorse di IBM Cloud e selezionare il servizio appena creato e recarsi, nella dashboard del servizio IBM Watson Studio cliccando su Get started per iniziare il nuovo progetto.

No alt text provided for this image

Per creare un nuovo progetto cliccare New Project, successivamente selezionare se si vuole partire con un progetto vuoto from scratch oppure se si vuole importare un progetto già esistente. Compilare i campi come da immagine sottostante con Nome, descrizione del progetto e Object Storage (se non fosse già presente è necessario creare un servizio di Object storage per memorizzare i dati).

No alt text provided for this image

Il progetto può avere uno o più collaboratori, se si volesse invitare a collaborare tutte le persone del team basterà entrare nel progetto, recarsi nel tab Access control e aggiungere un collaboratore tramite il suo indirizzo mail. I collaboratori potranno avere diversi ruoli: Amministratore, editore, visualizzatore, tutto in base alle esigenze di ogni membro del team.

Il tab overview contiene una descrizione generale del progetto, evidenzia quali sono i collaboratori con i ruoli, da una panoramica degli ultimi aggiornamenti eseguiti e predispone una sezione README. Si consiglia fortemente di compilare questa sezione Readme come un comune readme.txt. Questo file di testo conterrà tutte le informazioni che un qualsiasi utente deve leggere prima di approcciarsi al progetto.

Nella tab Services è possibile collegare altri servizi IBM Cloud per poter ampliare le potenzialità del progetto. Tale approfondimento sarà oggetto dei prossimi articoli.

La tab deployment conterrà i modelli deployati ed esportabili, mentre invece la tab environment permette di modificare l’environment al di sotto di watson studio, modificando la potenza computazionale (CPU, RAM o GPU) e l’ambiente di sviluppo (Python, Scala, R).

Il tab più utilizzato e sicuramente quello nominato Asset. Esso contiene tutti gli oggetti che possono essere definiti su watson studio.

Dopo questa breve panoramica di Watson studio possiamo caricare i nostri dati.

Il caricamento dei dati può essere eseguito in diversi modi:

  • Drag and Drop: Se si ha un file csv e lo si vuole importare nell’ambiente di Watson basterà trascinarlo nell’apposita colonna come da immagine sottostante.


No alt text provided for this image
  • Database: Se i dati sono presenti in un database in cloud, IBM, per rendere il collegamento più immediato possibile, ha sviluppato dei connettori che permettono, previo inserimento di alcuni parametri come indirizzo IP, username password e porta, il collegamento con database esterni. Per poter creare un collegamento recarsi sempre nel tab Assets, successivamente cliccare il pulsante blu in alto aggiungi al progetto e poi connettori (Vedi immagine sottostante, con l’aggiornamento delle versioni alcuni connettori potrebbero subire cambiamenti).
No alt text provided for this image


  • Database on-premise: Nel caso in cui il database è in casa del cliente dovrà essere necessario predisporre una connessione VPN tra il database on-premise e IBM Cloud (Attraverso il servizio secure-gateway, nei prossimi articoli ci sarà una sezione dedicata).

Dopo avere caricato i files, indipendentemente dal metodo, essi si troveranno nella sezione Data assets. Cliccando su un file si aprirà la visualizzazione dei dati e, in caso di dati tabellari, Watson predispone uno strumento di data refining per poter modificare e migliorare la qualità dei dati. Sarà possibile eseguire operazioni di creazione, cancellazione e modifica della colonna, tra cui modifica del nome e del tipo. E’ possibile eseguire anche operazioni più complesse tra cui rimuovere i duplicati, rimuovere i valori nulli, replace di una stringa, concatenazione, aggregazione e molto altro.

Dopo aver eseguito tutte le operazioni di data refining è possibile salvare tutte queste operazioni in un flusso. Tale flusso può essere ripetuto più volte oppure può essere schedulato per poter girare una volta al giorno ad un orario prestabilito.

Una volta eseguito il processo di ETL (Extract, Trasformation, Loading) è il momento di iniziare a fare analisi dei dati. Qui ci sono varie possibilità tra cui:

  • Notebook Python o R
  • Auto AI
  • Dashboard con Cognos Analytics
  • SPSS Modeler.

Nei prossimi articoli approfondiremo i 4 metodi di sviluppo con watson studio.

La guida di riferimento completa è disponibile all’indirizzo:

https://eu-gb.dataplatform.cloud.ibm.com/docs/

La Community tecnica IBM Watson Studio è disponibile al link:

https://eu-gb.dataplatform.cloud.ibm.com/gallery



To view or add a comment, sign in

Explore topics