IBM Cloud: La data governance con IBM Watson Knowledge Catalog

Questo articolo fa parte di una serie scritta in collaborazione con Raoul Alfredo Rocher e Massimo Loaldi. Come IT Solution Architect in ambito Cloud e Intelligenza artificiale vogliamo proporvi alcune brevi review per facilitare l'uso e l'adozione di tecnologie emergenti e innovative.

BM Cloud è la piattaforma cloud di IBM che aiuta gli sviluppatori a realizzare e ad eseguire applicazioni e servizi innovativi. Oggi approfondiremo l’area tecnologica della gestione dei dati, nello specifico vedremo come utilizzare e muovere i primi passi con il servizio di intelligenza artificiale Watson Knowledge Catalog sulla piattaforma cloud di IBM.

Come spiegato nell’articolo relativo ai moduli di intelligenza artificiale di IBM, Watson non è altro che un servizio di intelligenza artificiale, suddiviso in moduli. Ogni servizio di Watson è responsabile di un dominio specifico di intelligenza artificiale. Essi sono moduli componibili ed integrabili tra loro all’interno di soluzioni esistenti.

Watson Knowledge catalog permette di creare un catalogo di dati aperto e intelligente per la gestione dei dati aziendali. Permette di gestire la governance dei dati, la loro qualità e la collaborazione tra diverse figure professionali. La soluzione può essere sfruttata per garantire la compliance dei regolamenti per la protezione dei dati tra cui il California Consumer Privacy Act (CCPA) e il General Data Protection Regulation (GDPR). Ha una funzionalità che permette il mascheramento dinamico automatizzato degli elementi sensibili.

Watson Knowledge Catalog è dunque un catalogo dati che consente di trovare, organizzare e comprendere facilmente i dati presenti in azienda e di cui hanno bisogno e grazie alla governance dei dati, alla qualità dei dati e alla gestione attiva delle politiche, consente all’organizzazione di proteggere e gestire i dati sensibili, tenere traccia del data lineage e gestire i data lake, in modo da essere pronta per l’AI su vasta scala.

I dati possono essere caricati da oltre 30 fonti di dati diverse, tra cui database, sistemi in locale o sistemi cloud di terze parti.

Vediamo più nel dettaglio alcune aree:

Indicizzare e arricchire gli asset:

È possibile aggiungere asset di dati e asset analitici direttamente ad un catalogo. Un asset di dati contiene informazioni sui dati, tra cui le modalità di accesso ai dati, il formato dei dati, la classificazione dell’asset, quali collaboratori possono accedere ai dati, la linea di asset e altri tipi di metadati. Gli asset di dati possono includere sia dati relazionali che dati non strutturati, come i documenti PDF o Documenti Office. Gli asset analitici comprendono i notebook Jupyter, i modelli addestrati e i cruscotti.

È possibile indicizzare facilmente i dati e le risorse analitiche in un catalogo. Ecco come aggiungere le risorse:

  • Lascia i tuoi dati dove si trovano nel cloud o in sede e aggiungi semplicemente le informazioni di connessione per accedervi.
  • Scoprite e aggiungete automaticamente tutte le tabelle da una connessione a una fonte di dati relazionali come asset nel catalogo.
  • Caricare i file nell’apposito secchio di archiviazione degli oggetti cloud crittografati associati al catalogo.
  • Pubblicare gli asset di un progetto di Watson Studio.
  • Aggiungere set di dati dalla Galleria come asset di dati.
  • Importare gli asset di dati dal catalogo IBM InfoSphere Information Governance Catalog.

Dopo aver aggiunto asset di dati relazionali o non strutturati a un catalogo, è possibile profilarli per aggiungere metadati generati sul contenuto dei dati.

È possibile arricchire le risorse aggiungendovi altre informazioni:

  • Valutazioni e recensioni dei collaboratori del catalogo
  • Tag che i collaboratori del catalogo possono creare per descrivere i beni
  • Classi di dati che descrivono il tipo di dati nel patrimonio
  • Termini commerciali che descrivono i dati in modo standard per la vostra azienda

Trova asset

È facile trovare le risorse necessarie in un catalogo. Ecco cosa si può fare:

  • Cerca con parole chiave e filtri che si basano su tag di soggetto e altre proprietà del bene.
  • Guardate le anteprime dei contenuti degli asset per essere sicuri di scegliere gli asset corretti.
  • Leggete le recensioni sui beni forniti dai collaboratori del catalogo.
  • Scegliete tra le risorse consigliate che vengono compilate automaticamente in base alla vostra storia di utilizzo, risorse simili e altri fattori.
  • Scegliete tra le risorse più valutate.

Lavorare con gli asset nei progetti

Per scoprire le intuizioni lavorando con i dati o gli asset analitici, è necessario spostare gli asset in un progetto. È anche possibile utilizzare un progetto come area di staging per curare gli asset di dati o creare asset analitici prima di pubblicarli nel catalogo. I progetti contengono un sottoinsieme selezionato di collaboratori del catalogo.

Queste funzionalità predefinite consentono di lavorare con gli asset nei progetti con Watson Knowledge Catalog:

  • Aggiungere le risorse di un catalogo a un progetto per lavorare con loro.
  • Pubblicare gli asset di un progetto in un catalogo per renderli disponibili ad altri.
  • Scoprite gli asset da una connessione per crearli automaticamente in un progetto prima di pubblicarli nel catalogo.
  • Pulite e modellate gli asset di dati relazionali con lo strumento Data Refinery.

È possibile aggiungere altri strumenti per analizzare i dati o creare modelli di intelligenza artificiale aggiungendo Watson Studio al proprio account. Watson Studio e Watson Knowledge Catalog sono completamente integrati. Vedere la panoramica di Watson Studio.

Preparare i dati

Data Refinery è uno strumento di preparazione dati self-service che può essere utilizzato per trasformare rapidamente grandi quantità di dati grezzi in informazioni di consumo e di qualità pronte per l’analisi. È possibile scegliere le operazioni da menu o utilizzare modelli interattivi per codificare le operazioni nella casella di testo della riga di comando.

Queste caratteristiche di Data Refinery rendono facile l’esplorazione, la preparazione e la consegna di dati di cui le persone in tutta l’organizzazione possono fidarsi:

  • Operazioni potenti per pulire, organizzare, correggere e convalidare i vostri dati
  • Supporto di scripting per la manipolazione efficiente e flessibile dei dati
  • Programmazione e monitoraggio dei flussi di preparazione dei dati
  • Profili per la convalida dei dati
  • Visualizzazioni per conoscere i vostri dati
  • Politiche che mascherano i dati sono applicate
  • Supporto per dati non strutturati

Controllare l’accesso ai dati attraverso le policy

Le policy si applicano a tutti i cataloghi che provengono dallo stesso account IBM Cloud e che hanno l’applicazione delle policy abilitata. Gli strumenti delle policy sono disponibili solo per gli utenti che dispongono di permessi speciali.

Con gli strumenti delle policy è possibile:

  • Creare termini commerciali che descrivono i vostri dati da utilizzare nelle polizze.
  • Scrivere politiche per negare l’accesso ai dati sensibili.
  • Scrivere polizze per mascherare i valori dei dati in colonne che contengono dati sensibili.
  • Monitorare le tendenze nell’applicazione delle policy nel tempo.

Requisito necessario per il proseguo della lettura e per la creazione delle risorse è essere in possesso dell’account IBM Cloud. Se non si disponesse dell’account seguire il tutorial per la creazione di un free account.

Dopo aver eseguito il login alla piattaforma IBM Cloud tramite il link, recarsi nel catalogo cercare nella barra di ricerca catalog e selezionare il servizio Knowledge catalog come indicato nell’immagine sottostante.

No alt text provided for this image

Successivamente recarsi nell’elenco risorse di IBM Cloud e selezionare il servizio appena creato, cliccando successivamente su Get started per iniziare ad utilizzare il servizio.

Il servizio viene erogato tramite l’interfaccia grafica di watson studio, sotto forma di catalogo. Per creare un nuovo catalogo selezionare nuovo catalogo.

Alcune funzionalità di Watson Knowledge Catalog possono essere utilizzate per arricchire e controllare i dati:

  • Classificazioni: Ogni asset di dati ha una classificazione che descrive la sensibilità dei dati. I collaboratori del catalogo assegnano la classificazione quando aggiungono asset di dati a un catalogo governato.
  • Classi di dati: Per i set di dati relazionali, ad ogni colonna viene assegnata una classe di dati durante la profilazione. Le classi di dati sono fornite da Watson Knowledge Catalog o possono essere condivise da Information Governance Catalog. I collaboratori del catalogo possono modificare la classe di dati assegnata a una colonna.
  • Termini commerciali: Si creano termini di business nello strumento Business Glossary per definire i concetti di business in modo standard per la propria azienda. I termini di business possono anche essere condivisi dal Catalogo delle informazioni sulla governance. I collaboratori del catalogo possono assegnare uno o più termini ad asset di dati e colonne all’interno di set di dati relazionali per descrivere i dati.
  • Politiche e regole: Potete controllare l’accesso ai dati creando politiche e regole nello strumento Policy Manager. All’interno delle regole, è possibile includere classificazioni, classi di dati, termini aziendali o tag per identificare i dati da controllare.

I collaboratori del catalogo possono anche creare e assegnare tag ad asset e colonne in set di dati relazionali. Tuttavia, i tag non sono peculiarità di governance dei dati. I tag sono creati da singoli collaboratori, sono consentiti nei cataloghi non governati e non sono regolamentati. Ecco uno schema che definisce il modo in cui tutte le peculiarità interagiscono tra di loro e si utilizzano per la governance dei dati.

No alt text provided for this image

La documentazione tecnica IBM Watson Knowledge Catalog è disponibile al link:

https://eu-gb.dataplatform.cloud.ibm.com/docs/content/wsj/catalog/overview-wkc.html?context=analytics&linkInPage=true

Una video-guida approfondita suIBM Watson Knowledge Catalogè disponibile al link: https://www.youtube.com/watch?v=-CUi8GezG1I&list=PLzpeuWUENMK1z9oXhTlbNXRiRaBjSpUKJ



To view or add a comment, sign in

Explore topics