IBM Cloud: Watson text to speech e Watson Speech to text

Questo articolo è il settimo di una serie scritta in collaborazione con Raoul Alfredo Rocher e Massimo Loaldi. Come IT Solution Architect in ambito Cloud e Intelligenza artificiale vogliamo proporvi alcune brevi review per facilitare l'uso e l'adozione di tecnologie emergenti e innovative.

IBM Cloud è la piattaforma cloud di IBM che aiuta gli sviluppatori a realizzare e ad eseguire applicazioni e servizi innovativi. Oggi capiremo meglio come trattare i dati non strutturati, in particolare i dati testuali e i dati vocali (audio). Nello specifico vedremo come utilizzare e muovere i primi passi con i servizi di intelligenza artificiale Watson Text to speech e Watson Speech to Text sulla piattaforma cloud di IBM.

Come spiegato nell’articolo relativo ai moduli di intelligenza artificiale di IBM, Watson non è altro che un servizio di intelligenza artificiale, suddiviso in moduli. Ogni servizio di Watson è responsabile di un dominio specifico di intelligenza artificiale. Essi sono moduli componibili ed integrabili tra loro all’interno di soluzioni esistenti.

Watson Text to speech permette di eseguire l’operazione di conversione dei dati vocali in dati testuali. Data una stringa testuale in input, il servizio restituirà in output un file audio in vari formati.

Watson Speech to text permette di eseguire l’operazione di conversione dei dati testuali in dati vocali. Data una registrazione audio in vari formati il servizio restituirà in output una stringa testuale.

Requisito necessario per il proseguo della lettura e per la creazione delle risorse è essere in possesso dell’account IBM Cloud. Se non si disponesse dell’account seguire il tutorial per la creazione di un free account.

Dopo aver eseguito il login alla piattaforma IBM Cloud tramite il link, recarsi nel catalogo nella sezione AI, successivamente cliccare sui quadrati Text To speech e Speech to text, esattamente come indicato nell’immagine sottostante.

No alt text provided for this image

Creare il servizio Text to speech. Per interagire con il servizio basterà inviare tramite una chiamata POST un json. Questo json dovrà contenere, oltre che l’API key ({apikey} Ogni servizio ha un API key univoca, API key recuperabile da IBM CLOUD) e l’URL ({url} Url recuperabile da IBM CLOUD), i dati in forma testuale, e il nome del file ogg oppure in file wav in output. Vediamo qui sotto un esempio CURL di una chiamata, il concetto è identico per l’inserimento di una chiamata POST all’interno di un’applicazione. (Utilizzare chiamate post in altri linguaggi di programmazione). Ovviamente come detto prima sostituire {apikey} e {url} con i dati corretti. Questi dati li troveremo direttamente nell’interfaccia del servizio su IBM Cloud come evidenziato nell’immagine sottostante.

No alt text provided for this image
curl -X POST -u “apikey:{apikey}” \

— header “Content-Type: application/json” \

— header “Accept: audio/wav” \

— data “{\”text\”:\”hello world\”}” \

— output hello_world.wav \

“{url}/v1/synthesize”

Nel medesimo modo creare il servizio Speech to text. In questo secondo caso, per interagire con il servizio, basterà inviare tramite una chiamata POST un json. Questo json dovrà contenere, oltre che l’API key ({apikey} Ogni servizio ha un API key univoca, API key recuperabile da IBM CLOUD) e l’URL ({url} Url recuperabile da IBM CLOUD), i dati in forma audio, (Scaricare l’esempio di file audio direttamente dall’indirizzo:https://watson-developer-cloud.github.io/doc-tutorial-downloads/speech-to-text/audio-file.flac ) e inserire al posto di {path_to_file} il percorso del file audio corretto. Vediamo qui sotto un esempio di chiamata tramite il CURL:

curl -X POST -u “apikey:{apikey}” \

— header “Content-Type: audio/flac” \

— data-binary @{path_to_file}audio-file.flac \

“{url}/v1/recognize”

Come nel precedente caso, il concetto è identico per l’inserimento di una chiamata POST all’interno di un’applicazione. (Utilizzare chiamate post in altri linguaggi di programmazione). Ovviamente come detto prima sostituire {apikey},{url} e {path_to_file} con i dati corretti. Questi dati li troveremo direttamente nell’interfaccia del servizio su IBM Cloud come evidenziato nell’immagine sottostante.

No alt text provided for this image

Ulteriore documentazione tecnica di IBM Watson Speech to text è disponibile al link:

https://cloud.ibm.com/docs/services/speech-to-text?topic=speech-to-text-gettingStarted&locale=it

La documentazione API di IBM Watson Speech to text è disponibile al link:

https://cloud.ibm.com/apidocs/speech-to-text/speech-to-text

La documentazione tecnica di IBM Watson Text to speech è disponibile al link:

https://cloud.ibm.com/docs/services/text-to-speech?topic=text-to-speech-gettingStarted

La documentazione API di IBM Watson Text to speech è disponibile al link:

https://cloud.ibm.com/apidocs/text-to-speech/text-to-speech



To view or add a comment, sign in

Explore topics