domenica, luglio 23, 2006

"Dave...My mind is going...I can feel it..."

Tempo fa Malhavoc mi aveva parlato di VoiceXML, da allora non mi sono più interessato alla cosa finchè su Usenet non ho trovato un link al sito di Loquendo.

Nella demo potete scrivere quello che volete, salvare il wav o l'mp3 generato e fare qualche bello scherzone. Provate anche le altre lingue, perchè non tutti comandi sono attivi in italiano.
E' simpatico far leggere la stessa frase inglese con accento americano o britannico oppure simulare un film porno provando le combo \_Kiss, \_Mmm \_Cry-big e \_Oohh.
Nb per Rincewind: c'è anche il cinese


Facendo un approfondimento ho scoperto una "nuova" raccomandazione W3C ovvero lo Speech Synthesis Markup Language (SSML), che sta alla base dei motori Text to Speech ovvero di sintesi vocale.

La funzionalità di base di un motore TTS è di generare un output parlato (sequenze di fonemi) da un input testuale o documenti basati su XML, come SSML.
Il fine non è solo quello di aiutare le persone con problemi visivi ma anche di implementare servizi che richiedono messaggi vocali: allarmi, annunci alla stazione, previsioni del tempo, email ed anche videogiochi.
VoiceXML è il linguaggio orientato al web,che include ed estende SSML e permette lo sviluppo di applicazioni vocali sul protocollo HTTP.

Attraverso gateway specializzati, un portale web potrebbe essere trasformato in una sorta di centralino per una intranet aziendale.



Aziende come Voxeo e la stessa Loquendo offrono servizi addirittura per integrare VoiceXML e Voip, per non parlare di librerie per il Symbian e per i palmari.

Le potenzialità del VoiceXML sono tante, per fare un esempio un pezzo di codice del tipo
<speak version="1.0" lang="en-US">
<voice name="Dave">
Hello, world; my name is Dave.
</voice>
</speak>
dovrebbe essere interpretato dal parser del browser e letto per l'utente. Nessuna browser web al momento lo fa.

Windows più dell'odiosa voce robotico-anglosassone (SAM) di narrator non offre. A meno che non amiate sentire cose del tipo "Fainstra primo pieno" in continuazione.
Sul Mac c'è un po' più di varietà, ci sono le voci femminili e le barzellette da brivido del tipo

"Knock Knock"
"Who's there?"
"Tank"
"Tank who?"
"It's my pleasure"
...

Su Linux c'è Festival e qualcosa avevo visto nella Ubuntu ma al momento non ricordo
il nome.

Generalmente per attivare TTS seri si installano dei software che aggiungono tale funzionalità per i principali programmi presenti sul sistema operativo.
Questi software non te li regalano e non te li scontano, non so quanto costi Jaws al momento ma qualcosa di simile,ovvero Windows-Eyes o QualiSpeak Pro, costano quasi 800 dollari.
Mi sembra un po' lucrare sulle sfortune altrui.

5 commenti:

  1. Roba vecchia!!
    Se ben ti ricordi, era l'argomento della mia tesi!!

    Arrivi un po' in ritardo....... :-P

    RispondiElimina
  2. Ahahaha sei caduto nella mia trappola, ti ho beccato! Cmq Loquendo è simpatico

    RispondiElimina
  3. la parola "SSML" non me la ricordo nella tua presentazione.

    In compenso mi ricordo "Home-Vertical Bar-News-Vertical Bar-Downloads-New Line"

    RispondiElimina
  4. Ahahahah il mitico "Vertical Line", "Vertical Line", "Vertical Line"
    Beh in effetti di passi avanti ne hanno fatti parecchi

    RispondiElimina
  5. la più bella è stata "fainstra-polsant di comando" durante la presentazione di Dinuzzo

    RispondiElimina

Ricordatevi che i commenti vengono moderati!!!