Contents

Ressources soutenues

Utilisez cette page pour sélectionner les ressources qui sont prises en charge pour ce serveur MRCP. Les options sont les suivantes :

Reconnaissance vocale : Il s’agit d’une ressource complète de reconnaissance vocale qui est capable de recevoir un flux multimédia contenant de l’audio, et de l’interpréter aux résultats de reconnaissance. Il a également un interprète sémantique de langage naturel pour le post-traitement des données reconnues selon les données sémantiques dans la grammaire, et pour fournir des résultats sémantiques avec l’entrée reconnue. La ressource de reconnaissance peut également soutenir les grammaires inscrites, où le client peut s’inscrire et créer de nouvelles grammaires personnelles pour une utilisation dans les futures opérations de reconnaissance.
Reconnaissance DTMF : Il s’agit d’une ressource de reconnaissance capable d’extraire et d’interpréter les chiffres de DTMF dans un flux multimédia, et de les faire correspondre à une grammaire à chiffres fournis. Il pourrait également faire une interprétation sémantique basée sur des étiquettes sémantiques dans la grammaire.
Synthétiseur de la parole : Il s'agit d'une ressource de synthèse vocale complète, capable de restituer la parole à partir de texte. Un tel synthétiseur devrait avoir un soutien SSML [25] complet.
Synthétiseur de base : Il s’agit d’une ressource de synthétiseur de la parole avec des capacités très limitées qui peut générer son flux multimédia exclusivement à partir de clips audio concaténés. Les données de la parole sont décrites à l’aide d’un sous-ensemble limité d’éléments SSML [25]. Un synthétiseur de base doit prendre en charge les tags SSML <speak>, <audio>, <say-as> and <mark>.
Vérification de la parole : Il s’agit d’une ressource capable de vérifier l’authenticité d’une identité revendiquée en faisant correspondre un flux multimédia contenant des entrées vocales à une impression vocale préexistante. Il peut s’agir également de faire correspondre la voix de l’appelant à plus d’une impression vocale, également appelée multi-vérification ou identification du locuteur.
Enregistreur : Il s’agit d’une ressource capable d’enregistrer l’audio et de l’enregistrer à un URI. Un enregistreur doit fournir des capacités de pointage final pour supprimer le silence au début et à la fin d'un enregistrement, et peut également supprimer le silence au milieu d’un enregistrement. Si une telle suppression est faite, l’enregistreur doit maintenir les métadonnées de synchronisation pour indiquer les horodatages réels des supports enregistrés.

Par défaut, Synthétiseur de la parole est sélectionnée comme ressource soutenue.