Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Introducción a la síntesis de habla y la clonación de voz
- Descripción general de la conversión de texto a voz (TTS) y la síntesis de voz neuronal
- Clonación de voz frente a generación de habla: casos de uso y límites
- Modelos clave: Tacotron, WaveNet, FastSpeech, VITS
Trabajando con plataformas comerciales
- Uso de ElevenLabs y Resemble AI
- Creación, clonación y edición de voces
- Acceso a la API y flujos de trabajo de texto a voz
Desarrollo con herramientas de código abierto
- Instalación y configuración de Coqui TTS
- Entrenamiento de voces personalizadas y gestión de conjuntos de datos
- Generación de habla con control fino (tono, velocidad, emoción)
Preparación de datos y gestión de conjuntos de datos de voz
- Recopilación y limpieza de muestras de voz
- Segmentación, etiquetado y alineación de transcripciones
- Obtención ética de muestras y consentimiento para el uso de la voz
Integración de aplicaciones
- Incorporación de TTS en sitios web y aplicaciones
- Creación de sistemas de IVR y bots interactivos
- Generación de diálogos sintéticos para video y juegos
Evaluación de la calidad y el realismo
- Puntaje medio de opinión (MOS) y pruebas de inteligibilidad
- Control de la expresividad y la prosodia
- Comparación de latencia, fidelidad y realismo
Consideraciones éticas, legales y de gobernanza
- Riesgos de los deepfakes y uso responsable
- Consentimiento, atribución e implicaciones de derechos de autor
- Regulaciones y políticas organizacionales
Resumen y próximos pasos
Requerimientos
- Conocimiento de los fundamentos del aprendizaje automático
- Familiaridad con formatos de archivos de audio y herramientas de edición
- Conocimientos básicos de programación en Python
Público objetivo
- Desarrolladores e ingenieros de IA interesados en la síntesis de habla
- Creadores de contenido y tecnólogos de medios que exploran la generación de voz
- Equipos de I+D que desarrollan sistemas de audio personalizados o dinámicos
14 Horas