Contacta con nosotros

Temario del curso

Introducción a la síntesis de habla y la clonación de voz

  • Descripción general de la conversión de texto a voz (TTS) y la síntesis de voz neuronal
  • Clonación de voz frente a generación de habla: casos de uso y límites
  • Modelos clave: Tacotron, WaveNet, FastSpeech, VITS

Trabajando con plataformas comerciales

  • Uso de ElevenLabs y Resemble AI
  • Creación, clonación y edición de voces
  • Acceso a la API y flujos de trabajo de texto a voz

Desarrollo con herramientas de código abierto

  • Instalación y configuración de Coqui TTS
  • Entrenamiento de voces personalizadas y gestión de conjuntos de datos
  • Generación de habla con control fino (tono, velocidad, emoción)

Preparación de datos y gestión de conjuntos de datos de voz

  • Recopilación y limpieza de muestras de voz
  • Segmentación, etiquetado y alineación de transcripciones
  • Obtención ética de muestras y consentimiento para el uso de la voz

Integración de aplicaciones

  • Incorporación de TTS en sitios web y aplicaciones
  • Creación de sistemas de IVR y bots interactivos
  • Generación de diálogos sintéticos para video y juegos

Evaluación de la calidad y el realismo

  • Puntaje medio de opinión (MOS) y pruebas de inteligibilidad
  • Control de la expresividad y la prosodia
  • Comparación de latencia, fidelidad y realismo

Consideraciones éticas, legales y de gobernanza

  • Riesgos de los deepfakes y uso responsable
  • Consentimiento, atribución e implicaciones de derechos de autor
  • Regulaciones y políticas organizacionales

Resumen y próximos pasos

Requerimientos

  • Conocimiento de los fundamentos del aprendizaje automático
  • Familiaridad con formatos de archivos de audio y herramientas de edición
  • Conocimientos básicos de programación en Python

Público objetivo

  • Desarrolladores e ingenieros de IA interesados en la síntesis de habla
  • Creadores de contenido y tecnólogos de medios que exploran la generación de voz
  • Equipos de I+D que desarrollan sistemas de audio personalizados o dinámicos
 14 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas