Curso especializado

Audio, Locución y Sonido Aplicado con IA

Aprendé a crear, mejorar y adaptar audio con inteligencia artificial: guion para voz, locución, voces sintéticas, pronunciación, limpieza de audio, transcripción, subtítulos, música, efectos sonoros, mezcla y exportación.

Un curso online para personas que quieren trabajar el sonido con criterio: no solo generar voces o música con IA, sino preparar piezas claras, naturales, bien mezcladas y listas para vídeos, redes sociales, podcast, formación, presentaciones o contenidos de marca.

Solicitar información Ver plan de estudios

Inicio 1 de agosto de 2026

Modalidad: Online
Duración: 10 semanas · 50 horas
Dedicación: 5 horas semanales recomendadas
Nivel recomendado: Inicial / intermedio
Certificación: Certificado privado de finalización

Capacidades que desarrollarás

Aprenderás a preparar guiones para voz, grabar o generar locuciones, corregir pronunciación y emoción, limpiar audio, separar pistas, crear música y efectos, subtitular, mezclar y exportar audio para plataformas.

Conocer el modelo educativo

Plan de estudios

Un curso para que tus contenidos no solo se vean bien, sino que también suenen bien

El curso se organiza en 13 módulos que recorren el flujo completo de trabajo sonoro con IA: cultura sonora, fundamentos de audio, guion para voz, locución humana, voces sintéticas, pronunciación, transcripción, limpieza, separación de pistas, doblaje, música, efectos, mezcla, LUFS, exportación, ética y proyecto final.

13 módulos

50 h de carga estimada

Online modalidad

Inicial / intermedio nivel recomendado

La carga estimada de 50 horas incluye el estudio de los contenidos, análisis de piezas sonoras, práctica con herramientas de IA, grabación o generación de voz, limpieza de audio, transcripción, subtitulado, música, efectos, mezcla, exportación y desarrollo de un proyecto final.

Módulo 1 Introducción al audio con IA y cultura sonora 3 h

Comprenderás qué está aportando la inteligencia artificial al trabajo con audio, voz y sonido, y por qué el criterio humano sigue siendo esencial.

Qué es el audio generado o asistido con IA.
Diferencia entre voz, locución, música, ambiente, efectos y diseño sonoro.
IA como apoyo creativo y técnico, no como sustituto del criterio sonoro.
Usos habituales: vídeos, redes, podcast, formación, anuncios, presentaciones y marca.
Límites actuales de las herramientas de audio con IA.
Errores frecuentes: voces artificiales, mala dicción, música invasiva o mezcla poco clara.
Cómo escuchar una pieza sonora con criterio.

Resultado: análisis crítico de piezas de audio, locuciones o contenidos sonoros, identificando aciertos, errores y posibles mejoras.

Módulo 2 Fundamentos de sonido aplicado 3 h

Aprenderás conceptos esenciales para entender, grabar, editar y mejorar audio sin necesidad de conocimientos técnicos avanzados.

Volumen, frecuencia, timbre, ritmo y silencio.
Voz principal, música, ambiente y efectos.
Ruido, reverberación, eco y distorsión.
Claridad, inteligibilidad y presencia de la voz.
Niveles de audio y equilibrio básico.
Diferencia entre audio para redes, vídeo, podcast, formación y presentación.
Errores habituales en grabaciones caseras.
Cómo preparar un entorno básico de grabación.

Resultado: checklist básico para evaluar y mejorar la calidad de una grabación de voz.

Módulo 3 Guion para voz, locución y audio digital 4 h

Antes de grabar o generar una voz, aprenderás a escribir textos pensados para ser escuchados, no solo leídos.

Diferencia entre texto escrito y texto para ser escuchado.
Guion para voz en off.
Guion para anuncio breve.
Guion para vídeo explicativo.
Guion para cápsula formativa.
Ritmo, pausas, frases cortas y claridad.
Marcas de intención, énfasis y respiración.
Adaptación de textos largos a locución.
Uso de IA para generar, resumir o mejorar guiones de audio.

Resultado: guion breve preparado para locución humana o sintética.

Módulo 4 Locución humana: voz, intención y dirección 4 h

Trabajarás la voz como herramienta comunicativa: ritmo, claridad, intención, tono y dirección básica de locución.

Respiración, ritmo y dicción básica.
Tono, intención y energía de la voz.
Locución informativa, comercial, educativa, narrativa y corporativa.
Velocidad, pausas y énfasis.
Cómo evitar una lectura plana.
Dirección de voz: qué pedir y cómo corregir.
Grabación básica con móvil, micrófono o herramientas sencillas.
Preparación de tomas y repetición útil.
Revisión de claridad y naturalidad.

Resultado: grabación de una locución breve con criterios de voz, intención y claridad.

Módulo 5 Voces sintéticas, clonación de voz y dirección con IA 4 h

Introducción práctica y responsable al uso de voces sintéticas, texto a voz y clonación de voz autorizada.

Qué son las voces sintéticas.
Texto a voz o text-to-speech.
Clonación de voz: usos, límites y precauciones.
Dirección de voz con IA: tono, ritmo, emoción y estilo.
Cómo preparar textos para voces sintéticas.
Voces para formación, anuncios, vídeos, asistentes o contenidos de marca.
Limitaciones: naturalidad, pronunciación, acentos, pausas y emoción.
Uso de voz propia, autorizada o generada para ese fin.
Consentimiento, privacidad y uso responsable.
Cuándo usar voz sintética y cuándo conviene locución humana.

Resultado: prueba de locución sintética o voz generada, con revisión de naturalidad, tono y autorización de uso.

Módulo 6 Prompts para emoción, pronunciación y naturalidad de voz 4 h

Aprenderás a evitar voces planas o mal pronunciadas mediante instrucciones, puntuación, diccionarios de pronunciación y ajustes de lectura.

Por qué una voz sintética puede sonar correcta pero poco natural.
Dirección emocional: neutra, cercana, comercial, educativa, seria, entusiasta o narrativa.
Cómo indicar intención, ritmo y pausas en un texto para locución.
Trucos de escritura: frases cortas, puntuación, comillas, guiones y separaciones.
Uso básico de etiquetas o indicaciones tipo SSML cuando la herramienta lo permita.
Pausas, énfasis, respiraciones y cambios de energía.
Diccionarios de pronunciación en herramientas de voz.
Corrección de nombres de marcas, personas, lugares y términos técnicos.
Adaptación de pronunciación para español neutro, español paraguayo u otros acentos cuando sea posible.
Pruebas A/B de una misma locución con diferentes instrucciones.

Resultado: locución generada con IA corregida en pronunciación, ritmo, pausas e intención emocional.

Módulo 7 Transcripción, subtitulado y accesibilidad con IA 4 h

Aprenderás a convertir audio en texto, generar subtítulos y revisar resultados para mejorar accesibilidad y reutilización de contenidos.

Transcripción automática de audio y vídeo.
Diferencia entre transcripción literal, limpia y resumida.
Subtítulos automáticos y revisión manual.
Tiempos, cortes y legibilidad de subtítulos.
Subtítulos para redes sociales, formación, YouTube y presentaciones.
Corrección de nombres, términos técnicos y errores de reconocimiento.
Accesibilidad básica en contenidos audiovisuales.
Uso de transcripciones para reutilizar contenidos.
Extracción de ideas, resúmenes y clips desde una transcripción.

Resultado: audio o vídeo transcrito y subtitulado, con revisión manual de precisión y legibilidad.

Módulo 8 Limpieza, restauración y separación de pistas con IA 5 h

Trabajarás limpieza de ruido, mejora de voz y separación de pistas para rescatar, reutilizar o preparar audios de forma práctica.

Limpieza de ruido de fondo.
Reducción de eco y reverberación.
Mejora de claridad de voz.
Normalización de volumen.
Eliminación de silencios o pausas excesivas.
Herramientas de mejora de voz con IA.
Separación de pistas o stem separation.
Separar voz y música de fondo.
Extraer voz limpia de un vídeo o grabación.
Quitar música para sustituirla por otra pista.
Aislar música, ambiente o efectos cuando sea posible.
Límites de la separación de pistas: artefactos, pérdida de calidad y resultados imperfectos.

Resultado: mejora de una grabación con ruido o música de fondo, separando voz y fondo cuando sea posible.

Módulo 9 Doblaje básico, adaptación de idioma y sincronización 3 h

Introducción al doblaje, voice-over y adaptación básica de audio a otros idiomas o versiones, siempre con criterios de autorización.

Qué es doblaje, voice-over y adaptación de idioma.
Diferencia entre traducción literal y adaptación oral.
Doblaje básico con IA.
Sincronización aproximada entre voz e imagen.
Adaptación de guiones para mantener duración y sentido.
Revisión de pronunciación, naturalidad y ritmo.
Versiones multilingües para vídeos, formación o presentaciones.
Riesgos de usar voces sin autorización.
Transparencia y consentimiento en voces generadas o clonadas.

Resultado: adaptación breve de una locución a otra versión o idioma, con revisión de ritmo, sentido y uso responsable.

Módulo 10 Música, ambientes y efectos sonoros generativos 4 h

Aprenderás a utilizar música, ambientes y efectos de sonido para reforzar vídeos, anuncios, presentaciones, podcast o contenidos educativos.

Función de la música en una pieza.
Ambientes sonoros: calle, oficina, naturaleza, interior, evento, tensión o calma.
Efectos sonoros: pasos, puertas, viento, motor, notificaciones, impacto o transición.
Generación de música con IA.
Generación de efectos sonoros o SFX.
Uso de SFX para reforzar realismo, ritmo y sensación cinematográfica.
Cuándo usar música y cuándo dejar respirar la voz.
Volumen, entrada, salida y duración.
Licencias, derechos y condiciones de uso.
Organización de recursos sonoros.

Resultado: pequeña biblioteca de música, ambientes o efectos sonoros para una pieza real.

Módulo 11 Podcast, cápsulas educativas y contenidos de voz 4 h

Aplicarás el audio a formatos donde la voz es protagonista: podcast, cápsulas formativas, microcontenidos, audios para redes o mensajes corporativos.

Estructura básica de un podcast o cápsula de audio.
Introducción, desarrollo, cierre y llamada a la acción.
Guion flexible frente a lectura completa.
Voz principal, cortinilla, música y efectos.
Limpieza y edición básica de episodios breves.
Uso de IA para preparar escaletas, títulos y resúmenes.
Creación de versiones cortas a partir de un contenido largo.
Adaptación de un audio para vídeo o redes.
Publicación y formatos básicos.

Resultado: cápsula de audio breve o microepisodio editado, con voz, música o efectos.

Módulo 12 Mezcla básica, LUFS y exportación para plataformas 4 h

Trabajarás la preparación final del audio: mezcla básica, niveles, volumen percibido, formatos y exportación para plataformas.

Concepto básico de mezcla.
Jerarquía sonora: voz primero, música después.
Niveles de voz, música y efectos.
Fundidos de entrada y salida.
Ecualización básica orientada a claridad.
Compresión y normalización de forma introductoria.
Evitar saturación y distorsión.
Qué son los LUFS.
Por qué las plataformas normalizan el volumen.
Diferencia entre volumen percibido y picos de audio.
Preparación de audio para YouTube, podcast, redes sociales y formación.
Formatos de archivo: WAV, MP3, AAC y otros formatos habituales.

Resultado: pieza sonora mezclada, normalizada y exportada con criterios básicos de volumen para plataforma.

Módulo 13 Ética, derechos, privacidad y proyecto final sonoro 4 h

Integrarás lo aprendido en una pieza sonora final y revisarás criterios de uso responsable vinculados a voces, música, efectos, privacidad y derechos.

Derechos de uso de voces sintéticas.
Clonación de voz y consentimiento.
Uso de música y efectos generados con IA.
Licencias y condiciones de plataformas.
Privacidad de audios, entrevistas o grabaciones sensibles.
Riesgos de suplantación, manipulación o uso engañoso.
Transparencia en el uso de voces generadas cuando corresponda.
Guion o escaleta del proyecto final.
Grabación, generación o edición de voz.
Corrección de pronunciación, emoción y ritmo.
Limpieza, mejora o separación de pistas.
Música, ambientes o efectos.
Mezcla, LUFS y exportación final.

Resultado: pieza sonora final creada o mejorada con apoyo de IA, preparada para uso real y acompañada de una breve justificación técnica y ética.

IA aplicada al sonido

Herramientas de IA para voz, limpieza, música, efectos, subtítulos y mezcla

En este curso aprenderás a utilizar herramientas de inteligencia artificial para apoyar distintas fases del trabajo sonoro: guion, locución, voces sintéticas, pronunciación, limpieza, separación de pistas, subtitulado, música, efectos, mezcla y exportación.

El objetivo no es depender de una plataforma concreta, sino aprender un flujo de audio completo: escuchar, escribir, grabar, generar, limpiar, corregir, mezclar, exportar y publicar con criterio.

Herramientas como ChatGPT, Claude, Gemini, ElevenLabs, Adobe Podcast Enhance, Suno, Udio, Whisper, Descript, CapCut, Audacity, Adobe Audition o DaVinci Resolve

Se trabajarán herramientas de guion, texto a voz, clonación autorizada, limpieza de audio, separación de pistas, transcripción, subtitulado, música, efectos sonoros y edición. Las plataformas pueden variar según disponibilidad, evolución tecnológica y utilidad para los ejercicios.

Guion y locución

Aprenderás a escribir textos para ser escuchados y a dirigir voces humanas o sintéticas con intención.

Voces sintéticas

Practicarás texto a voz, clonación autorizada, pronunciación, pausas, énfasis y emoción.

Limpieza y separación

Aprenderás a reducir ruido, mejorar claridad y separar voz, música o fondos cuando sea posible.

Transcripción y subtítulos

Convertirás audio en texto, revisarás subtítulos y adaptarás contenidos para accesibilidad y reutilización.

Música y SFX

Crearás música, ambientes y efectos sonoros generativos para reforzar vídeos, podcast o presentaciones.

Uso responsable

Revisarás consentimiento, clonación de voz, música, licencias, privacidad y posibles usos engañosos.

Creadores de contenido

Para quienes necesitan mejorar voces, subtítulos, música, efectos o sonido en vídeos y piezas para redes.

Emprendedores y pequeños negocios

Para personas que necesitan locuciones, anuncios, vídeos explicativos, mensajes de marca o piezas sonoras.

Formadores y docentes

Para quienes preparan clases online, cápsulas educativas, presentaciones narradas o materiales de formación.

Profesionales de marketing y comunicación

Para quienes trabajan con vídeos, podcast, campañas, reels, anuncios o contenidos audiovisuales.

Personas interesadas en podcast o voz

Para quienes quieren crear cápsulas de audio, microepisodios, locuciones o contenidos donde la voz sea protagonista.

Personas sin experiencia previa en audio

Para quienes quieren empezar desde fundamentos claros y aprender un flujo práctico, sin perderse en tecnicismos.

Resultado principal

Crear audio claro y útil con IA

Preparar piezas sonoras para vídeo, redes, podcast, formación o presentaciones con voz, música, efectos, subtítulos y mezcla básica.

Escribir guiones para voz

Transformar textos escritos en guiones que funcionen al ser escuchados, con ritmo, pausas e intención.

Dirigir locuciones humanas o sintéticas

Ajustar tono, energía, pronunciación, ritmo, emoción y naturalidad de una voz.

Limpiar y restaurar grabaciones

Reducir ruido, eco o reverberación y mejorar la claridad de una voz grabada en condiciones no ideales.

Separar voz, música y fondos

Utilizar herramientas de separación de pistas para limpiar, sustituir o reutilizar elementos sonoros.

Transcribir y subtitular

Convertir audio en texto, revisar subtítulos y mejorar la accesibilidad de contenidos audiovisuales.

Añadir música y efectos sonoros

Crear ambientes, efectos y pistas musicales que refuercen vídeos, podcast o presentaciones.

Exportar con criterios de plataforma

Entender niveles, normalización, LUFS, formatos y preparación básica para publicación.

Pago único

Gs. 450.000

10% de descuento sobre la inversión regular.

Pago completo al momento de la inscripción.
Reserva de plaza confirmada.
Acceso al curso desde el inicio de la convocatoria.

Pago fraccionado

Gs. 500.000

Pago inicial + 2 pagos durante el desarrollo del curso.

Gs. 200.000 al confirmar la inscripción.
Gs. 200.000 al comienzo del curso.
Gs. 100.000 al mes de comenzar el curso.

Qué incluye

Acceso a los contenidos del curso, materiales de trabajo, ejercicios prácticos, orientaciones para el uso responsable de IA aplicada al audio, proyecto final aplicado y certificado privado de finalización.

Cómo inscribirte

Completá el formulario de información, indicá el curso que te interesa y el equipo de MKM Academia te contactará para orientarte y confirmar los pasos de inscripción.

Cupos limitados

La convocatoria tendrá plazas limitadas para asegurar un acompañamiento más ordenado durante el desarrollo del curso.

Importante

El curso no incluye suscripciones externas a plataformas de IA, edición de audio, voz, música o recursos sonoros

La inversión del curso no incluye suscripciones de pago a herramientas como ElevenLabs, Adobe Podcast Enhance, Suno, Udio, Whisper, Descript, CapCut, Audacity, Adobe Audition, DaVinci Resolve u otras plataformas similares.

No es obligatorio contratar una versión de pago para seguir el curso. Cuando se utilicen herramientas con versiones gratuitas, versiones de prueba o planes de pago, se explicarán sus diferencias para que cada alumno pueda decidir si necesita alguna opción adicional.

Solicitar información

¿El curso es 100% online?

Sí. El curso se realiza en modalidad online, a través del campus virtual de MKM Academia. Podrás acceder a los contenidos, materiales y actividades desde cualquier lugar con conexión a internet.

¿Necesito saber edición de audio antes de empezar?

No. El curso parte de fundamentos básicos de sonido, locución y edición. Es recomendable tener interés por la voz o los contenidos digitales, pero no se exige experiencia profesional previa.

¿El curso enseña solo a generar voces con IA?

No. La generación de voz es solo una parte. El curso también trabaja guion, locución humana, limpieza de audio, transcripción, subtitulado, doblaje básico, música, efectos sonoros, mezcla, exportación y uso responsable.

¿Qué herramientas de IA se utilizarán?

Se podrán utilizar herramientas como ChatGPT, Claude, Gemini, ElevenLabs, Adobe Podcast Enhance, Suno, Udio, Whisper, Descript, CapCut, Audacity, Adobe Audition, DaVinci Resolve u otras plataformas similares. El listado puede variar según disponibilidad, cambios de plataforma y necesidades de los ejercicios.

¿Necesito pagar una herramienta de IA para hacer el curso?

No. No es obligatorio contratar versiones de pago. Algunas plataformas pueden ofrecer funciones avanzadas mediante suscripción, pero las actividades principales estarán planteadas para poder seguirse con opciones gratuitas, versiones de prueba o alternativas disponibles.

¿El precio incluye suscripciones a plataformas de IA o audio?

No. La inversión del curso no incluye suscripciones externas a herramientas de IA, edición de audio, voz, música, subtitulado, doblaje o bancos de recursos. Si un alumno decide contratar una suscripción por su cuenta, será una decisión personal y opcional.

¿Se enseñará clonación de voz?

Sí, de forma introductoria y responsable. Se trabajará únicamente con voz propia, autorizada o generada para ese fin, explicando riesgos, límites y criterios éticos.

¿Se enseñará a corregir errores de pronunciación en voces generadas con IA?

Sí. El curso incluye técnicas para mejorar pronunciación, pausas, ritmo, emoción e intención en voces generadas con IA. También se explicará el uso de diccionarios de pronunciación o indicaciones específicas cuando la herramienta lo permita.

¿Se verá cómo separar voz y música de una grabación?

Sí. El curso incluye una introducción a la separación de pistas, también llamada stem separation. Esta técnica permite separar voz, música o fondos en ciertos audios para limpiar, reutilizar o reemplazar elementos sonoros.

¿Qué son los LUFS y por qué importan?

Los LUFS son una forma de medir el volumen percibido de una pieza sonora. Son importantes porque plataformas como YouTube, Spotify u otras pueden ajustar automáticamente el volumen si el audio está demasiado alto o demasiado bajo. En el curso se explicará de forma sencilla cómo preparar audios con criterios básicos de volumen.

¿Puedo usar este curso para mejorar audio de vídeos o clases?

Sí. El curso incluye limpieza, restauración, separación de pistas, mejora de voz, subtitulado, música, efectos sonoros y exportación para contenidos ya existentes.

¿Se trabaja podcast?

Sí. Se incluye una introducción a podcast, cápsulas educativas y contenidos de voz, con guion, estructura, edición básica, música y exportación.

¿Se tratan derechos de autor y uso responsable?

Sí. El curso incluye contenidos sobre consentimiento, clonación de voz, música, efectos, privacidad, manipulación, suplantación y condiciones de uso de plataformas.

¿Recibiré certificado al finalizar?

Sí. Al completar el curso y realizar las actividades requeridas, recibirás un certificado privado de finalización emitido por MKM Academia.