🚀 SESIÓN 3: El lenguaje de las máquinas (Audio y Texto)
¡Bienvenidos a la tercera sesión! Ya hemos visto cómo una Inteligencia Artificial puede "ver" el mundo a través de los píxeles de una foto. Pero, ¿qué pasa con la música, los comandos de voz que le gritas a Alexa o los textos que traduce Google?
Hoy vamos a descubrir que, para una IA, el sonido y las palabras también son un juego de matemáticas. ¡Y vamos a entrenar una IA que obedezca a nuestra propia voz!
🎵 1. ¿Cómo escucha una IA? El truco del sonido
Cuando tú hablas, produces una vibración en el aire que viaja hasta el oído de tus amigos. Pero un ordenador no tiene orejas, tiene un micrófono que transforma esa vibración en una corriente eléctrica y, finalmente, en una lista de números.
Para entender el sonido, la IA utiliza un truco visual alucinante: convierte el audio en una imagen especial llamada espectrograma. Es como una "huella dactilar" del sonido donde se dibuja qué notas son más agudas, cuáles más graves y cuánta fuerza tienen.
El proceso de escucha digital:
Tu Voz (Sonido) ➡️ Micrófono (Números) ➡️ Espectrograma (Imagen) ➡️ Red Neuronal (IA)
Al final, aunque estemos hablando de audio, ¡la IA vuelve a buscar patrones en una imagen de números! Por eso puede diferenciar un silbido de un aplauso.
🗣️ 2. El ruido de fondo: El enemigo del entrenamiento
Imagínate que intentas estudiar para un examen de Tecnología en medio de un concierto de música heavy metal. Imposible enterarse de nada, ¿verdad? A las IA les pasa lo mismo.
Cuando entrenamos una IA de audio, lo primero que necesita aprender la máquina es el Ruido de fondo (Background Noise). Necesita "escuchar" el silencio de la clase, el zumbido del ventilador del ordenador o el camión que pasa por la calle para poder restarlo de tu voz y quedarse solo con tu comando.
🎮 3. Actividad Práctica: ¡Controla la IA con tu voz!
Vamos a entrenar un modelo que sea capaz de distinguir entre tres sonidos diferentes creados por vosotros: un Aplauso, un Silbido y el **Ruido de fondo** de la clase.
🛠️ Paso a paso para el taller:
- Entra en la web: Teachable Machine (Proyecto de Audio).
- Lo primero que verás es una clase obligatoria llamada "Background Noise". Haz clic en el micrófono y graba 20 segundos del sonido ambiente de la clase (¡todos en silencio absoluto!).
- Añade dos clases nuevas y cámbiales el nombre:
- Clase 2: Aplauso.
- Clase 3: Silbido.
- Fase 1 (Grabar datos): Entra en "Aplauso", dale a grabar e introduce ráfagas cortas de aplausos (tuyos y de tu compañero). Necesitas registrar al menos 20 o 30 muestras de audio cortas. Repite lo mismo en "Silbido" silbando en diferentes tonos.
- Fase 2 (Entrenar): Haz clic en "Train Model". Como el audio pesa un poco más, puede tardar un pelín más que la semana pasada. ¡No cambies de pestaña!
- Fase 3 (¡A probarla!): Mira la sección de "Preview". Quédate callado (debería marcar 100% Background Noise). Ahora da un aplauso fuerte... ¡Mira cómo sube la barra verde de Aplauso!
📝 4. Cuaderno de Clase: Analizando el oído digital
Responde en tu cuaderno o en los comentarios del blog a estas tres cuestiones sobre el experimento de hoy:
Pregunta 1: El experimento del grito
Si en lugar de silbar, pegas un grito fuerte a la webcam, ¿qué hace la IA? ¿A cuál de tus tres clases se parece más según sus porcentajes? ¿Por qué crees que elige esa opción?
Pregunta 2: El misterio de los asistentes de voz
Seguro que alguna vez le has dicho "Oye Siri" o "OK Google" a tu móvil desde la otra punta de la habitación y no te ha hecho ni caso, pero si te acercas sí funciona. Explica qué le ocurre a la IA internamente usando los conceptos de Input y Ruido de fondo.
Pregunta 3: Aplicación tecnológica
Imagina que eres un ingeniero y te piden diseñar una IA de audio para ayudar en un hospital o en una casa de personas mayores. ¿Qué tres sonidos útiles le enseñarías a reconocer para salvar vidas? (Ejemplo: Un grito de "¡Auxilio!").