Deepfakes de voz: Cuando la llamada familiar es falsa

Son las 11 de la noche. Tu teléfono suena. Al descolgar, escuchas la voz de tu hijo: “Mamá, he tenido un accidente. Estoy bien, pero necesito que me transfieras dinero ahora mismo para pagar al abogado. No puedo explicarte más, por favor, hazlo ya.” La voz es idéntica. El tono, las pausas, la forma de decir “mamá”. Es él. Pero no lo es.

Lo que estás escuchando es un deepfake de voz: una réplica artificial generada por inteligencia artificial que puede imitar a cualquier persona con una precisión que da escalofríos. Y si piensas que esto es ciencia ficción, necesito que sigas leyendo, porque ya está pasando en España.

Qué son los deepfakes de voz

Un deepfake de voz es una grabación o emisión de audio generada por inteligencia artificial que replica la voz de una persona real. No es un imitador profesional ni alguien parecido. Es una copia digital casi perfecta: el timbre, la entonación, el acento, incluso las muletillas y la cadencia al hablar.

La tecnología que hay detrás se llama clonación de voz por IA y funciona con redes neuronales que analizan muestras de audio de una persona para crear un modelo de su voz. Una vez creado el modelo, se puede hacer que esa voz “diga” cualquier cosa en tiempo real.

Lo más preocupante es el poco audio que necesita. Según estudios recientes de OpenAI y otras empresas de inteligencia artificial, con tan solo 3 segundos de audio de tu voz, un sistema de IA puede crear una réplica convincente. Tres segundos. Un mensaje de WhatsApp, un vídeo en Instagram, una intervención en un podcast. Cualquier fragmento de tu voz publicado en internet es suficiente.

Y no estamos hablando de tecnología secreta accesible solo para agencias de inteligencia. Estas herramientas están disponibles en internet, muchas son gratuitas o cuestan menos de 5 euros al mes, y no requieren conocimientos técnicos para usarlas. Cualquier persona con un ordenador y conexión a internet puede clonar una voz en minutos.

Cómo clonan tu voz los ciberdelincuentes

El proceso es alarmantemente sencillo. Así es como los estafadores obtienen y replican tu voz.

Paso 1: Conseguir una muestra de tu voz

Los ciberdelincuentes buscan audio tuyo en cualquier fuente pública:

Redes sociales: Reels de Instagram, vídeos de TikTok, historias con audio. Si tu perfil es público, tu voz también lo es
YouTube: Cualquier vídeo donde hables, incluidos directos y comentarios en vídeos ajenos
Mensajes de voz de WhatsApp: Si alguien reenvía tu audio o si estás en grupos grandes donde no conoces a todos los miembros
Podcasts y entrevistas: Fuentes con audio largo y limpio, ideales para la clonación
Buzón de voz del teléfono: Esa grabación que dice “Soy María, ahora no puedo atenderte” es una muestra perfecta
Llamadas previas: El estafador puede llamarte haciéndose pasar por una empresa para grabar tu voz durante unos segundos antes de colgar

Paso 2: Clonar la voz con IA

Con la muestra de audio, el estafador utiliza herramientas de clonación de voz por IA. Existen decenas de plataformas que ofrecen este servicio, algunas legítimas (diseñadas para doblaje o accesibilidad) y otras creadas específicamente para el fraude. El proceso tarda entre 5 y 30 minutos.

Paso 3: Ejecutar la estafa

Una vez clonada la voz, el estafador tiene dos opciones:

Llamada en tiempo real: Utiliza la voz clonada mientras habla, como un filtro de voz en directo. Lo que él dice se convierte en “tu voz” al instante
Mensajes de audio pregrabados: Genera mensajes de WhatsApp con la voz clonada y los envía a tus familiares

En ambos casos, la víctima recibe lo que parece una llamada o un audio completamente legítimo de alguien que conoce y en quien confía.

Casos reales que ya están ocurriendo

Esto no es una amenaza teórica. Ya hay víctimas.

El caso Ferrari (2024)

En julio de 2024, un alto directivo de Ferrari recibió varios mensajes de WhatsApp y una llamada telefónica de alguien que se hacía pasar por el CEO de la compañía, Benedetto Vigna. La voz era una réplica perfecta generada por IA. El falso CEO hablaba de una supuesta adquisición confidencial y pedía al directivo que realizase operaciones financieras urgentes. Afortunadamente, el directivo sospechó y realizó una pregunta personal que solo el verdadero Vigna podría responder. El estafador colgó inmediatamente.

Estafas familiares en Estados Unidos

En 2023, una madre en Arizona (Estados Unidos) recibió una llamada con la voz de su hija de 15 años llorando y pidiendo ayuda, asegurando que la habían secuestrado. Los estafadores exigieron un rescate de 1 millón de dólares. La madre, aterrorizada, escuchaba la voz exacta de su hija suplicando. Solo cuando consiguió contactar directamente con su hija descubrió que estaba sana y salva en casa. La voz era un deepfake generado a partir de vídeos de la adolescente en redes sociales.

Las cifras que asustan

El FBI reportó en su informe IC3 de 2023 que las estafas de suplantación de identidad causaron pérdidas de 12.500 millones de dólares solo en Estados Unidos. Europol ha identificado el deepfake como una de las principales amenazas para los próximos años, y la Policía Nacional española ya ha alertado sobre el aumento de casos en nuestro país. Según datos de la consultora Deloitte, las pérdidas por fraudes de deepfake de voz podrían superar los 40.000 millones de dólares a nivel global en 2027.

La estafa del hijo en apuros, que tradicionalmente se hacía por WhatsApp con mensajes de texto, ahora tiene una versión infinitamente más peligrosa: con la voz clonada de tu propio hijo.

Cómo detectar una llamada con voz clonada

Aunque los deepfakes de voz son cada vez más sofisticados, todavía hay señales que pueden delatarlos. Aprende a identificarlas.

1. Urgencia extrema y presión emocional

Es el denominador común de todas estas estafas. La llamada viene cargada de urgencia: “Necesito el dinero ahora”, “No se lo digas a nadie”, “Si no actúas ya, va a pasar algo terrible”. Esta presión busca que actúes por impulso emocional sin detenerte a verificar. Es el mismo patrón que usan en el vishing tradicional, pero con la capa adicional de la voz clonada.

2. Pausas artificiales o respuestas genéricas

La clonación en tiempo real tiene limitaciones. Si haces preguntas inesperadas o cambias de tema bruscamente, puedes notar:

Pausas más largas de lo normal antes de cada respuesta (el sistema necesita procesar)
Respuestas evasivas a preguntas concretas (“Ahora no puedo explicarte eso”)
Falta de naturalidad en las transiciones entre frases
Repetición de patrones: Las mismas expresiones una y otra vez

3. Calidad de audio sospechosa

Presta atención al sonido de la llamada:

Demasiado limpio: Las llamadas de teléfono reales tienen ruido de fondo, interferencias y variaciones. Un deepfake puede sonar “demasiado perfecto”
Demasiado malo: Algunos estafadores añaden ruido artificialmente para enmascarar imperfecciones del deepfake
Ecos o reverberación extraña: Artefactos del procesamiento de audio por IA
Cortes abruptos: La voz se “corta” a mitad de palabra de forma no natural

4. Peticiones que no cuadran

Independientemente de lo convincente que suene la voz, desconfía si:

Te piden transferencias a cuentas desconocidas
Insisten en que no llames a nadie más para verificar
Piden métodos de pago inusuales (criptomonedas, tarjetas regalo)
La historia no tiene sentido cuando te paras a pensarla fríamente

5. La prueba del recuerdo compartido

Haz una pregunta que solo tu familiar real podría responder. No algo genérico como “¿Cómo se llama el perro?” (un estafador podría saberlo por redes sociales), sino algo íntimo y específico:

“¿Qué cenamos la última vez que viniste a casa?”
“¿Cómo se llamaba tu profesora de tercero de primaria?”
“¿Qué me dijiste cuando nos vimos el domingo?”

Si la respuesta es evasiva o incorrecta, cuelga.

El protocolo anti-deepfake para familias

La mejor defensa contra los deepfakes de voz es establecer un sistema de verificación familiar ANTES de que ocurra un ataque. Aquí tienes un protocolo que puedes implementar hoy mismo.

Paso 1: Crear una palabra de seguridad familiar

Reúne a tu familia y elegid una palabra de seguridad que solo conozcáis vosotros. Debe cumplir estos requisitos:

No debe aparecer en redes sociales ni en ninguna conversación pública
No debe ser predecible (nada de nombres de mascotas, fechas de cumpleaños o lugares habituales)
Debe ser fácil de recordar para todos los miembros de la familia
Debe cambiarse periódicamente (cada 3-6 meses)

Si recibes una llamada sospechosa, pide la palabra de seguridad. Si la otra persona no la sabe o la da mal, cuelga inmediatamente.

Paso 2: Colgar y llamar al número real

Ante cualquier llamada sospechosa de un familiar pidiendo dinero o ayuda urgente:

Cuelga sin dar explicaciones
Busca el contacto real de esa persona en tu agenda (no devuelvas la llamada al número entrante)
Llama tú directamente al número que tienes guardado
Verifica la situación con calma

Si tu familiar de verdad está en problemas, responderá a tu llamada. Si no responde, intenta contactar con otras personas cercanas a él antes de actuar.

Paso 3: Establecer reglas familiares claras

Acordad con vuestra familia estas normas:

Nunca pediremos dinero urgente por teléfono sin verificación previa
Nunca pediremos que no se lo cuentes a nadie más: Un familiar real entenderá que necesites verificar
Ante cualquier duda, usamos la palabra de seguridad
Los menores no envían dinero bajo ninguna circunstancia, sea quien sea el que llame

Cómo proteger tu voz de ser clonada

Además de saber detectar deepfakes, puedes tomar medidas para dificultar que clonen tu voz.

Limita el audio público de tu voz

Revisa la privacidad de tus redes sociales: Si tu perfil de Instagram o TikTok es público, cualquier vídeo con tu voz es una muestra potencial. Valora si realmente necesitas tener el perfil abierto
Cuidado con los mensajes de voz en grupos grandes de WhatsApp: En grupos con muchos miembros (comunidades de vecinos, grupos de padres del colegio), no siempre sabes quién está escuchando
Configura tu buzón de voz: Elimina el mensaje personalizado con tu voz. Usa el mensaje genérico de la operadora o, mejor aún, desactiva el buzón si no lo necesitas

Sé selectivo con tus audios

No respondas con audio a números desconocidos: Si alguien que no conoces te contacta y te pide que le envíes un mensaje de voz, desconfía. Podría estar recopilando muestras de tu voz
Ten cuidado con las llamadas comerciales sospechosas: Si te llaman para una “encuesta” o un “sorteo” y te hacen hablar durante varios segundos, podrían estar grabándote

Protege tu identidad digital

Tu voz es parte de tu identidad digital, igual que tu número de teléfono o tus datos personales. Las mismas precauciones que aplicas para evitar un SIM Swapping o un robo de identidad sirven para proteger tu voz: limita lo que compartes públicamente y controla quién tiene acceso a tu información.

Deepfake de voz vs. vishing tradicional: ¿cuál es la diferencia?

El vishing tradicional utiliza personas reales que se hacen pasar por empleados del banco, de la policía o de una empresa. Es peligroso, pero tiene un límite claro: la voz del estafador no es la voz de alguien que conoces.

El deepfake de voz va un paso más allá. Ya no es un desconocido haciéndose pasar por tu banco. Es la voz de tu madre, de tu hijo, de tu pareja o de tu jefe. Eso lo convierte en una amenaza de otro nivel, porque rompe la última barrera de confianza que teníamos: reconocer la voz de las personas que queremos.

Ambas técnicas forman parte del ecosistema de estafas por suplantación de identidad que te explicamos en detalle en nuestra guía definitiva sobre phishing, smishing y vishing.

Preguntas frecuentes sobre los deepfakes de voz

¿Pueden clonar mi voz con un audio de WhatsApp?

Sí. Un mensaje de voz de WhatsApp de unos pocos segundos es suficiente para que un sistema de IA genere una réplica convincente de tu voz. Por eso es importante no enviar mensajes de voz a personas desconocidas y ser consciente de quién puede acceder a tus audios en grupos.

¿Es ilegal clonar la voz de otra persona en España?

Sí. La clonación de voz sin consentimiento para suplantar la identidad de alguien es un delito. Puede constituir un delito de estafa (artículo 248 del Código Penal), de usurpación de identidad y, dependiendo del uso, de amenazas o extorsión. Las penas pueden alcanzar los 6 años de prisión si la estafa supera los 50.000 euros.

¿Puede la policía rastrear un deepfake de voz?

Sí, aunque es complejo. La policía puede analizar los metadatos de la llamada, rastrear el número utilizado y, en algunos casos, aplicar técnicas forenses de audio para demostrar que una grabación fue generada por IA. Si eres víctima, denuncia siempre y guarda toda la información posible de la llamada.

¿Hay apps que detecten deepfakes de voz?

Existen herramientas experimentales de detección, pero todavía no son fiables al 100% para uso cotidiano. La mejor defensa sigue siendo el protocolo humano: palabra de seguridad, verificación por otro canal y sentido común. Con BeValk puedes analizar enlaces sospechosos que los estafadores puedan enviarte durante o después de la llamada.

¿Las videollamadas son más seguras que las llamadas de voz?

Relativamente, sí. Aunque también existen deepfakes de vídeo, son mucho más difíciles de ejecutar en tiempo real y más fáciles de detectar. Si tienes dudas sobre la identidad de quien te llama, pide una videollamada: es una capa adicional de verificación que a un estafador le costará mantener.

Protégete antes de que te toque

Los deepfakes de voz no son una amenaza futura. Ya están aquí. Pero ahora sabes cómo funcionan, cómo detectarlos y, lo más importante, cómo proteger a tu familia con un protocolo simple que puedes poner en marcha esta misma noche.

Habla con tus padres, con tus hijos, con tu pareja. Elegid una palabra de seguridad. Acordad que nunca pediréis dinero urgente por teléfono sin verificación. Y si algún día recibes una llamada que suena exactamente como alguien que quieres pero te pide algo que no cuadra, recuerda: cuelga, respira y llama tú al número real.

Descarga para iOS y Android y protege tu identidad digital antes de que los ciberdelincuentes la usen contra ti.

Última actualización: marzo 2026