Asistentes por voz ¿Qué son?: Desde hace unos años, múltiples dispositivos tecnológicos pueden captar, interpretar y ejecutar las instrucciones o peticiones que les transmiten sus usuarios por medio de la voz.
En los últimos tiempos, la comercialización masiva de asistentes virtuales domésticos por parte de las principales compañías tecnológicas, hábilmente presentados como “altavoces inteligentes” (en vez de como los micrófonos activos permanente conectados que son), ha favorecido la instalación de este tipo de dispositivos en millones de hogares de todo el mundo.
ALARMA SOBRE LOS ASISTENTES DE VOZ
Por un lado, por el hecho de que los mismos pueden entrar en funcionamiento accidentalmente, al interpretar erróneamente expresiones captadas de sus usuarios, dando lugar a la captura de conversaciones privadas.
Y por otro, por el análisis que las empresas desarrolladoras de estos dispositivos, efectúan de las conversaciones mantenidas por los usuarios, no solo de un modo automatizado, sino también por medio de analistas humanos.
En una interpretación lógica, el análisis de las conversaciones captadas a través de cualquier de estos dispositivos, se orienta a perfeccionar técnicamente su funcionamiento, depurando errores y mejorando su rendimiento.
Sin embargo, la falta de información y transparencia al respecto por parte de las empresas, hacen inevitable la sospecha de que en realidad la finalidad de esas escuchas es, además, permitir la recopilación de información relativa a esos usuarios, a fin de identificar perfiles, patrones de comportamiento y temas de interés (o rechazo), que permitan segmentarlos social, comercial, económica y, por supuesto, también ideológica y políticamente.
RIESGOS SOBRE LA PRIVACIDAD
Como consecuencia de lo anterior, tanto los grupos defensores de la privacidad como los profesionales de la materia han alertado de los riesgos que para los ciudadanos se derivan de estas prácticas.
A) ¿Por qué razón un asistente “escucha”?
Los procesos de inteligencia artificial (IA) traducen al idioma de las máquinas el lenguaje natural para tomar decisiones o devolver información al usuario.
Las IA necesitan ser entrenadas debido a la complejidad del lenguaje humano. No asimilan adecuadamente emociones, ambigüedades ni contextos.
La IA debe ser capaz de reconocer una voz, identificar el idioma, atribuir un significado, considerar el contexto y aislar interferencias. Por ello, su entrenamiento es fundamental.
Pero ¿cómo la entrenamos? ¿Debe escuchar a un ser humano? La respuesta parece ser afirmativa y el modo en que dicha tarea se realice exige un diseño muy preciso.
B) ¿Qué derechos se vulneran con esta actividad?
El hecho de que un asistente “escuche” puede repercutir, al menos, en los siguientes derechos:
– Intimidad.
Por ejemplo, encargar la compra a un asistente revelará hábitos alimentarios, costumbres y rutinas e, incluso, aspectos relacionados con la vida sexual.
– Secreto de las comunicaciones.
Si el asistente vocal se usa para componer y remitir un mensaje, la información debería estar protegida por el secreto de las comunicaciones.
Sería imposible acceder a ella sin vulnerar gravemente derechos fundamentales e, incluso, cometer delitos potencialmente.
Y ello con un elemento añadido, ¿qué sucede si no se dispone de un consentimiento de todas las partes implicadas en la comunicación?
– Inviolabilidad del domicilio.
El Tribunal Constitucional ha considerado que este derecho permite
«vedar toda clase de invasiones, incluidas las que puedan realizarse sin penetración directa, por medio de aparatos mecánicos, electrónicos u otros análogos» (TC 22/1984 Enlace añadido por la extensión vLex(LA LEY 8565-JF/0000)).
Cuando un asistente o aplicación se conecta desde un domicilio sin autorización del usuario, ¿se vulnera la inviolabilidad del domicilio?
– Otros derechos.
Si nos centramos en el contenido de la información, el riesgo de vulneración se traslada a cualquier derecho. Y no solo los propios de personas físicas.
Un asistente vocal activado remotamente, podría estar escuchando secretos empresariales.
Así que resulta perfectamente lógico que se genere alarma social cuando leemos en la prensa que hay personas escuchando nuestras grabaciones.
C) ¿Cómo deberían escucharse las grabaciones?
El sentido común dicta que una vez cumplida la finalidad de la interacción entre el usuario y el asistente, la información debería desaparecer.
Las noticias desmienten que esté sucediendo.
Parece necesario verificar un 0,2 % de los registros con la finalidad de mejorar los procesos, entrenar la IA y evitar errores de funcionamiento y sesgo.
Para la población todas estas necesidades pueden resultar desconocidas.
Si para entrenar una IA es crucial escuchar, es necesario responder varias preguntas:
– ¿Es ineludible escuchar conversaciones para entrenar un sistema de IA que trabaja con lenguaje natural?
Si la respuesta es afirmativa, deben precisarse las condiciones: qué volumen, en qué contexto, bajo qué condiciones.
– ¿Cómo deberíamos regular jurídicamente estos procesos?
La intimidad, la inviolabilidad del domicilio y el secreto de las comunicaciones son derechos irrenunciables, inalienables e imprescriptibles. Pero las personas pueden renunciar a su ejercicio.
Y para ello se han definido modelos y procedimientos contractuales muy precisos en ámbitos como el del derecho a la propia imagen.
Por ejemplo, nuestra imagen puede ser explotada con fines publicitarios o promocionales, y también podemos ceder espacios de intimidad cuando aceptamos colaborar en una investigación sociológica.
En este sentido, el entrenamiento de una IA debería hacerse en entornos de laboratorio y, en consecuencia, sobre un volumen de población concreto a través de programas con arreglo a modelos de consentimiento y/o una contratación específica.
– ¿Cuáles son o deberían ser las condiciones de seguridad de estos tratamientos?
El entorno de seguridad debe diseñarse adecuadamente.
Los trabajadores que escuchan habrán sido escogidos por sus cualidades personales y profesionales, y recibidas un entrenamiento previo que asegure un comportamiento ética y jurídicamente irreprochable.
No basta, por tanto, con unas políticas de privacidad genérica que nadie lee.
Si, una vez más, ha primado la rapidez del desarrollo tecnológico, nos enfrentaremos a un grave problema.
La sociedad necesita confianza en el desarrollo de la inteligencia artificial y una garantía de nuestros derechos que va más allá de meras formalidades en un proceso de contratación online.
Reacción de las autoridades de control
Estas ideas están siendo acogidas, tanto por autoridades de supervisión, como por las propias empresas comercializadoras de los asistentes virtuales.
Un ejemplo de lo primero lo tenemos en la reciente comunicación dirigida por el Comisionado de Hamburgo para la Protección de Datos y la Libertad de Información (Hamburgische Beauftragte für Datenschutz und Informationsfreiheit, HmbBfDI) a los representantes de Google, en relación con los requisitos que deben cumplir para la transcripción de las grabaciones de voz por parte de su asistente.
Según este organismo, no solo las prácticas seguidas por Google en la transcripción de esas grabaciones, no cumplen los requisitos esenciales exigibles sino que tampoco lo hace “el procesamiento de los datos de audio generados durante el funcionamiento del sistema de asistencia lingüística”
Por ello:
- 1. Google no podrá llevar a cabo estas prácticas, en tanto la transcripción y evaluación de las grabaciones de audio, de los sistemas de asistencia del habla por parte de los seres humanos, no cumpla con lo dispuesto por el RGPD.
- 2. La base legal para el almacenamiento de estas grabaciones de audio es el consentimiento del usuario (opt-in).
- 3. Es esencial ofrecer al usuario información transparente sobre el riesgo de falsos disparos del dispositivo de grabación, como requisito clave para el procesamiento de datos de audio.
- 4. La evaluación de clips de audio por parte de contratistas o empleados de Google, para mejorar el asistente, requiere el consentimiento informado adicional de los usuarios.
- 5. Por último, los usuarios también deben ser informados de que los derechos de privacidad y las libertades de otros, pueden ser violados cuando utilizan sistemas de asistencia de voz. Por ejemplo, siendo procesadas incorrectamente por personas que no son usuarios.
Pero el órgano hamburgués no se queda ahí. En su opinión:
“el debate sobre la protección de los derechos y libertades de las partes afectadas no sólo concierne a Google, sino a todos los demás proveedores de servicios de análisis del habla”, como Apple, Amazon y Microsoft y, en particular, Facebook Inc., que está siendo objeto de una investigación separada en relación con su servicio Facebook Messenger».
Reacción de las empresas
La alarma con la que los medios de comunicación, y con ellos los ciudadanos, han percibido la existencia de aplicaciones móviles que “escuchan” y empleados que revisan conversaciones de asistentes virtuales, provocó la rápida respuesta de algunas de estas tecnológicas:
- Amazon ha añadido la opción de desactivar esta función en los dispositivos;
- Google y Apple han pausado sus programas de escucha, mientras estudian habilitar una alternativa similar.
En el texto hecho público Apple comienza reconociendo que
“Sabemos que los clientes han tenido dudas debido a noticias recientes sobre personas que escuchaban las grabaciones de audio de Siri como parte de nuestro proceso de evaluación de la calidad de Siri (en inglés, “grading”).”
Por ello, tras suspender de inmediato la evaluación por parte de humanos de las peticiones a Siri, han procedido a una
“profunda revisión de nuestras prácticas y políticas”, tras la que ha han “llegado a la conclusión de que no hemos estado totalmente a la altura de nuestros elevados ideales y pedimos disculpas por ello”.
Por ello han interrumpido el programa de evaluación de Siri, que será retomado en otoño tras haber adoptado las siguientes medidas:
- No conservará grabaciones de audio de las interacciones con Siri. Tampoco seguirán usando transcripciones generadas por ordenador para ayudar a mejorar Siri.
- Los usuarios podrán activar la opción de ayudar a mejorar Siri mediante el aprendizaje a partir de muestras de audio de sus peticiones. Las personas que decidan participar podrán retirarse en cualquier momento.
- Si un usuario decide activar la opción de ayudar a mejorar Siri, solo empleados de Apple podrán escuchar las muestras de audio de las interacciones con Siri. El equipo borrará toda grabación en la que se determine que no había intención de activar Siri.
CONCLUSIONES
Hoy en día podemos escoger quién queremos que nos espíe.
Los asistentes de voz más conocidos hoy en día son Alexa, de Amazon; Siri, de Apple; el Asistente de Google; Cortana, de Microsoft y Bixby, de Samsung.
Sin embargo, también existen algunas líneas de ayuda corporativas que cuentan con tecnología de reconocimiento de voz para anotar los datos y números de teléfono de los clientes, así como para registrar informes de errores.
Y no nos olvidemos de la función de voz del GPS del coche.
Solos, los asistentes no son gran cosa
Solos, los asistentes de voz pueden proporcionar poco más que información básica: la información meteorológica, leerle las noticias o decirle en qué cines se proyecta la última película.
Para activarse, necesitan otro hardware de domótica ( «Smart Home»).
Los asistentes de voz y el hardware de automatización de casas pueden precalentar apartamentos, entornar ventanas, bajar las persianas, regar el césped y cerrar las puertas.
Y todo esto a distancia.
¿Es mejor una inteligencia artificial que ninguna?
En realidad, la inteligencia artificial no existe.
«Aprendizaje automático» es un término mucho más preciso: a grandes rasgos, se trata de que las computadoras aprendan a reconocer patrones y a reaccionar en consecuencia.
Los asistentes de voz actuales ni siquiera aprenden: la mayor parte de la generación actual puede reaccionar sólo a un conjunto de palabras muy limitado y, aun así, pueden ser muy selectivos.
Los altavoces o los teléfonos móviles no pueden reconocer mucho por sí solos. En su lugar, graban el comando y lo envían a una gran red neuronal en la nube, que luego le dice a un hardware cómo tiene que reaccionar.
Si Alexa ni siquiera es capaz de entender, de manera fiable, que debe apagar una lámpara de pie, no quiero ni imaginarme lo que podría ocurrir si el asistente malinterpreta una animada discusión sobre los atentados terroristas, como un plan específico para ejecutar uno.
Por supuesto, el control por voz y la domótica no siempre son inútiles y, en ciertas situaciones, Bixby, Cortana, Google Now y Siri pueden resultarle extremadamente útiles.: cuando tiene que utilizar ambas manos para manejar el volante o si tiene sus brazos enyesados, es realmente práctico contar con un asistente al que solo tiene que dirigirle la palabra.
Como tantos inventos digitales, los asistentes de voz pueden ser tanto una maldición como una bendición.