Cuando las computadoras hablan, ¿qué tan humanas deberían sonar?
Esta fue la pregunta que enfrentó un equipo de seis lingüistas, ingenieros y mercadólogos de IBM en 2009, cuando empezó a diseñar una función que convertía texto en expresión verbal para el Watson de Jeopardy!, el programa de juegos de inteligencia artificial de la compañía.
Dieciocho meses después, una voz cuidadosamente elaborada –que no sonaba del todo humana pero tampoco como HAL 9000 de la película “2001: A Space Odyssey”– expresó el carácter sintético de Watson en un encuentro muy publicitado en el que el programa derrotó a dos de los mejores jugadores humanos de Jeopardy!
El desafío de crear una “personalidad” computarizada es el que enfrentan cada vez más diseñadores de software a medida que la tecnología se vuelve portátil y los comandos de voz, más comunes.
Las máquinas están escuchando, entendiendo y hablando, y no solo las computadoras y los smartphones. Se ha añadido voces a una amplia variedad de objetos cotidianos como autos y juguetes; así como a aparatos de compañía doméstica, como los robots Pepper y Jibo, y Alexa, la voz del dispositivo parlante de Amazon Echo.
Ha surgido una nueva ciencia del diseño para crear “agentes conversacionales”, programas informáticos que comprenden el lenguaje natural y la expresión verbal, y pueden responder a órdenes de voz humana.
Sin embargo, la creación de esos sistemas, encabezados por investigadores en un campo conocido como diseño de interacción de computadora humana, sigue siendo tanto un arte como una ciencia.
No es posible aún crear una voz computarizada que sea distinguible de una humana para algo más largo que frases cortas que pudieran ser usadas para pronósticos del clima o comunicar indicaciones para conductores.
La mayoría de los diseñadores de software reconocen que mantienen el intento de cruzar el “valle siniestro” en el que las voces que suenan casi humanas realmente son perturbadoras o discordantes. La frase fue acuñada por el ingeniero robótico japonés Masahiro Mori en 1970. Observó que conforme las animaciones gráficas se volvían más similares a los humanos, había un punto en el cual llegaban a ser atemorizantes e intimidantes. Lo mismo aplica al habla.
“Lo definiría como inquietante”, dijo Brian Langner, científico del habla en ToyTalk, una firma tecnológica en San Francisco que crea expresión verbal digital para productos como la muñeca Barbie. “Cuando las máquinas hacen algunas de esas cosas de la manera correcta, la gente tiende a esperar que harán correctamente todo”.
Más allá de la pronunciación correcta, existe el desafío todavía mayor de dotar al habla de cualidades humanas como la inflexión y la emoción. Los lingüistas llaman a esto “prosodia”: la capacidad para añadir el acento, la entonación o el sentimiento correctos al lenguaje hablado.
El habla sintetizada se crea de varias maneras. Las técnicas de más alta calidad para que suene natural empiezan con una voz humana que se utiliza para generar una base de datos de la expresión verbal en muchas formas diferentes. Un actor puede pasar desde 10 hasta cientos de horas de trabajo.
Las raíces de la tecnología de síntesis del habla están en los primeros trabajos del científico computacional escocés Alan Black, quien ahora es profesor en el Instituto de Tecnologías del Lenguaje en la Universidad Carnegie Mellon.
Black reconoce que, incluso cuando se han hecho importantes avances, los sistemas de síntesis del habla no logran todavía una perfección similar a la humana. “El problema es que no tenemos buenos controles sobre cómo decir a estos sintetizadores: ‘Digan esto con sentimiento’”, afirmó.
Para desarrolladores como los de ToyTalk, que diseñan personajes de entretenimiento, los errores quizá no sean fatales, ya que el objetivo es entretener o incluso hacer reír a su audiencia. Sin embargo, para programas que están destinados a colaborar con humanos en situaciones comerciales o para ser compañeros, los desafíos son más sutiles.
Estos diseñadores a menudo dicen que no quieren tratar de hacer creer a los humanos que las máquinas están comunicándose, sino que aún quieren crear una relación tipo humana entre el usuario y la máquina.
Jeopardy! fue un problema de síntesis del habla particularmente desafiante para los investigadores de IBM porque, aunque las respuestas eran breves, había una enorme cantidad de errores de pronunciación posibles.
“La tasa de error, simplemente al pronunciar correctamente una palabra, fue nuestro mayor problema”, comentó Andy Aaron, un investigador del Laboratorio de Entornos Cognitivos de IBM Research.
Andy Aaron, un investigación de IBM, dice que la mala pronunciación fue el problema más grande para crear a Watson de «Jeopardy!». Credit Credit Cole Wilson para The New York Times
Los investigadores entrevistaron a 25 actores de voces en busca de un sonido humano particular a partir del cual crear la voz de Watson. Jugaron con ella de varias formas, incluso cambiaron su frecuencia para que sonara como la de un niño.
“Este tipo de personaje fue rechazado casi por todos”, aseguró Michael Picheny, gerente en el Laboratorio Multimodal Watson de IBM Research. “No queríamos que la voz sonara con un entusiasmo exagerado”.
Los investigadores buscaban una voz de máquina que fuera lenta, constante y, lo más importante, “agradable”. Y, al final, más como artistas que como ingenieros, sintonizaron el programa. La voz a la que llegaron es claramente una computadora, pero suena optimista, incluso un poco vivaz.
“Una buena interfaz de máquina computacional es una pieza de arte y debería ser tratada como tal”, dijo Picheny.
Fuente: Thenewyorktimes.com
Deja una respuesta
Lo siento, debes estar conectado para publicar un comentario.