Más información sobre la conversación

¿Eres nuevo en el diseño de conversaciones? A continuación, te presentamos algunos principios y conceptos de alto nivel para comenzar antes de escribir tu primer diálogo de muestra.
Mire este video para obtener un curso intensivo sobre cómo escribir un diálogo que sea cómodo, sencillo y centrado en el usuario mediante la aplicación del principio cooperativo.

De acuerdo con el principio cooperativo, la comunicación eficaz se basa en la suposición de que existe un trasfondo de cooperación entre los participantes de la conversación.

El Principio cooperativo se puede interpretar en términos de cuatro reglas, llamadas Maxims de Grice.

Cooperamos instintivamente en términos de... Maxim (o regla)
...la verdad de lo que decimos Máxima calidad
...la cantidad de información que proporcionamos Máximo de cantidad
La relevancia de nuestros aportes Máximo de relevancia
La forma en que nos esforzamos por comunicarnos de forma clara, sin oscuridad ni ambigüedad. Máximo de Manner
Las investigaciones demuestran que las personas responden a la tecnología tal como lo harían con otro ser humano. Esto significa que los usuarios dependen de su modelo existente de conversación interpersonal y siguen el principio cooperativo, incluso cuando interactúan con personas de una interfaz de usuario de conversación, y esperan que estas personas también la sigan.
Dado que los usuarios son cooperativos, a menudo ofrecen más información de la que ellos necesitan literalmente.

Qué debes hacer:

Este usuario no solo respondió la pregunta sobre el tipo de calzado, sino que también especificó la talla para intentar encontrar lo que quería rápidamente. Este tipo de comportamiento se espera de usuarios recurrentes que saben qué otras preguntas se harán.

Qué no debes hacer:

Aquí, la persona solo esperaba recibir la respuesta a la pregunta sobre el tipo de calzado. Los usuarios cooperativos se sentirán frustrados por tener que repetir el tamaño de zapato nuevamente.

Tu persona no siempre podrá manejar respuestas cooperativas. En estos casos, utiliza el manejo de errores ligeros y conversacionales para que el diálogo vuelva a funcionar de una manera que no llame la atención del error.

Qué debes hacer:

Si su persona espera una respuesta numérica, no se entenderán las respuestas cooperativas o informativas como estas. Soluciona este error de no coincidencia con una repetición rápida.

Qué no debes hacer:

Evita responder con solicitudes largas cuando sea posible. En este caso, la solicitud más corta tendrá el mismo propósito, sin que el usuario espere tanto.

Al igual que los usuarios, la persona también debe ser cooperativa e informativa, y ofrecer toda la información necesaria para avanzar en la conversación.

Qué debes hacer:

Esta persona se esfuerza por encontrar opciones de entrega alternativas que satisfagan la intención del usuario, un gesto cooperativo para avanzar en la conversación.

Qué no debes hacer:

Esta persona no intenta satisfacer la intención del usuario y, después de presentar una mala noticia, simplemente finaliza la interacción.

En una conversación, decir demasiado es tan poco cooperativo como decir poco. Facilita la comprensión y mantén los turnos breves y óptimos desde el punto de vista del usuario.

Qué debes hacer:

Este diseño está optimizado para ser relevante. La persona no incluye detalles que no son relevantes para la decisión actual.

Qué no debes hacer:

Desde el punto de vista del usuario, la mayor parte de esta información es irrelevante y repetitiva. Todos estos detalles imponen una gran carga a la memoria a corto plazo del usuario mientras espera con paciencia su turno.

Qué debes hacer:

Este diseño está optimizado para ser relevante. Solo se les solicitará de forma explícita a muy pocos usuarios que no digan el código de área.

Qué no debes hacer:

Este diseño obliga a todos los usuarios a escuchar instrucciones sobre cómo decir un número de teléfono de una forma que sea más fácil para la persona, pero no para el usuario. También presupone que, de manera incorrecta, el usuario no podría hacerlo sin instrucciones, lo que hace que parezca un mensaje de error.

Saber lo que dijo una persona no es lo mismo que saber a qué se refiere. A menudo, las personas sugieren cosas en lugar de indicarlas explícitamente. Nuestra capacidad de "escuchar los límites" se conoce como "implicación conversacional".

Implicación vs. implicación. Por implicación conversacional, "Anoche vi a Juan en un restaurante con una mujer", sugiere que Juan estaba con una mujer que no era su esposa, porque si la mujer hubiera sido su esposa, el orador lo hubiera dicho. Sin embargo, por implicación lógica, la mujer podría haber sido la esposa de Juan, ya que todas las esposas son mujeres.

Qué debes hacer:

Asegúrense de agregar manejo para frases como "Eso es todo", "Eso fue todo", "Gracias" o "Terminé", por lo que el significado implícito suele ser "Saqué todo lo que necesito de esta conversación y habré terminado. Adiós".

Qué no debes hacer:

Aquí, "Eso es todo" no se agregó a la gramática, por lo que se activa un error de falta de coincidencia.

Naturalmente, las personas evitan la ambigüedad y la oscuridad de la expresión en una conversación. Usar palabras y frases conocidas ayuda a reducir la carga cognitiva. En el caso de la elección de palabras, si no lo diría, su persona tampoco debería decirlo.

Cuando no puedas decidir entre algunos términos similares, usa Google Trends para descubrir cuáles son los términos de búsqueda más populares y Google Libros Ngram Viewer para descubrir cuál es el más publicado.

Qué debes hacer:

Es posible que el usuario haya cometido un error tipográfico o se haya corregido rápidamente al hablar. Por lo tanto, la persona explica el problema en un lenguaje sencillo y vuelve a preguntar.

Qué no debes hacer:

"No válido" es demasiado técnico y no ayuda a que el usuario vuelva a encaminarse.

Qué debes hacer:

Las confirmaciones son simples. "Listo" también es una buena opción.

Qué no debes hacer:

"Transacción", "solicitada" y "completa" son formales, no coloquiales. Además, este mensaje no es relevante: no hay ningún valor para recordarle al usuario que acaba de solicitar una transacción.

Qué debes hacer:

Confirma que se entendió la solicitud del usuario y apunta a los resultados.

Qué no debes hacer:

"Eventos coincidentes" es una expresión técnica. La "coincidencia" es la correlación entre lo que dijo el usuario y los conciertos disponibles. Los usuarios cotidianos no saben, mucho menos, el desafío de hacer coincidir las consultas con los resultados. Además, la concordancia de "eventos" es ambigua, también puede significar eventos que coinciden, como "calcetines que coincidan".


Contexto

Los avances en el reconocimiento de voz automático (ASR) significan que casi siempre sabemos exactamente lo que dicen los usuarios. Sin embargo, determinar qué significan los usuarios sigue siendo un desafío.

A menudo, las expresiones no se pueden comprender de forma aislada, solo se pueden entender en contexto.

Tu persona debe realizar un seguimiento del contexto para comprender las declaraciones del usuario.

Si usas Dialogflow, consulta aquí para obtener más información sobre cómo agregar contexto.

Qué debes hacer:

Se necesita información sobre el giro anterior para saber que "él" se refiere a NotARealDJ. Y se necesita conocer la ubicación geográfica del usuario para saber que "la ciudad" se refiere a "Rosario".

Qué no debes hacer:

En este caso, no se entiende la pregunta del usuario y se genera un error de no coincidencia.

Tu persona debe realizar un seguimiento del contexto para entender los intents de seguimiento.

A menos que el usuario cambie de tema, podemos suponer que la conversación continúa. Por lo tanto, es probable que las ambigüedades en la declaración actual se puedan resolver mediante la referencia a expresiones anteriores.

Si usas Dialogflow, lee la sección sobre intents de seguimiento para obtener detalles.

Qué debes hacer:

Mediante el uso de intents de seguimiento, la persona puede comprender la frase "¿Y alrededor de media docena?" es un seguimiento del enunciado anterior del usuario y, luego, interpretarlo como "¿Cuánto cuesta un ramo de 6 rosas?".

Qué no debes hacer:

Si tu acción no interpreta las declaraciones en su contexto de conversación más amplio, interpretará mal la consulta del usuario o se producirá un error (en este caso, un error de falta de coincidencia).

En el caso de las interacciones multimodales, todo el contenido de la pantalla forma parte del contexto de la conversación. Si los usuarios pueden verla, asumirán que pueden hacer referencia a ella.

Qué debes hacer:

Prevea referencias a la ubicación de un elemento en la pantalla, p.ej., "el primero" o cómo se ve, p.ej., "el rojo".

Qué no debes hacer:

Se considera un problema cuando su persona no parece tener conocimiento de lo que se muestra en la pantalla.


Variante

La variedad es el condimento de la vida. Los usuarios prestan más atención cuando hay más. La variedad también puede evitar que la interacción sea monótona o robótica.

Así que es aleatorio. Por lo general, existen algunas alternativas de conversación que funcionarán. Enfóquese en los mensajes que los usuarios escuchan con frecuencia para que sus frases no se vuelvan tediosas.

Si usas Dialogflow, podrás agregar múltiples variaciones de respuesta fácilmente.

Considera todas las formas diferentes de responder la pregunta "¿qué hora es?".

Si tu acción les indica a los usuarios la hora, te recomendamos que agregues todas las variaciones anteriores y que se les hagan aleatoriamente y que se les apliquen en las condiciones en las que se apliquen.


Por turnos

Por turnos, evitamos interrumpirnos y mantener la conversación sincronizada. La toma de turnos trata sobre quién "tiene el micrófono": toma el micrófono, lo sostiene y lo pasa a otra bocina. Para manejar este proceso complejo, nos basamos en un amplio inventario de pistas incorporadas en la estructura de las oraciones, la entonación, la mirada y el lenguaje corporal. Aunque tu acción se limitará a expresar y detectar estas indicaciones, aún puedes escribir mensajes de modo que el usuario sepa cuándo debe tomar su turno.
Tu persona debería dar indicadores claros cuando sea el turno del usuario.

Qué debes hacer:

Haga una pregunta para que el llamado a la acción sea claro.

Qué no debes hacer:

Cuando se les presenta este diseño, muchos usuarios no se toman su turno.

Tu persona no debe monopolizar la conversación ni intentar presentar todas las opciones o preguntas en un solo turno.

Qué debes hacer:

Notificar al usuario con una sola pregunta a la vez

Qué no debes hacer:

No sigas hablando después de hacer una pregunta. No abrumes al usuario con opciones y preguntas.


Recursos adicionales

  • Dale personalidad a tu VUI
  • Avanzar en la conversación
  • Sé breve y sé relevante
  • Aprovecha el contexto
  • Dirigir el enfoque del usuario a través del orden de las palabras y del estrés
  • No se enseñan "comandos", sino que el habla es intuitivo
Método Podcast, episodio 8, Margaret Urban, diseñadora de interacción sénior de Google, sobre la ciencia del habla y el diseño de interfaces de usuario para el Asistente de Google

Algunos puntos importantes:

  • Sobre la magia del lenguaje, 3:13
  • "Toda mi vida me fascinaba. Creo que es mágico. Es como telepatía, es decir, simplemente por la vibración de una onda de sonido, puedo poner una idea en mi cabeza”.
  • Sobre cómo hacer que las computadoras suenen humanas, 2:37
  • "La forma en que se usa el lenguaje en el contexto social es muy importante para crear algo que suene natural. Porque queremos que las computadoras hablen como personas. No queremos obligar a la gente a hablar como las computadoras".
The Incredible Thing We Make during Conversations de Ed Yong. El Atlántico. 4 de enero de 2016
"Cuando hablamos, nos turnamos para cambiar el "derecho" de hablar entre los socios. Este tono coloquial es tan familiar y aparentemente inusual que rara vez lo hacemos. Pero considere el tiempo: en promedio, cada turno dura aproximadamente 2 segundos, y el intervalo típico es de solo 200 milisegundos (casi el tiempo suficiente para expresar una sílabas). Esa cifra es casi universal. Existe entre culturas, con solo pequeñas variaciones. Incluso está allí en las conversaciones en lenguaje de señas".
"Cuando una persona le hace una pregunta a una persona, tarda en promedio 200 milisegundos en responder. Es tan rápida que ni siquiera podemos escuchar la pausa. De hecho, es más rápido de lo que nuestros cerebros realmente funcionan. Le lleva al cerebro aproximadamente medio segundo recuperar las palabras para decir algo, lo que significa que, en una conversación, una persona se prepara para hablar incluso antes de que la otra termine. Si escuchamos el tono, la gramática y el contenido de los discursos de otras personas, podemos predecir cuándo estarán listos".
La importancia de las pausas en las conversaciones, de Johnson. The Economist 14 de diciembre de 2017
"Resulta ser una conversación, es una máquina bien ajustada", sugiere Nick Enfield, lingüista de la University of Sydney, en "How We Talk". Los seres humanos, en general, siguen una regla denominada "sin brecha, sin superposición" que reacciona al final de un turno de conversación al iniciar el propio en unos 200 milisegundos, es decir, aproximadamente, el tiempo necesario para responder a la pistola inicial. Esto es aún más extraordinario, dado que una persona tarda aproximadamente 600 milisegundos en descifrar las palabras y organizar cómo deben expresarse para expresarse".