Blog de AIID

Reportes de Incidentes Plurilingüe

Ver Original Posted 2022-08-11 by Sean McGregor and Cesar Varela.

La investigación y el desarrollo tienen un problema importante sin resolver en los sistemas de IA de última generación: hacer que los sistemas funcionen más allá del entorno para el que fueron diseñados. Si bien este problema tiene muchos nombres (por ejemplo, distributional shift, generalización del modelo, robustez de conjunto abierto, etc.), sus implicaciones ya son evidentes en el mundo real,

image5 image2
Incidente 171: Un conductor es multado después de que la camiseta de una mujer es confundida por la matrícula de su auto. El sistema no está diseñado para diferenciar camisetas y matrículas, por lo que no resuelve el problema del conjunto abierto.Incidente 36: Una mujer es condenada en China por cruzar la calle imprudentemente porque su imagen está en el costado de un autobús. El sistema de detección de personas no está diseñado para diferenciar la imagen de una persona o una persona real.

Esta incapacidad para "generalizar" es una de las razones por las que compartir incidentes entre culturas, geografías e idiomas es tan importante: un sistema producido originalmente en un país y desplegado en otro producirá incidentes imprevistos de los que todo el mundo necesita aprender. Por este motivo, la base de datos de incidentes de IA ha comenzado a indexar los incidentes de IA en varios idiomas.

¿Como funciona?

La Base de Datos de Incidentes de AI indexa "informes de incidentes", que hasta ahora han sido solamente en inglés. Ahora, cuando se informa un incidente, el informe se etiqueta con un idioma de origen y se traduce automáticamente a todos los idiomas soportados:

Click para ver la Lista de lenguages que aceptamos

Lenguajes que aceptamos

Lenguajes que prensetamos
Afrikaans

English and Spanish

Albanian
Amharic
Arabic
Armenian
Assamese
Aymara

Azerbaijani

Bambara
Basque

Belarusian

Bengali
Bhojpuri
Bosnian
Bulgarian

Burmese (Myanmar)

Catalan
Cebuano

Chewa (Chichewa)

Chinese (

Simplified

)

Chinese (

Traditional

)

Corsican
Croatian
Czech
Danish
Dogri
Dutch
English
Esperanto
Estonian
Ewe
Finnish
French
Galician
Georgian
German
Greek
Guarani
Gujarati

Haitian Creole

Hausa
Hawaiian
Hebrew
Hindi
Hmong
Hungarian
Icelandic
Igbo
Ilocano

Indonesian

Irish
Italian
Japanese
Javanese
Kannada
Kazakh
Khmer
Kinyarwanda
Konkani
Korean
Krio

Kurdish ( Kurmanji)

Kurdish ( Sorani)

Kyrgyz
Lao
Latin
Latvian
Lingala

Lithuanian

Luganda
Luxembourgish

Macedonian

Maithili
Malagasy
Malay
Malayalam

Maldivian (Dhivehi)

Maltese

Māori (Maori)

Marathi

Meitei (Manipuri, Meiteilon)

Mizo
Mongolian
Nepali

Northern Sotho

(Sepedi)

Norwegian

Odia (Oriya)

Oromo
Pashto
Persian
Polish

Portuguese

Punjabi
Quechua
Romanian
Russian
Samoan
Sanskrit

Scottish Gaelic

(Scots Gaelic)

Serbian
Sesotho
Shona
Sindhi
Sinhala
Slovak
Slovenian
Somali
Spanish
Sundanese
Swahili
Swedish

Tagalog ( Filipino)

Tajik
Tamil
Tatar
Telugu
Thai
Tigrinya
Tsonga
Turkish
Turkmen
Twi
Ukrainian
Urdu
Uyghur
Uzbek

Vietnamese

Welsh

West Frisian

(Frisian)

Xhosa
Yiddish
Yoruba
Zulu

¿Por qué aceptamos 133 idiomas, pero solo presentamos dos? Conveniencia y cautela. Primero, traducir la interfaz de usuario (por ejemplo, botones, descripciones, etc.) a diferentes idiomas lleva tiempo. En segundo lugar, la Base de Datos de Incidentes de AI tiene muchos colaboradores que saben inglés y español y pueden corregir las malas traducciones. Si bien la traducción automática admite más de 130 idiomas, no creemos que la calidad de las peores sea lo suficientemente sólida como para confiar en ellas. A medida que ganemos confianza en estas y/o ampliemos nuestra comunidad de colaboradores, iremos agregando nuevos idiomas a la interfaz. Esperamos agregar soporte en francés dentro del próximo mes.

En resumen: el camino a seguir más conveniente y cauteloso es agregar un solo idioma antes de escalar la funcionalidad. Tu puedes ayudar a acelerar nuestros planes para indexar nuevos idiomas, desde Afrikáans hasta Zulú.

Llamado a la acción

Fundamos la Responsible AI Collaborative (la organización que rige la Base de Datos de Incidentes de IA) para desarrollar colaborativamente los sistemas necesarios para compartir incidentes entre culturas, idiomas y geografías. Necesitamos tu ayuda para garantizar que nuestras traducciones sirvan a nuestra teoría del cambio. Ponte en contacto con nosotros si deseas ayudar a traducir y localizar idiomas distintos del inglés.

Anexo: Riesgos y mejores prácticas

Advertencia: aquí damos un ejemplo de una mala traducción para ilustrar cómo traducir utlizando machine learning inevitablemente producirá incidentes de IA. El incidente en cuestión es ofensivo e insultante.

Esta traducción es un caso ilustrativo ideal de por qué la recopilación y difusión de incidentes de IA es tan importante. Pocos argumentaran que el mundo estaría mejor sin la traducción por machine learning, y de hecho la tecnología produce regularmente incidentes ofensivos y, a veces, peligrosos.

Un barco en el puerto es seguro, pero no es para eso que ha sido construido.

Para extender un aforismo sobre la seguridad de los barcos, existe una variedad de tecnologías de apoyo (satélites meteorológicos, radar, etc.) y procesos (¡cerrar las escotillas!) que determinan cómo y si es apropiado zarpar. Las empresas, incluida la Responsible AI collaborative, deben crear sistemas y procesos para el seguimiento, la mejora y la notificación de incidentes..

Volviendo al contexto de la traducción por machine learning, el desafío de generalización sin resolver es uno de contexto y subtexto. Los humanos tienen un "modelo" para su audiencia que les permite comunicar más que la traducción literal del texto. Solucionar este subtexto es a menudo donde esta traducción falla. Por ejemplo, un colaborador de la base de datos de incidentes compartió recientemente esta imagen de la función de traducción basada en cámara de Google en Google Lens,

Esta es una traducción que nunca debió realizarse en el contexto de un libro del primer ministro de cultura de Corea. Sin embargo, en conversaciones con lectores del idioma coreano, se puede ver cómo una traducción sin contexto que probablemente esté entrenada en comunicaciones por Internet (podría llegar a esta traducción).

El título del libro se traduce literalmente como "eso, eso", que también significa "en la punta de la lengua". Esto sumado con el uso coreano de "eso" como jerga para los genitales masculinos, y podemos deducir cómo llegamos a esta desafortunada mala traducción. Sin que el contexto del texto traducido sea el título de un libro de una persona seria, la traducción más probable (y más ofensiva) es la que se encontraría en foros de Internet.

¿Podemos evitar agregar la base de datos de incidentes de IA como un incidente en la base de datos de incidentes de IA?

No. Pero podemos reducir la probabilidad y los impactos negativos. Hacia esto, las mejores prácticas que identificamos son: (1) identificar siempre en la interfaz de usuario cuando el contenido ha sido traducido por machine learning, (2) proporcionar un enlace al texto sin traducir, (3) proporcionar la capacidad para que las personas informen, corrijan y mejorar las malas traducciones, (4) validar la efectividad de las traducciones entre idiomas antes de hacer que esas traducciones estén disponibles para el público en general, y (5) desarrollar una comunidad de personas que puedan interpretar y responder a los problemas en las traducciones en caso de que ocurran.