Blog de AIID

Rapport d'incident multilingue

Voir l'original Posted 2022-08-11 by Sean McGregor et Cesar Varela.

La recherche et le développement ont un problème non résolu majeur dans les systèmes d'IA de pointe: faire en sorte que les systèmes fonctionnent bien au-delà de l'environnement pour lequel ils ont été conçus. Bien que ce problème porte de nombreux noms (par exemple, changement de distribution, généralisation du modèle, robustesse des ensembles ouverts, etc.), ses implications sont déjà apparentes dans le monde réel,

Incident 171: un conducteur est condamné à une amende après avoir confondu le t-shirt d'une femme avec une plaque d'immatriculation. Le lecteur de plaque d'immatriculation n'est pas conçu pour différencier les chemises et les plaques d'immatriculation, il ne résout donc pas le problème de l'ensemble ouvert.

Incident 36: Une femme est honteuse en Chine pour avoir fait du jaywalking parce que son image est sur le côté d'un bus. Le système de détection de personnes n'est pas conçu pour différencier les images de personnes des personnes réelles.

Cette incapacité à "généraliser" est l'une des raisons pour lesquelles le partage d'incidents à travers les cultures, les géographies et les langues est si important: un système produit à l'origine dans un pays et déployé dans un autre produira des incidents imprévus dont le monde entier doit tirer des leçons. Par conséquent, la base de données d'incidents d'IA a commencé à indexer les incidents d'IA dans toutes les langues.

Comment ça marche?

La base de données d'incidents d'IA indexe les "rapports d'incidents" écrits, qui jusqu'à présent étaient entièrement en anglais. Désormais, lorsqu'un incident est signalé, le rapport est étiqueté avec une langue source et traduit automatiquement dans toutes les langues actuellement prises en charge.

List of supported languages

Langues dans lesquelles nous acceptons les rapports

Languages Presented to Users
Afrikaans

English and Spanish

Albanian
Amharic
Arabic
Armenian
Assamese
Aymara

Azerbaijani

Bambara
Basque

Belarusian

Bengali
Bhojpuri
Bosnian
Bulgarian

Burmese (Myanmar)

Catalan
Cebuano

Chewa (Chichewa)

Chinese (

Simplified

)

Chinese (

Traditional

)

Corsican
Croatian
Czech
Danish
Dogri
Dutch
English
Esperanto
Estonian
Ewe
Finnish
French
Galician
Georgian
German
Greek
Guarani
Gujarati

Haitian Creole

Hausa
Hawaiian
Hebrew
Hindi
Hmong
Hungarian
Icelandic
Igbo
Ilocano

Indonesian

Irish
Italian
Japanese
Javanese
Kannada
Kazakh
Khmer
Kinyarwanda
Konkani
Korean
Krio

Kurdish ( Kurmanji)

Kurdish ( Sorani)

Kyrgyz
Lao
Latin
Latvian
Lingala

Lithuanian

Luganda
Luxembourgish

Macedonian

Maithili
Malagasy
Malay
Malayalam

Maldivian (Dhivehi)

Maltese

Māori (Maori)

Marathi

Meitei (Manipuri, Meiteilon)

Mizo
Mongolian
Nepali

Northern Sotho

(Sepedi)

Norwegian

Odia (Oriya)

Oromo
Pashto
Persian
Polish

Portuguese

Punjabi
Quechua
Romanian
Russian
Samoan
Sanskrit

Scottish Gaelic

(Scots Gaelic)

Serbian
Sesotho
Shona
Sindhi
Sinhala
Slovak
Slovenian
Somali
Spanish
Sundanese
Swahili
Swedish

Tagalog ( Filipino)

Tajik
Tamil
Tatar
Telugu
Thai
Tigrinya
Tsonga
Turkish
Turkmen
Twi
Ukrainian
Urdu
Uyghur
Uzbek

Vietnamese

Welsh

West Frisian

(Frisian)

Xhosa
Yiddish
Yoruba
Zulu

Pourquoi acceptons-nous 133 langues, mais ne fournissons-nous qu'une interface utilisateur pour trois langues ? Opportunité et prudence. Premièrement, la traduction de l'interface utilisateur (par exemple, les boutons, les descriptions, etc.) dans différentes langues prend du temps. Deuxièmement, la base de données d'incidents d'IA a de nombreux collaborateurs qui connaissent l'anglais et l'espagnol et peuvent corriger les mauvaises traductions. Bien que la traduction automatique prend en charge plus de 130 langues, nous pensons que les pires langues traduites ne sont pas suffisamment robustes pour être fiables. En fait, lors de nos tests de performances entre l'espagnol et l'anglais, nous avons trouvé que le texte résultant était interprétable, mais maladroit et incohérent. Les traductions sont bien adaptées aux fins de partage et de découverte d'incidents, mais ne sont pas de bonne qualité. Au fur et à mesure que nous gagnons confiance dans la qualité de la traduction automatique des langues à faibles ressources et/ou élargissons notre communauté de collaborateurs, nous ajouterons des langues à l'interface utilisateur de la base de données. Nous prévoyons d'ajouter le support en français au cours du mois prochain.

En bref: la voie la plus rapide et la plus prudente consiste à ajouter une seule langue avant de mettre à l'échelle la fonctionnalité. Vous pouvez nous aider à accélérer nos projets d'indexation de toutes les langues, de l'albanais au zoulou.

Appel à l'action

Nous avons fondé la Responsible AI Collaborative (l'organisation qui régit la base de données d'incidents d'IA) pour développer en collaboration les systèmes nécessaires au partage des incidents entre les cultures, les langues et les zones géographiques. Nous avons besoin de votre aide pour nous assurer que nos traductions servent la théorie du changement de la Incident Database. Veuillez nous contacter si vous souhaitez aider à traduire des langues autres que l'anglais!

Addendum : Risques liés au modèle et meilleures pratiques

Avertissement : nous donnons ici un exemple d'erreur de traduction pour illustrer comment la traduction automatique produira inévitablement des incidents liés à l'IA. L'incident en question est offensant et insultant.

La traduction automatique est un cas illustratif idéal pour expliquer pourquoi la collecte et la diffusion des incidents d'IA sont si importantes. Peu de gens diraient que le monde serait mieux sans traduction automatique, mais la technologie produit régulièrement des incidents offensants et parfois dangereux.

Un navire au port est sûr, mais ce n'est pas pour cela que les navires sont construits.

Pour prolonger un aphorisme sur la sécurité des navires, il existe une variété de technologies de soutien (satellites météo, radar, etc.) et de processus (fermez les écoutes !) déterminant comment et s'il est approprié de mettre les voiles. Les entreprises, y compris la Responsible AI Collaborative, doivent mettre en place des systèmes et des processus pour la surveillance, l'amélioration et le signalement des incidents.

Revenant au contexte de la traduction automatique, le défi non résolu de la généralisation est celui du contexte et du sous-texte. Les humains ont un "modèle" pour leur public qui leur permet de communiquer plus que la traduction littérale du texte. La résolution de ce sous-texte est souvent l'endroit où la traduction automatique tourne mal. Par exemple, un contributeur de la base de données d'incidents a récemment partagé cette image de la fonctionnalité de traduction basée sur l'appareil photo de Google sur Google Lens,

Il s'agit d'une traduction qui ne devrait jamais être produite dans le contexte d'un livre concernant le premier ministre de la culture en Corée. Cependant, en discutant avec des lecteurs de la langue coréenne, vous pouvez voir comment une traduction sans contexte qui est probablement entrainée avec les communications Internet pourrait arriver à cette traduction.

Le titre du livre se traduit littéralement par "ça, ça", ce qui signifie aussi "sur le bout de ma langue". Combinez cela avec l'utilisation coréenne de "ça" comme argot pour les organes génitaux masculins, et vous arrivez à cette malheureuse erreur de traduction. Sans le contexte que le texte traduit est le titre d'un livre d'une personne sérieuse, la traduction la plus probable (et la plus choquante) est celle que l'on trouverait sur les messages électroniques.

Pouvons-nous éviter d'ajouter la base de données d'incidents d'IA en tant qu'incident dans la base de données des incidents AI ?

Non. Mais nous pouvons réduire la probabilité et les impacts négatifs. À cet égard, les meilleures pratiques que nous avons identifiées sont : (1) toujours identifier dans l'interface utilisateur lorsque le contenu a été traduit automatiquement, (2) fournir un lien vers le texte source non traduit, (3) fournir la possibilité aux personnes de signaler, corriger et améliorer les mauvaises traductions, (4) valider l'efficacité des traductions entre les langues avant de rendre ces traductions généralement disponibles, et (5) développer une communauté de personnes qui peut interpréter et répondre aux problèmes de traduction s'ils surviennent. */}