Registro de citas para el Incidente 12

Description: Researchers from Boston University and Microsoft Research, New England demonstrated gender bias in the most common techniques used to embed words for natural language processing (NLP).

Herramientas

Nuevo InformeNuevo InformeNueva RespuestaNueva RespuestaDescubrirDescubrirView HistoryView History
Presunto: un sistema de IA desarrollado por Microsoft Research , Boston University y Google e implementado por Microsoft Research y Boston University, perjudicó a Women y Minority Groups.

Estadísticas de incidentes

ID
12
Cantidad de informes
1
Fecha del Incidente
2016-07-21
Editores
Sean McGregor

Clasificaciones de la Taxonomía CSETv1

Detalles de la Taxonomía

Harm Distribution Basis

sex

Sector of Deployment

professional, scientific and technical activities

Clasificaciones de la Taxonomía CSETv0

Detalles de la Taxonomía

Full Description

The most common techniques used to embed words for natural language processing (NLP) show gender bias, according to researchers from Boston University and Microsoft Research, New England. The primary embedding studied was a 300-dimensional word2vec embedding of words from a corpus of Google News texts, chosen because it is open-source and popular in NLP applications. After demonstrating gender bias in the embedding, the researchers show that several geometric features are associated with that bias which can be used to define the bias subspace. This finding allows them to create several debiasing algorithms.

Short Description

Researchers from Boston University and Microsoft Research, New England demonstrated gender bias in the most common techniques used to embed words for natural language processing (NLP).

Severity

Unclear/unknown

Harm Distribution Basis

Sex

AI System Description

Machine learning algorithms that create word embeddings from a text corpus.

Relevant AI functions

Unclear

AI Techniques

Vector word embedding

AI Applications

Natural language processing

Location

Global

Named Entities

Microsoft, Boston University, Google News

Technology Purveyor

Microsoft

Beginning Date

2016-01-01T00:00:00.000Z

Ending Date

2016-01-01T00:00:00.000Z

Near Miss

Unclear/unknown

Intent

Unclear

Lives Lost

No

arxiv.org · 2016

La aplicación ciega del aprendizaje automático corre el riesgo de amplificar los sesgos presentes en los datos. Nos enfrentamos a un peligro de este tipo con la incrustación de palabras, un marco popular para representar datos de texto como…

Variantes

Una "Variante" es un incidente que comparte los mismos factores causales, produce daños similares e involucra los mismos sistemas inteligentes que un incidente de IA conocido. En lugar de indexar las variantes como incidentes completamente separados, enumeramos las variaciones de los incidentes bajo el primer incidente similar enviado a la base de datos. A diferencia de otros tipos de envío a la base de datos de incidentes, no se requiere que las variantes tengan informes como evidencia externa a la base de datos de incidentes. Obtenga más información del trabajo de investigación.