Justiça no aprendizado de máquina: eliminando o viés de dados

Fairness in Machine Learning: Eliminating Data Bias

A Inteligência Artificial (IA) é completamente dependente dos conjuntos de dados usados ​​para treinar seu modelo de aprendizado de máquina (ML) subjacente.

Os desenvolvedores criam modelos de ML com base em seus conjuntos de dados de treinamento coletados e anotados. Os dados de treinamento informam o modelo de ML para fazer previsões sobre o mundo. Portanto, quanto melhores os dados anotados, melhores as previsões.

No entanto, surgem problemas quando os dados anotados estão errados ou distorcidos: o resultado não será o esperado e os modelos preditivos falharão.

Dados distorcidos podem ser atribuídos a muitas coisas. Muitas vezes, significa que os dados foram rotulados de forma imprecisa, contêm erros e/ou são de baixa qualidade. Mas as decisões de categorização feitas por humanos também podem causar distorção; é uma situação de “entrar lixo, sair lixo”.

Essa condição – a diferença nos dados de sua forma mais precisa de representação – é chamada de viés de dados; e pode ter consequências desastrosas para os modelos de ML e os sistemas de IA baseados neles. (Leia também: A IA pode ter vieses?)

Aqui, veremos de onde vem o viés de dados, exemplos do mundo real e o que podemos fazer para eliminar o viés na IA.

Viés em IA e aprendizado de máquina

Como mencionado anteriormente, o aprendizado de máquina (ML) é a parte da inteligência artificial (IA) que ajuda os sistemas a aprender e melhorar a partir da experiência sem programação tradicional contínua.

Quando dados ruins são inseridos em sistemas de ML, eles inserem “fatos” incorretos em informações úteis. O viés na IA, portanto, representa as situações em que os sistemas de análise de dados baseados em aprendizado de máquina diferenciam grupos específicos de pessoas. Essa discriminação geralmente ocorre ao longo das linhas de preconceitos sociopolíticos estabelecidos, como – mas não limitado a – raça, gênero, sexo atribuído, nacionalidade e idade.

O viés ocorre quando um algoritmo mostra resultados errados devido a erros nas suposições do processo de ML. Portanto, o viés de aprendizado de máquina geralmente vem dos indivíduos responsáveis ​​por projetar e treinar os sistemas de aprendizado de máquina – o viés de dados decorre do viés humano. (Leia também: A IA tem algumas explicações a fazer.)

Como dados ruins prejudicam o aprendizado de máquina

Dados errados podem ter efeitos desastrosos em sistemas de ML. Dados incompletos ou ausentes, dados incorretos e viés de dados são os principais fatores que podem arruinar um sistema de aprendizado de máquina. (Leia também: As Promessas e Armadilhas do Aprendizado de Máquina.)

Exemplos da vida real

O viés de aprendizado de máquina é um risco conhecido há muito tempo. Na verdade, o viés de aprendizado de máquina já foi encontrado em casos do mundo real, com viés resultando em consequências negativas. Aqui estão três desses exemplos:

1. BÚSSOLA (Perfil de Gestão Correcional de Infratores para Sanções Alternativas).

O COMPAS usa aprendizado de máquina para prever a probabilidade de um réu cometer outro crime no futuro. É um algoritmo usado por juízes para ajudar a determinar sentenças apropriadas em vários estados e jurisdições dos EUA.

No entanto, pesquisas posteriores descobriram que o COMPAS previu de forma muito imprecisa a reincidência de crimes violentos com base na cor da pele negra ou branca – descobertas que a empresa proprietária do COMPAS contestou. Esta pesquisa traz à tona questões sobre o uso de algoritmos de aprendizado de máquina e como falhas humanas, como discriminação racial, podem resultar em falhas aprendidas por máquina.

2. IBM Watson.

Muitas críticas foram levantadas contra o IBM Watson Supercomputer – especificamente em relação à sua incursão na medicina. (Leia também: Os 20 principais casos de uso de IA: inteligência artificial na área da saúde.)

O supercomputador vencedor do “Jeopardy” analisa centenas de milhares de estudos médicos para fornecer sugestões baseadas em pesquisas aos médicos. Mas determinar quais estudos favorecer mais fortemente – ou seja, favorecer estudos respeitáveis ​​sobre aqueles que eram falhos ou tendenciosos – não era um dos pontos fortes do algoritmo. Isso resultou em dados não confiáveis.

Além disso, alguns reclamaram que Watson era tendencioso em relação aos métodos americanos de diagnóstico e tratamento e que Watson tinha problemas para entender as prescrições manuscritas dos médicos.

3. Voz AI.

A IA de voz tornou-se, sem dúvida, popular nos últimos anos. As pessoas preferem usar a função de pesquisa por voz em vez da pesquisa de texto tradicional ao pesquisar qualquer informação no Google.

No entanto, o modelo de voz AI tem um viés notável contra as mulheres. O reconhecimento de fala geralmente não funciona bem para as mulheres; e esse viés pode ter um impacto significativo sobre os usuários. Como exemplo, uma mulher nativa de língua inglesa e altamente educada não conseguiu passar no teste de habilidade em inglês falado, que usou IA de voz, para a imigração australiana. (Leia também: Mulheres na IA: reforçando o sexismo e os estereótipos com tecnologia.)

Dialetos diferentes também afetam conjuntos de dados para reconhecimento de voz adequado. Essas falhas podem acontecer por causa de coisas como conjuntos de dados defeituosos e análise de dados. No entanto, alguns especulam que os próprios bancos de dados incluem principalmente dados masculinos e não possuem vozes femininas e dialetais.

Tipos de viés de aprendizado de máquina

Vários fatores podem influenciar o viés de aprendizado de máquina.

Aqui estão algumas das principais situações que criam viés nos modelos de aprendizado de máquina:

Viés de amostra

O viés amostral ocorre quando os dados usados ​​para treinar o algoritmo não representam perfeitamente o espaço do problema em que o modelo opera. Em outras palavras, esse tipo de viés ocorre quando um conjunto de dados não mostra as realidades do ambiente em que um modelo será executado .

Alguns exemplos de viés simples podem ser:

  • Sistemas de reconhecimento facial treinados principalmente em imagens de homens brancos, mas usados ​​para identificar todos os gêneros e cores de pele.
  • Espera-se que um carro autônomo funcione durante o dia e à noite, mas é treinado apenas com dados noturnos.

Viés do algoritmo

O viés de algoritmo ocorre quando há um problema no algoritmo que realiza os cálculos que habilitar os cálculos de aprendizado de máquina.

Esse tipo de viés não tem nada a ver com dados e nos lembra que “viés” é sobrecarregado.

Viés Prejudicial

Preconceito, também chamado de preconceito racial, tende a dominar as manchetes relacionadas a falhas de IA porque geralmente afeta questões culturais e políticas.

Esse viés acontece quando os dados de treinamento são influenciados pelos vieses e/ou preconceitos subjacentes do treinador humano. Os cientistas de dados e as empresas devem ser obrigados a garantir que o algoritmo não produza saídas convencionais ou preconceituosas. (Leia também: Por que a diversidade é essencial para que os dados de qualidade treinem a IA.)

Viés de medição

A deformação sistemática do valor ocorre quando são observados problemas com o dispositivo de observação e/ou medição.

Esse tipo de viés altera os dados em uma direção específica; e medições incorretas resultam em malformação de dados. Como exemplo, esse tipo de viés ocorre em conjuntos de dados de reconhecimento de imagem em que os dados de treinamento são coletados por um tipo de câmera, mas os dados de produção são coletados de uma câmera diferente.

O viés de medição também pode ocorrer devido à anotação imperfeita durante a fase de rotulagem de dados de um projeto.

Viés de exclusão

O viés de exclusão ocorre quando um ponto de dados importante está ausente ou é negligenciado nos dados que estão sendo usados. Isso também é muito comum na fase de pré-processamento de dados. Na maioria das vezes ocorre devido à remoção de dados valiosos erroneamente considerados sem importância.

Viés do observador

Também conhecido como “viés de confirmação”, o viés do observador acontece quando o observador encontra propositalmente os resultados que espera ver, independentemente do que os dados afirmam.

O viés do observador pode ocorrer quando os pesquisadores ingressam em um projeto com uma ideia pré-assumida com base em seu conhecimento subjetivo de estudos anteriores. Isso também acontece quando os rotuladores usam seu conhecimento subjetivo para controlar seu trabalho de rotulagem, causando dados imperfeitos. (Leia também: Quais são algumas questões éticas relacionadas ao aprendizado de máquina?)

Viés de Recall

Este é um tipo de viés de medição e também é comum na fase de rotulagem de dados.

O viés de recordação ocorre quando tipos semelhantes de dados são rotulados de forma inconsistente. Isso afeta a precisão do resultado final.

Todos esses tipos de vieses significam que os sistemas de IA sempre contêm alguma quantidade de erro humano.

Justiça no aprendizado de máquina

Justiça no aprendizado de máquina significa projetar ou criar algoritmos em um sistema de máquina que não seja influenciado por nenhum preconceito externo e possa produzir os resultados desejados com precisão.

Os conjuntos de dados de treinamento usados ​​em modelos de aprendizado de máquina desempenham um papel fundamental para ajudar o sistema a funcionar corretamente e sem falhas. (Leia também: Termos básicos de aprendizado de máquina que você deve conhecer.)

Como eliminar o viés no aprendizado de máquina

A remoção do viés de dados no aprendizado de máquina é um processo contínuo. A limpeza quase constante de dados e o viés de aprendizado de máquina são necessários para criar processos de coleta de dados precisos e cuidadosos.

A conscientização e a boa administração podem ajudar a evitar o viés de aprendizado de máquina. Isso porque resolver o viés de dados requer primeiro decidir onde o viés ocorre. Uma vez localizado, o viés pode ser removido do sistema. (Leia também: Automação: o futuro da ciência de dados e do aprendizado de máquina?)

No entanto, muitas vezes é difícil entender quando os dados ou o modelo são tendenciosos. Ainda assim, há uma série de medidas que podem ser tomadas para controlar esse tipo de situação. Esses incluem:

  • Testar e validar para garantir que os resultados do sistema de aprendizado de máquina não produzam viés devido a algoritmos ou conjuntos de dados.
  • Garantir que o grupo de cientistas de dados e rotuladores de dados seja diversificado.
  • Estabelecer diretrizes rígidas para as expectativas de rotulagem de dados para que os rotuladores de dados tenham etapas claras a seguir durante a anotação.
  • Reunindo várias entradas de origem para garantir a variedade de dados.
  • Analisar dados regularmente e manter registro de erros para que você possa resolvê-los o mais rápido possível.
  • Recebendo a ajuda de qualquer especialista de domínio para revisar dados coletados e anotados. Alguém de fora da equipe pode notar preconceitos não verificados.
  • Usando recursos externos, como a ferramenta What-if do Google ou o AI Fairness 360 Open Source Toolkit da IBM, para examinar e inspecionar modelos de ML.
  • Implementação de anotação de várias passagens para qualquer projeto em que a perfeição de dados possa tender a ser tendenciosa.

Pensamentos finais

As máquinas requerem um grande volume de dados para aprender; e anotar com precisão os dados de treinamento é tão importante quanto o próprio algoritmo de aprendizado.

Um motivo comum pelo qual os modelos de ML não funcionam perfeitamente é que eles foram criados com base em dados de treinamento imperfeitos e tendenciosos. Então, como corrigimos isso?

Aqui estão algumas sugestões:

  • Os dados de treinamento devem ser precisos e de alta qualidade para eliminar o viés.
  • As organizações devem contratar equipes de tecnologia com diversos membros, tanto construindo modelos quanto criando dados de treinamento. (Leia também: RH inteligente: como a IA está transformando a aquisição de talentos.)
  • Se os sistemas internos produzem dados de treinamento, é necessário encontrar os dados mais abrangentes e experimentar diferentes conjuntos de dados e métricas.
  • Se parceiros externos coletarem dados de treinamento, é essencial recrutar recursos de multidão distribuídos para anotação de dados.
  • É essencial verificar se os dados de treinamento têm algum viés implícito depois de criados.

Gostou? Compartilhe!
© 2021 - Desassossegada. All Rights Reserved.