Novas descobertas mostram como as fontes de dados estão concentrando poder nas mãos das maiores empresas de tecnologia.
A IA é tudo sobre dados. Montanhas de dados são necessárias para treinar algoritmos a fim de realizar o que desejamos, e o que entra nos modelos de IA determina o que sai deles. Mas aqui está o problema: desenvolvedores e pesquisadores de IA não sabem muito sobre as fontes dos dados que estão usando. As práticas de coleta de dados da IA são imaturas em comparação com a sofisticação do desenvolvimento de modelos de IA. Conjuntos de dados massivos frequentemente carecem de informações claras sobre o que contêm e de onde vieram.
A Iniciativa de Proveniência de Dados, um grupo de mais de 50 pesquisadores de academia e indústria, quis resolver isso. Eles queriam saber, de forma muito simples: De onde vêm os dados para construir a IA? Eles auditaram quase 4 mil conjuntos de dados públicos abrangendo mais de 600 idiomas, 67 países e três décadas. Os dados vieram de 800 fontes únicas e de quase 700 organizações.
As descobertas deles, compartilhadas exclusivamente com a MIT Technology Review, mostram uma tendência preocupante: as práticas de dados da IA correm o risco de concentrar poder de forma esmagadora nas mãos de algumas empresas de tecnologia dominantes.
No início da década de 2010, os conjuntos de dados vinham de uma variedade de fontes, diz Shayne Longpre, pesquisador do MIT que faz parte do projeto. Os dados vinham não apenas de enciclopédias e da web, mas também de fontes como transcrições parlamentares, chamadas de ganhos e relatórios meteorológicos. Naquela época, os conjuntos de dados de IA eram especificamente organizados e coletados de diferentes fontes para adequar-se às tarefas individuais, diz Longpre.
Então, os transformadores, a arquitetura que sustenta os modelos de linguagem, foram inventados em 2017, e o setor de IA começou a ver o desempenho melhorar à medida que os modelos e conjuntos de dados aumentavam. Hoje, a maioria dos conjuntos de dados de IA é construída coletando indiscriminadamente material da internet. Desde 2018, a web tem sido a fonte dominante para conjuntos de dados usados em todas as mídias, como áudio, imagens e vídeo, e uma lacuna entre dados raspados e conjuntos de dados mais organizados surgiu e se ampliou.
“No desenvolvimento de modelos de fundação, nada parece importar mais para as capacidades do que a escala e heterogeneidade dos dados e da web”, diz Longpre. A necessidade de escala também impulsionou enormemente o uso de dados sintéticos.
Nos últimos anos, também testemunhamos o surgimento de modelos de IA generativa multimodal, que podem gerar vídeos e imagens. Como os grandes modelos de linguagem, eles precisam de tantos dados quanto possível, e a melhor fonte para isso se tornou o YouTube.
Para modelos de vídeo, como você pode ver neste gráfico, mais de 70% dos dados para conjuntos de dados de fala e imagem vêm de uma única fonte.
Isso pode ser uma vantagem para a Alphabet, empresa-mãe do Google, que possui o YouTube. Enquanto o texto está distribuído pela web e controlado por muitos sites e plataformas diferentes, os dados de vídeo estão extremamente concentrados em uma única plataforma.
“Isso dá uma enorme concentração de poder sobre muitos dos dados mais importantes na web para uma única empresa”, diz Longpre.
E porque o Google também está desenvolvendo seus próprios modelos de IA, sua enorme vantagem também levanta questões sobre como a empresa disponibilizará esses dados para concorrentes, diz Sarah Myers West, codiretora-executiva do AI Now Institute.
“É importante pensar nos dados não como se fossem um recurso naturalmente ocorrente, mas algo que é criado através de processos particulares”, diz Myers West.
“Se os conjuntos de dados nos quais a maior parte da IA com a qual interagimos refletem as intenções e o design de grandes corporações motivadas pelo lucro — isso está remodelando as infraestruturas do nosso mundo de maneiras que refletem os interesses dessas grandes corporações”, acrescenta ela.
Essa monocultura também levanta questões sobre quão precisamente a experiência humana é retratada no conjunto de dados e que tipos de modelos estamos construindo, diz Sara Hooker, vice-presidente de pesquisa na empresa de tecnologia Cohere, que também faz parte da Iniciativa de Proveniência de Dados.
As pessoas fazem upload de vídeos no YouTube com um público específico em mente, e a maneira como agem nesses vídeos muitas vezes é destinada a um efeito muito específico. “Os dados capturam todas as nuances da humanidade e todas as maneiras como existimos?”, pergunta Hooker.
As empresas de IA geralmente não compartilham quais dados usaram para treinar seus modelos. Uma razão é que elas querem proteger sua vantagem competitiva. A outra é que, devido à maneira complicada e opaca como os conjuntos de dados são agrupados, embalados e distribuídos, elas provavelmente nem sabem de onde todos os dados vieram.
Provavelmente, elas também não têm informações completas sobre quaisquer restrições de como esses dados devem ser usados ou compartilhados. Os pesquisadores da Iniciativa de Proveniência de Dados descobriram que conjuntos de dados frequentemente têm licenças restritivas ou termos anexados a eles, o que deveria limitar seu uso para fins comerciais, por exemplo.
Aqui vemos que 25%, 33% e 32% dos conjuntos de dados de texto, fala e vídeo, respectivamente, são licenciados para uso não comercial, o que significa que podem ser usados para fins acadêmicos ou criativos, mas não para lucrar.
“Essa falta de consistência ao longo da linhagem dos dados torna muito difícil para os desenvolvedores fazerem a escolha certa sobre quais dados usar”, diz Hooker.
Também torna quase impossível ter certeza completa de que você não treinou seu modelo com dados protegidos por direitos autorais, acrescenta Longpre.
Mais recentemente, empresas como OpenAI e Google fizeram acordos exclusivos de compartilhamento de dados com editores, grandes fóruns como Reddit e plataformas de mídias sociais na web. Mas isso se torna outra forma de concentrar seu poder.
“Esses contratos exclusivos podem particionar a internet em várias zonas de quem pode acessar e quem não pode”, diz Longpre.
A tendência beneficia os maiores players de IA, que podem arcar com tais acordos, às custas de pesquisadores, organizações sem fins lucrativos e empresas menores, que terão dificuldade para obter acesso. As maiores empresas também têm os melhores recursos para coletar conjuntos de dados.
“Esta é uma nova onda de acesso assimétrico que não vimos em tal extensão na web aberta”, diz Longpre.
Os dados usados para treinar modelos de IA também estão fortemente inclinados para o mundo Ocidental. Mais de 90% dos conjuntos de dados que os pesquisadores analisaram vieram da Europa e América do Norte, e menos de 4% vieram da África.
“Esses conjuntos de dados estão refletindo uma parte do nosso mundo e nossa cultura, mas omitindo completamente outras”, diz Hooker.
Mais de 90% dos conjuntos de dados que os pesquisadores analisaram vieram da Europa e América do Norte, e menos de 4% vieram da África.
A dominância do idioma inglês nos dados de treinamento é parcialmente explicada pelo fato de que a internet ainda está mais de 90% em inglês, e ainda há muitos lugares na Terra onde a conexão com a internet é muito ruim ou inexistente, diz Giada Pistilli, ética principal na Hugging Face, que não fez parte da equipe de pesquisa. Mas outra razão é conveniência, acrescenta: montar conjuntos de dados em outros idiomas e levar outras culturas em conta requer intenção consciente e muito trabalho.
O foco ocidental desses conjuntos de dados torna-se particularmente claro com modelos multimodais. Quando um modelo de IA é solicitado a representar as vistas e sons de um casamento, por exemplo, ele pode apenas ser capaz de representar casamentos ocidentais, porque é tudo o que foi treinado, diz Hooker.
Isso reforça vieses e pode levar a modelos de IA que promovem uma certa visão de mundo centrada nos EUA, apagando outras línguas e culturas.
“Estamos usando esses modelos em todo o mundo, e há uma discrepância enorme entre o mundo que estamos vendo e o que é invisível para esses modelos”, diz Hooker.
Bem-vindo a
Industria Textil e do Vestuário - Textile Industry - Ano XVI
© 2025 Criado por Textile Industry. Ativado por
Você precisa ser um membro de Industria Textil e do Vestuário - Textile Industry - Ano XVI para adicionar comentários!
Entrar em Industria Textil e do Vestuário - Textile Industry - Ano XVI