Diário IGF 2023 – Dia 4

IGF 2023 12 de outubro de 2023

Por Nivaldo Cleto*

No quarto dia do Fórum de Governança da Internet da ONU – IGF 2023, realizado em Kyoto no Japão, trazemos mais temas de interesse para a comunidade brasileira. O Comitê Gestor da Internet no Brasil – CGI.br está participando de diversas sessões do IGF. ( Na foto acima, com Diogo Cortiz, professor da PUC-SP e pesquisador no Núcleo de Informação e Coordenação do Ponto BR – NIC.br, moderador do painel “Grandes modelos de linguagem na Web: Antecipando o desafio”)

Grandes modelos de linguagem na Web: Antecipando o desafio

Foram discutidos vários aspectos dos modelos de linguagem grandes (LLMs)[i] e inteligência artificial (IA). Um dos pontos-chave levantados foi a limitação da coleta de dados da web para o treinamento de LLMs. Os palestrantes destacaram que a coleta de dados atual para LLMs muitas vezes é feita de forma aleatória e carece de consentimento. Eles argumentaram que essa coleta indiscriminada de dados da Web pode violar a privacidade, os direitos autorais e o consentimento. O conceito de tecnologia consentida de Sacha Costanza-Chock, professora associada do Civic Media, no Instituto de Tecnologia de Massachusetts, que enfatiza a coleta significativa de dados com opt-in (pré-autorização), foi apresentado como uma alternativa melhor.

Os palestrantes também enfatizaram que os LLMs nem sempre são fontes confiáveis de informação. Eles apontaram que os LLMs refletem os vieses do Hemisfério Norte devido ao desequilíbrio de dados. Essa representação desigual pode levar a resultados distorcidos e perpetuar desigualdades existentes. Portanto, surgiram preocupações sobre a incorporação de LLMs em mecanismos de busca, pois isso poderia ampliar esses vieses e prejudicar a disseminação de informações objetivas e diversas.

Outro tópico de discussão foram os riscos associados ao “espalhamento” de mídia sintética. Os palestrantes destacaram que a mídia sintética pode se espalhar facilmente para outros sites da Internet, levantando preocupações sobre desinformação e informações incorretas. Eles recomendaram que o texto sintético seja devidamente marcado e rastreado a fim de possibilitar sua detecção e garantir responsabilidade.

No lado positivo, a análise explorou abordagens para detectar conteúdo gerado por IA. Os palestrantes reconheceram que, uma vez que o texto sintético é disseminado, torna-se difícil de detectar. No entanto, eles expressaram otimismo de que a marca d’água poderia servir como uma solução potencial para rastrear conteúdo gerado por IA e diferenciá-lo do conteúdo gerado por humanos.

No que diz respeito à reformulação das discussões, houve um apelo para mudar o foco da IA para a automação. Ao fazer isso, pode-se obter uma compreensão mais clara do impacto na sociedade, garantindo que os riscos potenciais sejam minuciosamente avaliados.

Em relação a modelos de IA relacionados à linguagem, os palestrantes enfatizaram a importância de não os confundir e considerar cuidadosamente seu uso em diferentes tarefas. Isso destaca a necessidade de uma abordagem equilibrada que leve em consideração as capacidades e limitações específicas de diferentes modelos de IA para várias tarefas de processamento de linguagem.

A análise também enfatizou a importância de as comunidades terem controle sobre seus dados para a preservação cultural. Os palestrantes enfatizaram que as línguas pertencem às suas respectivas comunidades e que elas devem ter o poder de determinar como seus dados são usados. O modelo “nenhuma língua deixada para trás”, que visa preservar todas as línguas, foi criticado por ser visto como um projeto colonialista que não aborda desequilíbrios de poder e os lucros obtidos por corporações multinacionais. Argumentou-se que, se houver lucro a ser obtido com tecnologia de linguagem no Hemisfério Sul, ele deve ser reinvestido nas comunidades.

Na recapitulação do moderador, foram levantados os seguintes pontos como centrais do debate: as limitações da coleta de dados da Web e as preocupações associadas à privacidade, direitos autorais e consentimento; os vieses nos LLMs e os riscos potenciais de sua incorporação em mecanismos de busca; os riscos e a detecção de “espalhamento” de mídia sintética; a necessidade de reformular discussões sobre IA em termos de automação; a importância de considerar modelos de IA relacionados à linguagem em diferentes tarefas e o controle de dados pelas comunidades foram enfatizados; os perigos do modelo “nenhuma língua deixada para trás”.

Mesa do painel sobre grandes modelos de linguagem. Além de Diogo Cortiz, o conselheiro do Comitê Gestor da Internet no Brasil – CGI.br, Rafael Evangelista (à dir.) participou da sessão

Confira a sessão

WS #217 Large Language Models on the Web: Anticipating the challenge

Governança de dados em serviços de banda larga via satélite

Esta sessão se focou no tema da conectividade à Internet e foram considerados vários argumentos e fatos relacionados à sua importância para o desenvolvimento. Foi sugerido que regiões com melhor conectividade à Internet tendem a progredir mais rapidamente em comparação com aquelas com conectividade limitada ou inexistente, apoiando a afirmação de que a conectividade à internet atua como um catalisador para o desenvolvimento.

Outro ponto importante levantado na análise é a crescente divisão digital. Com o tempo, a lacuna entre regiões com conectividade adequada e aquelas sem ela se amplia ainda mais. Isso enfatiza a urgência de abordar o problema e encontrar soluções eficazes para reduzir a divisão digital.

Uma solução potencial destacada na análise é o uso de satélites de Órbita Terrestre Baixa (LEO)[ii]. Argumenta-se que os satélites LEO exigem infraestrutura terrestre mínima e podem complementar o desenvolvimento de infraestrutura de fibra óptica e móvel. Isso sugere que os satélites LEO têm o potencial de reduzir a divisão digital mais rapidamente do que outras soluções de conectividade.

Além disso, a internet via satélite LEO é vista como um recurso valioso durante tempos de conflito ou desastres naturais, quando as redes de comunicação tradicionais podem se tornar indisponíveis. Isso destaca a importância de ter meios alternativos de comunicação que possam permanecer funcionais em circunstâncias desafiadoras.

Também se discutiram os benefícios de alternativas de conectividade. Oferecer uma variedade de soluções de conectividade pode levar à ampliação do mercado e estimular a concorrência. Essa variedade permite que os usuários finais tenham mais opções, o que pode levar a serviços aprimorados e maior acessibilidade.

Um ponto interessante na análise é a natureza global da governança da Internet via satélites LEO. Todos os cidadãos globais seriam partes interessadas devido aos riscos compartilhados associados à tecnologia, como possíveis detritos espaciais e custos ambientais. Isso destaca a necessidade de colaboração e cooperação entre as partes interessadas para abordar esses problemas de forma eficaz.

Foram sugeridas várias recomendações para ações adicionais. Os países são encorajados a documentar e compartilhar melhores práticas e explorar oportunidades para alinhar seus interesses com os provedores de conectividade. Isso pode ajudar na autorização e licenciamento de sistemas LEO de maneira oportuna. Além disso, o envolvimento em oportunidades de financiamento e investimento é considerado crucial para apoiar o avanço da internet via satélite.

Outras observações importantes incluem a importância da transparência e do envolvimento de múltiplas partes interessadas, bem como a necessidade de programas de pesquisa e parcerias para aprofundar o entendimento e o avanço da Internet via satélite. A análise também destaca a importância da rápida implementação e ativação de serviços e a necessidade de formar coalizões para fomentar o interesse dos consumidores.

Confira a sessão

WS #307 Data Governance in Broadband Satellite Services

(*) Nivaldo Cleto é empresário de contabilidade e de certificação digital, conselheiro do Comitê Gestor da Internet no Brasil CGI.br e membro da ICANN Business Constituency – BC

[i] Sigla para Large Language Model (“Grande Modelo de Linguagem”, em tradução livre), o LLM é um modelo de aprendizado de máquina (machine learning ou ML) treinado para aprender a partir de enormes bases de dados públicos. Como resultado, consegue gerar uma linguagem para conversar com humanos e desenvolver contexto.

[ii] Uma órbita baixa da Terra, também chamada de LEO, são aquelas localizadas abaixo da órbita geoestacionária, podendo estar entre 160 km e 2.000 km de distância do nível do mar. A Estação Espacial Internacional está localizada em uma órbita LEO, bem como a maior parte dos satélites meteorológicos e muitos satélites de comunicação.

Diário IGF 2023 – Dia 4

Grandes modelos de linguagem na Web: Antecipando o desafio

Confira a sessão

WS #217 Large Language Models on the Web: Anticipating the challenge

Governança de dados em serviços de banda larga via satélite

Confira a sessão

WS #307 Data Governance in Broadband Satellite Services

Leia também

Diário IGF 2023 – Dia 1

DIÁRIO IGF 2023 – Encerramento

Diário IGF 2023 – Dia 2