Estamos no começo do fim e no fim do começo da web?

Publicado originalmente em 27/05/24: https://teletime.com.br/27/05/2024/estamos-no-comeco-do-fim-e-no-fim-do-comeco-da-web/

Publicado originalmente em 27/05/24: https://teletime.com.br/27/05/2024/estamos-no-comeco-do-fim-e-no-fim-do-comeco-da-web/

Duas notícias que circularam nas últimas semanas chamaram a atenção por representarem riscos em potencial para o futuro da Internet. Uma trata do possível começo do fim e a outra, do fim do começo da world wide web como a conhecemos. A primeira foi o anúncio por parte da Google do lançamento da ferramenta AI Overviews durante a conferência da empresa voltada a desenvolvedores[1]. Comemorada pelos entusiastas de inteligência artificial e condenada como o fim da web por alguns jornalistas e especialistas em tecnologia, trata-se da substituição de sua clássica interface e sistema de busca na Internet, que deixará de apresentar weblinks como primeiro resultado, passando a usar algoritmos de IA para exibir um pequeno resumo do que foi pesquisado pelo usuário direcionando-o para determinadas fontes. Na outra ponta, do apagamento da memória digital, um estudo do Pew Research Center revelou que 38% das webpages existentes na Internet em 2013 já não podem mais ser encontradas ou acessadas.

Fim do começo

A metodologia do estudo[2] sobre disponibilidade de conteúdo on-line foi estruturada em três partes[3] e os resultados deste rastreamento, que os pesquisadores chamam de “deterioração digital”, se mostraram preocupantes. Entre as principais conclusões do estudo do centro de pesquisas vale destacar:

· 25% de todas as páginas da Web que existiam entre 2013 e 2023 não estavam mais acessíveis em outubro de 2023, sendo que o conteúdo mais antigo tem ainda mais probabilidade de desaparecer. 38% das páginas da Web de 2013 não estão mais disponíveis hoje, em comparação com 8% das páginas de 2023.

· 23% dos sites de notícias e 21% dos sites governamentais contêm pelo menos um link quebrado. As páginas de governos locais têm taxas especialmente altas de links quebrados. Sites de notícias com níveis de tráfego altos e baixos têm a mesma probabilidade de ter links quebrados.

· 54% das páginas da Wikipédia têm pelo menos um link quebrado em sua seção “Referências”.

· Quase um em cada cinco tweets não é mais visível publicamente no Twitter apenas alguns meses após ter sido publicado. Em 60% desses casos, a conta foi tornada privada, suspensa ou totalmente excluída. Certos tipos de tweets têm maior probabilidade de desaparecer, como aqueles em turco ou árabe, ou de contas com configurações de perfil padrão.

· A maioria dos tweets que são removidos tende a desaparecer logo após serem publicados. Metade dos tweets que acabam sendo removidos fica indisponível nos primeiros seis dias e 90% em 46 dias. No entanto, 6% dos tweets removidos ficam disponíveis novamente mais tarde.

Estes resultados levam a algumas perguntas as quais pode ser muito cedo para termos respostas. Por exemplo, o conteúdo que está desaparecendo seria útil para preservar a veracidade de alguma informação na Internet ou era algo irrelevante ou falso? Como a memória da humanidade armazenada em bilhões de webpages ao longo das últimas três décadas pode ser preservada? O elevado indicador de sites de notícias que apresentam links quebrados pode ter impactos na formação da opinião pública? Difícil termos alguma pista para onde esse fenômeno vai nos levar. Mais dramático ainda é perceber que pouco pode ser feito para impedi-lo ou revertê-lo.

Memória digital

Se a história sempre foi escrita pelos vencedores, e consequentemente a memória também, a democratização do acesso à Internet e a população de conteúdo plural na web deram esperanças que isso poderia estar mudando em meados dos anos 1990. Naquele momento, ao invés de estarmos presos a arquivos e museus com artefatos e textos coletados e organizados por uma elite intelectual, em tese qualquer um poderia registrar para a posteridade seu próprio conteúdo, produzir trabalho em co-autoria e interagir com a própria construção oficial da memória a partir de comentários em sítios e outras atividades. Além do boom dos blogs, isso obrigou os compiladores da história oficial a alterarem a forma como construíam seu próprio acervo, incorporando alguns destes usuários, e suas criações, a seus projetos de registro dos acontecimentos.

Esta evolução, ou involução se você preferir, está bem documentada no texto Between Archive and Participation: Public Memory in a Digital Age, de Ekaterina Haskins”[4], que em 2007 estudou o tratamento das informações sobre os atos de terrorismo de 11 de setembro de 2001 e seus registros na Internet. Analisando este conteúdo, ela pôde perceber que a nova forma de memória criou um paradoxo: a democratização do passado foi entrelaçada com a perda da consciência histórica.

“A velocidade destrói o espaço e apaga a distância temporal. Em ambos os casos, o mecanismo de percepção fisiológica é alterado. Quanto mais memória armazenamos nos bancos de dados, mais o passado é sugado para a órbita do presente, pronto para ser chamado na tela”, escreveu ela citando Andreas Huyssen.

Este risco se torna ainda mais presente quando alguém decide registrar e interpretar para nós o nosso passado. “Quando a tecnologia oferece a capacidade de recuperação instantânea, o impulso individual de se lembrar diminui. Se a preservação e a recuperação de arquivos não forem equilibradas por mecanismos que estimulem o envolvimento participativo, a memória eletrônica poderá levar à amnésia autocongratulatória”, concluiu Haskins quando a IA generativa sequer existia.

Guinada artificial

Em menos de dois anos, todos os usuários do planeta passaram a experimentar uma transformação estrutural na forma com que se dá sua interação na rede mundial de computadores. Desde que foi iniciada a adoção do desenvolvimento e uso de modelos e sistemas de inteligência artificial generativa, muita coisa já se alterou, com impactos de difícil mensuração sobre a produção de conteúdos digitais, a comunicação interpessoal, a educação, a saúde, em diversos setores econômicos e até na oferta de serviços públicos. A democratização do acesso a estas ferramentas fez muitas pessoas sentirem que ingressavam em um mundo quase mágico de conhecimento e de empoderamento na manipulação mais simples e rápida de curtas demandas que resultavam na criação de novos textos, áudios, imagens, vídeos, programação de software e análise de dados em questão de segundos.

Em pouco tempo, porém, diversas falhas, vieses e “alucinações” destas aplicações começaram a ser relevadas. Foram registrados efeitos negativos em áreas como integridade da informação, processos eleitorais, saúde mental, fraudes financeiras e incontáveis segmentos do social, da política, da cultura e da economia. Estas externalidades acenderam um sinal amarelo que fez legisladores, reguladores e organismos de governança global de temas digitais a acelerarem a elaboração de regras e medidas que ajudem a mitigar danos e prevenir riscos.

Menos discutidos, os efeitos na área econômica e no mundo do trabalho também se fazem notar. Um movimento de concentração de mercado em torno dos mesmos conglomerados que controlam as maiores plataformas digitais, ou em torno de menos de cinco desenvolvedores de IA generativa dos Estados Unidos, está fechando rapidamente as oportunidades para economias de países do Sul Global, ou mesmo da União Europeia, de estabelecerem empresas locais em seus ecossistemas para competirem neste novo mercado digital. Evitando a via das fusões e aquisições, o que sempre chama a atenção dos órgãos antitrustes, as big techs passaram a realizar pesadas injeções de capital em startups que despontam como potenciais “ameaças” a seu predomínio, concentrando também o desenvolvimento global da inovação neste campo.

O processo produtivo criado para desenvolver de forma acelerada esta nova tecnologia também já exerce efeitos deletérios sobre trabalhadores, distribuídos por países da África ou mesmo no Brasil. Empresas próprias ou terceirizadas por estes conglomerados estão recrutando pessoas para atuarem como filtros humanos para os bilhões de dados com que os modelos são treinados como forma de tentar reduzir os problemas técnicos já constatados. Ganhando menos de dois dólares por hora, estes profissionais começaram a denunciar[5] a precarização das relações trabalhistas e os distúrbios mentais derivados da análise, por mais de 8 horas seguidas, de todo o tipo de conteúdo envolvendo cenas de abuso sexual, pornografia, violência, discurso de ódio, desinformação ou qualquer outro tipo de “lixo” digital que é recolhido em vastas quantidades pelos sistemas, que realizam o “arrastão” de dados na web. Mais do que nunca, a inteligência artificial necessita do cérebro humano, trabalhando de forma coletiva quase ininterrupta, para se mostrar inteligente e deslumbrar os usuários que desconhecem os mecanismos de como a “mágica” ganha vida.

Começo do fim

Talvez pior do que um conteúdo desaparecer da rede mundial de computadores, ou abrirmos mão de o recuperarmos por nós mesmos, é este mesmo pedaço de história ser silenciado ou se tornar invisível para a maior parte das pessoas. Este é o efeito mais natural que a maior aposta da Search Generative Experience (SGE) da Google, os AI Overviews, pode causar à web[6]. No momento em que a ferramenta de busca que domina mais de 90% das pesquisas mundiais online decide alterar seu modelo de negócios para oferecer visões gerais sobre um assunto elaboradas por algoritmos de IA, os impactos na Internet como a conhecemos são imprevisíveis. Os primeiros resultados, não promissores, foram compilados nesta matéria da BBC[7]. Basicamente, sítios jornalísticos perderam visibilidade e posts de redes sociais como Reedit, Quora e Instagram experimentaram crescimentos vertiginosos nos resultados.

O primeiro e mais eloquente dos impactos é o desaparecimento dos produtores de conteúdos originais dos resultados gerados pela aplicação do modelo Gemini, a base algorítmica dos AI Overviews. No momento em que a busca do Google passa a preparar seus resumos valendo-se de técnicas como web scraping, a fonte de determinada informação desaparece. Isso levou algumas pessoas a especular se esta foi a saída encontrada pela empresa para contornar o crescente número de serviços jornalísticos e legislações nacionais que passaram a pleitear remuneração ou incidência de tributos sobre a compilação de seu conteúdo original. Mais do que isso. “Os editores e os varejistas estão apavorados com a possibilidade de que isso corte profundamente o tráfego de referência e acabe com seus negócios”, escreveu Scott Rosenberg na Axios[8].

Outro ponto relevante a se levar em conta, além daqueles já apontados por Haskins, é o que externalidades como alucinações, erros e vieses dos modelos de IA podem acarretar para a integridade da informação que resultará da busca. Se na pesquisa tradicional as pessoas já acessavam apenas os primeiros links que viam, o que gerou a alavancagem de conteúdos por meio de publicidade, o recebimento de um resumo aparentemente plausível sobre qualquer tema que estejamos buscando tende a consolidar ainda mais esta tendência. E a empresa já anunciou que, em breve, incorporará publicidade a esta solução[9]. Com isso, a informação que não se enquadre na prioridade do algoritmo provavelmente permanecerá invisível para a maior parte dos usuários. Por mais que a empresa sustente que é possível você optar por usar a interface original, poucas pessoas saberão ou terão interesse em fazer isso dada a comodidade que os resumos oferecem.

Outra preocupação que advém desta alteração é sobre o próprio modelo de negócios da empresa, que sempre teve seu motor principal na publicidade por trás dos links azuis que nos acostumamos a ver várias vezes ao dia.

“A Google tem mais motivos do que a maioria para agir com cautela nesse caso: ela fornece publicidade para muitas das páginas da Web que estão prestes a perder todo esse tráfego e tem a perder com o desaparecimento das visitas a essas páginas. No entanto, como a empresa mantém uma posição dominante em grande parte do mercado de publicidade digital, ela parece estar apostando que poderá enfrentar a transição e suavizar quaisquer solavancos, acionando as alavancas de suas muitas outras fontes de receita. (…) A empresa tem muitas alavancas à sua disposição aqui: ela pode escolher quando mostrar visões gerais de IA e quando não mostrar; se o tráfego de saída cair vertiginosamente, chamando a atenção de reguladores ou outras partes prejudicadas, ela poderá reverter as alterações por um tempo.”, argumentou Casey Newton, na Platformer[10].

Dissecando a transformação

Mas como os resumos são tecnicamente produzidos? Especialistas em mecanismos de busca ouvidos pela MIT Technology Review[14] explicam como a nova ferramenta funciona. Basicamente, o sistema utiliza o modelo de linguagem Gemini, que foi integrado com os principais mecanismos de classificação da web do Google. Em geral, a maioria dos LLMs funciona prevendo a próxima palavra (ou token) em uma sequência, o que os faz parecerem fluentes, mas também os deixa propensos a inventar coisas. “Eles não têm nenhuma verdade básica na qual se basear e, em vez disso, escolhem cada palavra puramente com base em um cálculo estatístico”, aponta a publicação.

Para escapar da armadilha que geralmente leva estes LLMs a “alucinarem” e trazerem erros crassos como resultados, avalia Chirag Shah, professor da Universidade de Washington especializado em pesquisa on-line, a Google deve ter empregado uma técnica conhecida como geração aumentada por recuperação (RAG na sigla em inglês). A RAG “permite que um LLM verifique fontes específicas fora dos dados em que foi treinado, como determinadas páginas da Web”, diz ele. Mas isso não foi confirmado pelos porta-vozes da companhia.

A empresa não entrou neste detalhe talvez porque aí comece outro problema. Quando um usuário insere uma pergunta no chatbot, ela é comparada com os documentos que compõem as fontes de informação do sistema e uma resposta é gerada. Como o sistema é capaz de fazer a correspondência entre a consulta original e partes específicas de páginas da web, ele pode citar de onde tirou a resposta — algo que os LLMs normais não podem fazer.

“Uma das principais vantagens do RAG é que as respostas que ele gera para as consultas de um usuário devem ser mais atualizadas, mais precisas e mais relevantes do que as de um modelo típico que apenas gera uma resposta com base nos dados de treinamento. A técnica é frequentemente usada para tentar evitar que os LLMs tenham alucinações”, sintetiza a publicação.

Então, por que as AI Overviews continuam apresentando erros que já viraram até piada na Internet como o da sugestão de se colocar cola em uma pizza? Esta resposta foi gerada pelo post de um usuário da rede social Reedit que tinha dezenas de recomendações por ser uma piada divertida. “O fato de ser relevante não significa que seja correto, e a parte de geração do processo não questiona isso”, diz Shah.

Tão sério quanto isso é a um sistema RAG não saber discernir qual o conteúdo mais fidedigno quando se depara com informações conflitantes. Ao encontrar a versão de um artigo acadêmico e outra que o atualizou a técnica não conseguirá descobrir de qual versão deve extrair sua resposta. “Em vez disso, ela pode combinar informações de ambas para criar uma resposta potencialmente enganosa”, diz o professor da Universidade de Washington.

“O LLM gera linguagem fluente com base nas fontes fornecidas, mas linguagem fluente não é o mesmo que informação correta”, diz Suzan Verberne, professora da Universidade de Leiden, especializada em processamento de linguagem natural. Quanto mais específico for um tópico, maior será a chance de haver desinformação no resultado de um modelo de linguagem, diz ela, acrescentando: “Esse é um problema na área médica, mas também na educação e na ciência”.

Mais interessante ainda é a resposta de um porta-voz da Google sobre as informações equivocadas que surgem nas AI Overviews. Para a empresa, a culpa das respostas erradas é da própria web ao não trazer muitas informações de alta qualidade para determinados assuntos ou porque a consulta se aproxima mais de sites satíricos ou postagens de piadas. Ou seja, na interpretação da Google o modelo é eficaz, a culpa são os dados de entrada. Saída confortável para não assumir a responsabilidade por lançar globalmente uma ferramenta que deveria ter ficado por mais tempo na fase experimental distante de onde poderia cometer danos.

Os especialistas discordam que isso seja apenas um problema de bases de dados de treinamento ruins. Isso porque a ferramenta também pode apresentar desinformação quando usa fatos corretos. O exemplo mais clássico é o que respondeu a uma consulta informando que o ex-presidente Barack Obama era muçulmano a partir da pergunta feita ao Google pela pesquisadora Melanie Mitchell, do Santa Fe Institute, no Novo México, que queria saber apenas quantos presidentes muçulmanos existiram nos Estados Unidos. Esta alucinação resultou da consulta ao título do capítulo de um livro acadêmico[15] que faz esta pergunta, mas o autor tem uma conclusão exatamente oposta à interpretação que constou da “verdade” produzida pelo AI Overview. “Isso é algo que os sistemas de IA têm dificuldade em fazer, e é importante observar que, mesmo quando obtêm uma boa fonte, ainda podem cometer erros”, alerta Mitchell.

Mas a pressa em tomar a dianteira na concorrência pela melhor solução e buscando obter o retorno do investimento no mais curto espaço de tempo faz com que estas empresas estejam atropelando qualquer processo de controle de qualidade ou preocupações éticas. O mesmo foi feito pela OpenAI quando encantou o mundo com o ChatGPT, que ainda comete os mesmos erros que o Gemini ou outras LLMs, mas já opera comercialmente há quase dois anos.

A solução para isso, apontam os pesquisadores, seria continuar submetendo estas avaliações a quem é inteligente naturalmente: o ser humano. Além de evitar publicar uma resposta potencialmente incorreta quando o sistema tivesse dúvidas sobre sua exatidão, ou destacar que a mesma pode conter informação errada, o emprego da técnica de aprendizado por reforço com feedback humano (RLHF na sigla em inglês) que utiliza trabalhadores para realizar este julgamento prévio dos dados antes que eles sejam incorporados ao processo de treinamento. Como veremos, isso também não elimina totalmente os problemas potenciais dadas as condições precárias em que estes profissionais exercem a nova atividade.

A conclusão básica para toda esta fragilidade e os danos a que todos podemos estar expostos seria não tornar esta interface a primeira opção. “Até que não seja mais beta — o que definitivamente é atualmente, e será por algum tempo — deve ser completamente opcional. Ela não deveria ser imposta a nós como parte da pesquisa principal”, adverte Shah.

Obsolescência gerenciada

O fato é que a Google tem pressa porque precisa deixar de ser refém apenas do conteúdo da web para desenvolver sua IA generativa. Este movimento fez Andrew Orlowski decretar, mais uma vez, o fim da WWW em um texto[11], no sítio de notícias UnHerd, onde analisou de forma crítica a mudança estrutural anunciada há alguns dias. O jornalista e escritor mostra também que os planos do conglomerado para se afastar da web já vinham sendo traçados:

“Mas, na realidade, o interesse do Google na Web vem diminuindo há muito tempo. Artigos lamentando seu fim têm aparecido desde que Chris Anderson, o chefe dos formadores de opinião da Wired, proclamou que a Web estava ‘morta’ em 2010. [Tim] Berners-Lee publica regularmente manifestos para “salvar” a Web, e ninguém presta atenção. Hoje, mais de 80% dos dois bilhões de usuários diários do Facebook acessam a rede social apenas por meio de um telefone. As empresas não se sentem mais obrigadas a criar sites. A maior parte do que restou é suja e está morrendo.
Atualmente, o Google está erguendo uma barreira entre o pesquisador e as informações que ele procura, usando a IA generativa, que a empresa acredita criar resultados mais úteis, como resumos. Essa barreira, que consiste no que a ex-diretora de pesquisa do Google, Meredith Whittaker, chama de ‘pasta de conteúdo derivado’, causa problemas: o que é gerado pode ou não se parecer com o original, graças a erros adicionais e “alucinações”. A nova barreira também remove os criadores de material original da cadeia de valor. O mundo nunca foi tão empolgante quanto nos prometeram os utópicos da Web; agora, ele será mais vazio do que nunca.”

Há anos, quem acompanha de perto sabe que a web está definhando, não por meio de um colapso, mas através do que Newton denominou como um “declínio gerenciado”. Rosenberg lembra, porém, que se a Google não administrar esse declínio com cuidado, a IA poderá acabar não apenas “comendo” a Web, mas engolindo o próprio sustento do grupo Alphabet. “Em um mundo em que todos obtêm respostas e não precisam clicar em links, o maior perdedor é a Google”, disse à Axios o CEO da Perplexity, Aravind Srinivas.

O que parece ser uma jogada de mestre à primeira vista pode se tornar um tiro no pé em um futuro não tão distante. A web existe hoje em dia graças a milhões de pessoas e instituições que dedicaram tempo e recursos, muitas vezes sem obter retorno financeiro, para criar conteúdo e colocá-lo à disposição para qualquer pessoa acessar ao longo das últimas décadas. É o caso da Wikipedia e outros projetos meritórios construídos a milhares de mãos. No fundo, a “raspagem” destas informações, de forma livre e sem obstáculo, para fins de treinamento de modelos de linguagem permitiu que a própria IA generativa passasse a existir.

Agora, a nova abordagem dos sumários, e mesmo dos prompts trazidos pelos chatbots de IA, pode causar um efeito inverso.

“Ao tornar ainda menos convidativa a contribuição dos seres humanos para o acervo coletivo de conhecimento da Web, as respostas resumidas da Google também podem deixar suas próprias ferramentas de IA e as de todos os outros usuários com informações menos precisas, menos oportunas e menos interessantes”, pondera Rosenberg.

Se alguém aí está preocupado com integridade da informação deveria se debruçar um pouco mais sobre este movimento, que ainda não chegou ao Brasil integralmente.

Sobre raposas e galinheiros

De forma rápida e buscando consolidar alianças no sensível campo dos produtores de conteúdo, a principal concorrente da Google no mercado de IA Generativa correu para se aproximar de um dos segmentos potencialmente mais prejudicados pelas AI Overviews. Na última quarta-feira, a OpenAI e a Associação Mundial dos Editores de Jornais (WAN na sigla em inglês) anunciaram um acordo para lançar aceleradoras de IA para a geração de notícias[12]. O projeto Newsroom AI Catalyst iniciará com o apoio a 128 empresas jornalísticas, que terão acesso a ferramentas vinculadas ao ChatGPT para, nas palavras da entidade, aumentar a qualidade da informação.

“As empresas jornalísticas em todo o mundo estão sob pressão devido ao declínio das receitas com publicidade e assinaturas impressas. A adversidade enfrentada pelas notícias deixa as comunidades sem acesso a uma base comum de fatos e valores compartilhados e coloca em risco a própria democracia. As tecnologias de IA podem influenciar positivamente a sustentabilidade das organizações de notícias, desde que você compreenda rapidamente os riscos e entenda como transformá-los em sua vantagem. (…) Estou muito satisfeito com o apoio da OpenAI para ajudar as redações por meio da adoção de tecnologias de IA para fornecer jornalismo de alta qualidade, que é a pedra angular do negócio de notícias”.

Vale também conhecer a declaração do chefe de propriedade intelectual e conteúdo da OpenAI que participou do evento de lançamento:

“Na OpenAI, temos o compromisso de aproveitar o poder transformador da IA para expandir as oportunidades de forma ampla. Este programa foi projetado para turbinar as capacidades de 128 redações na Europa, Ásia e América Latina em colaboração com a WAN-IFRA. (…) “Estamos entusiasmados em colaborar com a WAN-IFRA e com editores de notícias de todo o mundo para cultivar um ecossistema saudável e sustentável que promova o jornalismo de qualidade.”

Na linha oposta a da Google, a empresa de Sam Altman quer trazer para perto um dos adversários naturais de qualquer estratégia que vise se apropriar de conteúdo protegido por direitos autorais sem a devida contrapartida para isso. Esta premissa moveu a OpenAI a propor o mesmo acordo para as universidades, geradoras de muitos conteúdos que podem ajudar a conter erros no treinamento dos modelos, com o lançamento do ChatGPT Edu[16]. Tecnicamente, quanto mais especializada é uma pergunta mais existe o risco dos bots retornarem resultados errados ou alucinarem.

O que talvez os empresários de mídia tradicional não estejam se dando conta é que tanto uma estratégia quanto a outra visam ter acesso a informação de qualidade ao menor custo para treinar os modelos de linguagem, que sem dados não são nada. Obviamente, nada foi perguntado aos jornalistas profissionais que sofrerão na pele o impacto destas mudanças nas redações. No Brasil, entidades como a Federação Nacional dos Jornalistas (FENAJ), Associação Nacional de Jornais (ANJ) e a Associação Nacional dos Editores de Revistas (Aner) ainda não se pronunciaram sobre esta virada de página histórica.

Entusiasmos e silêncios

Pensado nisso, o interessante é perceber que o anúncio da Google provocou mais euforia na comunidade global da Internet do que revolta ou manifestações sobre os riscos sistêmicos que esta alteração pode exercer no repositório universal de conhecimento que se tornou a web ao longo de 35 anos. A maior parte da mídia especializada celebrou a notícia como uma inovação e um avanço tecnológico, enquanto organismos internacionais, parte da sociedade civil organizada e da academia que gravitam nos fóruns de governança da Internet silenciaram.

Talvez por um motivo simples: os jovens que nasceram com celulares no bolso e habitando as redes sociais não usam mais esta ferramenta como principal motor de suas buscas.

“Os adolescentes de hoje — e eu fiz uma pesquisa com uma amostra aleatória — não sabem nem se importam com o que é “a Web”. Eles nasceram com os celulares e as mídias sociais e não veem interesse em revivê-la como um meio de comunicação semi-irônico, como a fita cassete. O utopismo da Web é estritamente um fenômeno de mídia da Geração X”, escreveu Orlowski.

Mas o abandono da utopia cobrará um preço alto da luta social. Uma das consequências pouco comentadas desta mudança será o encolhimento da visibilidade e o silenciamento da ação, da reflexão e do trabalho de sindicatos, cooperativas, movimentos sociais, instituições científicas, mídias comunitárias, organizações não-governamentais e partidos políticos que utilizam a web para difundir conhecimento, atrair simpatizantes para suas pautas e repercutir suas manifestações. Ou seja, uma das maiores conquistas da humanidade no campo da democratização da comunicação e da socialização do conhecimento será substituída por uma tecnologia e um modelo de negócios que não estão preocupados com processos sociais ou com registros da memória e do pensamento de grupos marginalizados, minorias ou políticas públicas emancipadoras. Mais do que nunca, a história passará a ser escrita pelos vencedores, agora apoiados por seus algoritmos.

O mais irônico de tudo isso, na verdade, é ver quem diz defender uma Internet livre e aberta dar de ombros no momento em que mais uma de suas camadas está se fechando e silenciando conteúdo original por conta da atuação monopolista de uma empresa que controla quase integralmente o mercado de buscas. A alegação é que isso não compromete o “coração” da Internet, que para essas pessoas são as outras duas camadas da rede das redes e que isso é apenas um acomodar de abóboras no campo dos provedores de aplicações. Meia verdade, uma vez que estes mesmos conglomerados se expandiram para as camadasde padrões, protocolos e infraestrutura da web, como já sustentamos na Teletime[13]. Aonde tudo isso vai parar? Não pergunte ao Google.

[1] Disponível em: https://io.google/2024/intl/pt/

[2] Disponível em https://www.pewresearch.org/wp-content/uploads/sites/20/2024/05/pl_2024.05.17_link-rot_report.pdf

[3] 1. Exame da acessibilidade de uma amostra representativa de páginas da Web existentes na última década. Os pesquisadores coletaram páginas do repositório da Web Common Crawl para cada ano de 2013 a 2023 e tentaram acessá-las para determinar quantas ainda estão disponíveis atualmente.

2. Análise dos links em páginas da Web existentes para ver quantas ainda estão funcionando. Os pesquisadores coletaram uma grande amostra de páginas de sites governamentais, sites de notícias e da Wikipedia. Eles identificaram domínios de notícias relevantes usando dados do comScore, domínios governamentais usando dados do get.gov e páginas da Wikipédia de um arquivo da Wikimedia Foundation. Para cada coleção, eles seguiram os links dessas páginas até seu destino para determinar a parcela de links que apontavam para sites inacessíveis.

3. Rastreamento da exclusão ou remoção de publicações individuais em sites de mídia social, especificamente tweets públicos na plataforma de mídia social X (ex-Twitter). Os pesquisadores coletaram uma grande amostra de tweets públicos em tempo real usando a API de streaming do Twitter e monitoraram seu status por três meses usando a API de pesquisa do Twitter para determinar quantos ainda estavam disponíveis publicamente.

[4] Disponível em: https://www.jstor.org/stable/40232504

[5] Recentemente, sindicatos de anotadores de dados do Quênia publicaram uma carta manifesto ao Presidente dos Estados Unidos, Joe Biden, denunciando as condições de trabalho a que são submetidos em seu país na relação com estas empresas que eles chama de “escravidão moderna”. Disponível em: https://www.wired.com/story/low-paid-humans-ai-biden-modern-day-slavery/

[6] Saiba mais em: https://blog.google/products/search/generative-ai-google-search-may-2024/

[7] Disponível em https://www.bbc.com/future/article/20240524-how-googles-new-algorithm-will-shape-your-internet?utm_source=www.techdrop.news&utm_medium=newsletter&utm_campaign=google-quer-ser-o-novo-google

[8] Disponível em: https://www.axios.com/2024/05/17/google-openai-ai-generative-publishers

[9] Disponível em: https://www.wired.com/story/google-search-ai-overviews-ads/

[10] Disponível em: https://www.platformer.news/google-io-ai-search-sundar-pichai/

[11] Disponível em: https://unherd.com/newsroom/google-declares-the-end-of-the-world-wide-web/

[12] Disponível em: https://wan-ifra.org/2024/05/wan-ifra-and-openai-launch-global-ai-accelerator-for-newsrooms/

[13] Disponível em: https://teletime.com.br/22/04/2024/precisamos-refundar-a-internet/

[14] Disponível em: https://www.technologyreview.com/2024/05/31/1093019/why-are-googles-ai-overviews-results-so-bad/?truid=&utm_source=the_download&utm_medium=email&utm_campaign=the_download.unpaid.engagement&utm_term=&utm_content=05-31-2024&mc_cid=e892866c6a

[15] Disponivel em: https://12ft.io/proxy?q=https%3A%2F%2Fdoi.org%2F10.1093%2Facprof%3Aoso%2F9780199372690.003.0006

[16] Disponível em: https://openai.com/index/introducing-chatgpt-edu/