Dicas‌ ‌para‌ ‌usar‌ ‌o‌ ‌Wayback‌ ‌Machine‌ ‌em‌ ‌sua‌ ‌próxima‌ ‌investigação‌ ‌

Print More

English

O Internet Archive e seu Wayback Machine são ferramentas valiosas para jornalistas investigativos. Imagem: Shutterstock

O Internet Archive é uma biblioteca digital sem fins lucrativos que, este ano, está comemorando 25 anos na missão de “garantir o acesso universal a todo o conhecimento”. A organização é mais conhecida pelo Wayback Machine – serviço pelo qual sou responsável atualmente – que arquiva e disponibiliza grande parte dos sites públicos da web a um ritmo de mais de 1 bilhão de URLs arquivados por dia.

Existem muitas maneiras de jornalistas, pesquisadores, checadores de fatos, ativistas e o público em geral, acessarem diariamente o Wayback Machine, gratuito para uso. Milhares de reportagens foram escritas sobre nós ou fazem referência aos nossos serviços. Inclusive, no artigo de encerramento da série Minhas Ferramentas Preferidas da GIJN, em 2020, vários jornalistas investigativos importantes identificaram a ferramenta como a base de seu trabalho.

A seguir está uma introdução para repórteres interessados em experimentar o Wayback Machine em sua próxima investigação.

Arquivando URLs

Se você publicar um artigo que faz referência a um site e os proprietários desse site excluírem páginas importantes, ou o próprio site, essas informações podem ser perdidas para sempre se não tiverem sido arquivadas. Não deixe isso acontecer com você!

Dezenas de milhões de URLs são arquivados diariamente pelos usuários com o serviço “Save Page Now” (Salvar página agora) do Wayback Machine. Qualquer pessoa pode enviar URLs e, se você estiver conectado com uma conta de arquivamento gratuita, também pode pedir para arquivar “outlinks” – hiperlinks dentro da página que você deseja salvar – e ter um relatório geral desse processo enviado para você por e-mail. Outro recurso útil é que você pode baixar as URLs capturadas em um arquivo WACZ e revisá-lo/processá-lo com suas próprias ferramentas.

Save Page Now pode fazer um monte de arquivamento automatizado do Twitter. Por exemplo, você pode arquivar facilmente até 3.200 Tweets mais recentes de qualquer perfil do Twitter se inserir seu URL e marcar a opção correspondente.

Aqui está uma dica técnica: Se você tem uma lista de URLs que deseja arquivar, adicione-os à “coluna A” de uma planilha do Google e envie esse arquivo por meio do serviço “Save Page Now” (Salvar página agora) do Google Sheets, que pode ser encontrado aqui. As colunas B, C e D serão preenchidas com um código de status, o URL arquivado e um sinal indicando se o URL já tiver sido arquivado pelo Wayback Machine antes.

Outra opção é enviar um único URL por e-mail para “spn@archive.org” e, se você adicionar “capture outlinks” (capturar links externos) no assunto do e-mail, todos os links do texto também serão salvos. Você receberá um relatório por e-mail quando o processo estiver completo.

Por fim, para aqueles com habilidades técnicas mais avançadas, o Wayback Machine fornece uma API (Application Programming Interface, na sigla em inglês), ou interface de programação, que permite a integração nos fluxos de trabalho de softwares já existentes ou ao construir novos aplicativos, para ajudar a automatizar seu trabalho. Um exemplo disso é como a Meedan – organização de tecnologia sem fins lucrativos, com sede em São Francisco, desenvolvedora de softwares e iniciativas para fortalecer o jornalismo global – integrou seu serviço “Check” com o Wayback Machine.

Compare mudanças em diferentes versões arquivadas

Você já quis descobrir e visualizar as diferenças entre duas versões da mesma página da web – talvez para ver como uma empresa ou indivíduo mudou seu site ou adaptou o texto em sua página? Você pode fazer isso com o recurso “Changes” (Mudanças).

Para testar, digite qualquer URL arquivado na função de pesquisa, na página inicial do Wayback Machine. Em seguida, selecione a opção “Change” (Alterar).

Você verá uma lista de versões arquivadas de diversas datas e horários; essas mudanças são codificadas por cores para representar os graus de mudança de um URL para outro.

Em seguida, selecione duas versões quaisquer que contenham os marcadores de data/hora do URL e elas serão exibidas lado a lado, com as diferenças dos textos destacadas em azul e amarelo. Esse recurso já foi usado para mostrar como um blogueiro e conselheiro político britânico tentou “reescrever a história” e é ilustrado na captura de tela abaixo.

The Wayback Machine showing how Dominic Cummings made stealth additions (in blue) to a blog post. Image: Screenshot

O recurso “Changes” (Mudanças) do The Wayback Machine revelou como Dominic Cummings, o ex-conselheiro-chefe do primeiro-ministro britânico, fez modificações sorrateiras (em azul, à direita) em sua postagem original (à esquerda). Imagem: Captura de tela

Pesquisas de arquivos mais profundas

Você pode usar a opção de URLs do Wayback Machine para pesquisar sub-URLs de qualquer URL capturado usando palavras-chave e/ou tipos MIME. Você pode facilmente filtrar e classificar os resultados para localizar capturas interessantes.

Arquivos específicos e coleções de sites foram indexados por nossos engenheiros e o Wayback Machine oferece uma interface de pesquisa de texto completa para eles. Confira “Collection Search” na parte inferior da página inicial do Wayback Machine. Os destaques incluem sites perdidos, como poetry.com, veículos independentes russos e uma coleção de 749 milhões de PDFs. Outro local onde você pode ver os serviços disponíveis para coleções é a página inicial do Internet Archive. Se você quiser que indexemos coleções específicas de material arquivado (por exemplo, correspondência de vários padrões de URL), entre em contato conosco em info@archive.org.

Usando APIs com o Wayback Machine

Além de uma API para dar suporte ao arquivamento por meio do serviço “Save Page Now” (Salvar página agora), também existem APIs que podem ser usadas para checar se o Wayback Machine arquivou URLs específicos. Você pode ler mais sobre aqui.

Como a maioria de seus serviços, o Wayback não impõe limites à frequência de uso de suas APIs. No entanto, ele pode ocasionalmente implementar medidas de regulação. Se você encontrar qualquer problema relacionado ao uso do Wayback Machine, envie-nos um e-mail ou Mensagem Direta (DM) no Twitter; apoiar jornalistas é uma grande prioridade para nós.

Adicionando contexto às páginas arquivadas

Reconhecemos que o contexto e a procedência são vitais para uma compreensão mais completa de qualquer arquivo. Com isso em mente, começamos a adicionar avisos com contextualização para ajudar os usuários a entenderem melhor nossos recursos arquivados. Esses tipos de avisos podem ser usados quando uma página da web arquivada foi excluída ou quando a página foi citada por uma organização de pesquisa conhecida.

O Wayback Machine inclui cabeçalhos amarelos com links que remetem a usos externos das páginas arquivadas e apresenta uma aba “About this capture” (Sobre esta captura) que fornece contexto histórico adicional sobre a página. Imagem: Captura de tela

A procedência de cada um dos URLs arquivados que constituem uma página da web pode ser fundamental para a compreensão dessa página. Por exemplo, certas imagens em uma página arquivada foram capturadas na mesma hora e data que outros elementos da página? Você pode ver essas informações clicando na aba “About this capture” (Sobre esta captura), no canto superior direito da página de exibição de cada URL arquivado.

O cuidado e atenção que prestamos à integridade de nossos arquivos e a transparência quanto a sua procedência contribuíram para a confiança das pessoas no Wayback Machine ao longo dos anos, razão pela qual as evidências armazenadas na ferramenta vêm sendo aceitas por vários tribunais em todo o mundo.

Se desejar que adicionemos contexto aos arquivos que você criou com nosso recurso “Save Page Now” (Salvar página agora), entre em contato conosco.

Extensões de navegador

Como era de se esperar, temos extensões de navegador disponíveis para Safari, Firefox e Chrome, bem como aplicativos para iOS e Android. E, como um brinde especial, fizemos uma parceria com o Brave – mecanismo de pesquisa – para criar a detecção de erros 404 (e outros tipos de erro) diretamente no navegador e para que o Wayback Machine dê suporte à navegação na web de uma forma muito simples.

Acima de tudo, saiba que a ajuda para usar o Internet Archive e o Wayback Machine está apenas a um e-mail ou uma DM de distância. Por favor, compartilhe suas perguntas, pedidos, relatórios de bugs e histórias de sucesso. Queremos ouvir especialmente o que você não gosta em nossos serviços, ou quais recursos você acha que devemos melhorar ou adicionar. Dessa forma, podemos nos empenhar para fazer um trabalho melhor apoiando as necessidades e desejos dos jornalistas.

Mas espere! Ainda tem mais…

Além de arquivar grande parte das páginas públicas da web, o Internet Archive também preserva e disponibiliza outras coleções de materiais, incluindo mais de 25 milhões de artigos acadêmicos de acesso aberto por meio de nosso serviço Internet Archive Scholar (com versão beta em português); quase 30 milhões de ebooks e textos que podem ser pré-visualizados, emprestados ou baixados; e milhões de horas de notícias de TV arquivadas (de dezenas de canais, durante a maior parte dos últimos 10 anos) são pesquisáveis por meio da indexação do texto integral das legendas ocultas (closed caption).

Para se manter atualizado sobre os projetos e serviços do Internet Archive e do Wayback Machine, siga-nos em nossas contas no Twitter: @internetarchive e @waybackmachine e confira nossas postagens no blog.

Leitura adicional

O que é o Internet Archive e o que posso encontrar nele? 

Como Usar o Wayback Machine do Internet Archive

Usando o Archive.org para investigações com inteligência de fontes abertas

Webinar GIJN: Usando informações de código aberto para trabalhar em casa

Centro de recursos GIJN: ferramentas de pesquisa online


Mark Graham thumbnail imageMark Graham administra o Wayback Machine há mais de cinco anos. Antes disso, ele foi vice-presidente sênior da NBC News Digital. Graham também ajudou a administrar o primeiro serviço de e-mail entre os Estados Unidos e a União Soviética; iniciou um projeto para construir a primeira interface web para um sistema de discussão online; e ajudou a administrar o iVillage, um dos primeiros serviços online com conteúdo para mulheres.

 

Leave a Reply

Your email address will not be published. Required fields are marked *