Крэйг Сильверман из ProPublica рассказывает, как быстро заархивировать большое количество веб-страниц, сопоставить изменения и проверить дату архивирования отдельных элементов страницы.
Ранее в блоге «Цифровые расследования» я уже приводил советы о том, как использовать Wayback Machine по-максимуму. Благодаря интервью с Марком Грэхемом, директором Wayback Machine, теперь у меня есть ещё больше лайфхаков.
Он указал на несколько особенностей, о которых я забыл упомянуть (а про некоторые даже не знал). Также мы обсудили сложности архивирования контента из соцсетей.
Порталом Wayback Machine заведует некоммерческая организация Internet Archive, которая уже 27 лет занимается предоставлением всеобщего доступа к любым знаниям. «Мы – цифровая библиотека», – говорит Грэхем.
«И раз мы – библиотека, значит у нас не пользователи, а читатели». Давайте же посмотрим на некоторые полезные для читателей-журналистов и аналитиков функции.
1. Просмотр и сопоставление изменений
Функция Changes (Изменения) позволяет сравнивать разные версии одной и той же страницы и находить отличия.
«Допустим, журналист пишет статью, в которой важно показать, что со временем содержимое страницы менялось», – говорит Грэхем. «В этом случае ему нужно знать про функцию Changes в Wayback Machine, которая позволяет сравнить материал по адресу URL в два разных момента».
Функция Changes доступна в верхнем меню любой заархивированной страницы, которую вы просматриваете в Wayback Machine:
Также можно открыть её напрямую, просто введите следующий URL-запрос: https://web.archive.org/web/changes/https://www.nytco.com/journalism/
URL-адрес сравниваемой страницы укажите сразу после https://web.archive.org/web/changes/, и вам откроется набор графиков, где по годам будут отображаться точки, обозначающие даты архивирования:
Каждая заполненная клетка соответствует снимку страницы, а цветом обозначены дни, когда произошли значительные изменения. Выберите два экземпляра и нажмите в верхней части страницы на кнопку “Compare” (Сравнить). Откроется параллельное сопоставление двух сохранённых копий.
Я выбрал снимок страницы за начало марта 2023 года (слева) и за начало января 2022 года (справа). Сравнение показало, что на странице New York Times с корпоративной информацией о журналистике изменились варианты меню и текст в «подвале» (футере) страницы:
2. Используйте функцию ‘About this Capture’ (Об этом снимке) для верификации элементов страницы
Говоря простым языком, Wayback Machine копирует экземпляр веб-страницы и сохраняет её в архиве. В реальности есть много нюансов.
«В интернете всё запутано и всё постоянно меняется», – говорит Грэхем. «И когда я говорю: «постоянно меняется», то это значит, что всё очень динамично».
Я спросил его, насколько мы можем быть уверены, что архив показывает всё в точности как было в ту дату и время, которые указаны в Wayback Machine. Если коротко, то да, мы можем быть уверены. Но элементы архивной страницы могут подтягиваться из других заархивированных материалов, и у каждого будет собственная метка времени. Вот тут и начинаются нюансы.
В Wayback Machine есть функция, позволяющая просматривать временные метки разных элементов страницы. Чтобы её открыть, нажмите на “About this capture” (Об этом снимке) в правом верхнем углу экземпляра страницы:
Возьмём для примера страницу https://www.nytco.com/journalism/, и вот что мы получим:
Хотя страница была заархивирована 20 октября 2021 года, экземпляр подтягивает некоторые элементы страницы из более свежих архивов. Большая часть приведённых выше элементов – это изображения, из которых состоит шаблон страницы. Есть также несколько файлов – это JavaScript и CSS. Грэхем объяснил, что Wayback Machine подтягивает разные картинки, файлы JavaScript и CSS, чтобы «собрать» страницу и отобразить в браузере.
«Когда мы воспроизводим страницу, то на самом деле пытаемся собрать вместе все реквизиты страницы, которые указаны в URL-адресе, из архивных копий, и сложить их воедино», – поясняет он. «Одна из сложностей состоит в том, что каждый из этих объектов мог попасть в архив в разное время».
Например, главное фото вверху этой страницы (“17XP-PULITZERS2-superJumbo-article.jpg”) было взято из экземпляра, сохранённого за 8 дней до того, как я загрузил архив. Если это фото или файл важны для вашего расследования, то стоит проверить его страницу в архиве и посмотреть, не было ли изменений со временем, и какой экземпляр был сохранён в нужную вам дату. Но если с течением времени изменений файла не было, то всё хорошо.
По общему, но не абсолютному, правилу, текст основного «тела» типичной веб-страницы не подтягивается из отдельного файла или другой страницы. Поэтому скорее всего к основному тексту такая динамика не применима. Но безопаснее всего будет проверить пункт “About this capture” и убедиться, что текст, изображения или другие элементы страницы не менялись в нужную вам дату.
3. Используйте Google Таблицы для массового архивирования
Грэхем напомнил мне, что с помощью Google Таблиц можно массово архивировать URL-адреса. Это очень просто. Сначала создайте таблицу с одним столбцом и добавьте туда список адресов для архивирования. Затем перейдите вот сюда, чтобы связать свою учётную запись Google с учётной записью archive.org.
После завершения вы увидите этот экран. Нажмите на “Archive URLs” (Архивировать адреса).
Теперь вставьте ссылку на Google Таблицу с теми адресами URL, которые вам нужно заархивировать.
Поскольку вы подключили учётную запись Google к archive.org, то все сохранённые экземпляры будут храниться у вас в учётной записи archive.org для простоты поиска.
«Эта функция появилась, потому что как-то жена меня спросила: “Марк, а как мне проще всего заархивировать кучу страниц”?», — сказал он.
Вместе с инженерами Internet Archive Грэхем разработал для неё эту функцию.
4. Присылайте свои комментарии и вопросы по электронной почте
«Многие, многие функции Wayback Machine существуют сегодня потому, что о них попросил или их предложил наш “читатель”», — сказал Грэхем. «Мы очень ценим комментарии и вопросы».
Он посоветовал всем писать на info@archive.org.
«Мы получаем сотни писем в день, просматривает и отвечает на них целая команда», – добавил Грэхем. «Я лично отвечаю на те вопросы о Wayback Machine, на которые не может ответить первый уровень поддержки».
Особенно он будет рад ответить на вопросы или комментарии журналистов.
Дополнительная информация: Архивирование соцсетей
Опытные пользователи Wayback Machine знают, что архивировать содержимое социальных сетей бывает сложно, а то и невозможно. Дело – не в функциональности и ограничениях платформы, а в том, что компании вроде Meta пытаются помешать скрейпингу.
Вот что, по словам Грэхема, мешает архивировать содержимое социальных сетей:
Некоторые веб-сайты архивировать проще, но вот с Facebook и Instagram особые сложности. Они предпринимают активные меры для противодействия автоматизированным методам, в том числе скрейпингу. Например, если зайти на сайт Facebook, там есть отдельный раздел про веб-скрейпинг, в котором объясняется, что есть специально обученные сотрудники, занятые противодействием веб-скрейпингу и веб-архивированию.
Мы относимся к интернету уважительно. Это не наш материал. Как библиотека, мы работаем для того, чтобы этот материал был доступен всем. Поэтому в случае с Facebook и Instagram, мы стараемся сохранять и их. Нам кажется, что это вполне нормально – архивировать публично доступную информацию. Например, это могут быть публичные страницы в Facebook пресс-служб государственных органов таких стран, как Украина или Китай.
Но есть и хорошие новости. По словам Грэхема, Wayback Machine «активно работает с несколькими медиа-организациями», чтобы улучшить возможность архивирования социальных сетей. Надеемся, вскоре станет проще.
Эта публикация изначально была опубликована в рассылке Крэйга Сильвермана Digital Investigations Substack и перепечатывается с его разрешения.
Дополнительные ресурсы
Советы по использованию архива Интернета в вашем следующем расследовании.
Любимые инструменты Крэйга Силвермана.
Как проводить расследования в интернете: Коллекция путеводителей.