Когда речь заходит о работе с документами, одним из моих любимых инструментов является DocumentCloud. Среди многих замечательных функций DocumentCloud отмечу возможность создавать текстовые версии PDF-документов и накапливать статистические данные с загруженных вами файлов. Но что, если вам нужно проанализировать тысячи или даже сотни тысяч документов? Тогда вам стоит обратить внимание на Overview, инструмент для анализа документов, созданный с учетом интересов журналистов.
Overview позволяет импортировать документы из разных источников, включая DocumentCloud, а также может обрабатывать от нескольких десятков до миллионов страниц. Overview визуализирует данные в массиве документов различными способами: от облаков ключевых слов до графического отображения взаимосвязей. В нем также имеется ряд инструментов поиска, которые делают его относительно простым для фильтрации ваших данных в процессе поиска конкретной информации. Одна из его лучших функций заключается в возможности автоматической группировки документов в папки, исходя из их содержимого. Кроме того, как и в DocumentCloud, у него есть функция встроенного оптического распознавания символов (OCR), позволяющая просматривать документы в их исходном формате или в текстовом режиме. Добавьте к этому возможность проставлять теги и пометки, и внезапно задача обработки тысяч документов уже не кажется такой сложной.
Чей это твит?
Twitter может быть отличным источником данных для журналистов, но эффективно обрабатывать диалоги и комментарии в Twitter довольно сложно, если вы не дружите с программированием и не знаете, как использовать интерфейс Twitter. Однако мой новый фаворит Treeverse облегчает эту работу. Это расширение Chrome, которое позволяет найти всех участников треда (от англ. thread (нить) — последовательность ответов на сообщение, то есть «ветвь обсуждения» – ред.) в Twitter буквально за один клик.
Treeverse можно загрузить из магазина приложений Chrome. После установки расширения откройте Twitter, найдите активный тред и откройте оригинальный твит. В открытом твите кликните на значок расширения Treeverse, и вы получите древовидное отображение дискуссии и ее участников. Кликните на участника, и его твит будет загружен на боковую панель вместе с предыдущими твитами, ведущими к нему. Кроме того, треды окрашены в разные цвета в зависимости от того, когда они были размещены, что визуально облегчает понимание очередности твитов.
Поиск данных в Twitter
Одним из лучших инструментов для поиска информации о пользователях Twitter является FollowerWonk. Он предлагает широкий спектр инструментов для анализа пользователей Twitter. Например, вы можете сравнить профили нескольких пользователей Twitter и посмотреть их относительную активность в Twitter, определить взаимные наложения по пользователям, которых они фолловят или которые фолловят их. Одна из самых полезных функций FollowerWonk — это возможность найти пользователей по их биографии в Twitter. Это отлично подходит для поиска пользователей в конкретных отраслях или обладающих конкретными знаниями.
Без проблем
В какой-то момент в большинстве проектов расследований вам нужно будет делиться документами либо с коллегами, либо с источниками. Конечно, существует множество полезных онлайн-сервисов, таких как Dropbox или Google Drive, не говоря уже об электронной почте. Но что, если документ конфиденциален, и вы не хотите, чтобы его перехватили? Или вам нужно передать документ анонимно? Одним из самых простых инструментов для таких случаев является OnionShare.
OnionShare — это программное обеспечение с открытым исходным кодом, которое работает на большинстве операционных систем, включая Windows, Mac OS и Linux. После установки программы пользователь может перетаскивать и загружать файлы в OnionShare. При обмене файлами OnionShare настраивает защищенный сервер Tor и генерирует уникальный URL-адрес. Затем получатель открывает этот URL-адрес, используя безопасный и анонимный браузер Tor для загрузки файлов.
OnionShare по умолчанию прекращает соединение, как только файлы загружены, таким образом закрывая дальнейший доступ к передаваемой информации.
Еще на шаг дальше
Если вам нужно что-то более долговечное, чем OnionShare, стоит подумать о создании виртуальной защищенной сети (VPN). VPN являются полезными для защиты коммуникаций внутри организации, но имеют репутацию дорогостоящих или сложных в настройке решений. Однако это не про Outline.
Созданный Jigsaw, Outline упрощает настройку VPN, используя такие сервисы, как DigitalOcean, которые стоят всего несколько долларов в месяц. Outline включает в себя инструмент управления для настройки необходимого вам количества виртуальных защищенных сетей, а также клиент-аккаунт, используемый для доступа ко вновь настроенной VPN.
Под бдительным надзором
Существует много веских причин, по которым вам может понадобиться отслеживать изменения на веб-сайте. Возможно, вас интересуют изменения, внесенные на страницу профиля, листинг, страницу регулирования, корпоративные документы или корпоративный веб-сайт. Вместо того, чтобы каждое утро открывать сайт для проверки изменений, упростите свою жизнь с помощью автоматизированного мониторинга. Есть ряд хороших инструментов для мониторинга веб-сайтов, а особенно я люблю Versionista и VisualPing. Оба достаточно просты в использовании: добавьте URL-адрес и адрес электронной почты, и сервисы будут отправлять вам сообщения при обнаружении изменений на выбранном вами сайте. Оба сервиса также будут сохранять версии сайта, который вы мониторите, чтобы вы могли видеть эволюцию изменений на странице с течением времени. Оба сервиса предлагают бесплатный базовый пакет услуг, а также расширенный пакет функций за определенную плату.
Если у вас есть какие-либо инструменты или советы, которыми вы считаете нужным поделиться, вы можете отправить их на электронную почту alastair.otter@gijn.org.
Алестер Оттер — IT Координатор GIJN. Он также является управляющим партнером Media Hack Collective – коллектива дата-журналистов со штаб-квартирой в Йоханнесбурге, где он занимается интерактивной визуализацией данных и управляет сайтами нескольких онлайн-медиа.