- Советы по поиску в Интернете
- Инструменты Google
- Извлечение данных из PDF-файлов
- DocumentCloud
- OpenRefine
- Скрейпинг данных (data scraping – технология получения данных из веб-страниц)
- Google Fusion
- Datawrapper
- CartoDB
- TimelineJS
Редакциям новостей больше не нужны огромные бюджеты для анализа данных – можно легко получить доступ к бесплатными или недорогим базовым инструментам обработки данных. Ниже приведен список, созданный по результатам пятидневного тренинга в редакции газеты «Дело» – ведущей ежедневной газеты Словении. Анушка Делич, журналист и руководитель проекта DeloData в этой газете, начала обучение сотрудников с целью подтолкнуть команду к использованию легко доступных инструментов обработки данных и множества новых источников информации при работе над сюжетами.
«Поначалу казалось, что не все из 11 участников, у которых не было или почти не было начальных знаний об этой захватывающей области журналистики, заразятся идеей использования мышления, ориентированного на данные, при работе с новостями. Но очень быстро эта идея стала для них очевидной», сказала Анушка Делич после начала тренинга.
Знакомство с инструментами по обработке данных
Помимо демонстрации базовых интернет-запросов (см. ниже), продвинутого владения Excel, Google Fusion, OpenRefine и Helium Scraper, которые я также включил в программу тренинга на Европейской конференции журналистики данных «Data Harvest», я предложил обучение по извлечению данных из PDF-файлов с помощью CometDocs, DocumentCloud, Datawrapper и CartoDB.
Оказывается, в Словении есть масса качественных материалов и публичных данных, которые можно использовать для создания новостей. Например, данные из статистического управления. Вся эта информация даже может быть отсортирована по муниципальным округам, что потенциально актуально и для других стран Европейского Союза.
Советы по поиску в Интернете (ссылки)
Исследовательская клиника Пола Майерса (Paul Myers researchclinic)
Расширенный поиск по Facebook от интернет-эксперта Хенка ван Эсса (Henk van Ess on Facebooksearch)
Поиск ID в Facebook (Findmyfacebookid)
Инструменты Google (ссылки)
Двухэтапная авторизация (Two-step verification)
Работа с файлами Google в офлайн-режиме (Google Offline)
Расширение Table Capture для Chrome
Импорт PDF файлов
Мы извлекали данные из PDF-файлов, используя CometDocs и OnlineOCR.net. Но советуем также ознакомиться с данным обзором удобных инструментов для импорта PDF-файлов (http://46.38.172.73/unv/dh14/tipsheet-pdf.pdf). В целом, CometDocs решает большинство задач, связанных с импортом PDF, а также распознает специальные символы в алфавитах разных стран. Для членов Организации журналистов и редакторов-расследователей (Investigative Reporters and Editors) CometDocs является бесплатным.
DocumentCloud
DocumentCloud является бесплатным ПО. Это хороший инструмент для встраивания заметок в документ, который предоставляет пользователям возможность рецензировать весь файл.
OpenRefine
OpenRefine (ранее Google Refine) – это бесплатный мощный инструмент для работы с неструктурированными данными, их очистки и преобразования из одного формата в другой. Вот хороший учебник по OpenRefine (http://2016.uncoveringasia.org/wp-content/uploads/sites/5/2013/10/refine.pdf).
Скрейпинг данных
Базовая версия Helium Scraper, которая является хорошим инструментом для этих целей, стоит 100 дол. США. Я думаю, что это программа является неплохим способом освоить скрейпинг. Helium Scraper работает на всех ПК, кроме компьютеров Mac.
Здесь вы также можете найти другие инструменты для скрейпинга данных из Интернета.
Google Fusion
Google Fusion — это отличный инструмент для визуализации данных на основе интерактивной карты, который в большинстве случаев доступен бесплатно. Важно попытаться получить правильную версию карты городов/районов вашей страны и импортировать ее в качестве стандартной карты в Google Fusion. Ниже приведены некоторые полезные ссылки для работы с Fusion:
Поиск таблиц для Fusion (Search for fusion tables)
Хранилище данных Google Drive
Список иконок для Google Fusion (List of icons)
Программа для маппинга DIVA-GIS (http://www.diva-gis.org/)
Конвертация shape-файлов (Converting shape-files)
Таблица «безопасных» цветов для отображения на мониторах (http://www.december.com/html/spec/colorsafe.html)
Инструмент для подбора цветов Colorbrewer2 (http://colorbrewer2.org/)
Сервис Layer Wizard для Google Fusion (Layer Builder)
Data Wrapper
Data Wrapper — это очень простой инструмент для визуализации данных в виде интерактивных графиков, но для использования услуги встраивания графиков с сервера компании требуется оплата.
Вместо этого вы можете запускать графики на своем собственном сервере и использовать WinSCP в качестве системы для передачи файлов. WinSCP является бесплатным ПО и работает на всех ПК, кроме Mac.
Собственный сервер может также использоваться и для карт, созданных с помощью Google Fusion, но не забывайте правильно структурировать свое дисковое пространство.
CartoDB
CartoDB — это отличная альтернатива Google Fusion со множеством возможностей для создания карт совершенно по-новому.
В бесплатной версии можно загрузить неограниченное количество карт и таблиц, однако общий предел загружаемых данных составляет 50 МБ, чего как правило достаточно в большинстве случаев. В бесплатной версии программы ограничен доступ к геокодированию, которое затем необходимо выполнить с помощью другого инструмента или же можно приобрести хотя бы один платный аккаунт на CartoDB для получения доступа к этой функции.
TimelineJS
TimelineJS – это бесплатный инструмент с открытым исходным кодом, который позволяет пользователям создавать красочные интерактивные тайм-линии. Он доступен на 40 языках. Вы можете легко создать контент в электронной таблице Google, а затем импортировать его в TimelineJS.
Удачи в раскопках данных!
Нильс Мулвад – соучредитель и член совета Глобальной сети журналистов-расследователей, а также организации Investigative Reporting Denmark (Дания). Он также является редактором в Kaas & Mulvad, консалтинговой фирме по журналистике данных, и доцентом в Датской школе медиа и журналистики. Нильс Мулвад был генеральным директором Датского международного центра аналитической отчетности в 2001-2006 годах и европейским журналистом года в 2006 году.