Объяснение визуализации данных: Что это такое и почему это важно

Автор: Дмитрий Иванов [Команда P9X]

~8 минут чтения

Привлекают сегодня всё внимание в науке о данных, но я бы сказал, что они оба второстепенны по сравнению с более важным — и часто игнорируемым — разделом этой области.

При работе с данными есть два основных шага:

  1. Обработка и анализ данных для извлечения значимой информации.
  2. Донесение этой информации до других.

Второй пункт имеет решающее значение, и о нём часто забывают. Самый продвинутый алгоритм в мире или полезная идея бесполезны, если никто не может их понять. Как учёный, работающий с данными, вы должны научиться доносить свои идеи до других.

Для этого есть несколько причин, причём очевидная заключается в том, что если нужные люди поймут данные, то мир в целом получит пользу. Однако есть и другая, не менее важная причина: именно описывая наши выводы другим, мы обнаруживаем ошибки, более глубокие знания или новые области для изучения.

В этой статье мы рассмотрим мощный и эффективный инструмент, который может помочь достичь второго шага, упомянутого выше: визуализация данных. Это первая в серии статей, которые познакомят абсолютных новичков с основами визуализации данных. Эта первая статья носит общий и лёгкий характер, предназначена для ознакомления с этой областью в целом. В последующих статьях я расскажу о более технических аспектах, в конце концов научив вас создавать собственные визуализации данных.

Обладая этими знаниями, вы будете готовы решать задачи с данными новыми, захватывающими способами.

«Наибольшая ценность изображения — когда оно заставляет нас заметить то, что мы никогда не ожидали увидеть» — Джон Тьюки.

Что считается визуализацией данных?

Многие люди рассматривают визуализацию данных через ограниченное представление, классифицируя только стандартные графики, такие как гистограммы, линейные графики и тому подобное, как настоящие визуализации данных. С этой точки зрения визуализация данных появилась только в середине XVIII века. (Ниже мы увидим несколько примеров.)

Однако нам следует расширить свой кругозор. Визуальные преобразования данных никоим образом не ограничиваются нашими традиционными представлениями. Они существуют уже тысячи лет. Например, вот «Imago Mundi» [1], самая старая известная карта в мире, обнаруженная как реликвия древнего города Вавилона:

Источник изображения: Wikimedia Commons

Эта карта помещает Вавилон в центр и, вероятно, была чрезвычайно полезным инструментом для визуализации того, что мы теперь формально называем геопространственными данными. Это одна из самых ранних визуализаций данных в мире.

Существует множество подобных фигур и изображений из различных древних цивилизаций — пещерные рисунки, календари, каменные резные изображения, даже египетские иероглифы — все они являются по сути визуальными представлениями данных, которые было трудно понять в их первоначальной форме. Рассматривая эти примеры как визуализации данных, мы приходим к важному принципу:

По своей сути визуализация данных — это не что иное, как взятие некоторых данных — будь то числовые, текстовые или какие-либо ещё — и применение преобразования для их визуального представления.

Этот основополагающий принцип приводит к нескольким смежным темам, в основном связанным с наиболее эффективными методами проведения этих преобразований, где эффективное свободно переводится как «честное, лёгкое для понимания и информативное».

Ранние примеры визуализаций данных

Теперь, когда мы расширили наши представления о том, что такое визуализация данных, давайте взглянем на некоторые современные примеры. Ниже приведена диаграмма 1644 года, разработанная Майклом Флорентом Ван Лангрэном [2]. Это одно из самых ранних графических представлений того, что мы считаем традиционными статистическими данными, изображающее оценки разницы в долготе между Римом и Толедо.

Эта карта изображает 12 оценок разницы в долготе между городами Римом и Толедо.

Рассмотрим более сложный пример — тот, который напрямую подчёркивает цитату Тьюки, приведённую выше.

Ниже представлена карта лондонского района Сохо 1854 года [3]. Она была разработана Джоном Сноу, чтобы определить, есть ли какие-либо закономерности во вспышке холеры, которая в то время ослабляла город:

Карта лондонского района Сохо, изображающая смертность от холеры во время вспышки 1854 года. Источник изображения: Picryl Public Domain

Глядя в центр карты, мы видим исключительно большое количество смертей вблизи водяного насоса на Брод-стрит. Расследование показало, что этот насос был загрязнён и являлся основной причиной распространения болезни.

Этот пример подчёркивает именно тот принцип, который мы отметили выше: одно из лучших применений визуализации данных — это быстрый поиск инсайтов, которые трудно найти в исходной форме данных.

Точность и гибкость

Визуализация данных — это обширная и глубокая тема, к которой можно подойти по-разному. Тем не менее есть два принципа, о которых следует помнить независимо от конкретной формы визуализации данных, которой вы занимаетесь: точность и гибкость.

Хорошая визуализация данных не пытается выполнить плохо определённые задачи, такие как отображение сущности или обобщение всего важного в наборе данных. Подобные утверждения субъективны и по сути недостижимы.

Вместо этого хорошая визуализация данных выделяет определённый и чётко определённый аспект соответствующих данных таким образом, чтобы облегчить его понимание пользователем. Вы всегда должны чётко формулировать, что именно вы хотите выразить о своих данных, прежде чем приступить к разработке визуализации.

Чтобы усвоить этот принцип, полезно вспомнить, в чём изначально заключалась цель визуализации данных: наглядно представить инсайты из набора данных в понятной и полезной форме. Мы хотим упростить понимание данных. Точность помогает достичь этой цели. Визуализация, которая пытается сделать слишком много, может в итоге запутать зрителя ещё больше. Лучше создать визуализацию, которая охватывает меньше данных, но более чётко. Качество важнее количества.

Взгляните на таблицу данных ниже, которая содержит информацию о зарплатах в разных городах Соединённых Штатов.

ИмяГородДоходПрофессия
Сара МитчеллДенвер, Колорадо$72 500Менеджер по маркетингу
Джамаль РодригесХьюстон, Техас$58 300Электрик
Прия ДесаиСиэтл, Вашингтон$91 200Инженер-программист
Томас НгуенЧикаго, Иллинойс$64 800Медсестра

Какая из следующих визуализаций лучше всего подходит для представленных выше данных?

  1. Визуализация, которая пытается упростить информацию в таблице данных, используя гистограмму с именами по одной оси и зарплатами по другой, использует цвет для дифференциации городов и использует текстуру на столбцах (пунктирные линии, диагональные линии и т. д.) для различения профессий.
  2. Та же визуализация, что и выше, но на этот раз без указания профессий. Другими словами, гистограмма с именами и зарплатами, в которой столбцы окрашены в зависимости от местоположения.

Соблазнительно выбрать первый вариант, но факт в том, что он пытается сделать слишком много. Лучше отобразить ограниченную, целенаправленную информацию, чем запутать аудиторию.

Помимо точности, важно сохранять гибкость. Не существует идеальной визуализации данных. Всегда есть возможности для улучшения, и визуализации данных обычно становятся лучше с каждой редакцией. Конечно, в какой-то момент визуализация данных должна быть разделена с другими и служить своей цели.

Это приводит к затруднению — сколько редакций достаточно? На этот вопрос нет однозначного ответа. Процесс редактирования визуализации должен осуществляться с осторожностью. Запрос слишком большого количества людей для получения совета, скорее всего, приведёт к набору непродуманных, противоречивых мнений. С другой стороны, публикация первого черновика визуализации — то есть без её редактирования — вероятно, приведёт к посредственному результату.

Хотя идеального решения не существует, можно следовать нескольким рекомендациям:

  • Определите 2–3 человек, которые дадут вам обратную связь по вашей визуализации.
  • Постарайтесь, чтобы ваш список людей охватывал следующее:
    • Рецензент, который разбирается в проектировании визуализаций данных.
    • Рецензент, который хорошо разбирается в данных, используемых для разработки визуализации (например, политолог для данных о выборах).
    • Рецензент, который является частью целевой аудитории визуализации.
  • Пройдите 2–3 раунда обратной связи и редактирования с этим же списком людей. Это обеспечит непрерывное и логичное улучшение визуализации.

Заключительные мысли и взгляд в будущее

Во многих отношениях визуализация данных сродни написанию. Даже самые плодовитые и талантливые авторы имеют редакторов, а их книги проходят тщательную доработку перед публикацией. Почему? По простой причине: хорошее письмо во многом зависит от аудитории, а тщательно продуманная доработка обеспечивает наилучший опыт для читателей книги. Та же идея применима к визуализации данных.

Следуя этим рекомендациям, вы сможете разработать надёжную визуализацию данных, основанную на лучших практиках, правильно отображающую имеющиеся данные и понятную целевой аудитории.

Это ключ к эффективной визуализации данных и основа для продвинутых методов визуализации, которые будут рассмотрены в будущих статьях. До встречи.

Ссылки

[1] https://commons.wikimedia.org/wiki/File:The_Babylonian_map_of_the_world,_from_Sippar,_Mesopotamia..JPG [2] The Visual Display of Quantitative Information, Edward Tufte [3] https://picryl.com/media/snow-cholera-map-1-cbadea