Основные принципы мышления для специалистов по обработке данных

Автор: Дмитрий Иванов [Команда P9X]

~8 минут чтения

Написал в Смитсоновский институт с просьбой предоставить все материалы по полётам человека. Он и его брат Орвилл изучили все документы, теории и расчёты ведущих авиационных исследователей того времени. Они изучили конструкции планеров Отто Лилиенталя, инженерные принципы Октава Шанюта и таблицы Сэмюэля Лэнгли о подъёмной силе и сопротивлении.

Затем они сделали нечто радикальное: подвергли всё сомнению.

Когда их планеры не показали результатов, как предсказывали опубликованные данные, братья Райт не стали считать, что виноваты они сами. Они построили собственный аэродинамический туннель и испытали более 200 конструкций крыльев. То, что они обнаружили, ошеломило их. Коэффициенты подъёмной силы Лилиенталя — цифры, на которые опиралась вся отрасль, — были неверны, и не просто немного. Абсолютно, полностью неверны.

Братья Райт не подвергали это сомнению из-за высокомерия; они применяли мышление на основе первых принципов. И именно это стало решающим фактором между их первым полётом в 1903 году и крушением самолёта Лэнгли, у которого было больше финансирования, престижа и ресурсов, в Потомаке за девять дней до этого.

Сегодняшние учёные данных сталкиваются с аналогичной задачей. Мы окружены готовыми решениями, фреймворками и лучшими практиками — руководствами по A/B-тестированию, таксономиями метрик, контрольными списками выбора моделей. Эти инструменты бесценны. Но, как и таблицы Лэнгли, они могут сбить нас с пути, если применять их слепо.

Самые стратегические специалисты по данным, которых я знаю, не выбирают между фреймворками и первыми принципами. Они используют и то, и другое. Фреймворки дают скорость. Первые принципы обеспечивают ясность. Вместе они отделяют исполнителей задач от стратегических партнёров.


Что такое мышление на основе первых принципов?

Мышление на основе первых принципов означает разбиение проблемы до её фундаментальных истин и восстановление с нуля. Аристотель описывал это как поиск «первой основы, из которой известна вещь».

На практике это означает задавать вопросы:

  • Что мы знаем как абсолютно истинное?
  • Что мы предполагаем?
  • Какие из этих предположений мы можем поставить под сомнение?

Это не означает отказа от существующих знаний: братья Райт изучили все доступные исследования; они просто не относились к ним как к священному писанию.

Для специалистов по данным то же самое применимо. Фреймворки — это карты — проверенные короткие пути через знакомую местность. Первые принципы — это компас, который помогает нам ориентироваться, когда карта немного размыта.


Почему учёным данных это нужно сейчас

Фреймворки повсюду в науке о данных не просто так. Они помогают нам проводить эксперименты, определять метрики и быстро создавать модели. Но они также могут создать ложное чувство уверенности.

Я видел команды, которые проводили безупречные A/B-тесты, которые отвечали на неправильный вопрос. Я видел стандартные метрики, которые создавали впечатляющие информационные панели, но измеряли ничего значимого. Эти неудачи произошли не потому, что фреймворки были несовершенны. Они произошли потому, что никто не остановился, чтобы задать вопросы на основе первых принципов: какое решение мы на самом деле пытаемся принять? Какую ценность мы действительно пытаемся измерить? Нужен ли нам вообще такой уровень сложности?

Это имеет большее значение, чем когда-либо, потому что искусственный интеллект автоматизирует исполнительскую сторону науки о данных. Генеративный ИИ может запрашивать данные, создавать визуализации и применять фреймворки блестяще. Но он не может решить, задаёте ли вы правильный вопрос.

Мышление на основе первых принципов — это ваш отличительный признак. Это навык, который удерживает фреймворки в реальности — и он становится наиболее защищаемой возможностью стратегического специалиста по данным.


Где мышление на основе первых принципов меняет всё

Вот три примера, когда руководство по науке о данных написано тщательно, но строгое следование ему бездумно приведёт к плохим результатам.

За пределами стандартных A/B-тестов

Фреймворк говорит: определите свою гипотезу, рандомизируйте пользователей, измерьте свою основную метрику, проверьте значимость. Это работает идеально — если вы задаёте правильный вопрос.

Но вопрос на основе первых принципов возникает раньше: какое решение мы пытаемся принять? Какую неопределённость мы пытаемся разрешить?

Я однажды консультировал команду, которая тестировала новый алгоритм рекомендаций. Мышление на основе фреймворка говорило: рандомизируйте пользователей, измерьте количество кликов, запустите на две недели. Выпустите победителя.

Но пауза на основе первых принципов выявила нечто иное. Мы не были уверены в кликах — ранние сигналы предполагали, что они вырастут. Мы не были уверены, приведут ли эти клики к истинному вовлечению или просто к шуму.

Поэтому мы изменили то, что мы измеряли. Вместо кликов мы сосредоточились на повторных посещениях, глубине сеанса и долгосрочном вовлечении. Результат? Новый алгоритм увеличил количество кликов на 12%, но уменьшил количество повторных посещений на 8%. Стандартный фреймворк сказал бы: «Выпустите его». Подход на основе первых принципов сказал: «Ещё нет».

Мы решили, что новый алгоритм был слишком «кликбейтным». Фреймворки дали нам методологию. Первые принципы задали нам правильный вопрос.

Что на самом деле измеряют наши метрики?

Метрики фреймворков — North Star, OKRs, HEART — мощны, потому что дают структуру. Но они также могут создать иллюзию, что мы измерили то, что имеет значение.

Мышление на основе первых принципов задаёт вопросы: какое фундаментальное поведение или ценность нас волнует? Отражает ли эта метрика её на самом деле?

Рассмотрим вовлечённость. Многие фреймворки предлагают DAU, длину сеанса или действия за сеанс. Разумные прокси — но так ли это?

  • Для приложения для медитации более длительные сеансы могут выглядеть «лучше», но фундаментальная цель — устойчивая практика. Это может означать более короткие сеансы с течением времени.
  • Для аналитического инструмента большее количество запросов на пользователя может сигнализировать о более глубоком использовании, или это может означать, что пользователи изо всех сил пытаются найти ответы. Реальная ценность — более быстрые и целенаправленные идеи.

Я однажды начал новую работу и унаследовал информационную панель, которая гордо сообщала о еженедельных активных пользователях в качестве основного показателя успеха. Но когда я углубился, я понял, что большинство «активных» пользователей просто заходили, смотрели вокруг и уходили, не выполнив ни одной задачи. С точки зрения первых принципов я решил, что реальная ценность — это выполненные задачи. И как только я изменил метрику, мы обнаружили (как и ожидалось), что использование было намного ниже по новому определению, но новая формулировка дала нам ясность в том, на чём сосредоточиться, чтобы добиться значимого внедрения.

Фреймворк даёт вам меню метрик. Мышление на основе первых принципов говорит вам, отражает ли какая-либо из них вашу ценность продукта. Иногда стандартная метрика идеальна, но иногда она опасно вводит в заблуждение.


Когда первые принципы спасли запуск

Один из наиболее ярких примеров, с которыми я сталкивался, произошёл в начале моей карьеры, когда моей команде было поручено создать «оценку качества пользователей», чтобы помочь продажам расставить приоритеты в лидах.

Подход на основе фреймворка был очевиден: машинное обучение с учителем, прогнозирование вероятности конверсии, ранжирование по баллам. У нас были данные, функции, методология.

Через две недели, когда мы изо всех сил пытались добиться постепенно более высоких показателей производительности, кто-то спросил: какое решение продажи на самом деле примут с этим баллом?

Мы спросили у отдела продаж. Ответ был не «дайте мне точные вероятности». Это было: Должен ли я потратить время и персонализировать звонок этому лиду, или просто отправить быстрое стандартизированное электронное письмо?

Это всё изменило. Нам не нужна была сложная модель, охватывающая весь диапазон вероятностей. Нам нужен был простой, интерпретируемый классификатор, оптимизированный под один порог.

Вернувшись к первым принципам, мы перешли от ансамблевой модели к логистической регрессии, убрали половину наших функций, запустили на три недели быстрее — и предоставили то, что продажи действительно использовали.

С помощью ИИ фреймворки будут становиться всё проще в применении. Но компас — это то, что вы должны построить сами. И это то, что сохранит вас актуальным, стратегическим и незаменимым в предстоящие годы.


Компас и карта

Вот урок: стратегические специалисты по данным не выбирают между фреймворками и первыми принципами. Они их сочетают.

  • Фреймворки — это карта — они позволяют вам двигаться быстро и использовать накопленные знания.
  • Первые принципы — это компас — они помогают вам сориентироваться, когда карта не показывает ваш путь чётко.

Братья Райт не отвергли исследования своего времени. Они опирались на них, но также знали, когда вернуться к основам.

Это сдвиг в мышлении, который отделяет стратегических специалистов по данным от тактических. Это не о том, чтобы знать больше методов или работать больше. Это о том, чтобы знать, когда следовать карте, а когда проверять свой компас.

Это одна из основных тем, которые я исследую в своей новой книге The Strategic Data Scientist: Level Up and Thrive in the Age of AI (Amazon affiliate link). Она о том, как сочетать фундаментальное мышление с проверенными фреймворками для создания воздействия, влиять на дорожные карты и позиционировать себя как стратегического партнёра, а не просто технического исполнителя.

Если вам интересно, как изменится ваша работа, когда искусственный интеллект станет более способным, или вы просто хотите оказывать большее влияние как специалист по данным и добиться продвижения по службе, пожалуйста, ознакомьтесь с книгой на Amazon!