Параллельные координаты - Parallel coordinates

Параллельные координаты
Ггоби-блоха2

Параллельные координаты - это распространенный способ визуализации и анализа многомерных наборов данных .

Чтобы показать набор точек в n- мерном пространстве , рисуется фон, состоящий из n параллельных линий, обычно вертикальных и равномерно расположенных. Точка в n -мерном пространстве представлена ломаной линией с вершинами на параллельных осях; положение вершины на я ю оси соответствует якоординатам точки.

Эта визуализация тесно связана с визуализацией временных рядов , за исключением того, что она применяется к данным, оси которых не соответствуют моментам времени и, следовательно, не имеют естественного порядка. Следовательно, может быть интересным другое расположение осей.

История

Часто говорят, что параллельные координаты изобрел Филбер Морис д'Окань (фр.) В 1885 году, но даже несмотря на то, что в названии книги встречаются слова «Coordonnées parallèles», эта работа не имеет ничего общего с техникой визуализации с таким же названием; в книге описан только метод преобразования координат. Но даже до 1885 года параллельные координаты использовались, например, в Генри Ганнетте «Общая сводка, показывающая ранг штатов в соотношениях, 1880 год» или впоследствии в Генри Ганнеттсе «Рейтинг штатов и территорий по численности населения при каждой переписи населения, 1790- 1890 »в 1898 году. 87 лет спустя они были снова популяризированы Альфредом Инзельбергом в 1985 году и систематически разрабатывались как система координат, начиная с 1977 года. Некоторые важные приложения находятся в алгоритмах предотвращения столкновений для управления воздушным движением (1987–3 патенты США), интеллектуального анализа данных. (Патент США), компьютерное зрение (патент США), оптимизация, управление процессами , в последнее время в области обнаружения вторжений и в других областях.

Высшие измерения

На плоскости с декартовой системой координат xy добавление дополнительных измерений в параллельных координатах (часто сокращенно || -коорд или PCP) включает добавление большего количества осей. Ценность параллельных координат заключается в том, что определенные геометрические свойства в больших размерах преобразуются в легко видимые 2D-модели. Например, набор точек на прямой в n- пространстве преобразуется в набор полилиний в параллельных координатах, пересекающихся в n  - 1 точках. Для n = 2 это дает двойственность точка-линия, указывающая на то, почему математические основы параллельных координат развиваются в проективном, а не в евклидовом пространстве. Пара линий пересекается в уникальной точке, имеющей две координаты, и, следовательно, может соответствовать уникальной линии, которая также определяется двумя параметрами (или двумя точками). Напротив, для задания кривой требуется более двух точек, а также пара кривых может не иметь уникального пересечения. Следовательно, при использовании кривых в параллельных координатах вместо линий двойственность точечных линий теряется вместе со всеми другими свойствами проективной геометрии и известными красивыми многомерными паттернами, соответствующими (гипер) плоскостям, кривым, нескольким гладким (гипер) поверхностям. , близости, выпуклости и недавней неориентируемости. Цель состоит в том, чтобы отобразить n-мерные отношения в 2D-паттерны. Следовательно, параллельные координаты не являются двухточечным отображением, а скорее отображением подмножества n D в двумерное подмножество, нет потери информации. Примечание: даже точка в nD отображается не в точку в 2D, а в многоугольную линию - подмножество 2D.

Статистические соображения

Image
Репрезентативный образец для параллельных координат.

При использовании для визуализации статистических данных необходимо учитывать три важных аспекта: порядок, поворот и масштабирование осей.

Порядок осей имеет решающее значение для поиска функций, и при типичном анализе данных необходимо будет попробовать множество переупорядочений. Некоторые авторы придумали эвристику упорядочивания, которая может создать проясняющую упорядоченность.

Вращение осей - это перенос в параллельных координатах, и если линии пересекаются вне параллельных осей, он может быть перемещен между ними поворотами. Самый простой пример - поворот оси на 180 градусов.

Масштабирование необходимо, потому что график основан на интерполяции (линейной комбинации) последовательных пар переменных. Следовательно, переменные должны иметь общий масштаб, и существует множество методов масштабирования, которые следует рассматривать как часть процесса подготовки данных, которые могут открывать более информативные представления.

Плавный график параллельных координат достигается с помощью сплайнов. На гладком графике каждое наблюдение отображается в параметрическую линию (или кривую), которая является гладкой, непрерывной по осям и ортогональной каждой параллельной оси. Этот дизайн подчеркивает уровень квантования для каждого атрибута данных.

Чтение

Инзельберг ( Inselberg 1997 ) сделал полный обзор того, как визуально считывать реляционные паттерны параллельных координат. Когда большинство линий между двумя параллельными осями в некоторой степени параллельны друг другу, это предполагает положительную взаимосвязь между этими двумя измерениями. Когда линии пересекаются в виде наложения X-образных фигур, это отрицательная связь. Когда линии пересекаются случайным образом или параллельны, это показывает, что нет особой взаимосвязи.

Ограничения

В параллельных координатах каждая ось может иметь не более двух соседних осей (одну слева и одну справа). Для d-мерного набора данных одновременно может отображаться не более d-1 отношений. В визуализации временных рядов существует естественный предшественник и преемник; поэтому в этом особом случае существует предпочтительное расположение. Однако, когда оси не имеют уникального порядка, поиск хорошего расположения осей требует использования эвристики и экспериментов. Чтобы исследовать более сложные отношения, необходимо изменить порядок осей.

При размещении осей в трехмерном пространстве (однако, все еще параллельно, как гвозди в ногтевом ложе), ось может иметь более двух соседей по кругу вокруг центрального атрибута, и проблема расположения упрощается (например, с помощью с использованием минимального остовного дерева ). Прототип этой визуализации доступен как расширение программного обеспечения интеллектуального анализа данных ELKI . Однако визуализацию сложнее интерпретировать и взаимодействовать с ней, чем с линейным порядком.

Программное обеспечение

Несмотря на то, что существует большое количество статей о параллельных координатах, существует лишь несколько общедоступных известных программ для преобразования баз данных в графику с параллельными координатами. Известные программы - ELKI , GGobi , Mondrian , Orange и ROOT . Библиотеки включают Protovis.js , D3.js предоставляет базовые примеры. Также был опубликован D3.Parcoords.js (библиотека на основе D3), специально предназначенная для создания графики с параллельными координатами. Библиотека структуры данных и анализа Python Pandas реализует построение параллельных координат с помощью библиотеки графиков matplotlib .

Другие визуализации для многомерных данных

Рекомендации

  1. ^ d'Ocagne, Морис (1885). Параллельные и аксиальные координаты: метод геометрического преобразования и новый процесс вычисления графических вычислений для согласования параллельных координат . Париж: Готье-Виллар.
  2. ^ Ганнетт, Генри. «Общая сводка, показывающая рейтинг государств по соотношению 1880 г.» . Цитировать журнал требует |journal=( помощь )
  3. ^ Инзельберг, Альфред (1985). «Плоскость с параллельными координатами». Визуальный компьютер . 1 (4): 69–91. DOI : 10.1007 / BF01898350 .
  4. ^ Инзельберг, Альфред (2009). Параллельные координаты: ВИЗУАЛЬНАЯ многомерная геометрия и ее приложения . Springer. ISBN 978-0387215075.
  5. ^ Ян, Цзин; Пэн, Вэй; Уорд, Мэтью О .; Рунденштайнер, Эльке А. (2003). «Интерактивное иерархическое упорядочивание измерений, интервал и фильтрация для исследования высокоразмерных наборов данных» (PDF) . Симпозиум IEEE по визуализации информации (INFOVIS 2003) : 3–4.
  6. ^ a b c Мустафа, Рида; Вегман, Эдвард Дж. (2006). «Многомерные непрерывные данные - параллельные координаты». In Unwin, A .; Theus, M .; Хофманн, Х. (ред.). Графика больших наборов данных: визуализация миллиона . Springer. С. 143–156. ISBN 978-0387329062.
  7. ^ Мустафа, Рида; Вегман, Эдвард Дж. (2002). "О некоторых обобщениях параллельных координатных графиков" (PDF) . Увидев миллион, семинар по визуализации данных, Рейн-Ам-Лех (Nr.), Германия . Архивировано из оригинального (PDF) 24 декабря 2013 года.
  8. ^ Инзельберг, A. (1997), "Многомерная детектив", . Визуализация информации, 1997. Труды IEEE симпозиум по ., Стр 100-107, DOI : 10,1109 / INFVIS.1997.636793 , ISBN 0-8186-8189-6
  9. ^ Элька Achtert, Ханс-Петер Кригель , Эрих Шуберт, Артур Zimek (2013). "Интерактивный интеллектуальный анализ данных с помощью трехмерных параллельных координатных деревьев". Труды Международной конференции ACM по управлению данными (SIGMOD) . Нью - Йорк, Нью - Йорк: 1009 DOI : 10,1145 / 2463676,2463696 . ISBN 9781450320375.CS1 maint: несколько имен: список авторов ( ссылка )
  10. ^ Косара, Роберт (2010). «Параллельные координаты» .
  11. ^ Параллельные координаты в пандах

дальнейшее чтение

Внешние ссылки