ООО «ОМ-Структуры»

М.К.Овсов

СТРУКТУРНЫЙ АНАЛИЗ ГЕОДАННЫХ

МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ ПО ПРИМЕНЕНИЮ

Санкт-Петербург

2003

1.3.3. Обзор применения структурных методов анализа геоданных

Можно догадываться, что идея иерархического строения недр к 70-м годам “висела в воздухе”. Она последовательно прошла стадии гипотезы относительно частных явлений, накопления объективных данных, эмпирического обобщения, выявления общих эмпирических закономерностей и в итоге оформилась как теоретическая модель, которой сопутствовал исследовательский метод анализа неоднородностей. Последовательная преемственность развития геологического знания не может уменьшить значения факта оформления первой теоретической модели. Роль дедуктивных теоретических моделей в конкретной области научно-прикладных знаний определяет ее “научность”, а не “число и мера”, как предполагалось в 60-х годах. После опубликования теоретической модели и метода исследования вышли большие обобщающие работы, в которых теоретическая идея служила каркасом представлений авторов и изложения ими материалов. Часть работ, построенных на основе использования метрических данных, рассматривается далее в кратком аналитическом обзоре. (Приведенный анализ работ касается содержания лишь в контексте обсуждаемой проблемы.)

Книга Е.В.Плющева и В.В.Шатова (1985, [22]) посвящена системному анализу геохимии гидротермально-метасоматических образований. В основе систематики лежит обобщенный иерархический ряд образований, который детализирован в интервале от металлогенической провинции до рудного тела на 8 уровней. На основе обобщения богатого эмпирического материала сделано заключение о делении химических элементов, формирующих геохимический облик образований, на главные (конституционные) и второстепенные (акцессорные) и изменении их роли при продвижении по иерархическому ряду. В методологию исследований введено понятие видовой принадлежности геологических образований, которая определяется главными геохимическими компонентами и, тем самым, определяет структуру системы. Еще одно несомненное достоинство - трактовка генезиса системы как “возможной модели, непротиворечиво учитывающей имеющиеся факты и дающей конструктивные следствия, поддающиеся опытной проверке”. Генетическое заключение опирается на знание закономерностей миграции химических элементов и их распределения в структурно-вещественных комплексах. Признак видовой принадлежности безусловно необходим, без него описание иерархической системы невозможно. Но он определяется через минимальный объем недр, в котором сохраняется структура и состав целого, и симметричным преобразованием которого может быть исчерпан объем геологического тела. Это противоречит определению структуры, части которой не иначе как выделяются. Этот момент необходимо подчеркнуть: единственно разрешающий действие глагол - “выделяется”, а “образуется”, или “собирается” должны быть под запретом. В итоге, как признаются авторы, вопросы видообразующей роли признаков, качественного и количественного отличия между таксонами иерархической структуры не получили полного разрешения.

В книге В.М.Питулько и И.Н.Крицук (1990, [21]) рассмотрены вопросы интерпретации поисковых геохимических данных в соответствии с теоретической моделью недр. Материал книги утверждает структурный подход к изучению распределения химических элементов, иерархия аномальных полей подтверждается обобщением взглядов и построений отечественных и зарубежных ученых и практиков геологии, процессы рассеяния и концентрации элементов рассматриваются как выражение самоорганизации недр. Авторы рассматривают структуру недр не только в геохимическом аспекте, но и в других проявлениях - морфоструктурных рельефа земной поверхности, результатов анализа гидросети, геофизических. Существенным дополнением к методике выделения структурных элементов является применение картографических методов исследования не только к традиционным данным - морфометрии рельефа и гидросети, но и к данным поисковой геохимии, магнитной съемки, гамма-спектрометрии. Общей теоретической модели дана специализированная характеристика зональности признаков в таксонах разных рангов, перспективных и неперспективных элементов одного иерархического ранга. Однако это обстоятельство не оставляет ощущения удовлетворенности. Остается неясным, как поступать в конкретной ситуации, если наблюдаемый ряд химических элементов частью признаков сходится с одним теоретическим (идеальным) рядом, а частью - с другим. Вопрос исследования большого числа химических признаков остался пока не решенным.

Самый главный вопрос - выделение элементов иерархической структуры. Авторы предлагают определенный подход: морфоструктурный анализ и последующая оценка элементов структуры; идеальным образом рудогенной системы являются мультиранговые структуры центрального типа, критерии выделения которых перечислены. Допуская такую последовательность приемов, следует заметить: отсутствие формального метода, в итоге этого идеальная модель в потоке данных может быть построена подчеркиванием нужных элементов и отбрасыванием негодных. Косвенным подтверждением этому служит анализ рисунков, содержащихся в книге: отчетливые структуры рудогенного ряда чаще обнаруживают зеркально симметричную структуру, чем осесимметричную центрального типа, которая выделяется авторами в соответствии со взглядами на строение недр.

Слабой стороной методов в комментированных источниках является ориентация на различия в концентрациях - порядковые и многопорядковые - геохимических признаков. Однако, как обращают внимание авторы теоретической модели, изменчивость признаков включает в себя характеристики ее в совокупности и в пространстве. Можно сказать иначе: структурированность недр определяет любые возможные проявления изменчивости в свойствах - размах вариаций, показатель анизотропии, характер зависимостей переменных, радиус автокорреляции случайной составляющей и др. Это существенно повышает возможности изучения неоднородностей и структуры геологических образований.

Иерархичность наложенной проявленности свойств недр послужила для В.И.Пахомова обоснованием идеи выделения изменчивости данных определенного ранга. Идея метода состоит в том, чтобы из наблюдаемых данных исключить изменчивость всех иерархических уровней, кроме интересующего, а техника метода - в вычислении разностной функции данных, осредненных с большим и малым радиусом в окрестности точки наблюдения [19, 20]. Схожий прием - “метод вариаций Саксова-Нигарда” - в гравиметрии известен с 1953 г. Сущность метода состоит в том, что разностные преобразования из всех составляющих изменчивости выделяют только часть, коррелированность которых больше малого радиуса и меньше большого. Естественно выбрать радиусы осреднения такими, чтобы радиус автокорреляции изменчивости геопараметра интересующего ранга “попал в вилку”. Метод позволяет при последовательном увеличении параметров преобразования расчленить наблюдаемое поле на две-три составляющих, в главной части раздельно отражающих изменчивость смежных иерархических уровней. Из приведенных в обсуждении ряда методов исследования иерархических структур метод В.И.Пахомова - первый формальный метод в развитие методологии анализа неоднородностей.

Оценивая уровень структурных методов исследования, следует указать на принципиальную неразрешенность двух моментов: 1) радиус автокорреляции, как и размер элементов, определенного иерархического ранга не остаются постоянными, сами эти величины становятся предметом структурного исследования; 2) при использовании данных комплекса наблюдений наиболее полное их изучение возможно только с применением многомерных методов исследования.

После построений структуры объекта на заключительном этапе проводится профессиональная интерпретация результатов. Результат построений сравнивается с имеющимися типовыми обобщенными образами, которыми располагает научное знание. В итоге сравнения для объекта изучения определяется его принадлежность определенному классу природных объектов, с которыми связываются общие установленные свойства и следствия, а с объектом - прогнозные перспективы. Геологическая интерпретация результатов структурных методов построений должна осуществляться в следовании теоретической модели. Для обработки данных геохимических исследований в интерпретации можно воспользоваться богатым материалом из цитированных источников. Для прогнозных работ мелкого и среднего масштаба более всего подходят материалы научного обобщения, излагаемые в структурно-вещественном подходе к металлогеническим исследованиям.

В монографии, посвященной оценке прогнозных ресурсов [16], Г.А.Булкин и И.А.Нежинский рассматривают модель иерархического ряда в структурно-вещественном подходе наряду с другими подходами - историко-эволюционным, тектоники плит, линеаментным. Авторы рассматривают иерархическую системно-структурную модель как обобщение эмпирических сугубо геологических данных. Поэтому следует обратить внимание на общие вопросы, которые обсуждаются авторами в интересующем подходе. К ним относятся следующие: 1) элементами иерархической системы являются структурно-формационные и металлогенические зоны; 2) обращается внимание на изучение элементов не только “по вертикали”, увязанных со стадийностью геологоразведочных работ, но и “по горизонтали” - металлогенических зон в разных обстановках; 3) вопросы генезиса приобретают самостоятельное значение и не связаны с процессом построения структурно-вещественной модели объекта изучения. В книге с позиций вещества рассмотрены деления структурно-формационных зон - комплексы, ряды, группы и типы. Однако приведенное описание представляет собой систематику вещественных факторов, и никак не обсуждается выявление их роли в построение следующего - детального - иерархического уровня. Частное замечание состоит в следующем: в иллюстрации количественных методов прогнозирования на базе рангового ряда запасов и числа месторождений для многих металлов приведены результаты обобщений, которые отчетливо демонстрируют структурность отношений, подобной приведенной на рис. 1.3. В этих зависимостях авторов интересует исключительно аппроксимированная или теоретическая линейная зависимость, особенности структурного характера остались незамеченными.

Второй, рассматриваемый к прогнозу подход - новое научное направление, названное автором - А.Д.Щегловым - нелинейной металлогенией [23]. Новое направление делает первые шаги и определяет для себя проблемными относительно конкретные положения: 1) изучение формирования рудных месторождений, связанных с процессами дифференциации подкоровых оболочек; 2) изучение параллельно развивающихся процессов в коре и мантии; 3) изучение результатов взаимодействия параллельных процессов, в итоге которых структуры коры являются “ареной” проявления мантийных рудных процессов. Однако при рождении новое научное направление “сделало заявку” на изучение образований и процессов в существенно большем объеме и глубине, что очевидно из разъяснения термина “нелинейная металлогения”: по аналогии с нелинейной оптикой и акустикой - изучение нелинейных процессов, составляющих генезис нелинейных систем. Можно напомнить, что нелинейность - главная характеристика процессов самоорганизации.

Можно надеяться, что в недалеком будущем результат формальных построений в соответствии с общей теоретической моделью недр, интерпретированный (понятый) не в значении фиксации, а в отношениях проявлений последовательных, либо конвергентных или параллельных процессов составит цель исследования для нелинейной геологии как обобщения и развития традиционных направлений. Несогласие с сегодняшним положением дел А.Д.Щеглов выразил словами (c незначительными сокращениями): “При прогнозе месторождений оперировать только общими, благоприятными для оруденения факторами, подразделяя их на структурные, магматические, фациально-литологические, металло-генические и др., в настоящее время уже недостаточно. Для достоверных прогнозов необходимо знать, какие из этих факторов и в каком своем конкретном выражении обусловливают появление той или иной группы месторождений в различных геологических условиях в рудоносных структурах разных порядков”.

Таким образом к настоящему времени в теоретической геологии с определенностью оформились все необходимые для проведения исследований компоненты:

1) общая, типовая теоретическая модель недр, представляющая их в виде иерархической древовидной структуры, обусловленной всеобщими законами самоорганизации материи, результатом действия которых являются негэнтропийные процессы развития недр с эволюцией структур в сторону усложнения;

2) методология исследований - “анализ неоднородностей” - общий метод построения структуры объекта изучения по данным наблюдений, который, являясь следствием теоретической модели, сформулирован как независимый исследовательский формальный инструмент;

3) профессиональные модели - эталоны оценки продукта построений, соответствующие теоретической модели недр и определенные в структурно-вещественном подходе как типовые структурно-формационные и -металлогенические зоны и структурно-геохимические комплексы.

Структурный метод анализа геоданных можно определить как развитие методологии анализа неоднородностей на основе наблюдений метрических (количественных) переменных в решении геологических задач, которые определены для методологии в целом - разнообразных геологических задач на всех этапах геологических исследований.

2. Алгоритм структурного анализа данных

Построение многоуровневой иерархической структуры данных осуществляется рекуррентным способом. На первом шаге исходное множество точек наблюдения (объектов - в терминах многомерного анализа) делится на небольшое число главных, самых обширных классов. На последующих шагах тот же алгоритм деления применяется к выделенным классам и т.д. В итоге исходный класс представляется в виде иерархической многоуровневой структуры (древовидной структуры, или дерева), которая развивается сверху вниз. Рекуррентный алгоритм структурного анализа не ориентирован на методную специфику данных, масштаб исследования, конкретную постановку решаемой задачи, и, таким образом, является универсальным инструментом моделирования.

Описание алгоритма структурного анализа возможно представить, как обычно, в терминах известных процедур математических преобразований. Однако этот способ не будет лучшим, поскольку в таком изложении остается нераскрытой сущность метода, к тому же такое изложение будет излишне громоздким. В изложении алгоритма введены новые понятия и термины, заимствованные из формальной логики, которые по смыслу соответствуют первичному значению и обретают в структурном анализе свойства конструктивности, необходимые для построения математического алгоритма и разработки программного обеспечения.

2.1. Интеллектуальные операции

структурного анализа и классификации

Построение структуры осуществляется с применением многомерных методов исследования данных - факторного и кластерного методов, описание структуры - с применением дисперсионного анализа. Однако простое соединение программ из известных пакетов численного анализа не даст удовлетворительного результата, поскольку факторные методы не учитывают структуры переменных, а кластерные методы не обсуждают вопросы масштаба переменных. Так в изданиях по факторному анализу можно встретить рекомендации: если факторы не получаются содержательными, можно попробовать предварительно разбить совокупность на однородные части с помощью кластер-анализа. А издания по кластерному анализу для улучшения структурированности данных советуют предварительно преобразовать наблюдения методом факторного или компонентного анализа. Очевидно, что между этими методами имеется большая область нерешенных вопросов. Это еще один аргумент в пользу необходимости применения интеллектуальных операций более высокого уровня.

Интеллектуальной операцией называют определенную последовательность действий, или операций низкого уровня, которая характеризуется устойчивостью в использовании, позволяет получить некоторый конечный результат и обладает смысловой и оформленной завершенностью. В прикладной статистике примерами таких операций являются регрессионный, дисперсионный, дискриминантный, факторный, кластерный методы анализа данных. В названных операциях отдельные математические способы и приемы преобразования данных связаны конструктивными логическими суждениями в операцию, применение которой позволяет получить конечный (в определенном смысле) результат. Оформленная завершенность таких часто используемых операций нашла выражение в их именовании - регрессионный анализ, дисперсионный анализ и т.п.

Структурный анализ является новой интеллектуальной операцией, которая включает в себя многие известные методы анализа данных как операции низкого уровня. Многомерные данные, которые сведены в плоскую таблицу объектов-свойств, характеризуются в этих двух направлениях, в каждом из которых можно выполнить структурное исследование - либо свойств, либо объектов. Общий алгоритм структурного исследования в конкретном случае имеет особенности, которые, однако, не являются препятствием к его оформлению [12].

Операция структурного анализа имеет целью деление исходного множества элементов на обобщенные главные части и состоит из четырех этапов (шагов):

1) получение матрицы коэффициентов парного сходства или дистантности элементов;

2) построение полной агломеративной структуры элементов - от полного числа единичных классов к одному классу, включающему в себя все элементы;

3) исследование функции агломерированности элементов с выявлением структурных уровней в их организации и выбором старшего уровня в качестве новых обобщенных характеристик элементов;

4) отображение элементов в признаки обобщенных характеристик.

Сущность операции структурного анализа заключает в себе третий этап, это требует некоторых пояснений. Полная агломеративная структура элементов получается в итоге применения процедуры кластер-анализа. В качестве характеристики процесса кластеризации рассмотрим функцию межкластерного расстояния от степени агломерированности (обобщения) элементов, либо обратную ей функцию. Эту характеристику можно рассматривать как фазовое пространство (пространство состояний) множества элементов - каждая точка этой характеристики показывает, при каком значении меры обобщения наступает интересующее объединение элементов. На графике функции межкластерного расстояния структурные уровни проявляются как ступени, или скачки. На обратной функции структурным уровням соответствуют платообразные участки, т.е. изменение агломерированности не происходит при изменении уровня обобщения характеристик элементов в широких пределах. А это и соответствует определению устойчивости системы элементов, как это предложил оценивать А.М.Ляпунов. Выбранные таким образом уровни обобщения характеристик элементов соответствуют определению структуры как устойчивого деления. Эти построения поясняются рис. 2.1. Для отображения элементов в обобщенные характеристики выбирается самый старший по иерархии структурный уровень, расположенный ближе всех к корню дерева - так называется самый общий единственный класс, который включает в себя все элементы. В пользу такого выбора можно привести соображения общего характера: более глубокие структурные уровни отдельных частей множества элементов проецируются на общую зависимость в сумме, маскируя и искажая друг друга, поэтому в общем случае не могут быть выявлены. Именно такой выбор определяет также одно из четырех правил построения классификации, интеллектуальной

Рис. 2.1. Исследование функции межкластерного расстояния

для определения структуры данных

операции более высокого уровня [7, 8, 9, 10].

Структурный анализ можно применить к любой из сторон, характеризующих данные, признакам и объектам. Классификация в построении учитывает взаимную обусловленность свойств (признаков) и объема (числа объектов) данных.

Построение классификации осуществляется с применением четырех правил деления понятия (Кондаков Н.И., Розова С.С.):

1) При одном и том же делении необходимо применять одно и то же основание (правило одноосновности). С выбором основания связываются вопросы целеполагания, существенности и естественности признаков основания. В свою очередь существенным называют признак, который атрибутивен предмету, выражает коренную природу изучаемого явления и тем самым отличает предмет от предметов других родов и видов. Естественным называется признак, определяемый природой изучаемых явлений, т.е. следующий из наблюдений.

2) Деление должно быть соразмерным, т.е. объем членов деления - видов, вместе взятых, должен равняться объему делимого - родового - понятия (правило соразмерности).

3) Члены деления должны взаимно исключать друг друга, это требование двухзначной классической логики (правило внеположенности).

4) Деление должно быть непрерывным, т.е. члены деления должны быть понятиями соподчиненными и непосредственно низшими по отношению к делимому понятию.

Практическое применение классификации в традиционном изложении встречает трудности, обусловленные неконструктивностью ее положений. Трудности преодолеваются с развитием классификации, которое состоит в следующем [12]:

- в качестве признаков основания приняты общие признаки (по отношению к наблюдаемым), что соответствует условию естественности; атрибутивность признаков рассматривается в контекстном отношении; целеполагание вынесено на этап подготовки к исследованию, познавательная ценность и видообразующая роль признаков определяются после деления рода на виды;

- в осуществление правила непрерывности введен критерий скачка, который позволяет определить устойчивое (структурное) деление родового класса на подмножества; для видового деления выбирается старший уровень деления, это соответствует условию непрерывности; правило непрерывности обобщено на выбор признаков основания;

- родовидовые отношения классов фиксируются признаком видовой принадлежности, который однозначно связан с иерархической структурой;

- основная характеристика структурной модели оценивается через межвидовую изменчивость признаков.

Эти положения не противоречат другим законам, правилам и отношениям формальной логики, с которыми взаимодействуют правила построения, и позволяют дать конструктивное определение интеллектуальной операции классификации, в которой применяется два этапа структурного исследования - признаков и объектов. Развитая, многоуровневая классификация строится в рекуррентном обращении к видам как родам младшего структурного уровня.

Классификация позволяет лучше представить отношения теоретической модели недр и структурной модели как продукта построений:

- структурный элемент - род и его виды - определяет область однородного содержания и демонстрирует правило определения понятия через ближайший род и видовое отличие;

- двойственный взгляд на явление - как целое и как часть целого - результат действия правила переноса содержания и его смены при переходе с одного иерархического уровня на другой;

- количественные и качественные отличия элементов структуры демонстрируют правило сравнимости понятий.

Эти отношения имеют большую практическую значимость для применения метода и интерпретации его результатов; следствием развития правила одноосновности является обоснование многомерных методов анализа.

2.2. Описание алгоритма

Описание математического аппарата структурного исследования данных излагается в соответствии с логическим алгоритмом.

1) Структурный анализ переменных

Распространенные методы факторного анализа переменных основаны на последовательном исчерпывании факторами корреляций или дисперсий без учета их структуры. Решение получается простым, если до факторного анализа известны число главных факторов, их корреляции и выражение через структуру переменных [34]. Эта составляет идею метода.

На первом этапе вводится вспомогательная система координат - главных компонент, попутно выполняется сокращение размерности признакового пространства. Далее с применением кластер-анализа строится полная структура системы переменных, результатом является функция межкластерного расстояния от агломерированности переменных. Исследование этой функции позволяет выявить скачки - максимумы первой производной, которые в отношении переменных определяют структурные уровни. В соответствии с алгоритмом выбирается старший уровень. Главные факторы получаются центроидным методом, центрами факторов являются центры тяжести групп переменных, определенных кластерами. Последний этап - вычисление значений главных факторов.

Структурный метод исследования переменных объединяет достоинства кластерного и факторного методов, наилучшим образом соответствует целям исследования структуры данных.

2) Структурный анализ объектов

На первом этапе осуществляется отображение значений главных факторов в значения ортогональных вторичных компонент - это упрощает последующие вычисления и не искажает топологию распределения объектов. Критическим параметром для кластер-анализа объектов является число объектов, которое в практических задачах может быть большим - десятки и сотни тысяч. Для преодоления этого препятствия введена процедура шкалирования многомерных данных. В итоге объекты заменяются квантами объема с весом, пропорциональным числу объектов в них. Процедура оптимизирована на определенное число непустых квантов. Рекуррентное применение процедуры к нерасчлененным кластерам - первичным квантам объема - позволяет снять ограничение на число объектов.

Далее в соответствии с алгоритмом осуществляется: вычисление матрицы расстояний, агломеративный кластер-анализ, исследование функции агломерированности и выделение главных классов на старшем структурном уровне. В конце этапа объекты отображаются в признаки видовой принадлежности.

3) Описание структуры данных и ее элементов

Описания собственно иерархических структур осуществляется с помощью признака видовой принадлежности, это позволяет строить экономные модели и эффективно управлять построением структуры и представлением результатов.

Описание классов структурного элемента дается в терминах главных факторов, структуры в целом - в терминах наблюдаемых переменных.

В качестве структурной характеристики применяется оценка изменчивости признака в родовом классе, обязанная выделением видовых классов, и ее дополнение - внутривидовая изменчивость. Эти оценки получаются по схеме дисперсионного анализа как меж- и внутри-групповая сумма квадратов (МСК и ВСК) и ïîçâîëÿюò: профессионально правильно выполнить предварительную обработку данных, целенаправленно управлять построением структуры и получить количественную оценку результатов моделирования как критерий соответствия модели наблюдениям; открывает возможности совершенствования методики структурного анализа.

4) Учет неравноточности наблюдений

В алгоритм введены приемы метролого-статистической обработки, которые являются приложением известных взвешенных методов [25-28]. Это способствует получению устойчивых (робастных) оценок. В многомерный анализ включаются переменные, в изменчивости которых вклад погрешности не превышает половины. Это позволяет защитить качественные наблюдения от влияния некачественных и определить предел детальности построений. Учет погрешности позволяет получить производные от МСК показатели - исчерпание природной изменчивости признака (ИГП) и ИГП к доступному в анализе пределу. Так, например, МСК, ИГП и ИГП к доступному пределу признака с погрешностью наблюдений 20 процентов составляют соответственно 60, 75 и 100 процентов.

5) Картографирование результатов

В геолого-математическом моделировании введены новые графические результаты обработки метрических данных – карта классов, подобная геологической по форме и в принципах организации. Это позволяет использовать картографические методы в интерпретации результатов структурного анализа и в комплексном рассмотрении их с другими картами.

В целом математический аппарат несложный, хотя и несколько громоздкий. В одном узле ветвления структуры создается 50 матриц и векторов; их число в развитой математической модели доходит до 1000.

[продолжение]