Методика формирования просопографической базы данных.

Методика формирования просопографической базы данных.
жеке
блог

Эффективность применения баз и банков данных в исторических исследованиях напрямую связана с их структурой, которая должна придавать БД максимальную степень универсальности (применимости для выполнения большинства исследовательских задач), аутентичности (полного отражения содержания источника) и формализации (возможности математической обработки большинства сведений).

Первым шагом в создании БД, определяющим в дальнейшем всю структуру и набор содержащихся в ней сведений, является построение концептуальной модели БД на этапе инфологического проектирования, заключающемся, как отмечает И.М. Гарскова, «в задании соответствия между предметной областью и ее представлением в базе данных» [1], т.е. в определении объектов предметной области и описании их свойств, наиболее значимых для выполнения поставленной исследовательской задачи. Основным в процессе инфологического проектирования является понятие сущностей - объектов реального мира, обладающих определенным набором признаков - атрибутов, отображение важнейших из которых в БД позволяет создать адекватную модель изучаемого явления.

Однако специфика БД в исторических, в том числе и просопографических, исследованиях, заключающаяся, как отмечалось выше, в опосредованности изучаемого объекта, «размытости» его характеристик и многочисленности потенциальных исследовательских задач, затрудняет однозначное определение фрагментов предметной области и их атрибутов, необходимых для обязательного отражения в БД. В результате существует два равнозначных подхода к проектированию просопографических баз данных - «от документа» (назовем его источнико-ориентированным подходом) и «от человека» (определим его как проблемно-ориентированный, т.к. структура БД в данном случае будет строиться вокруг проблем, ключевых мест в жизнедеятельности определенной персоны - «трудовая деятельность», «семья», «осуждение», «образование» и т.д).

При источнико-ориентированном подходе в качестве основной сущности выступает документ (массовый источник), содержащий сведения об определенной персоне или группе людей. В этом случае БД представляет собой своего рода электронный архив разнотипных документов, существующих, как в полнотекстовом виде, так и в виде фрагментов, основной задачей которого является получение по запросу пользователя всего набора источников, имеющих отношение к искомой персоне. Однако преимущества данного подхода, связанные с отсутствием проблем отображения данных и потери информации при переводе источника в машиночитаемый вид (снимаются вопросы формализации и кодирования, противоречий в источниках и т.д.), практически сводятся на нет его серьезными недостатками: избыточностью хранимой информации и сложностью (а иногда и невозможностью) выполнения поисков, запросов на выборку, а также статистической обработки сведений БД.

При проблемно-ориентированном подходе основной сущностью является персона, а информационная модель БД представляет собой многоуровневую анкету сложной структуры, поля которой заполняются на основании одного или нескольких массовых источников произвольной природы. Конечно, в этом случае учитывается и структура имеющихся документов, но атрибуты персоны являются первичными по отношению к потенциальным источникам данных, что, с одной стороны, обеспечивает возможность выполнения средствами реляционной СУБД основных видов статистической обработки данных, сложных запросов и поисков, в том числе по комбинации признаков, но, с другой стороны, создает трудности при отображении информации, (т.к. возникает необходимость в формализации сведений источника) и требует от пользователя определенной квалификации и подготовки, (т.к. заполнение подобной БД значительно сложнее, чем простое копирование полей документа).

Как считает В.И. Хвостенко, разработчик единого электронного банка данных в рамках проекта «Возвращенные имена», при проектировании структуры разветвленных просопографических БД предпочтительным является вариант "от человека" т.к. «его достоинства кажутся превалирующими, а трудности преодолимыми».[2]

По нашему мнению, хотя логичным и более простым с точки зрения технического воплощения кажется применение подхода «от человека», все же можно привести несколько серьезных аргументов и в пользу использования в БД элементов источнико-ориентированного подхода:

сведения различных источников об одном и том же признаке могут разниться, при этом оба расхождения должны быть зафиксированы с указанием источника;

значительная часть социо-биографической информации носит динамический характер, т.е. со временем может изменяться (семейное положение, количество членов семьи, судимость и т.д.), поэтому в различных по времени составления источниках могут быть зафиксированы различные значения одного признака. Однако путь фиксации в БД одного, «верного» (например последнего по времени) значения и отбрасывания остальных некорректен;

в реальной практике ввод информации в БД будет происходить таким образом, что каждая категория пользователей будет иметь дело только с одним определенным типом источника, иллюстрирующим какой-либо один период в жизнедеятельности персоны, и содержащим ограниченный набор пользователей) наличие в БД большого количества «проблемно- ориентированных форм», наоборот, для таких пользователей оптимальным был бы ввод данных только в одну «источнико-ориентированную» форму, внешне повторяющую структуру источника, недостаточная квалификация пользователей, непосредственно осуществляющих ввод данных, при работе с комплексом источников (содержащим массу разночтений) и многочисленном наборе «проблемно- ориентированных» форм ввода может привести к неверному разнесению информации источника по полям БД.

В Казахском Национальном университете им. Аль-Фараби, на факультете истории, археологии и этнологии, впервые была создана просопографическая база данных по данной методике. Тематикой просопографической базы данных была выбрана «Казахские чиновники, служащие в Российской империи в  XIX-XX вв.»