Некоторые мысли по классификации для поиска

Эта статья была ранее опубликована в Journal of Documentation, Vol. 26 № 2 (1970), с. 89-101. Он был включен в этот выпуск как часть серии статей, посвященных 60-летию лучших в области информационных исследований в Journal of Documentation.

Оригинальное название публикации

Some thoughts on classification for retrieval

Аннотация

Цель — В этом документе, первоначально опубликованном в 1970 году, рассматривалось предложение о том, что классификации для поиска должны создаваться автоматически, и возникали некоторые серьезные проблемы, касающиеся требуемых видов классификации и способа использования формальных классификационных теорий, учитывая, что поисковая классификация требуется для определенной цели. Эти трудности не были в достаточной мере рассмотрены, и поэтому в документе делается попытка их анализа, хотя не может быть предложено никаких решений для немедленного применения.

Дизайн / методология / подход — Начиная с иллюстративного предположения, что в автоматическом построении тезауруса требуется политетическая множественная неупорядоченная классификация, это рассматривается в контексте классификации в целом, где можно выделить восемь видов классификации, каждая из которых охватывает диапазон определений классов и алгоритмов нахождения классов.

Выводы — Поскольку обычно нет естественной или наилучшей классификации набора объектов как таковых, оценка альтернативных классификаций требует либо формальных критериев пригодности, либо, если классификация требуется для какой-либо цели, точное изложение этой цели. В любом случае необходима содержательная теория классификации, которой не существует; и, поскольку также отсутствуют достаточно точные спецификации поисковых требований, единственный доступный в настоящее время подход к экспериментам по автоматической классификации для поиска информации состоит в том, чтобы их было достаточно.

Оригинальность / ценность — дает представление о классификации материалов для поиска информации.

Ключевые слова: Поиск информации, классификация

Тип бумаги Концептуальная бумага

Распространением документации и поиска информации является то, что классификация должна быть задействована в какой-то момент в процессе описания, хранения и поиска документа. Мы можем захотеть либо классифицировать документы для упрощения поиска, либо мы можем классифицировать начальный словарь индексации, чтобы предоставить набор дескрипторов документов, в этом случае для оптимизации сопоставления документов запроса. Более сложные подходы также включают классификацию запросов.

Теперь, хотя идея классификации не является новой в этом контексте, предложение о том, что классификации документов или словарь должны создаваться автоматически, породило новые проблемы. Чисто практические проблемы масштаба возникают, но тот факт, что компьютер функционирует как черный ящик при формировании классификации, вызывает некоторые более интересные вопросы. Одним из них является то, какую классификацию мы должны искать. Сам факт того, что человеческий классификатор соблюдает свою классификацию при ее построении, так что он обязательно находит ее правдоподобной, может означать, что он не рассматривает принципы, на которых она основана, достаточно критично, или даже то, что он не формулирует их правильно или применять их последовательно.

Автоматическая классификация может привести к грубым потрясениям, поскольку очевидно, что удовлетворительные исходные принципы группировки могут привести к совершенно неожиданному конечному результату, когда их реализация с помощью формальной процедуры исключает изменения и упущения в процессе группировки. Второй важный вопрос — как мы должны использовать теорию классификации, учитывая, что у нас есть конкретная цель, а именно, поиск документов, имеющих отношение к запросам. Этот документ не дает никаких ответов на эти вопросы; но трудности, возникающие при организации экспериментальных исследований в этой области и при сопоставлении результатов различных проектов, позволяют предположить, что что-то можно получить, просто обсудив вопросы, поднятые в вопросах.

Поэтому предположим, что мы представляем, что заинтересованы в автоматическом построении поискового тезауруса, то есть нам нужны группы ключевых слов, чтобы совпадение одного слова в запросе совпадало с появлением его одноклассников в документах. Предполагается, что если классы построены правильно, это приведет к извлечению документов, которые примерно совпадают с запросом, хотя это выражается разными словами. Это довольно простая идея: я использую ее здесь, в основном, в качестве колышка, на котором можно повесить общую дискуссию. Поэтому в дальнейшем я возьму классификацию слов в качестве примера, но все основные пункты в равной степени применимы к классификации документов, хотя есть различия в деталях.

Теперь, если мы скажем, что мы хотим произвести классификацию ключевых слов, это естественным образом приводит нас к некоторому такому аргументу, как следующий, относительно вида классификации, который нам требуется. Мы хотим сгруппировать ключевые слова так, чтобы мы получали наборы слов, которые можно заменить друг на друга, т. Е. Чтобы один элемент класса в запросе мог совпадать с другим в документе. Синонимы являются очевидными примерами заменяемых терминов. Однако, если мы хотим построить нашу классификацию автоматически, мы не можем проверить значения слов, чтобы увидеть, являются ли они заменяемыми; мы обязаны искать некоторую другую информацию о словесных отношениях, которую можно рассматривать как указывающую на замещаемость, и которая поддается механическим манипуляциям. Обычное предположение здесь состоит в том, что это обеспечивается фактами о вхождениях и совпадениях слов в документах. Ибо, если два слова всегда встречаются, они явно заменяемы, потому что любое из них может быть использовано для получения одних и тех же документов; и хотя два слова редко встречаются в такой степени, эмпирическим фактом является то, что слова обычно встречаются в документах. Затем мы можем сказать, что слова, которые имеют тенденцию к совместному появлению, могут рассматриваться, как если бы они всегда происходили одновременно, то есть могут рассматриваться как заменяемые. Обобщение этого дает нам наборы слов, которые имеют тенденцию к совместному появлению, при этом некоторые слова не обязательно происходят одновременно, но встречаются с общими словами: это верно, например, для синонимов. Затем мы можем сказать, что нас интересуют тематические классы слов, которые, как правило, встречаются в одних и тех же предметных контекстах, где, как мы надеемся, их можно идентифицировать, учитывая первоначальную информацию о вхождениях слов в набор документов. Важным моментом здесь является то, что такой информацией можно легко манипулировать автоматически.

Я не буду вдаваться в подробности этого аргумента и не буду пытаться его обосновать; для настоящей цели достаточно, чтобы его обычно предлагали в качестве основы для автоматического создания тезауруса. Что более важно, так это то, что если мы примем аргумент, то из этого следует, что нас интересует определенный тип классификации, а именно политетическая и множественная. Под этим я подразумеваю классификацию, в которой члены класса не обязательно все имеют одно или несколько общих свойств, и в которой отдельные элементы могут появляться в нескольких классах. Причины такого вывода достаточно очевидны.

Таким образом, мы вряд ли найдем наборы слов, которые встречаются в одном и том же документе; поиск наборов слов, которые, как правило, встречаются вместе, и это все, что мы, вероятно, найдем на практике, означает поиск наборов слов, которые разделяют наборы документов, например, a, b и c, например, если a встречается в документы 1 и 2, b в 1 и 3 и c в 2 и 3. Это естественное следствие того факта, что документы в коллекции, хотя они могут быть тематически связаны, вряд ли будут идентичны в обоих предметах и словарный запас. Опять же, допущение появления слов в более чем одном классе отражает не только тот факт, что даже технические слова могут иметь различное значение в рамках специализированной коллекции, так что они должны иметь различные заменители, но также и тот факт, что слово может использоваться в одном и том же смысле в разных контекстах, где его различные тематические связи будут представлены различными моделями совместного вхождения и должны снова отражаться различными наборами заменителей.

Кроме того, если мы также считаем, что у нас нет оснований для расширения диапазона заменителей данного термина слишком далеко — и есть независимые экспериментальные доказательства, подтверждающие эту точку зрения — мы не заинтересованы в упорядоченной классификации. Упорядоченная классификация — это та, в которой существуют систематические отношения между классами, которые можно использовать для увеличения числа возможных заменителей данного термина. Но похоже, что, хотя мы хотим разрешить некоторую замену, мы не хотим допускать слишком много альтернатив для слова. Мы действительно можем пойти дальше и сказать, что нам нужна неупорядоченная классификация, потому что мы вполне можем получить неудовлетворительные результаты, если построим упорядоченную классификацию, а затем проигнорируем ее структуру.

Таким образом, мы приходим к общему утверждению о том типе классификации, который нам нужен, то есть об его общих формальных свойствах: мы можем сказать, что нас интересуют политетические, множественные неупорядоченные классификации. Теперь, когда мы добавим к этому тот факт, что мы, как правило, заинтересованы в классификации в больших масштабах, где это означает, что мы можем классифицировать несколько сотен или даже тысяч ключевых слов на основе информации, полученной от нескольких тысяч или даже десятков тысяч из документов станет очевидно, что мы столкнулись с серьезной проблемой. Это то, что нас интересуют классификации, которые особенно сложны по своему характеру и в то же время пытаются обнаружить их в больших наборах объектов. Сложность шкалы, однако, не самая важная, хотя на практике она довольно неловкая и неизбежно влияет на выбор алгоритма для формирования классификации.

Реальные трудности связаны с:

(1) с интересующей нас классификацией; а также
(2) с классификацией в целом.

Таким образом, под первым заголовком любая попытка построить классификацию рассматриваемого вида просто показывает отсутствие подходящих методов классификации и, кроме того, программируемых алгоритмов для поиска классов по заданному определению. Под второй главой мы сталкиваемся с тем, что можно назвать проблемой оценки, которая связана с классификацией в любом облике, но которая подчеркивается, как мы видели ранее, использованием компьютеров: так мы решаем, является ли классификация хорошей, или которая является лучшей из нескольких классификаций.

Теперь мы можем сказать, что, хотя на выбор не хватает подходящих методов классификации, это не так. Теория комков Нидхэма (1963 г.) изначально была предназначена для удовлетворения наших поисковых требований (Sparck Jones, n.d.). Но диапазон альтернатив не велик, а состояние рассматриваемых методов и их связь друг с другом неясны. Так что у нас на самом деле нет очевидного выбора. Точно так же мы можем сказать, что при поиске информации у нас есть средство оценки классификации, а именно, являются ли результаты удовлетворительными, когда используются стандартные показатели эффективности поиска, такие как коэффициенты отзыва и точности. Но совершенно отдельно от проблемы установления действительно удовлетворительных показателей эффективности поиска, связь между целью, для которой требуется классификация ключевых слов, и методикой, принятой для ее генерации, далеко не ясна. То же самое относится и к классификации документов. Таким образом, попытка построить поисковые классификации автоматически поднимает довольно общие вопросы о классификации: и в последующем обсуждении они будут рассмотрены в надежде, что могут быть получены некоторые рекомендации относительно лучшего подхода к поисковой классификации.

Поэтому предположим, что мы начнем с краткого рассмотрения классификации в более широком контексте, сопоставления ее с некоторыми другими видами обработки данных, которые на самом деле не производят классификаций, хотя иногда к ним относятся так, как будто они используются, или используются в качестве основы для классификация. Затем мы можем сопоставить интересующую нас классификацию с другими видами.

Мы можем описать классификацию в целом как процесс группировки объектов, которые по своим свойствам похожи друг на друга. Но это утверждение, хотя и правдивое, слишком расплывчато, чтобы быть полезным: мы должны дать ему денежную оценку. Однако мы можем с большей пользой и несколько конкретнее сказать, что классификация — это и процесс потери информации, и процесс получения информации.

То есть мы начнем с эмпирических фактов об объектах и свойствах, например, у объекта a есть свойства 1, 2 и 4, у объекта b есть свойства 2, 3, 4 и 5, а у свойства a — 1 и 2 с c и 2 и 4 с d, что b делит 2 и 3 с c и 1, 2 и 3 с d, и так далее. Мы хотим обменять всю эту подробную информацию на более общее утверждение о том, что все эти объекты похожи друг на друга, то есть a, b, c и d являются членами класса, потому что они имеют общие свойства независимо от того, о том, как именно они их делят. Таким образом, мы теряем информацию или, вернее, выбрасываем ее, потому что забываем все о конкретных отношениях свойств между отдельными объектами. Но мы выигрываем, потому что делаем явным тот факт, что некоторые объекты похожи. Конечно, этот факт содержится в исходных данных; но цель классификации состоит в том, чтобы выявить это, когда это может быть далеко не очевидно. Однако мы можем добиться получения информации более важного вида в обмен на потерю исходной подробной информации. Это означает, что к любому члену класса можно относиться так, как если бы он обладал определенными свойствами — характерными для класса — даже если мы не знали, действительно ли он начинался с него. Тот факт, что объект является членом класса, позволяет нам сделать вывод о нем.

Это можно проиллюстрировать на примере тезауруса. Для начала, мы просто знаем, что определенные слова встречаются в определенных документах. Затем мы говорим, что некоторые слова похожи, будучи членами одного и того же класса, потому что они, как правило, встречаются в одних и тех же документах; и, наконец, мы можем, рассматривая членов класса как взаимозаменяемые, вести себя так, как будто все соответствующие слова встречаются во всех документах, в которых встречается любой член класса. Группировка слов означает, что мы предполагаем, что все они вполне могли бы иметь место в любом из документов, на которых основан класс.

Теперь этот аргумент говорит немного больше о том, что такое классификация, но, к сожалению, способы обработки данных, которые можно охарактеризовать как классифицирующие, все еще очень различны. Трудность состоит в том, чтобы точно связать их друг с другом и охарактеризовать классификацию в целом полезным и не пустым образом. Тем не менее, мы можем сказать, что некоторые виды деятельности не производят классификацию в том смысле, в котором мы пытаемся объяснить. Одной из таких областей деятельности является техника масштабирования, такая как процедура многомерного масштабирования Шепард / Крускал (Kruskal, 1964a, b). Методы масштабирования предназначены для упрощения данных, таких как методы классификации, но они не являются разделительными. Можно сказать, что классификация делает те различия, которых стремится избежать масштабирование. С масштабированием мы не можем сказать, что все эти вещи похожи и отличаются от этих вещей. Вторая, очевидно, сопоставимая область — это факторный анализ (Борко, 1965). Здесь мы ближе к классификации, чем к масштабированию, но можно сказать, что классификация подразумевается в результатах факторного анализа, а не в явном виде. Если мы говорим, что масштабирование предназначено для представления данных в форме, в которой мы можем их понять, в то время как классификация предназначена для понимания данных, мы можем сказать, что факторный анализ дает нам хорошие свойства, то есть те, которые ценны при формировании классификации. Как в масштабном, так и в факторном анализе мы отбрасываем некоторую информацию, но не получаем столько же, сколько получаем с помощью классификации в ответ.

Но это как бы отрицательная попытка охарактеризовать классификацию. Если мы попытаемся быть более позитивными в этом отношении, то окажется, что мы можем классифицировать классификации в соответствии с определенными общими свойствами или символами (зарезервировав слово «свойство» для признака объекта). Эти символы могут быть определены в терминах ответов на три вопроса, которые можно задать по всем классификациям, следующим образом.

Первый вопрос спрашивает, какова связь между свойствами объектов и классов. Ответ в том, что у нас могут быть классы, которые являются либо монотетическими, либо политетическими. Если класс является монотетическим, это означает, что все его члены обладают одинаковым общим свойством или свойствами, что неверно для политетических классов.

Второй вопрос касается отношения между объектами и классами, где ответ заключается в том, что у нас могут быть классы, которые являются исключительными или перекрываются. Если объекты назначены только одному классу, у нас есть эксклюзивные классы, а если они назначены более чем одному, у нас есть перекрывающиеся классы.

Третий вопрос касается отношения между классами, которое дает нам упорядоченные или неупорядоченные классификации. Если классификация упорядочена, это означает, что классы в ней систематически связаны друг с другом, что не относится к неупорядоченным классификациям.

Поэтому мы получаем пару альтернатив под тремя заголовками, которые можно перечислить следующим образом:

(1) Связь между свойствами и классами:
монотетичная
политетическая

(2) Связь между объектами и классами:
эксклюзив
перекрытия

(3) Отношения между классами и классами:
упорядоченный
неупорядоченный

Насколько я могу видеть, эти шесть символов исчерпывают возможности, поскольку общие характеристики классификаций идут: конкретная классификация должна представлять выбор одной из альтернатив под каждой головой, каждая пара является взаимоисключающей. (Обратите внимание, что это замечание относится к принципам, на которых основана группировка, а не к каким-либо фактическим группам: процедура, разработанная для разрешения перекрывающихся классов, может фактически генерировать исключительные для данного набора объектов.) В то же время все возможные комбинации выбора могут генерировать классификации. Можно сказать, что классификации можно разделить на восемь видов, соответствующих допустимым комбинациям символов, как показано на рисунке 1.

Ясно, что хотелось бы иметь возможность сказать, что все, что достойно классификации имени, охватывается этим диапазоном, и что никакая обработка набора объектов, который он допускает, не является классификацией. Однако это нелегко продемонстрировать, и вся категоризация опирается на предшествующие понятия объекта, свойства и, в частности, класса, которые мы не определили, но предположили. Совсем другое дело, что даже если мы знаем, что такое объекты, свойства и классы, и можем продемонстрировать, что классификации охватываются этими категориями, это не будет очень информативно, потому что мы все еще говорим на слишком высоком уровне. общности. Каждый из восьми видов классификации охватывает целый ряд реальных методов классификации или определений классов, и именно на них мы должны сосредоточить наше внимание. Мы действительно можем выделить три уровня референции в разговоре о классификации. Мы можем говорить в общих чертах о классификациях различных видов по представленной схеме. Однако, чтобы получить классификацию определенного вида, нам нужно то, что можно назвать либо методом классификации, либо определением класса, которое указывает точную базу, на которой должны быть сгруппированы объекты. Наконец, нам нужен алгоритм, который позволяет нам находить классы по заданному определению для определенного массива данных. Важным моментом здесь является то, что различные методы или определения генерируют классификации одного и того же рода, и, кроме того, что различные алгоритмы могут использоваться для создания классификаций, основанных на одном и том же определении.

Рисунок 1 - разделение классификаций на 8 видов — Рисунок 1 — разделение классификаций на 8 видов

Эти различия можно проиллюстрировать на примере. Например, предположим, что нам нужны классы политетического, множественного неупорядоченного вида. Учитывая этот начальный интерес, мы можем затем определить класс как набор объектов, которые все связаны друг с другом, в том смысле, что каждая пара имеет хотя бы одно свойство; или мы можем определить класс как набор, имеющий больше внутренних соединений между членами, чем внешних соединений между членами и нечленами, где соединение снова представляет одно или несколько общих свойств для пары рассматриваемых объектов. Наконец, если мы выбираем последнее, мы можем искать классы, либо следуя процедуре, которая добавляет объекты в набор, начинающийся с одного объекта, либо применяя процедуру, которая корректирует начальный случайный раздел вселенной объектов до тех пор, пока объекты на указанная сторона удовлетворяет нашим требованиям.

На этом этапе необходимо подчеркнуть тот факт, что то, строим ли мы тот или иной вид классификации для данного набора объектов, не имеет ничего общего с природой рассматриваемых данных. Не существует единственного правильного или естественного способа классификации вселенной объектов. Это необходимо подчеркнуть, поскольку во многих случаях делаются замечания об относительных достоинствах классификаций, как если бы классификация отражала что-то присущее множеству объектов, где она фактически отражает систему координат лица, ищущего классификацию. Мы можем совершенно разумно сказать, что в принципе мы можем применить любой метод классификации и, следовательно, получить классификацию любого вида для данного массива данных.

Таким образом, на рисунке 2, на котором сходство между объектами представлено двумерной близостью, пунктирные и сплошные линии представляют две одинаково вероятные классификации, которые различаются, поскольку они основаны на разных представлениях о том, какой должна быть классификация. Пунктирная классификация следует из представления о том, что классы должны быть исключительными, в то время как сплошная классификация является естественным следствием разрешения перекрытия между классами. Однако альтернативы связаны только с различными интересами со стороны классификаторов: в самих объектах нет ничего, что оправдывало бы выбор одной классификации, а не другой.

Рисунок 2 - Сходство между объектами — Рисунок 2 — Сходство между объектами

Тот факт, что законно классифицировать один и тот же набор объектов разными способами, особенно важен, когда мы подходим к рассмотрению вопроса об оценке. Когда мы построили классификацию, мы естественно спрашиваем, является ли она хорошей; действительно, на практике мы часто строим несколько альтернативных классификаций для данного массива данных, поэтому мы спрашиваем, какая из них является лучшей. Что же тогда означает задавать вопросы и отвечать на них? Как мы можем согласовать утверждение о том, что мы можем совершенно точно классифицировать один и тот же набор объектов различными способами с утверждением, что один результат является лучшим?

По сути, мы можем оценить классификации на двух разных основах. Мы можем, с одной стороны, иметь полную формальную теорию классификации, подкрепленную формальной теорией данных, так что для данного набора объектов, определенных как имеющие определенные формальные характеристики, мы можем заключить, что с наименьшим насилием обращаются, или «искажение», данные таким и таким методом классификации.

С другой стороны, у нас может быть полное формальное изложение цели, для которой требуется классификация, в терминах, которые приводят к выбору подходящего метода. В первом случае мера искажения связана с теорией классификации, поэтому, если мы заинтересованы в получении классификации исключительно в виде статического описания набора объектов, мера позволяет нам сопоставить метод группировки с нашими данными. Результатом является обязательно лучшее классификационное описание объектов. Во втором случае мы можем сказать, что цель, для которой требуется классификация, сама по себе подразумевает или включает искажение, поэтому мы ищем метод классификации, который минимизирует это искажение. В результате получается наиболее подходящая классификация для указанной цели. Это, однако, может сильно отличаться от классификации, которую мы получили бы, если бы мы ограничивались описанием.

Другими словами, важно различать классификацию как абстрактный процесс, в котором должны удовлетворяться только внутренние критерии, и классификацию как ответ на задачу, где должны выполняться внешние требования. В обоих случаях, однако, мы можем быть уверены в наших результатах, только если у нас есть формальный аппарат для выражения целого; и проблема заключается только в том, чтобы сформулировать абстрактные классификационные требования в первую очередь или переформулировать целевые требования в классификационных терминах во втором (предполагая, что мы можем определить наши целевые требования, что, конечно, само по себе является проблемой).

Мы действительно должны сказать, что наши цели цели должны быть выражены в абстрактных классификационных терминах во втором случае. Хотя в принципе верно, что требования данной цели могут переопределять формальные требования классификационной теории, маловероятно, что наши целевые требования будут должным образом удовлетворены с помощью классификационного метода, который также не удовлетворяет абстрактным требованиям, связанным с описательная теория классификации. Это, конечно, абсолютное замечание: следует допустить, что полезные результаты могут быть получены на практике с помощью теоретически довольно дефектных процедур группировки. Просто, конечно, мы можем добиться большего успеха, если наши цели связаны с методами, которые также являются теоретически удовлетворительными.

К сожалению, у нас нет полной формальной теории данных и теории, и в равной степени во многих случаях нет достаточно точного изложения нашей цели. Многие люди придумали конкретные методы группировки, в частности, для создания эксклюзивных, упорядоченных классификаций для биологического материала, но очень мало было сделано по проблеме оценки этих методов и соотнесения их друг с другом в рамках общей теории классификации в строгой и продуктивный путь.

Для теории классификации, достойной названия, нам требуется, по крайней мере, список критериев, которым должна соответствовать любая теория классификации, если она должна быть формально адекватной, которая затем может быть использована для сортировки различных методов, которые были предложены , Но трудно предоставить подходящие критерии, и также может быть трудно показать, что данный метод удовлетворяет им. Однако действительно эффективная теория классификации должна пойти дальше и показать, как различные методы классификации связаны друг с другом, чтобы можно было предсказать последствия выбора одного метода, а не другого в различных обстоятельствах.

Ясно, что это очень высокий порядок, особенно когда мы помним, что теория классификации должна включать формальную теорию данных, а также обработку мер сходства или различий, так как они могут применяться к исходной информации о свойствах объекта для предоставления фактических утверждений. об отношениях между парами объектов, которые вводятся в процедуру группировки. Некоторая работа была проделана по этим проблемам, но главным образом в связи с методами для создания упорядоченных классификаций, которые, можно сказать, представляют сравнительно пригодную для изучения подзону. Таким образом, Jardine и Sibson (1968) предложили набор критериев для теории классификации и рассмотрели методы упорядоченной группировки по отношению к ним. Справедливое количество также известно о коэффициентах сходства и различий и их родственниках. Но для тех, кто интересуется неупорядоченными определениями, так как мы находимся в поиске, текущая позиция очень неудовлетворительная. Нетрудно видеть, что предложенные методы могут быть теоретически неудовлетворительными — например, определения комков зависят от сомнительного понятия добавления сходства; но нет очевидных линий для подражания, которые могут привести к лучшим.

Я, во всяком случае, не могу выдвинуть здесь что-либо более приемлемое Таким образом, мне кажется, что лучший подход к проблеме установления удовлетворительных методов — это посмотреть немного дальше на то, что мы хотим сделать в теории классификации, а затем снова на нашу цель поиска.

Например, если мы рассмотрим вопрос о критериях адекватности, какие требования мы должны наложить на процедуру классификации? Список Джардин и Сибсона — несколько неформально и неофициально обобщенный — выглядит следующим образом:

что уникальный результат должен быть получен для данного массива данных;
что если данные уже классифицированы, эта классификация должна быть сохранена;
что процедура должна быть независимой от способа именования объектов;
что метод не зависит от масштаба;
что метод сводит к минимуму искажения;
что на результаты не следует радикально влиять небольшие изменения в данных;
что максимально связанные наборы объектов не должны быть разделены.

Подобные требования выглядят очень разумными, хотя, например, следует отметить, что они подразумевают, что мы уже предоставили удовлетворительную меру искажения. Кроме того, мы должны рассмотреть основные требования, непосредственно о коэффициентах сходства или различий, и в конечном итоге о данных. Таким образом, мы можем наложить на коэффициент подобия требования:

идентичные объекты имеют максимальное сходство;
что объекты с дополнительным распределением свойств должны иметь минимальное сходство.

Что касается базовых данных, мы можем сформулировать требования, которые должны быть выполнены, прежде чем они будут приемлемы в качестве входных данных для процесса классификации, например:

что имущественные уступки являются однозначными;
что свойства не зависят друг от друга.

Кроме того, нам нужен компаньон для классификационной меры искажения, которая связана с процессом вычисления подобия и группирования. Это мера классификации данных. Наша мера искажения говорит нам, насколько классы искажают данные, но мы также хотели бы знать, будет ли попытка найти группы ошибкой, потому что ничего не будет найдено, например, если у нас есть случайные данные или набор непересекающихся объектов.

Но хотя все эти требования должны удовлетворяться процедурой группировки в целом, из этого не следует, что любой процесс, который их удовлетворяет, является процедурой классификации: они являются необходимыми, но не достаточными условиями для классификации. Эти требования гарантируют, что любые найденные классы будут правильными, но мы также должны гарантировать, что мы находим классы. Что, другими словами, делает метод обработки данных методом классификации, а не, например, процедурой сортировки?

Здесь мы подходим к коренной проблеме объяснения понятия классификации, и нелегко сказать что-либо полезное по этому поводу. Можно сказать, что классификация включает в себя три разные идеи: мы должны разделить вселенную объектов; что мы должны сделать это таким образом, чтобы подмножества, в которые попадают объекты, объединялись по сходству между их членами, и что итоговое описание объектов в терминах их принадлежности к классу должно быть проще, чем их первоначальное описание в терминах свойства. Но очень трудно сделать эти утверждения более точными: таким образом, мы можем, в общем, почувствовать, например, что классификация из десяти объектов, состоящая из десяти классов, каждый из которых состоит из одного подмножества вселенной, состоящего из одного члена, не является классификацией в собственном смысле и в более общем смысле: если классов столько, сколько объектов, это неудовлетворительно. Но как сформулировать критерий простоты или разделения, чтобы он не мешал соответствующей классификации некоторых массивов данных, — это другой вопрос. В конце концов, может быть набор из десяти объектов, который был бы должным образом представлен только что упомянутой классификацией. Заметьте также, что, хотя мы можем захотеть определить процедуры группировки таким образом, чтобы они генерировали классификации того или иного из упомянутых ранее видов, заявив, что мы хотим, чтобы классификация с такими и такими из рассматриваемых широких символов не обязательно давала нам методы, которые удовлетворяют только что обсужденным общим классификационным критериям.

Депрессия, вызванная отсутствием существенной теории классификации и, еще в большей степени, подозрением, что достаточно всеобъемлющая теория была бы практически не содержательной, не рассеивается, когда мы обращаемся к проблемам, возникающим, когда мы думаем о классификации с определенной целью, и, в частности, классификация для поисковых целей. Сначала мы должны четко сформулировать нашу цель; а затем мы должны перевести его в классификационные термины. Но некоторые цели не поддаются точным утверждениям, например, исследовательского работника, который хочет, чтобы классификация помогла ему подумать о каком-то материале; и некоторые цели, хотя они и могут быть сформулированы более точно, могут все еще быть очень трудными для перевода. Таким образом, мы можем, например, захотеть классифицировать книги по размерам, что позволит нам экономно использовать место на полках, сохраняя при этом группировку предметов в достаточной степени: это более определенное требование, чем предыдущее, но все еще трудно ввести формальные классификационные термины.

В связи с этим поисковое приложение представляет особый интерес, поскольку оно создает проблемы на всех уровнях. Таким образом, для начала, мы ищем классы ключевых слов, оптимизирующих поиск, то есть наборы терминов, которые являются заменяемыми, поскольку они преимущественно способствуют поиску соответствующих документов. Но уместность является субъективным понятием: суждения об уместности делаются отдельными пользователями. Однако мы можем заметить, что пользователи ведут себя статистически непротиворечиво. Но все еще верно, что актуальность связана с содержанием или сообщением документа, и это недоступно для нас. Мы, как мы видели ранее, должны основывать наши классы заменяемых терминов на информации о появлении документов, потому что это все, что у нас есть, а не на недостижимых фактах о том, что можно назвать свойствами релевантности слов.

Таким образом, мы находимся в положении, в котором мы не можем сформулировать наши цели цели непосредственно в форме, которая может быть использована при построении нашей классификации. Мы можем только заявить об этом косвенно, сказав, что нам нужны классы связанных с текстом слов, и сделать предположение, что эти классы действительно дадут нам результаты, которые мы получили бы, если бы использовали информацию о релевантности. Но весь процесс очень неудовлетворительный, потому что, если наша классификация окажется неэффективной с точки зрения эффективности поиска, неясно, как мы должны ее пересмотреть. Однако возникает еще одна трудность в том, что простое утверждение о том, что нам нужны классы заменяемых терминов, основанные на текстах документов, не очень хорошее руководство для выбора процедуры группировки. Это не достаточно точно. Это не говорит нам о том, хотим ли мы, например, тесно связанные классы или слабо связанные. Мы находимся в неловком положении, потому что даже если у нас есть хорошо организованный набор методов классификации, к которым мы можем отнести наше по общему признанию суррогатное требование к цели, у нас нет достаточно конкретного требования. Так что, если мы примем во внимание тот факт, что хорошо организованный набор методов классификации отсутствует, и что все, что у нас есть, является скоплением необработанных предложений, станет ясно, что запуск автоматической классификации для поисковых целей очень как в темное бездонное болото.

Каков же тогда должен быть наш метод работы, учитывая, что потребность в автоматических поисковых классификациях сохраняется и действительно становится более насущной? Кажется, единственная возможность — компромиссная. С одной стороны, мы должны стремиться к развитию теории классификации, по крайней мере, для той области, которая представлена той классификацией, которая нас особенно интересует; и в то же время нам следует проводить как можно больше систематических экспериментов, чтобы попытаться прояснить наши потребности. Они обязательно будут зависеть от текущих, неудовлетворительных процедур группировки; но если иметь в виду известные недостатки этих процедур и они используются в рамках контролируемых и систематических наборов экспериментов, мы должны иметь возможность сделать некоторые ценные выводы о том, какими должны быть классификации для поисковых целей, а также, надеюсь, чтобы получить некоторые идеи о лучших процедурах классификации.

Дальнейшее чтение

Sparck Jones, K. (n.d.), Автоматическая классификация ключевых слов и поиск информации, Butterworths, Лондон (в печати).

Sparck Jones, K. (n.d.), Automatic Keyword Classification and Information Retrieval, Butterworths, London (in press).

Некоторые мысли по классификации для поиска | Карен Спарк Джонс

Оригинальное название публикации

Аннотация

Рекомендации

Дальнейшее чтение