Статистическая интерпретация термина специфичность и его применение в поиске

Оригинальное название

A statistical interpretation of term specificity and its application in retrieval

Источник

Аннотация

Исчерпывающие описания документов и специфика индексных терминов обычно рассматриваются как независимые. Предполагается, что специфичность следует интерпретировать статистически, как функцию использования термина, а не значения термина. Исследовано влияние на выявление изменений в специфичности терминов, эксперименты с тремя наборами тестов показывают, в частности, что часто встречающиеся термины необходимы для хорошей общей производительности. Утверждается, что термины должны быть взвешены в соответствии с частотой сбора, так что совпадения по менее частым, более конкретным терминам имеют большую ценность, чем совпадения по частым терминам. Результаты для тестовых наборов показывают, что с помощью этой очень простой процедуры достигается значительное улучшение производительности.

Исчерпанность и специфика

Мы знакомы с понятиями исчерпываемости и специфичности: исчерпаемость — это свойство описаний индексов, а специфичность — одно из терминов индекса. Они наиболее четко проиллюстрированы простой системой ключевых слов или дескрипторов. В этом случае исчерпывающим описанием документа является охват его различных тем, заданных назначенными ему терминами; а специфичность отдельного термина — это уровень детализации, на котором представлена данная концепция.

Эти особенности системы поиска документов обсуждались Cleverdon et al. (1966) и Lancaster (1968), например, и эффекты вариации в обоих были отмечены. Например, если исчерпывающая полнота описания документа увеличивается путем назначения большего количества терминов, когда число терминов в словаре индексации является постоянным, вероятность того, что документ соответствует запросу, увеличивается. Затем следует идея оптимального уровня исчерпывающей индексации для данной коллекции документов: среднее количество дескрипторов на документ должно быть скорректировано таким образом, чтобы, как мы надеемся, шансы запросов на сопоставление с соответствующими документами были максимальными, а слишком много ложных отбрасываний избегалось. Очевидно, что исчерпывающее действие применимо и к запросам, и одной из функций стратегии поиска является изменение исчерпываемости запросов. Однако здесь я буду в основном касаться описаний документов.

Специфичность, как охарактеризовано выше, является семантическим свойством индексных терминов: термин более или менее специфичен, поскольку его значение является более или менее подробным и точным. Это естественный взгляд для всех, кто занимается созданием целого словаря индексации. Необходимо принять определенное решение в отношении различающей способности отдельных терминов в дополнение к их описательной уместности. Например, индексный термин «напиток» может использоваться для документов о чае, кофе и какао так же, как и термины «чай», «кофе» и «какао». Включение в словарь только более общего термина «напиток» или принятие «чая», «кофе» и «какао» зависит от суждений о полезности поиска различий между документами, сделанными последними, но не от бывший. Также прогнозируется, что более общий термин будет применяться к большему количеству документов, чем отдельные термины «чай», «кофе» и «какао», поэтому менее конкретный термин будет иметь большее распределение коллекций, чем более конкретные.

Здесь, конечно, предполагается, что такой выбор при построении словарного запаса является исключительным: у нас может быть «напиток» или «чай», «кофе» и «какао». Что произойдет, если у нас есть все четыре условия, это другое дело. Затем мы можем либо интерпретировать «напиток» как «другие напитки», либо явно трактовать его как связанный более широкий термин. Я буду, однако, игнорировать эти альтернативы здесь.

При настройке словарного запаса индекса специфика терминов индекса рассматривается с одной точки зрения: нас интересует возможное влияние на описание документа и, следовательно, поиск, выбора конкретных терминов или, скорее, принятия определенного набора терминов. На наши решения, в частности, будут влиять отношения между терминами и то, как набор выбранных терминов будет коллективно характеризовать набор документов. Но во всем мы предполагаем некоторый уровень индексации исчерпанности. Мы заинтересованы в том, чтобы получить эффективный словарный запас для коллекции документов по некоторым широко известным предметам и размерам, где считается, что данного уровня исчерпывающей индексации достаточно, чтобы адекватно представлять содержание отдельных документов и отличать один документ от другого.

Тем не менее, специфичность индекса может рассматриваться с другой точки зрения. Что происходит, когда данный словарный индекс фактически используется? Например, когда мы выбираем «напиток», мы прогнозируем, что он будет использоваться больше, чем «какао». Но у нас нет особого представления о том, сколько документов будет, какой «напиток» может быть назначен надлежащим образом. Это не просто определяется, даже если предполагается некоторый уровень исчерпанности. Будут некоторые документы, которые, так сказать, взывают к «напитку», и мы можем иметь некоторое представление о том, какой пропорции коллекции это может быть. Также будут документы, которым «напиток» не может быть обоснованно назначен, и эта пропорция также может быть оценена. Но, к сожалению, существует определенное количество документов, которым «напиток» может быть или не быть назначен, в любом случае вполне правдоподобно. Следовательно, в общем случае фактическое использование дескриптора может значительно отличаться от прогнозируемого использования. Пропорции коллекции, к которой относится и не принадлежит термин, могут быть оценены только очень приблизительно; и может быть достаточно промежуточных документов для того, чтобы назначить им термин, чтобы значительно повлиять на его общее распределение. В течение длительного периода характер коллекции в целом также может меняться, что будет влиять на распределение сроков.

Вот где важен уровень исчерпываемости описания. По мере роста коллекции поддержание определенного уровня исчерпанности может означать, что описания различных документов недостаточно различаются, в то время как некоторые термины используются очень интенсивно. В более общем плане, вероятно, появятся большие различия в распределении терминов. Таким образом, может случиться так, что конкретный термин становится менее эффективным в качестве средства поиска независимо от его фактического значения. Это потому что это не различает. Он может быть надлежащим образом назначен документам в том смысле, что их содержание оправдывает назначение; но он больше не может быть достаточно полезен сам по себе как устройство, позволяющее отличить типично небольшой класс документов, относящихся к запросу, от остальной части коллекции. Таким образом, часто используемый термин функционирует в поиске как неспецифический термин, хотя его значение может быть довольно специфичным в обычном смысле.

Статистическая специфика

Другими словами, недостаточно думать о специфике индексных терминов исключительно при настройке индексного словаря, как о точности представления концепции. Мы должны думать о специфике как о функции использования термина. Его следует интерпретировать как статистическое, а не семантическое свойство индексных терминов. В целом мы можем ожидать, что более неопределенные термины будут использоваться чаще, но поведение отдельных терминов будет непредсказуемым. Таким образом, мы можем переопределить исчерпательность и специфичность для простых систем терминов: исчерпываемость описания документа — это количество терминов, которые он содержит, а специфика термина — это количество документов, к которым он относится. Тогда связь между ними становится ясной, и мы можем видеть, например, что изменение исчерпываемости описаний повлияет на специфичность терминов: если описания длиннее, термины будут использоваться чаще. Это неизбежно для контролируемого словаря, но также применимо, если используются извлеченные ключевые слова, особенно в форме основы. Частота появления новых слов в словаре ключевых слов не просто параллельна количеству проиндексированных документов, и извлечение большего количества ключевых слов на документ с большей вероятностью увеличит частоту текущих ключевых слов, чем генерирует новые.

После того, как эта статистическая интерпретация специфики, а также связь между ней и исчерпаемостью, будет признана естественной, попытка более формального подхода к поиску оптимального уровня специфичности в словаре и оптимального уровня исчерпанности в индексации для данной коллекции , В широких пределах, налагаемых разумными терминами, то есть теми, которые могут быть получены из запросов и применены к документам, мы можем попытаться создать словарь со статистическими свойствами, которые, как мы надеемся, оптимальны для поиска. Чисто формальные расчеты могут предложить правильное количество терминов и терминов на документ для определенной степени дискриминации документов. Работа над этими линиями была сделана, например, Zunde и Slamecka (1967). Более неофициально, предположение о том, что дескрипторы должны иметь примерно одинаковое распределение, сделанное, например, Солтоном (1968), мотивировано уважением к поисковым эффектам чисто статистических особенностей использования термина.

К сожалению, абстрактные вычисления не выбирают фактические условия. Также коллекции документов не являются статичными. Что еще более важно, это трудно контролировать запросы. Можно охарактеризовать документы с целью их отличительного распознавания, а затем обнаружить, что пользователи не предоставляют запросы с использованием этих различий. Поэтому мы можем быть вынуждены принять де-факто неоптимальную ситуацию с условиями различной специфики и, по крайней мере, с некоторыми неприятно неопределенными условиями. Будут некоторые условия, которые независимо от первоначального намерения извлекают большое количество документов, из которых можно ожидать, что только небольшая часть будет иметь отношение к запросу. Такие термины в целом более неприятны, чем редкие, чрезмерно специфические термины, которые не могут найти документы.

Эти особенности термина behaviour (поведение) могут быть проиллюстрированы примерами из трех известных коллекций тестов, полученных в проектах Aslib Cranfield, INSPEC и College of Librarianship Wales. Фактически в них словарь состоит из извлеченных ключевых слов, которые, как можно ожидать, будут показывать больше вариаций, чем контролируемые термины. Но нет никаких оснований полагать, что ситуация существенно иная. Полные описания коллекций приведены в Cleverdon et al. (1966), Aitchison et al. (1970) и Keen (готовится к печати). Соответствующие характеристики коллекций приведены в разделе A таблицы 1.

Таблица 1 - характеристики коллекций трёх тестов — Таблица 1 — характеристики коллекций трёх тестов

Например, в коллекции INSPEC имеется 541 документ, проиндексированный по 1341 терминам. Во всех коллекциях есть некоторые очень часто встречающиеся термины: например:

в коллекции Cranfield один термин встречается в 144 из 200 документов;
в INSPEC один термин встречается в 112 из 541;
в коллекции Keen один термин встречается в 199 из 797 документов.

Соответствующие термины не обязательно представляют понятия, являющиеся центральными для предметных областей коллекций, и они не всегда являются общими терминами.

В коллекции Keen, которая посвящена информатике, наиболее часто встречается термин «index-», а другие часто включают «librar-», «inform-» и «comput-».
В коллекции INSPEC наиболее часто встречается «theor-» (теория), за которой следуют «measur-» (измерения) и «method-» (метод).
В коллекции Cranfield наиболее частыми являются «flow-» (поток), за которыми следуют «pressur-» (давление), «distribut-» (распространение) и «bound-» (граница).

Более редкие термины — это мелкая смешанная сумка, включающая «покупки» и «ксерограф» для Keen, «параллель» и «серебро» для INSPEC, а также «логарифм» и «серий» (серии) для Cranfield.

Специфика и соответствие

Как справляться с изменчивостью терминов, особенно с недостаточно конкретными терминами, когда они встречаются в запросах? Неблагоприятные последствия частого использования термина в принципе могут быть решены очень естественно с помощью сочетаний терминов.

Например, хотя три термина «связанный», «слой» и «поток» встречаются в 73, 62 и 144 документах каждый в коллекции Cranfield, есть только 50 документов, проиндексированных всеми тремя терминами вместе. Полагаться на термин «соединение» довольно просто. Это, в частности, способ преодоления неблагоприятных последствий того факта, что запросы, как правило, формулируются в более известных и, как правило, более частых терминах.

К сожалению, но не удивительно, что запросы, как правило, представляются в терминах со средней частотой, намного превышающей таковую для словаря индексации в целом. Это справедливо для всех трех наборов тестов, как показано в разделе B таблицы 1.

Например, для набора Cranfield среднее количество публикаций для терминов в словаре равно девяти, а среднее для терминов, используемых в запросах, составляет 31,6; для Keen — 6,1 и 44,8.

Но полагаться на комбинацию терминов для уменьшения ложных срабатываний, как известно, рискованно. Это правда, что чем больше общих терминов между документом и запросом, тем больше вероятность того, что документ имеет отношение к запросу. К сожалению, бывает так, что сложно сопоставить термины. Это хорошо видно по поведению совпадения терминов в трех коллекциях, как показано в разделе C таблицы 1.

Среднее число начальных терминов на запрос варьируется от 5,3 для Keen до 6,9 для Cranfield. Но среднее число извлекаемых терминов для запроса, то есть среднее из самых высоких баллов соответствия, варьируется от 3,2 до 5,0. Что еще более важно, среднее число совпадающих терминов для соответствующих извлеченных документов колеблется от всего лишь 1,8 для Keen до 3,6 для Cranfield, хотя, к счастью, среднее для всех извлеченных документов, которые в основном не имеют отношения, варьируется от 1,2 до 1,8.

Очевидно, что одним из решений этой проблемы является предоставление более подходящих терминов каким-либо образом. Это может быть достигнуто либо путем предоставления альтернативных заменителей данных терминов, путем классификации; или путем увеличения полноты спецификации документа или запроса, скажем, путем добавления статистически связанных терминов. Но любой из этих подходов требует усилий, возможно, значительных, поскольку необходимо определить наборы терминов, связанных с отдельными терминами. Естественно, возникает вопрос о том, можно ли лучше использовать существующие описания терминов, что не требует таких усилий.

Так как очень часто встречающиеся термины несут ответственность за шум при поиске, один из возможных способов — просто удалить их из запросов. Тот факт, что это сократит количество терминов, доступных для совместного сопоставления, может быть компенсирован тем фактом, что будет получено меньше не относящихся к делу документов. К сожалению, хотя частые термины вызывают шум, они также необходимы для достаточно высокого уровня отзыва. Для всех трех наборов тестов удаление очень часто встречающихся терминов путем применения подходящего порога приводит к снижению общей производительности.

Например, для коллекции INSPEC был установлен порог для удаления терминов, встречающихся в 20 или более документах, так что 73 термина из общего словаря из 1341 были удалены. Эффект в производительности поиска иллюстрируется графиком возврата / точности на рисунке 1 для коллекции Кранфлд. Сопоставление осуществляется по уровням координации простых терминов, а усреднение по набору запросов осуществляется по прямому среднему числу. Точность при десяти стандартных значениях отзыва затем интерполируется. Такая же взаимосвязь между полным совпадением сроков и этим ограниченным сопоставлением только с нечастыми терминами проявляется в других коллекциях: потолок отзыва снижен как минимум на 30 процентов, а для коллекции Кин действительно уменьшен с 75 процентов до 25 процентов, хотя точность сохраняется.

Изучение запросов показывает, почему этот результат получен. Не просто частота запроса намного выше средней частоты сбора; сравнительно небольшое количество очень частых терминов играет большую роль в формулировании запроса. Например, «Flow-» появляется в двенадцати запросах Cranfield из 42, и в целом для всех трех коллекций примерно половина терминов в запросе является очень частой, как показано в разделе D таблицы 1. выбрасывая ребенка с водой в ванну, так как они необходимы для получения многих соответствующих документов.

Сочетание нечастых терминов является дискриминационным, но не более, чем сочетание частых и нечастых терминов. Значение нечастых терминов отчетливо видно, с другой стороны, когда сопоставление с использованием только частых терминов сравнивается с полным сопоставлением, что также показано на рисунке 1. Уровни соответствия для итоговых и релевантных документов почти такие же высокие, как и для всех терминов. , но нечастые термины в последнем поднимают соответствующий уровень соответствия о I.

Эти особенности поиска терминов предполагают, что для улучшения первоначальной производительности в течение всего срока нам необходимо использовать хорошие характеристики очень частых и нечастых терминов, одновременно сводя к минимуму их плохие. Мы должны допускать некоторые достоинства в матчах с частыми сроками, в то время как в нечастых — больше. В любом случае мы хотим максимально увеличить количество подходящих терминов.

Рисунок 1 - график возврата-точности — Рисунок 1 — график возврата-точности

Взвешивание по специфике

Это ясно указывает на схему взвешивания. В обычных согласованиях терминов, если запрос и документ имеют общий общий термин, это считается не частым; таким образом, если запрос и документ имеют три общих термина, документ извлекается на том же уровне, что и другой, совместно использующий три редких термина с запросом. Но, похоже, мы должны относиться к матчам на нечастых сроках как к более ценным, чем матчи на частых сроках, не игнорируя последние в целом. Естественное решение состоит в том, чтобы соотнести значение соответствия термина с частотой его сбора. На этом этапе деление терминов на частые и нечастые является произвольным и, вероятно, не оптимальным: элегантный и почти наверняка лучший подход заключается в том, чтобы более точно соотнести значение соответствия с относительной частотой. Надлежащий способ сделать это предлагается с помощью кривой распределения терминов для словаря, который имеет знакомую форму Zipf.

Пусть f (n) = m такое, что 2 в степени (m-1) < n<=2 в степени m. Тогда, если в коллекции N документов, вес термина, встречающегося n раз, равен f (N) — f (n) + 1. Например, для коллекции Cranfield с 200 документами это означает, что термин встречается в девяносто. время имеет вес 2, в то время как один встречающийся три раза имеет вес 7.

Таким образом, совпадающее значение термина соотносится с его спецификой, а уровень извлечения документа определяется суммой значений его совпадающих терминов. Простые уровни координации заменяются более сложным квази-ранжированием. Эффект может быть проиллюстрирован различными уровнями поиска, при которых два документа соответствуют запросу на одном и том же количестве относительно частых и относительно нечастых терминов соответственно. С диапазоном значений Крэнфилда документ, соответствующий двум терминам с частотами 15 и 43, будет извлечен на уровне 5 + 3 = 8, в то время как один документ, соответствующий терминам с частотами 3 и 7, будет найден на уровне 7 + 6 = 13. Очевидно, что поскольку диапазон уровней «растянут», возможна большая дискриминация.

Идея термина взвешивания не нова. Но это, как правило, связано с предполагаемой важностью термина по отношению к самому документу. Например, если в документе в основном речь идет о краске, а в прохождении упоминается только лак, мы можем использовать некоторую простую весовую шкалу, чтобы присвоить вес 2 термину «краска» и 1 — «лак». Более неформально, при размещении запроса, мы можем утверждать, что во время поиска термин х должен быть сохранен, но термин у может быть отброшен. При наличии необходимой информации может быть принято более систематическое взвешивание на статистической основе. Если фактическая частота появления терминов в документе (или аннотации Известно, что это может использоваться для генерации весов. Artandi и Wolfe (1969) сообщают об использовании частоты для выбора веса по трехбалльной шкале, в то время как Salton (1968) более искренне использует частоту встречаемости в качестве веса. В ряде экспериментов Солтон продемонстрировал, что весовые коэффициенты таким образом приводят к заметному улучшению производительности по сравнению с полученными для невзвешенных терминов.

Взвешивание по частоте сбора, в отличие от частоты документа, совершенно другое. В нем больше внимания уделяется значению термина как средства отличия одного документа от другого, чем его значению как указания на содержание самого документа. Связь между двумя формами взвешивания не очевидна. В некоторых случаях термин может быть общим в документе и редким в коллекции, так что он будет сильно взвешен в обеих схемах. Но обратное может также применяться. Это действительно, что акцент делается на различных свойствах терминов.

Трактовка частоты сбора терминов в связи с сопоставлением терминов, по-видимому, систематически не исследовалась. Влияние частоты появления терминов на статистические ассоциации изучалось, например, Леском, но это другой вопрос. Тот факт, что данный термин может извлекать большое количество документов, может быть неофициально использован при настройке поиска, в частности, в контексте поиска в режиме онлайн, как описано, например, Борко (1968). Более искренние подходы, вероятно, затруднены отсутствием необходимой информации. Такая процедура, как описанная, также гораздо больше подходит для автоматического поиска, чем для ручного поиска. Поэтому интересно, что термины частоты использовались в общем порядке, указанном в оперативной интерактивной поисковой системе для внутренних отчетов, реализованных в А. Д. Литтле (Curtice and Jones, 1969). В этой системе ключевые слова индексации автоматически извлекаются из текста, и поэтому взвешивание связано с изменением словарного запаса и коллекции. Однако систематических экспериментов не сообщается.

Результаты эксперимента

Описанный термин система взвешивания был опробован на трех коллекциях. Как уже отмечалось, они очень разные по своему характеру, с разными размерами словарного запаса, описанием документа и спецификацией запроса, как указано в Таблице I. Однако во всех случаях сопоставление с взвешиванием терминов приводило к существенному улучшению производительности по сравнению с простым сопоставлением терминов. , Результаты, представленные в форме, упомянутой ранее, приведены на рисунках 2, 3 и 4. Простой тест значимости, основанный на разнице в площади, заключенной в кривые, показывает, что улучшение, представленное взвешенными терминами, является полностью значимым, причем разница значительно выше требуемый минимум.

Эти результаты представляют интерес по двум причинам. Все три коллекции были использованы для целого ряда экспериментов с различными индексными языками, методами поиска и т. Д .: см. Cleverdon et al. (1966), Salton (1968), Salton and Lesk (1968), Spärck Jones (1971), Aitchison et al. (1970) и Кин (готовится к печати). Полученное здесь улучшение производительности, тем не менее, представляет собой такое же хорошее улучшение по сравнению с простым невзвешенным соответствием ключевых слов, которое было получено любыми другими средствами, включая тщательно сконструированный тезаурус: методы итерационного поиска Солтона не сравнимы. Детали того, как эти экспериментальные результаты представлены, варьируются, поэтому строгие сравнения невозможны, но общая картина ясна. Действительно, если что-либо можно назвать солидным результатом в информационно-поисковых исследованиях, то это одно. Второй момент, касающийся настоящих результатов, заключается в том, что улучшение производительности достигается исключительно простыми средствами. Он совместим с изначально простым методом индексации, а именно с использованием извлеченных ключевых слов, которые могут автоматически сводиться к основам; он легко реализуется с помощью процедуры автоматического сопоставления терминов, поскольку все, что требуется, это список частотных терминов, и это легко получить; и имеет то преимущество, что вес, назначаемый терминам, естественно корректируется с учетом роста и изменений в коллекции. Эксперименты с очень большими коллекциями, чем те, которые используются здесь, явно желательны; надеюсь, они не будут долго задерживаться.