Автоматическая индексация и абстракция текстов документов | Мари-Франсин Моэнс

Оглавление

Предисловие
Благодарности
Часть 1. Среда индексирования и абстрагирования
Глава 1 — Необходимость индексирования и абстрагирования текстов
1. Введение в главу 1
2. Электронные документы
3. Общение через текст на естественном языке
4. Понимание текста на естественном языке: познавательный процесс
5. Понимание текста на естественном языке: автоматизированный процесс
6. Важные понятия в поиске и отборе информации

Предисловие

В настоящее время мы сталкиваемся с огромным количеством электронных документов, написанных на естественном языке. Мы хороши в создании текстов, но не так способны управлять их информационным содержанием. Документы хранятся на компьютерных дисках или на компакт-дисках для формирования больших коллекций. Системы поиска, поисковые системы, инструменты просмотра и другое программное обеспечение для управления информацией находятся в нашем распоряжении для выбора соответствующих документов или информации из коллекций. Когда современные средства поиска и выбора информации работают с содержимым текстов документов или делают его доступным, они не являются достаточно мощными для идентификации документов или информации, которые могут иметь отношение к их пользователям.

Индексирование и абстрагирование текста — это старые методы организации содержания текста на естественном языке. Эти процессы создают краткое описание или характеристику исходного текста, который называется текстовым представлением или представителем и имеет признанный и принятый формат. Индексирование обычно извлекает или присваивает тексту набор отдельных слов или фраз, которые функционируют как индексные термины текста. Слова или фразы текста обычно называют индексными терминами естественного языка. Когда назначенные слова или фразы приходят из фиксированного словаря, они называются индексными терминами контролируемого языка. Индексные термины, помимо отражения содержимого, могут использоваться в качестве точек доступа или идентификаторов текста в коллекции документов (document collection). Абстрагирование приводит к уменьшенному представлению содержания текста. Резюме обычно имеет форму непрерывного, связного текста или профиля, который структурирует определенную информацию исходного текста.

Идея и первые попытки автоматизировать индексацию и абстрагирование текста восходят к концу 1950-х годов. То, что в то время было прогрессивной теорией, теперь стало абсолютной необходимостью. Ручная задача индексирования и абстрагирования просто неосуществима с постоянно расширяющимися коллекциями текстовых документов (например, в Интернете). Автоматическая индексация и абстракция, помимо того, что они эффективны, вероятно, дают более последовательный, объективный и более полный конечный продукт. Процесс автоматической индексации и абстрагирования начинается, когда текст уже хранится в электронном виде и может рассматриваться как строка символов (включая пробелы и знаки пунктуации). Как и в случае ручной индексации и абстрагирования, автоматизированный метод влечет за собой контентный анализ текста, отбор и обобщение информации и перевод в окончательную форму. Современные системы, которые индексируют и аннотируют тексты, генерируют текстовые представления, которые аналогичны тем, которые подготовлены людьми с точки зрения содержания и формата (например, набор терминов индекса, аннотация в форме свободного текста). Это связано с тем, что поисковые и другие системы управления текстом поддерживают эти представления.

Текстовые представления используются в системах, которые управляют содержимым документа. Большинство из них являются системами поиска документов. Конечная цель индексации и абстрагирования в текстовом поиске — эффективная операция поиска, чтобы находить более релевантные и менее несущественные элементы. В настоящее время предполагается, что основной проблемой в современных поисковых системах является получение значения, которое документ может иметь для своего пользователя. Таким образом, прогресс может быть достигнут путем точного определения потребностей пользователя. Мы не отрицаем важность точного представления потребностей пользователя, но точное определение информационных потребностей будет хорошо работать только с более насыщенными семантическими представлениями текстового содержимого документов, созданных с помощью автоматической индексации и абстрагирования. Текущие текстовые представления, которые генерируются автоматически, являются лишь грубым отражением содержания текстов документа. Они часто ограничены некоторыми терминами, которые часто встречаются в тексте, всеми словами в начале текста или предложениями, которые содержат частые термины.

Интуитивное решение для создания богатых семантических представлений текстов на естественном языке состоит в том, чтобы анализировать их и интерпретировать их слова и фразы на основе полного лингвистического, предметного мира и контекстуального знания. Учитывая текущее состояние обработки естественного языка, это невозможно и не всегда желательно. Лингвистическое знание относится к лексическим, синтаксическим и семантическим свойствам языка текстов и типичным свойствам дискурса. Знание предметной области описывает понятия и подконцепции предметной области и их отношения. Контекстуальные знания относятся к коммуникативным знаниям, которые касаются предпочтений и потребностей тех, кто использует информацию в текстах. Рабочая гипотеза в области поиска информации состоит в том, что допустимые текстовые представления могут быть сделаны без полной и сложной обработки, зависящей от языка. Это правильная гипотеза для начала. В ходе этой книги мы разработаем и защитим несколько менее значимых гипотез. Во-первых, утверждается, что знание структур дискурса — независимо от того, присущ он или нет типу текста или жанру — и поверхностных лингвистических сигналов, которые их сигнализируют, очень полезно для автоматической индексации и абстрагирования содержания текста. Это знание также позволяет нам сосредоточиться на определенной информации в текстах, которая имеет отношение к конкретным коммуникационным потребностям. Также возможно изучать структуры дискурса из текстов с помощью статистических методов. Наконец, знание предметной области важно для определения актуальных понятий в текстах. Знание понятий и их вариантов текстовых шаблонов можно извлечь из примеров текстов.

Книга ставит перед собой амбициозные задачи: изучить автоматическую индексацию и абстрагирование во всех ее аспектах и описать новейшие новые методы автоматической индексации и абстрагирования. Кроме того, она сталкивается со многими проблемами, которые ставит автоматическая индексация и абстрагирование текста. Хотя книга посвящена индексации и абстрагированию письменного текста, многие выводы также важны для устных текстовых документов, которые все чаще используются для передачи и хранения информации.

Эта книга организована следующим образом:

Первая часть, «Среда индексирования и абстрагирования — The Indexing and Abstracting Environment», помещает проблему в широкий контекст и определяет важные концепции книги. В первой главе «Необходимость индексирования и абстрагирования текстов — The Need for Indexing and Abstracting Texts» обосновывается необходимость разработки более совершенных методов автоматической индексации и абстрагирования текстового содержимого. С широкой точки зрения, обсуждаются некоторые относящиеся к делу проблемы поиска информации и управления текстом в целом. Нынешние решения этих проблем намечены. В ходе этой главы становится очевидной реальная потребность в улучшенных методах автоматической индексации и абстрагирования. Вторая глава этой части, «Атрибуты текста — The Attributes of Text», раскрывает особенности текста. Она дает обзор различных компонентов и структур, составляющих текст. В последней главе этой части «Текстовые представления и их использование — Text Representations and their Use» обсуждаются свойства и использование различных текстовых представлений для поиска документов и информации.

Вторая часть книги «Методы автоматического индексирования и абстрагирования — Methods of Automatic Indexing and Abstracting» дает обзор существующих методов автоматического индексирования и абстрагирования. В настоящее время такой подробный обзор отсутствует в литературе. В разных главах рассматриваются основные формы представления текста: «Автоматическая индексация: выбор терминов индекса естественного языка — Automatic Indexing: The Selection of Natural Language Index Terms», «Автоматическая индексация: назначение терминов индекса контролируемого языка — Automatic Indexing: The Assignment of Controlled Language Index Terms» и «Автоматическое абстрагирование: создание текстовых резюме — Automatic Abstracting: The Creation of Text Summaries». Содержание этой части обеспечивает контекст для приложений, обсуждаемых в третьей части, и обосновывает выбор определенных методов в приложениях.

Третья часть книги рассматривает «Приложения — Applications». Четыре важные проблемы описаны для двух сборников текстов, написанных на голландском языке. Проблемы в основном касаются индексации с помощью терминов индекса контролируемого языка, классификации текста и абстрагирования. Один корпус содержит тексты судебных дел, а другой состоит из журнальных статей. Решения предлагаются и тестируются с помощью программного обеспечения для индексации и абстрагирования, разработанного и реализованного автором. Приложения разрабатывают новые методы и улучшают существующие для автоматической индексации и абстрагирования. Первая глава «Структурирование и категоризация текста при обобщении юридических дел — Text Structuring and Categorization when Summarizing Legal Cases» посвящена успешной первоначальной классификации и структурированию уголовных дел. Текстовая грамматика используется для представления знаний о структурах дел, о концепциях, типичных для области уголовного права, и об информационной направленности. В следующей главе «Кластеризация пунктов при обобщении юридических дел — Clustering of Paragraphs when Summarizing Legal Cases» краткий отрывок из судебных дел обобщен путем выделения репрезентативных параграфов и ключевых терминов. Методы идентификации репрезентативных текстовых единиц основаны на распределении лексических единиц в юридических текстах и демонстрируют полезность кластеризации на основе выбора репрезентативных объектов. В третьей главе, озаглавленной «Создание выделенных аннотаций журнальных статей — The Creation of Highlight Abstracts of Magazine Articles», демонстрируется переносимость текстового грамматического подхода к абстрагированию текста в процессе создания выделенных аннотаций журнальных статей. Здесь используются типичные дискурсивные шаблоны новостных сюжетов. В последней главе этой части, «Назначение предметных дескрипторов журнальным статьям — The Assignment of Subject Descriptors to Magazine Articles», метод изучает типичные текстовые шаблоны широких предметных классов статей из ограниченного набора примеров текстов и применяет эти знания для назначения предметных дескрипторов новые, ранее невиданные статьи.

Книга заканчивается кратким обзором, обзором вклада исследования и направлениями будущих исследований.

Книга междисциплинарная. Его тема «Автоматическое индексирование и абстрагирование текстов документов» является важным элементом информационно-поискового исследования. Поиск информации — это дисциплина, основанная на информационной науке, компьютерной науке и статистике. Исследование особенно изучает текст и его автоматический анализ. Эта исследовательская область компьютерной лингвистики, подразделение информатики. Из-за природы двух текстовых корпусов, используемых в исследовании, юридических текстов и журнальных статей, исследование сталкивается с дисциплинами права и науки о коммуникации. Область когнитивной науки затрагивается, когда когнитивный процесс индексации и абстрагирования дает модели для автоматических процессов.

Благодарности

Эта публикация является несколько сокращенной версией моей докторской диссертации, защищенной 28 июня 1999 года на факультете наук в Университете Католике в Лёвене, Бельгия. Хотя невозможно признать вклад тех, кто помог мне, я хотела бы упомянуть тех, чья помощь была прямой и жизненно важной для завершения этой работы.

Истоки этой книги лежат в моих работах по древнеегипетскому языку под руководством профессора Дж. Куэгбёра (Katholieke Universiteit Leuven, Бельгия) и профессора Дж. Каллендера (Калифорнийский университет в Лос-Анджелесе, Калифорния, США), которые глубоко пробудили во мне интерес к анализу языка и текстов.

Я очень благодарна профессору Дж. Дюмортье, моему научному руководителю, который дал мне великолепный шанс изучить тему этой книги. Он дал мне возможность работать в Междисциплинарном центре права и информационных технологий (ICRI) (Katholieke Universiteit Leuven, Бельгия), который является очень стимулирующей средой для творческих исследований. Именно под его руководством исследование, содержащееся в этом томе, началось около пяти лет назад.

Я должна выразить свою признательность консультантам моей докторской диссертации в Университете Католике в Левене, Бельгия: профессору Х. Оливье, профессору Л. Верстралену и профессору Ж. Дюмортье. Их постоянное поощрение значительно облегчило его подготовку. Я благодарю профессора Х. Оливия за его полезные советы.

Я также благодарю членов экзаменационного жюри, профессора Д. Де Шрайе (Katholieke Universiteit Leuven, Бельгия), профессора Дж. Лейзена (Koninklijke Militaire School, Бельгия) и профессора Дж. Хоббса (Стэнфордский исследовательский институт, Калифорния, США), которые своими замечаниями и предложениями позволили мне достичь конечных целей этой публикации.

С глубоким уважением я благодарю профессора А. Оостерлинка, ректора Университета Католике в Левене, Бельгия, и профессора Дж. Херботса, декана юридического факультета, за предоставленную мне возможность работать в Университете Католике в Лювене, Бельгия. Я также должна поблагодарить профессора Дж. Берламонта, декана факультета прикладных наук, который дал мне возможность пройти докторантуру в области компьютерных наук в Университете Католике в Левене, Бельгия, и профессора Л. Ванкуикенбоме, декана факультета Наук, которые позволили мне защитить мою докторскую степень. Я благодарю профессора С. Вандевалле за то, что он позаботился о моем досье на докторскую подготовку.

Я больше всего признательна моему коллеге д-ру. C. Uyttendaele, который оказал неоценимую помощь в одном из проектов, описанных в книге, и который перевел большинство юридических текстов с голландского на английский. Я также благодарна г-же Т. Боувен за проверку некоторых результатов, содержащихся в этой публикации. Я благодарю доктора В. Веттерстрома (Гарвардский университет, Массачусетс, США), который помог мне исправить мой английский в предисловии и резюме. Я также хотела бы поблагодарить профессора Дж. Зелезникова (Университет Ла Троб, Австралия) за его полезные комментарии. Я благодарю анонимных рецензентов моих научных работ, которые включены в эту книгу.

Кроме того, я благодарна доктору С. Бельмансу и Ир. J. Huens (Katholieke Universiteit Leuven, Бельгия) и г-н L. Misseeuw и г-н P. Huyghe (Roularta Media Group) за техническую помощь в обеспечении доступности текста. Я благодарна г-же Н. Вербиест за административную поддержку. Я хочу поблагодарить мою семью и коллег за их постоянную поддержку.

Наконец, я хотела бы выразить свою благодарность организациям, которые предоставили мне грантовую поддержку во время учебы и исследований: Бельгийско-Американский образовательный фонд (BAEF), Совет по высшему образованию и научным исследованиям Министерства образования, Исследовательский фонд KU Leuven, Национальный фонд научных исследований (NFWO), Фламандский институт содействия научно-техническим исследованиям в промышленности (IWT), Vlaamse Leergangen Leuven и Фламандский научный фонд.

Часть 1. Среда индексирования и абстрагирования

Глава 1 — Необходимость индексирования и абстрагирования текстов

1. Введение в главу 1

Люди общаются, беседуя. С давних времен человечество использует зарегистрированные формы общения. Один из них, письменный текст, как правило, считается знаменующим историческую эпоху человечества. Люди научились кодировать звуковые высказывания в последовательности графических символов и снова расшифровывать текст на языке разговорной речи. Даже если текст, написанный на естественном языке, является лишь грубой формой представления того, что происходит в уме автора, он играет важную роль в общении. Последние разработки в области электронных технологий представили много новых физических форм общения, но не остановили производство документов в виде письменных текстов. Технология не только объясняет их легкое создание, но также и их безудержное воспроизведение и распространение. Однако важнейшей задачей является эффективное распространение электронных документов. Когда люди сталкиваются с большими базами электронных документов, они хотят найти документы и информацию, соответствующие их потребностям.

В этой главе объясняются некоторые важные концепции и проблемы выбора документов и информации в целом и поиска текста в частности. Это постепенно формирует утверждение о том, что существует определенная потребность в автоматической индексации и абстрагировании с помощью расширенных методов анализа текста, не вызывая сложную и полную обработку текстов на естественном языке. Инструменты для индексации и абстрагирования содержания текстов являются необходимыми компонентами будущих систем поиска и отбора информации. Они дополнят инструменты для анализа данных изображений и распознавания речи при управлении контентом документов.

2. Электронные документы

Понятие «документ» используется как существительное, а также как глагол. Латинское слово «documentum» означает «официальный документ, используемый в качестве улик или доказательства, в некоторых случаях в качестве примера». В своем узком смысле существительный документ все еще имеет эту связь (например, контракт). В ходе истории концептуальный документ использовался в более широком смысле: «любое печатное представление, содержащее текстовые и / или нетекстовые компоненты, такие как фотографии, подписи, диаграммы, таблицы и т. д., Которые создаются с целью обмениваться знаниями (Vervenne, Hamerlinck & Vandamme, 1995). Глагол «документировать» означает проиллюстрировать или показать доказательства. В более широком смысле глагол относится ко всем действиям, связанным с редактированием, печатью и распространением документов. С этой точки зрения документ является важным средством межличностного и социального общения между его создателем и пользователем (Schamber, 1996). Создатель использует содержание документа для описания, организации и синтеза своих идей. Он целенаправленно создает документ таким образом, чтобы его пользователи могли понять его содержание наиболее оптимальным способом. Для эффективного общения документ должен содержать информацию, которая способствует работе пользователя или его интересам.

В нашем современном обществе документы на бумажной и печатной основе постепенно заменяются электронными документами. Электронные документы хранятся на электронных носителях, таких как компакт-диски или распределенные аппаратные диски, доступные через сети (например, Интернет). Электронные документы имеют некоторые важные характеристики (более подробно см. Schamber, 1996):

1. Они легко создаются, манипулируются и неограниченно копируются авторскими системами. Они также легко транспортируются и эффективно хранятся. В результате мы сталкиваемся с огромными объемами электронных документов.

2. Они могут быть замечательными неуловимыми, преходящими и постоянно развивающимися. С другой стороны, они доступны одновременно для многих людей.

3. Они создают новые коммуникативные структуры и открывают перспективы для новых упорядоченных систем кодификации и обозначений (например, языков разметки), которые позволяют представлять новые типы контента (например, видео- и аудиоданные в мультимедийных документах).

3. Общение через текст на естественном языке

Многие современные документы содержат текст на естественном языке. Текст на естественном языке высоко ценится как средство общения. Определение понятий коммуникации и текста проясняет, почему они тесно связаны.

Коммуникация была тщательно изучена, и были предложены различные модели общения. Общение включает отправителя и получателя. В случае общения посредством документа мы говорим о создателе и пользователе. В модели кода (Shannon & Weaver, 1949), которая восходит к Аристотелю (Sperber & Wilson, 1995, p. 2), связь достигается путем кодирования сообщения, которое не может передаваться, в сигнал, который может перемещаться, и путем декодирования сигнала на приемном конце. Такой взгляд предполагает гипотезу взаимного знания. Эта гипотеза гласит, что если получатель должен быть уверен в восстановлении правильной интерпретации, той, которая предназначена отправителю, каждый элемент контекстной информации, используемой при интерпретации сообщения, должен быть взаимно известен отправителю и получателю. Спербер и Уилсон (1995) рассматривают словесное общение или общение на естественном языке как включающие два типа коммуникационных процессов: один основан на кодировании и декодировании, другой — на демонстрации и выводе.

Акустические или графические сигналы используются для передачи семантических представлений. Семантические представления, восстановленные декодированием, полезны только в качестве источника гипотез и свидетельств второго процесса коммуникации, логического вывода. Согласно демонстративно-инференциальной модели, коммуникация достигается с помощью коммуникатора, предоставляющего доказательства его или ее намерений, и аудиторией, определяющей его намерения на основании данных. Коммуникатор демонстрирует свои коммуникативные намерения или цели, демонстрируя публичное толкование своих мыслей. Толкование (Ostension) помогает сосредоточить внимание аудитории на соответствующей информации. Аудитория применяет правила вывода к восстановленным семантическим представлениям мыслей коммуникатора, чтобы сформировать их ментальную интерпретацию. Эта интерпретация доходит до того, что подразумевает значение, которое не подразумевалось коммуникатором.

Взаимное знание, безусловно, участвует в вербальном общении, но общение направлено на расширение и изменение взаимного когнитивного окружения коммуникатора и аудитории и не направлено на дублирование мыслей.

Текст определен Petöfí и Garcia Berrio (1978, цитируется Pinto Molina, 1995) как «группа связанных языковых единиц в общем конгломерате коммуникативного намерения». Де Beaugrande и Dressler (1981, стр. 3 и далее) определяют текст как коммуникативный случай, который соответствует семи стандартам текстуальности.

  • Первый стандарт, связность (cohesion), касается способов, которыми компоненты поверхностного текста, то есть фактические слова (выражения языка), которые мы слышим или видим, взаимно связаны внутри последовательности. Компоненты поверхности зависят друг от друга в соответствии с грамматическими формами и условностями. Сплоченность влияет на связность поверхностных выражений.
  • Второй стандарт, согласованность (coherence), касается способов, которыми компоненты текстового мира, то есть конфигурация понятий и отношений, лежащих в основе поверхностного текста, являются взаимно доступными и актуальными. Согласованность касается глобальной организации и связности основного контента. Согласованность и связность являются тексто-центричными понятиями (см. Главу 2). Остальные стандарты представляют собой ориентированные на пользователя понятия, которые влияют на активность текстовой коммуникации в целом как создателями, так и пользователями.
  • Преднамеренность (Intentionality) касается отношения создателя к тому, что совокупность явлений должна составлять сплочённое и связное средство, способствующее выполнению намерений создателя, например, распространять знания или достигать определенной цели.
  • Приемлемость (Acceptability) относится к позиции пользователя текста о том, что набор вхождений должен представлять собой сплочённый и связный текст, имеющий определенное использование или значимость для пользователя, например, для получения знаний или обеспечения сотрудничества в плане.
  • Информативность (Informativeness) касается степени, в которой вхождения представленного текста ожидаются по сравнению с неожиданными или известными и неизвестными.
  • Ситуативность (Situationality) относится к факторам, которые делают текст релевантным ситуации возникновения.
  • Последний стандарт, интертекстуальность (intertextuality), касается факторов, которые делают использование одного текста зависимым от знания одного или нескольких ранее встреченных текстов. Интертекстуальность отвечает за эволюцию текстовых типов как классов текстов с типичными образцами характеристик.

Пока ясно, что текст делает возможным целый ряд коммуникативных действий. Текст тесно связан с естественным языком (natural language). Его содержание в основном проявляется в выражениях на естественном языке. Естественный язык является наиболее сложной символической системой, которую контролируют люди, и является важным инструментом во многих когнитивных процессах, включая общение, обработку и запоминание информации (Sperber & Wilson, 1995, p. 173). Репрезентативная сила естественного языка не имеет себе равных. Естественный язык обеспечивает экономичный, эффективный и выразительный инструмент для передачи контента (Sparck Jones, 1991). Отдельные слова в тексте и их порядок отображают содержание этого текста. Маловероятно, что естественный язык будет отдан в пользу искусственного языка для выражения содержания текста (Coulmas, 1989, p. 27). Согласно Кулмасу, для группы людей может быть возможно разработать графический код, который не зависит от их естественного языка и который достигает той же сложности и выразительной силы, что и их язык. Тем не менее, весьма маловероятно, что кодирование будет использоваться в человеческом общении.

Текст проявляется как в устной (речи), так и в письменной форме (Figge, 1979). В этой книге мы концентрируемся на письменном тексте.

4. Понимание текста на естественном языке: познавательный процесс

Текст можно рассматривать как сложное познавательное и социальное явление. Психологи изучили познавательный процесс осмысления или понимания текста. Пионерами в этом исследовании являются Kintsch и van Dijk (1978; см. Также van Dijk & Kintsch, 1983). Кинч и ван Дейк предполагают, что при чтении текста его поверхностные особенности (слова и их упорядоченность в тексте) интерпретируются как набор предложений. Предложение — это обычная форма для представления содержания из изречения. Различные семантические отношения между предложениями упорядочивают этот набор. Некоторые из этих отношений явно выражены в поверхностной структуре дискурса; другие выводятся в процессе интерпретации с помощью различных видов специфических для контекста или общих знаний. Из этого набора упорядоченных предложений выводится общий предмет или тема. Обычные схемы производства текстов помогают определить тип информации, которая важна для конкретной задачи понимания. Согласно Кинчу и Ван Дейку (1978) текст имеет ряд структур, которые позволяют нам понимать текст и идентифицировать содержание текста. В главе 2 мы подробно остановимся на этих текстовых структурах.

Со времени публикации пресловутой статьи Кинча и Ван Дейка (1978) многочисленные когнитивные исследования подтвердили, что когнитивный процесс понимания охватывает множество источников знаний и поддерживает множественные выводы. В этих исследованиях также подчеркивается, что понимание текста также включает в себя придание ему личного значения или толкования, которое не включено исключительно в сам текст. Модель Грейссера и Кларка (1985, с. 14 и далее) связывает четыре источника знаний с пониманием текста:

  1. Первый источник — это явный лингвистический материал, включая слова, синтаксические конструкции и лингвистические сигнальные устройства, которые явно выражены в тексте. Он также включает в себя лингвистические знания, которые понимает об этих уровнях анализа языка.
  2. Второй источник состоит из мировых структур знаний, которые хранятся в долговременной памяти понимающего. Эти структуры знаний включают в себя как общие структуры знаний, так и конкретные структуры знаний. Понимание страдает, когда знание понимания слов и тем текста неадекватно.
  3. Третий источник состоит из целей автора, который читает текст. Значение текста меняется, когда к тексту обращаются для разных целей.
  4. Четвертый источник состоит из прагматического контекста общения. Это включает в себя социальные отношения между читателем и писателем, общие знания между участниками коммуникативного мероприятия, а также социальные отношения и идеологии.

Многие выводы генерируются во время понимания текста, если база знаний понимающего очень богата, а стратегии рассуждения варьируются от области знаний к области знаний (Schank, 1982; Graesser & Clark, 1985, p. 15 и далее). Выводы зависят от знаний, которые можно найти в тексте (например, значения других, в основном предыдущих предложений), общей системы знаний пользователя и от цели чтения текста (Black, 1981; Shiro, 1994). Понимание текста включает в себя огромное количество контекстной информации. Психологические усилия еще не сошлись в четкой картине того, какие выводы генерируются и сколько выводов генерируется. Необходимы дополнительные исследования, чтобы описать, какие стратегии рассуждения используются в различных областях знаний.

Текущее исследование подчеркивает необходимость моделей понимания текста, которые включают субъективную модель читателя (van Dijk, 1995). Поскольку понимание текста является личным, специальным и уникальным и будет определять одну конкретную интерпретацию конкретного текста в определенный момент, модель понимания текста будет включать личные ассоциации, выводы и контекст.

5. Понимание текста на естественном языке: автоматизированный процесс

Сложность когнитивного процесса понимания текста на естественном языке делает автоматизацию этого процесса очень сложной задачей. Автоматическое понимание текстов относится к области исследований обработки естественного языка. Обработка естественного языка (Natural language processing), нацеленная на полностью понятую интерпретацию текстов, касается обработки лингвистического кодирования (словарный запас, синтаксис и семантика свойств языка и дискурса), знания предметного мира, общих знаний между создателем и пользователем текста и полного контекста понимания в определенный момент времени, включая идеологию, нормы, предпосылки пользователя и цели использования текста. Обработка не только раскроет содержание текста, но и прояснит значение текста для его пользователя.

Такое полное понимание текстов, включая их интерпретацию, далеко не реализовано автоматическими средствами. Проблемы автоматического понимания текста касаются как моделирования знаний и задействованного механизма вывода, так и вычислительной сложности операций. Помимо огромной задачи получения необходимых знаний и умозаключений (acquiring the knowledge and inferences) — многие соответствующие структуры и стратегии до сих пор неизвестны (van Dijk, 1995) — существует амбициозная задача по созданию работоспособных моделей. Особенно трудно моделировать знания о целях, убеждениях, ценностях и эмоциональных состояниях пользователя информации в тексте и всего прагматического контекста общения. Более того, модель должна уметь приспосабливаться к изменениям личной ситуации пользователя текста. Помимо проблемы исчерпывающего и правильного моделирования процессов знаний и умозаключений, исследователи беспокоятся о вычислительной сложности (computational complexity) и потенциальных проблемах, возникающих при взаимодействии различных структур знаний (Jacobs & Rau, 1993).

Таким образом, сложная выразительная и коммуникативная сила текстов на естественном языке делает их в настоящее время еще не полностью понятными для машины. Исследования по автоматическому пониманию языка были сосредоточены на ограниченном лингвистическом вводе и интерпретации текстов на основе задач.

Термин «подъязык — sublanguage» используется, когда тексты имеют дело с ограниченной предметной областью и обрабатываются для конкретных целей. Этот термин еще более уместен, когда сообщество создателей текста и пользователей, делящихся специализированными знаниями, использует подъязык. Такой подъязык более ограничен в своих лингвистических свойствах (словарный запас, синтаксис, семантика и организация дискурса) (Kittredge & Lehrberger, 1982; Grishman & Kittredge, 1986). Типичными подъязыковыми текстами могут быть сводки погоды и медицинские выписки пациентов. Тем не менее, лингвистические выражения из стандартного языка или из соседних доменов могут войти в подъязык без прохождения процесса создания соглашений. Желание автоматически манипулировать таким подъязыком неизбежно приводит к предписанию дополнительных ограничений на использование языка помимо тех, которые присущи подъязыку. В далеко идущей форме такой контролируемый язык может развиться в направлении полного «искусственного языка», в котором не хватает выразительной и коммуникативной силы естественного языка.

Второй подход, связанный с вышеизложенным, касается интерпретации текстов, ориентированных на задачи (task driven interpretation) (Jacobs & Rau, 1993). Когда текст используется с четкими целями, общими для его пользователей, его обработка фокусируется на выявлении в нем конкретной информации, игнорируя при этом его полное понимание. Основная информация обычно имеет значение для класса пользователей. Такой подход обязательно уменьшает сложность процесса понимания текста.

Индексирование и абстрагирование — это старые методы организации контента на естественном языке. Эти процессы создают краткое описание или характеристику исходного текста, который называется текстовым представлением.

Индексирование (Indexing) обычно извлекает или присваивает тексту набор отдельных слов или фраз, которые функционируют как индексные термины текста.

Абстрагирование (Abstracting) обычно создает короткий связный текст или профиль, который структурирует определенную информацию исходного текста.

Простые автоматические методы нацелены на выявление тематических терминов на основе частоты появления отдельных слов в текстовых и справочных корпусах. В случае абстрагирования извлекаются предложения, содержащие важные тематические термины. Эта поверхностная форма понимания текста широко используется для характеристики содержания текста документа в текущих инструментах поиска и выбора информации (см. Ниже).

6. Важные понятия в поиске и отборе информации

Тексты документов являются важным средством общения. Современные инструменты обработки текста допускают их неограниченное создание и воспроизведение. В результате большие и постоянно развивающиеся коллекции текстов находятся в нашем распоряжении. Средства поиска и выбора информации помогают находить документы или информацию, которые имеют отношение к конкретной потребности. Эти инструменты в основном относятся к информационно-поисковым системам, системам ответа на вопросы и системам просмотра (рис. 1). Типичная информационная система (information system) состоит из базы данных документов, поисковой системы, которая идентифицирует документы или информацию, релевантную для информационной потребности, и интерфейса, который позволяет выражать информационную потребность (запрос-query или вопрос-question), просматривать результаты поиска или просматривать коллекцию.

Поиск документа или информации (Document or information retrieval) связан с выбором документов, которые пользователь хочет прочитать, чтобы узнать что-то о нем. Несмотря на растущий интерес к поиску звука и изображений, термин «поиск текстаtext retrieval», относящийся к процессу извлечения текстовых документов, часто рассматривается как синоним поиска документов (Lewis & Sparck Jones, 1996). Основной процесс поиска информации (process of information retrieval) может быть описан следующим образом: представление информационной проблемы или потребности пользователя, представление содержания документов и сравнение этих представлений для определения того, какие документы лучше всего соответствуют информационной потребности и должны быть извлечены. Как мы объясним далее в главе 3, соответствие определяется путем сопоставления или вывода. Часто документы и запросы на естественном языке представляются в абстрактной форме, облегчая сопоставление между документом и потребностью в информации. Системы фильтрации документов (Document filtering) и маршрутизации документов (routing systems) работают таким же образом, но, как правило, потребность в информации является более стабильной и долгосрочной.

Системы ответов на вопросы (Question-answering systems), которые мы также называем системами извлечения (text extraction) текста, включают извлечение информации и знаний из текстов документов (Lewis & Sparck Jones, 1996). Система извлечения текста обычно анализирует объемы неструктурированного текста, выбирает определенные элементы из текста и потенциально сохраняет такие функции в структурированной форме (Jacobs, 1992, p. 2). Таким образом, коллекция суррогатов или представлений структурированных документов может заменить коллекцию документов. Извлеченная информация и знания формируют ответы на конкретные вопросы, заданные к текстам документа. Как мы объясним далее в главе 3, соответствие определяется путем сопоставления или вывода.

 

В просмотровых или навигационных системах (browsing or navigation systems) нет необходимости в информации. Системы просмотра обычно являются частью гипертекста и гипермедиа систем. Гипертекстовые и гипермедиа системы (Hypertext and hypermedia systems)(Conklin, 1987; Nielsen, 1995) хранят и управляют коллекциями документов, которые соответственно содержат текстовые элементы и многие другие различные оцифрованные формы мультимедиа. Обычно документ разбивается на части или фрагменты. Все фрагменты хранятся и управляются в сети узлов, где каждый узел сети содержит фрагмент, а связанные узлы связаны через соединения, называемые информационными связями (information links). Документы и их части взаимосвязаны таким образом. Каждая последовательность соединений образует отдельный путь для просмотра (навигации по) документа или коллекции документов. Таким образом, коллекция может быть исследована непоследовательным способом (например, переход от одного текста к другому). Пользователь выбирает документы, просматривая их полные тексты или просматривая их рефераты (Croft, 1993).

Когда текущие инструменты поиска и выбора информации работают с содержимым текстов документов, они недостаточно эффективны для идентификации документов или информации, которая важна для их пользователей. Далее мы объясним концепции актуальности, актуальности и потребности в информации. Эти понятия фундаментально связаны и нуждаются в объяснении, чтобы полностью объяснить проблему поиска информации. Мы используем здесь термин «поиск информации — information retrieval» в качестве общего термина для информации и выбора документов.

Когда текущие инструменты поиска и выбора информации работают с содержимым текстов документов, они недостаточно эффективны для идентификации документов или информации, которая важна для их пользователей. Далее мы объясним концепции толкования (aboutness), релевантности (relevance) и потребности в информации (information need). Эти понятия фундаментально связаны и нуждаются в объяснении, чтобы полностью объяснить проблему поиска информации. Мы используем здесь термин «поиск информации» в качестве общего термина для информации и выбора документов.

6.1 Толкование и смысл

Толкование (aboutness) или актуальность (topicality) текста относится к предметам или темам, обсуждаемым в тексте (Schank, 1982; Beghtol, 1986). Текст имеет относительно постоянное толкование, и оно обычно согласовывается между различными участниками процесса коммуникации (создатель (и) и пользователь (ы) текста). Толкование текста не всегда явно указывается поверхностными особенностями текста, возможно, он включает в себя знания, которыми делятся создатель (и) и пользователь (ы) текста. Приведенная выше модель понимания текста Кинча и Ван Дейка (1978) особенно направлена на понимание смысла текста.

Как уже объяснялось, на понимание текста влияют многие когнитивные факторы, среди которых интерес, задача, цель, знания, нормы, мнения или установки. Эти факторы определяют смысл (meaning), который текст передаёт для своего пользователя. Другой термин, иногда используемый для обозначения значения текста, — это интерпретация (interpretation). Интерпретация текста в целом состоит из чтения текста не «нейтральным» способом с целью единственного понимания, но относится к чтению текста с учетом всей исходной ситуации читателя или пользователя (Bánréti, 1981). Большое количество текстового значения создается с помощью умозаключений, которые делаются в результате взаимодействия читателя и текста (Shiro, 1994). Значение может, но не обязательно, относиться к информативности (informativeness) (Boyce, 1982). Информативность — это качество добавления новой информации к информации, которой уже обладает текстовый пользователь. Информативность и смысл меняются со временем.

Текст имеет внутренний предмет, толкование, но имеет различное количество смыслов в соответствии с конкретным использованием, которое человек может использовать в отношении информации в данный момент времени.

 

 

Рисунок 2. Взаимосвязь между актуальной релевантностью, мотивационной релевантностью и интерпретационной релевантностью (см. Saracevic, 1975).

 

Признание относительно постоянного качества информации в документах является одним из предположений, на которых традиционно основывались системы библиографической классификации. Толкование — это то, что человеческий классификатор определяет во время анализа толкования документа, а значение — это причина, по которой пользователь хочет получить его. Конечно, существует тесная связь между краткостью документа и его потенциальным значением для отдельных лиц (Beghtol, 1986). Цель поисковых систем состоит в том, чтобы извлекать документы, информация о которых позволяет предположить, что пользователь может найти в них смысл (ы), подходящий для определенной потребности момента. Интересно привести различие, проведенное Мароном (1977) между объективным толкованием (то, что мы называем здесь толкованием), субъективным толкованием (смыслом) и поисковым толкованием, причем последнее относится к значению текста для класса людей.

6.2 Релевантность

Релевантность (Relevance) — это мера эффективности контакта между отправителем и получателем в процессе коммуникации. Релевантность также касается эффективности коммуникации в поиске информации и играет решающую роль в оценке полученной информации. Релевантность в поиске информации многогранна. Критерии релевантности в целом относятся к информационному содержанию документов, интерпретации пользователем информационного содержания и мотивации пользователя при доступе к документам.

Релевантность — это отношение документа к потребностям пользователя, которые он (документ) помогает решить. Выдающимися среди аспектов релевантности являются актуальность или толкование (Schutz, 1970, p. 26 и далее; Saracevic, 1975). Актуальность касается информационного содержания документа и касается темы или объекта, рассматриваемых в документе. Основная тема текста — неограниченное поле для дальнейшей тематизации. Эта субтематизация включает в себя расширение или углубление преобладающей темы или переход от одной подтемы к другой, когда между ними нет иерархической связи. Документ может содержать ряд подтем, которые так или иначе актуальны для пользователя. Актуальность не является единственным фактором релевантности, связанным с контентом, существуют другие факторы, которые так или иначе связаны с контентом, такие как глубина и объем информации, точность информации и ситуационные факторы репутации источника и свежесть информации (Барри, 1994).

Помимо тематической релевантности, Schutz (1970, с. 35 и далее) и Saracevic (1975) ссылаются на релевантность интерпретации и мотивационную релевантность (рис. 2). Релевантность интерпретации включает интерпретацию пользователем документа на основе его собственного предшествующего опыта, восприятия или убеждений. Релевантность интерпретации включает в себя новизну и понятность информации для пользователя. Мотивационная релевантность включает в себя цель поиска и предполагаемое использование информации.

Тематическая, интерпретационная и мотивационная релевантности взаимосвязаны. Интерпретационная и мотивационная релевантность включают в себя значение документа для пользователя и динамически взаимодействуют в процессе оценки релевантности. Тематичность относится к содержательности документа и играет значительную роль в определении значения документа (Boyce, 1982; Beghtol, 1986).

Учитывая эти критерии релевантности, практически невозможно при почти всех обстоятельствах точно и полностью идентифицировать подмножество информации или документов, относящихся к данному пользователю в контексте конкретной потребности. Во-первых, релевантность является субъективной концепцией, зависящей от индивидуального пользователя (Schutz, 1970, p. 35 и далее; Saracevic, 1975; Schamber, Eisenberg, & Nilan, 1990; Barry 1994). Тем не менее, очень трудно контролировать ум человека в данный момент (см. Sperber & Wilson, 1995, p. 118 и далее). Во-вторых, релевантность меняется со временем в зависимости от уровня знаний и убеждений пользователя (Schamber et al., 1990; Barry, 1994). В этом сильном смысле оценка релевантности подразумевает измерение значения документа для отдельного пользователя в данный момент времени. Таким образом, это сильное чувство релевантности еще не может быть полностью включено в проектирование и оценку информационно-поисковых систем. Более того, существует далеко идущая проблема синтеза знаний (Green, 1995). В связи с текущим информационным взрывом усиливается тенденция к специализации и фрагментации знаний. Таким образом, не исключено, что два документа, каждый из которых отдельно, не имеют отношения к потребностям пользователя, но из их совместного использования может быть получено решение для удовлетворения потребностей пользователя.

Следовательно, мы используем несколько более слабых понятий релевантности, основанных на наборе операционных предположений, лежащих в основе теории поиска. Целью идеальной системы документов является, как минимум, определение документа (ов), которые потенциально могут помочь пользователю в отношении его или ее потребностей (Green, 1995). С этой точки зрения релевантность — это свойство документа быть потенциально полезным для пользователя при решении проблемы. Тематичная релевантность является необходимым, но не достаточным условием релевантности (Froelich, 1994). Тематичная релевантность обычно выступает в качестве первого фильтра при выборе документов (Boyce, 1982). Это самый простой фактор релевантности для работы в текстовых системах, и он является основным фактором при ранжировании документов в соответствии с их релевантностью запросу в современных информационно-поисковых системах.

Релевантность сложно вычислить в точных цифрах. Релевантность оценивается людьми в абстрактных относительных терминах (например, «слабо релевантные», «очень релевантные», «совершенно неактуальные»), но не в терминах количественных абсолютных суждений и особенно не в бинарных решениях «да-нет» (Saracevic, 1995) , Однако производительность информационно-поисковых систем обычно измеряется с помощью метрик эффективности, то есть отзыва и точности, которые основаны на бинарном суждении о релевантности документов. Напомним, измеряет долю соответствующих документов, извлеченных и точную долю извлеченных документов, которые имеют отношение (Salton, 1989, стр. 248).

6.3 Потребность в информации

В современных системах поиска информации потребность в информации обычно выражается ключевыми терминами или логической комбинацией ключевых терминов. Или запрос выражается в виде естественного языка, который автоматически индексируется для предоставления необходимых ключевых терминов для сопоставления документов. Это, однако, плохое представление реальной потребности в информации. Ситуация с информационной потребностью охватывает все факторы, которые пользователь привносит в ситуацию: предыдущие знания, осведомленность о доступной информации, аффективные и эмоциональные факторы, ожидаемое использование информации и другие личные и ситуативные факторы. Даже когда потребность более или менее адекватно выражена на естественном языке, ее представление обычно сводится к некоторым ключевым терминам, которые недостаточно отражают реальную потребность.

Более того, ситуация с информационными потребностями динамична и постоянно меняется (Барри, 1994). Иногда пользователь базы данных документов не имеет четко определенной потребности. Он или она хочет просмотреть базу данных. Или, что еще более важно, документ становится очень важным только после его полного прочтения (Allen, 1990).

Очень трудно правильно и адекватно осмыслить и представить реальную информационную потребность человека в данный момент времени. Тем не менее, учитывая большое количество документов в существующих документах, выбор информации необходим. Пользователь не хочет читать текст заполнения каждого документа в коллекции, чтобы удовлетворить свои потребности в информации.

6.4 Информационная (поисковая) проблема

Ядром поиска информации является проблема оценки ценности содержимого данного документа для данной потребности в информации. Понятно, что простой подход — сначала понять содержание документа, а затем сопоставить его с точной моделью интереса пользователя, чреват серьезными проблемами. Самая важная проблема — это понимание естественного языка текстов документов и предпочтений пользователя.

Процесс поиска информации состоит из нескольких вероятностных операций (см. Blair, 1990, p. 319). Во-первых, представление потребности в информации часто является приближением к реальной потребности пользователя или группы пользователей. Во-вторых, понимание текста документа на естественном языке является плохим и часто приводит к неполной или неправильной характеристике текста и его содержательности. Наконец, соответствие между запросом и документом является вероятностной операцией. Документы обычно ранжируются в соответствии с их вероятностью соответствия запросу. Сопоставление обычно ограничивается сопоставлением терминов между запросом и документом, при этом вероятность релевантности пропорциональна количеству сопоставленных терминов (см. Green & Bean, 1995). В результате, вероятно, что вся операция извлечения информации не дает всех документов, относящихся к запросу, и / или предоставляет документы, которые не относятся или только незначительно относятся к запросу.

Вышеуказанная проблема касается классической информационно-поисковой системы. Однако информационная проблема также присутствует в системах просмотра и в системах ответов на вопросы. В системах просмотра пользователь не делает свою информацию необходимой явной. Однако системы демонстрируют определенную потребность в адекватных сокращенных дескрипторах содержания своих документов (например, в форме тематических карт, рефератов и предлагаемых ссылок), которыми пользователь должен руководствоваться при выборе документов. Тогда информационная проблема касается неадекватного выбора документов из-за неверной или неполной характеристики текстов и их содержательности. В вопросно-ответных системах потребность в информации четко указана (вопрос для конкретной информации). Здесь опять информационная проблема касается часто неправильной характеристики содержания документа.

7. Общие решения проблемы поиска информации

В этом разделе мы объясняем ряд основных стратегий, которые были реализованы и все еще разрабатываются для устранения вышеуказанной проблемы поиска информации.

7.1 Полнотекстовый поиск и исправление

Основная концепция полнотекстового поиска и восстановления заключается в хранении полнотекстового текста всех документов в коллекции, так что каждое слово в тексте доступно для поиска и может функционировать в качестве ключей для поиска. Затем, когда человек хочет получить информацию из хранимой коллекции, компьютер получает указание выполнить поиск всех документов, содержащих определенные пользователем слова или словосочетания. Этот подход отличается от поисковых коллекций, которые имеют фиксированные дескрипторы, прикрепленные к текстам документа.

Первоначальная идея (Swanson, 1960) была положительно проверена Солтоном (1970), и с тех пор реализация полнотекстового поиска получила все больший успех. Сегодня полнотекстовый сегмент все еще является растущим сегментом рынка коммерческих компьютеризированных баз данных (Sievert, 1996).

Полнотекстовый поиск привлекателен по многим причинам и имеет определенные преимущества.

  1. Полнотекстовый поиск привлекателен с коммерческой точки зрения (Blair & Maron, 1985). Цифровая технология обеспечивает дешевое хранение полнотекстового контента и обеспечивает быструю вычислительную технологию, которая делает поиск полнотекстового текста эффективным. Также очень удобно искать разные типы текста в больших коллекциях документов, просто выполняя поиск по отдельным словам. Кроме того, поскольку он использует простую форму автоматической индексации, он устраняет необходимость в людских индексаторах, работа которых становится все более дорогостоящей, а работа часто оказывается непоследовательной и менее полноэффективной.
  2. Полнотекстовый поиск — это первая попытка перенести индексирование с преимущественно априорного процесса на процесс, определяемый конкретными информационными потребностями и другими ситуационными факторами (Tenopir, 1985; Salton, 1986). Фиксированные текстовые дескрипторы сильно затрудняют доступность текстов. Иногда документы не могут быть извлечены, полагаясь на назначенные дескрипторы, потому что их информационная ценность для пользователей является второстепенной по отношению к их основной цели. Индексация понятий и терминов в полнотекстовом поиске зависит от ситуации и будет выполняться в соответствии с требованиями каждого входящего запроса.
  3. Неопытные пользователи обнаружили, что поиск с использованием полнотекстовых терминов на естественном языке проще, чем поиск с использованием фиксированных текстовых дескрипторов (Tenopir, 1985).

Тем не менее, полнотекстовый поиск не является магической формулой и страдает недостатками.

  1. В то время как отзыв обычно улучшается по сравнению с использованием фиксированных текстовых дескрипторов (Tenopir, 1985; McKinin, Sievert, Johnson, & Mitchell, 199 1), при поиске больших коллекций документов точность может пострадать недопустимо, и пользователи могут быть завалены ненужными материал (Blair & Maron, 1985; Blair & Maron, 1990). Появление слова или словосочетания не является гарантией актуальности. По мере роста базы данных эта проблема «слишком большого количества обращений» будет только усугубляться. В настоящее время это касается полнотекстового поиска в Интернете.
  2. Также отзыв может пострадать. Опрос Croft, Krovetz и Turtle (1990) показывает, что пользователи часто запрашивают документы в терминах, с которыми они знакомы, и эти термины часто не являются терминами, используемыми в самом документе. Этот недостаток еще более заметен, когда используются комбинации поисковых терминов, которые должны встречаться в документах вместе (Blair & Maron, 1985). Если вхождения этих терминов в соответствующем документе являются независимыми событиями, вероятность поиска документов, которые содержат точную комбинацию терминов, уменьшается с увеличением количества поисковых терминов в комбинации.

В последние годы исследования по полнотекстовому поиску значительно расширились из-за ежегодных конференций TREC (Text REtrieval Conference), спонсируемых NIST (Национальный институт стандартов и технологий, США). Конференции TREC отражают необходимость более совершенной автоматической индексации содержания текстов в качестве ответа на недостатки текущего полнотекстового поиска (см. Harman, 1993, 1994, 1995, 1996; Voorhees & Harman, 1997, 1998, 1999 ).

7.2 Релевантность Обратной связи

Важной и трудной операцией в поиске информации является создание полезных операторов запросов, которые могут извлечь все необходимые документы, требуемые пользователями, и отклонить оставшуюся часть. Поскольку идеальное представление запроса не может быть сгенерировано, не зная много о составе коллекции документов, обычно проводят итеративный поиск, сначала работая с предварительной формулировкой запроса, а затем улучшая формулировки для последующих поисков, основываясь на оценках ранее восстановленные материалы. Одним из способов автоматической генерации улучшенных формулировок запросов является хорошо известный процесс обратной связи по релевантности.

Методы, использующие релевантную информацию, изучались десятилетиями и все еще исследуются. Роккио (1971) был первым, кто экспериментировал с модификацией запросов и дал положительные результаты. Иде (1971) расширил работу Роккио. Солтон и Бакли (1990) сравнили эту работу в разных коллекциях тестов. Обратная связь по релевантности широко изучается на конференциях по поиску текста (TREC).

Основное предположение обратной связи по релевантности заключается в том, что документы, относящиеся к определенному запросу, похожи друг на друга. Это подразумевает, что, когда извлеченный документ идентифицирован как релевантный для данного запроса, формулировка запроса может быть улучшена путем повышения его сходства с таким ранее извлеченным релевантным элементом. Ожидается, что в переформулированном запросе будут получены дополнительные релевантные элементы, которые похожи на первоначально идентифицированный релевантный элемент. Аналогично, переформулируя запрос, можно уменьшить его сходство с найденными не относящимися к делу документами.

Таким образом, лучший запрос получается путем оценки найденных документов как релевантных или не относящихся к делу. Исходный запрос может быть изменен двумя существенными способами (Salton, 1989, p. 307). Во-первых, к исходной формулировке запроса добавляются термины индекса, присутствующие в ранее извлеченных документах, которые были идентифицированы как относящиеся к запросу пользователя. Во-вторых, использование характеристик вхождения терминов в ранее извлеченных релевантных и нерелевантных документах коллекции позволяет изменить вес исходных терминов запроса. Вес или важность условий запроса, встречающихся в соответствующих документах, повышается. Аналогично, термины, включенные в ранее извлеченные не относящиеся к делу документы, можно преуменьшить. Оба подхода дали улучшенные результаты поиска (Salton & Buckley, 1990; Harman, 1992b). Эксперименты показывают, что выполнение нескольких итераций обратной связи до тех пор, пока пользователь не будет полностью удовлетворен результатами, является крайне желательным.

Обратная связь по релевантности используется как для специального интерактивного поиска информации, так и для фильтрации документов на основе долгосрочных информационных потребностей.

Хотя обратная связь по релевантности считается эффективной для повышения эффективности поиска, все еще существуют некоторые препятствия. Нужно выбрать, какие термины добавить в формулировку запроса (Harman, 1992b) и вес каких терминов в формулировке запроса изменить (Buckley & Salton, 1995). Кроме того, текущие текстовые коллекции часто содержат большие документы, которые охватывают несколько предметных областей. Было показано, что обрезка больших документов путем выбора хорошего отрывка при выборе терминов индекса оказывает положительное влияние на эффективность обратной связи (Аллан, 1995).

7.3 Информационные агенты

Существует много определений понятия «агент» (мы ссылаемся здесь на Брэдшоу, 1997, с. 3 и далее,). Грубое определение заключается в том, что агент — это программное обеспечение, которое благодаря встроенным знаниям и / или приобретенному опыту может выполнять задачу непрерывно и с высокой степенью автономии в конкретной среде, часто населенной другими агентами и процессами (см. Shoham, 1997) , Возникает интерес к привлечению информационных агентов (Croft, 1987; Standera, 1987, p. 217 и далее; Maes, 1994; Koller & Shoham, 1996). Информационный агент предоставляет пользователю соответствующую информацию, которая, например, извлекается из коллекции документов.

Основная цель использования информационного агента в выборе и поиске информации состоит в том, чтобы определить реальную потребность пользователя и помочь удовлетворить эту потребность. Однако растет интерес к агентам, которые идентифицируют или изучают соответствующие атрибуты содержимого текстов.

  1. Типичной задачей в информационно-поисковой среде является фильтрация информации в соответствии с профилем пользователя или класса пользователей (Аллен, 1990). Такой профиль называется моделью пользователя. Агент знает интересы, цели, привычки, предпочтения и / или опыт пользователя или постепенно становится более эффективным по мере изучения этого профиля (Maes, 1994; Koller & Shoham, 1996). Знания в профиле приобретаются интеллектуально (от пользователя и экспертов), внедряются и поддерживаются инженерами по знаниям. Или знания приобретаются самим агентом на основе хороших положительных (и отрицательных) примеров обучения. Изучение профиля пользователя имеет множество преимуществ, в том числе позволяет избежать дорогостоящей реализации и обслуживания, а также легко адаптируется к изменяющимся предпочтениям. Изучение предпочтений пользователей тесно связано с техникой обратной связи по релевантности. Опять же, такой подход предполагает актуальность документов, которые аналогичны ранее найденным документам, признанным релевантными.
  2. Информационные агенты также выполняют другие функции, которые поддерживают операцию поиска. Они могут предоставлять услуги тезауруса, такие как предоставление синонимов для условий запроса или предоставление более широких или более узких терминов для условий запроса (Wellman, Durfee, & Birmingham, 1996; см. Главу 5). Агент также может выбрать лучшую поисковую систему, основываясь на знании методов поиска.
  3. Исследования информационных агентов особенно сосредоточены на характеристике и уточнении информационных потребностей. Не менее важно автоматически определять или изучать соответствующие атрибуты содержания текстов (Maes, 1994). Если мы получим детальный и понятный запрос пользователя, то для точного сравнения информационных потребностей и документа потребуется почти аналогичная детальная характеристика содержания документа.
7.4 Проектирование документов

Технологический переход к мультимедийным средам влияет на кодирование и структуру электронных документов. Электронные документы становятся более сложными, они наделены атрибутами, которые формируют описание документа. Также лингвистическое текстовое сообщение на электронном носителе структурировано и отличается от печатного и бумажного носителя (McArthur, 1987). Тексты имеют стилистические атрибуты (например, используемый стиль и шрифты), экстенсиональные атрибуты (например, имя автора, дата создания), которые также называются объективными идентификаторами, и атрибуты содержимого (например, ключевые термины, ссылки), которые называются необъективные идентификаторы (ср. Солтон, 1989, стр. 276). Эти атрибуты узнаваемы по разметке в документе. Различные стандарты описания документов позволяют использовать документы и их атрибуты независимо от аппаратного и прикладного программного обеспечения. Примерами таких стандартов являются SGML (стандартный обобщенный язык разметки) и HTML (язык разметки гипертекста). Использование таких наценок значительно повышает доступность информации, содержащейся в документах и ​​прилагаемой к ним.

Несмотря на привлекательность и обещание такого подхода, необходимо помнить о его пределах, среди которых сложность и стоимость назначения надбавок. Создание текущих и будущих электронных документов иногда сравнивают с созданием программного обеспечения (Walker, 1989). Следовательно, термин документная инженерия используется. Создание электронных документов — сложная задача. По сравнению с областью разработки программного обеспечения существует явная потребность в модульности, абстракции и согласованности. Объективные идентификаторы, такие как имена авторов, имена издателей и дата публикации, в целом не вызывают споров о том, как их назначать. Когда разметки относятся к атрибутам контента (например, ключевым терминам и гипертекстовым ссылкам), необходимо помнить о дорогостоящем, а иногда и субъективном и непоследовательном присвоении этих атрибутов. Интеллектуальное назначение разметки контента рассматривается как форма ручной индексации (Croft et al., 1990). Многочисленные исследования показывают, что ручная индексация противоречива и субъективна (Beghtol, 1986; Collantes, 1995).

«Согласованность между индексами» оказывает прямое положительное влияние на эффективность поиска (статья Леонарда, цитируемая в Ellis, Furner, & Willett, 1996). Тем не менее, у нас не так много исследований о «согласованности связующих». Исследование Ellis, Furner-Hines и Willett (1 994) показывает небольшое сходство между наборами ссылок, вставленными разными людьми в набор полнотекстовых документов. Этим авторам не удалось доказать положительную связь между согласованностью междоменных связей и навигационной эффективностью в гипертекстовых системах (Ellis et al., 1996). Эта проблема может быть устранена, когда автор текста выступает в роли инженера по документам и отвечает за назначение атрибутов содержимого и ссылок. Таким образом, автор текста определяет возможные варианты использования текста и навигацию между текстами (ср. Барретт, 1989; Франц, Шапиро, Войскунский, 1997, стр. 137). Более того, разработка документов не всегда экономически эффективна, особенно когда речь идет о разнородных материалах, таких как текстовое содержимое. Из-за лучшей доступности информации с помощью разметки документов время поиска информации увеличивается. Однако для точного назначения наценок требуется дополнительное время.

Следовательно, разработчик документов мог бы использовать некоторую дополнительную автоматическую поддержку для назначения атрибутов содержимого текстам во время создания документа (Alschuler, 1989; Wright & Lickorish, 1989; Brown, Foote, Jones, Sparck Jones, & Young, 1995). Особенно это может быть полезно для больших коллекций активных документов, таких как новостные тексты, предназначенные для разнородной аудитории (Аллен, 1990).

8. Потребность в улучшенных методах автоматической индексации и абстрагирования

Письменный, а также устный текст является очень важным средством передачи человеческих мыслей и знаний. В нашем нынешнем информационном обществе мы перегружены электронными текстовыми документами. Коллекции документов постоянно растут, а их содержание постоянно развивается. Системы поиска и отбора информации приобретают все большее значение. Они должны помочь нам найти документы или информацию, соответствующую нашим потребностям.

Письменный текст рассматривается как сложное когнитивное явление. Когнитивный процесс создания и понимания текста на естественном языке сложен и еще не полностью понят. Тем не менее, очевидно, что помимо кодирования и декодирования языковых знаков, он включает в себя дополнительные когнитивные процессы. Общение через текст на естественном языке в основном является демонстративным и выводным. Создатель демонстративно сигнализирует о своих коммуникативных целях. Дифференциальный характер понимания естественного языка является одним из факторов, который делает автоматизированное понимание текста трудной операцией. Выводы относятся к знаниям, которыми обмениваются создатель и пользователь текста, и которые не указаны в тексте явным образом. Выводы также относятся к индивидуальному когнитивному состоянию пользователя и позволяют определить значение текста для отдельного пользователя.

Рисунок 3. Важность текстовых представлений (r1. .Rn) для поиска и выбора информации.
Рисунок 3. Важность текстовых представлений (r1. .Rn) для поиска и выбора информации.

Для пользователя коллекции документов важно найти документы или информацию, которые соответствуют его потребностям. Даже если пользователь не нуждается в четко определенной информации и хочет просмотреть коллекцию документов, он или она хочет руководствоваться при выборе документов. Системы поиска и фильтрации информации, системы ответов на вопросы и системы просмотра, которые работают с текстовыми документами, основаны на характеристиках их содержания (рисунок 3). Эти текстовые представления являются результатом индексации и абстрагирования текстов. Текстовые представления сопоставляются с представлениями информации, необходимой или направляют пользователя при выборе соответствующих документов или информации. Качество полученной и отобранной информации приобретает все большее значение (Convey, 1992, p. 105). Пользователи все еще расширяющихся электронных баз данных и библиотек хотят получить все соответствующие документы или информацию, но не хотят, чтобы их завалили документами, которые не имеют отношения к делу или имеют лишь незначительное отношение к их потребностям. Пользователи систем просмотра хотят эффективно ориентироваться на интересные документы, не погружаясь в возможные варианты. В настоящее время это далеко не реализовано для текстовых баз данных. Существует реальная информационная (поисковая) проблема. Проблема вызвана неправильным и неполным представлением информационных потребностей и содержания текстов документов, а также вероятностным соответствием между ними.

Индексирование обычно извлекает или присваивает тексту набор отдельных слов или фраз, которые функционируют как ключевые термины. Слова или фразы текста обычно называют индексными терминами естественного языка. Когда назначенные слова или фразы приходят из фиксированного словаря, они называются индексными терминами контролируемого языка. Термины индекса, помимо отражения содержимого, могут использоваться в качестве точек доступа или идентификаторов текста в коллекции документов. Эта форма представления текста используется в системах поиска и фильтрации информации (рисунок 3). Абстрагирование приводит к уменьшенному представлению содержания текста. Резюме обычно имеет форму непрерывного, связного текста или профиля, который структурирует определенную информацию текста. Тезисы используются главным образом в системах ответов на вопросы и в системах просмотра (рисунок 3). Индексирование и абстрагирование содержания текстов являются традиционно ручными задачами. В растущих коллекциях документов задача человеческого индексирования и абстрагирования неосуществима с точки зрения эффективности и стоимости. Более того, ручной процесс не всегда выполняется последовательно. Тем не менее, текущие текстовые представления, которые генерируются автоматически, не точно и полностью представляют содержание текстов. Более совершенные методы автоматической индексации и абстрагирования, безусловно, способствуют решению проблемы поиска информации.

Другие решения проблемы поиска информации были предложены с некоторым успехом. Мы видели, что полнотекстовый поиск, обратная связь по релевантности, информационные агенты и проектирование документов — все это способствует более эффективным системам поиска и отбора информации. Мы также продемонстрировали, что каждый из этих ответов выигрывает от более точной характеристики содержания текстов.

Полнотекстовый поиск — это самая простая форма автоматической индексации. Обычно предполагается, что неполноценные результаты полнотекстового поиска обусловлены плохой автоматической идентификацией хороших терминов содержания в текстах. Обратная связь по релевантности будет улучшена, если в документах будет определен более избирательный контент, который будет использоваться при переформулировании запроса. Особенно при использовании длинных документов в процессе обратной связи такой выбор необходим. Разработка информационных агентов идет рука об руку с необходимостью более точной автоматической характеристики содержания текста. При изучении профиля пользователя в текстах документа должны быть определены контентные функции, которые важны для изучения профиля и позволяют проводить сравнения с подробным профилем. Мультимедийные информационные системы разрабатываются во всем мире. Необходимо представить содержание каждого объекта в мультимедийной системе (включая текстовые объекты). Без такого представления система не сможет интегрировать информацию с разных носителей. В настоящее время представление текстовых объектов осуществляется посредством интеллектуальной атрибуции ключевых терминов, которые должны отражать контент, путем интеллектуального связывания текстовых элементов, относящихся к аналогичному или связанному контенту, или путем интеллектуального создания рефератов, которые помогают при выборе документов. Здесь опять же существует необходимость в эффективной автоматической характеристике содержания текстов.

Приведенные выше соображения подчеркивают необходимость более совершенных процедур автоматической индексации и абстрагирования текстов. Это возвращает нас к тому, с чего мы начали рассуждать в этой главе. Понимание текста на естественном языке — сложная задача. Однако мы считаем, что прогресс в понимании содержания возможен без полной и сложной обработки текстов с целью их полного понимания.

  1. Может быть достигнут прогресс в определении смысла или темы текста. Несмотря на значительные улучшения, мы все еще не совершенны, когда автоматически определяем объемность текста. В идеале, текст должен быть представлен разными уровнями восприятия, что позволяет мотивировать масштабирование его тем и подтем (Lewis & Sparck Jones, 1996). Aboutness — это постоянное качество текста, доказавшее в прошлом свою полезность при выборе информации. В качестве когнитивной модели понимания текста модель Кинча и Ван Дейка (1978) обладает потенциалом для автоматического распознавания буквальности текста (Endres-Niggemeyer, 1989; Pinto Molina, 1995).
  2. Если методы индексации и абстрагирования могут правильно характеризовать подробные темы, включая конкретную информацию в текстах, подробные темы могут соответствовать определенной потребности пользователя в конкретный момент. В настоящее время полнотекстовые слова недостаточно сильны, чтобы их можно было уловить. такой подробный контент.
  3. Нам нужны более совершенные методы извлечения контента из текста, который имеет отношение к значению, которое пользователи могут придавать тексту (Fidel & Efthimiadis, 1994). Это кажется сложной задачей, но, по крайней мере, мы можем сосредоточиться на тех случаях, когда тексты используются с четкими целями, которые разделяются среди класса пользователей (см. Kintsch & Van Dijk, 1978). Это относится к тому, что Марон (1977) называет поисковым словарем, который является значением текста для класса пользователей.

Конечно, задача состоит в том, чтобы идентифицировать текстовое содержимое без необходимости обрабатывать его на основе полного лингвистического, предметного мира и контекстуального знания коммуникации. Мы думаем, что улучшения возможны, если добавить ограниченное количество знаний или автоматически получить полученные знания. Использование минимального количества источников знаний в понимании текста соответствует традиционным исследованиям в области автоматической индексации и абстрагирования в области поиска информации. Коллекции документов часто очень разнородны и состоят из текстов разных типов и происхождения. Мы уделяем особое внимание методам лучшей идентификации и извлечения терминов содержания, индексации разделов или отрывков, автоматизированным методам назначения тематических кодов, извлечения информации и методам суммирования текста (см. Carbonell, 1996).

Мы пришли к выводу, что существует абсолютная потребность в усовершенствованных методах автоматической индексации и абстрагирования текстов документов. Эти методы составляют предмет этой книги.

В этой книге мы делаем следующее различие между терминами «данные», «информация» и «знание» (ср. Пао, 1987, стр. 10-11). Данные представляют собой наборы символов, представляющих захваченные свидетельства транзакций и событий. Мы используем термин информация для выбранных данных. Когда мы используем термин «знания», он относится к знаниям, полученным людьми при выполнении задачи, или к знаниям, которые применяются и используются в системах, основанных на знаниях. Термин «поиск информации» иногда относится к управлению информацией в целом, чаще он относится к поиску документов, которые удовлетворяют определенной потребности в информации. Термин используется в обоих смыслах в этой книге.

Глава 2 — Атрибуты текста

1. Введение в Главу 2

В этой главе мы анализируем текст и его компоненты, чтобы определить основные атрибуты письменного текста. Значительное количество описанных атрибутов также применимо к устному тексту. Мы сосредотачиваемся на тексте, написанном на западноевропейских языках, не вдаваясь в подробности языкового аспекта текста. Иллюстрации атрибутов текста относятся к тексту, написанному на английском языке. Если иллюстрации взяты из голландского текста, они цитируются на голландском языке и переводятся на английский.

Письменный текст состоит из трех основных компонентов. Его структура макета относится к вне-текстовым элементам, таким как шрифты, стили шрифтов и цвета. Логическая структура влияет на организацию порций информации, например, в главах, абзацах и информационных узлах. Структура и логическая структура относятся к структуре представления и связаны со средой и технологией процесса коммуникации. Третий компонент — текстовый контент. Мы ориентируемся на атрибуты текста, которые относятся к его содержанию.

2. Изучение текста

Как указано в его определении (см. Главу 1), текст состоит из языковых единиц, лингвистика — это научное и строгое исследование формальной природы языка (Эллис, 1992, стр. 28). Междисциплинарная наука о тексте, также называемая лингвистикой текста, описывает и объясняет общие черты и функции текстов (de Beaugrande & Dressler, 1981, p. 3; van Dijk, 1997). Его задача состоит в том, чтобы описать и объяснить взаимосвязь различных аспектов форм использования языка и общения в различных дисциплинах (van Dijk, 1978, p. 8). Текстовая лингвистика также исследует, какие тексты стандартов должны соответствовать и как тексты могут быть произведены или получены.

Текстовая лингвистика является одной из областей более широкого междисциплинарного исследования дискурс-анализа (де Beaugrande, 1985). Дискурс является формой использования языка (van Dijk, 1997). Термин «дискурс» обычно относится как к разговорной, так и к письменной речи, хотя иногда эта концепция расширяется и включает другие виды семиотической активности (например, деятельность, которая производит значения), такие как визуальные образы (например, фотография, фильм, видео, диаграммы) и невербальное общение (например, жесты) (Fairclough, 1995, p. 54). Дискурсы (включая тексты) обычно относятся к определенному жанру или типу (например, письмо, новость). Жанр имеет специфическую структуру, то есть определенную организацию его компонентов (Fairclough, 1995, p. 76). Мы говорим о текстовом жанре или типе текста в случае текстового материала. В случае мультимедийных документов мы обычно говорим о типе дискурса или жанре. Хотя термины «тип» и «жанр» обычно используются в качестве синонима, иногда проводится различие, определяя тип дискурса как обладающий свойством притягиваться к двум или более жанрам (Fairclough, 1995, p. 76). В этой книге мы будем использовать термины «тип текста» и «жанр текста» в качестве синонимов. Дискурс-анализ также связан с прагматикой (van Dijk, 1997). Прагматика — это изучение использования языка в контексте общения. Он описывает, как предложения используются для передачи информации или как они создают когнитивное состояние своего создателя (Dean, Allen, & Aloimonos, 1995, p. 490).

Анализ дискурса описывает и объясняет свойства типов текста. На микроуровне описания дискурсивный анализ касается словарного запаса, синтаксиса и семантики отдельных предложений, предложений и фраз (van Dijk, 1997). На макроуровне описания дискурсивный анализ выходит за границы предложения и считает текст полной грамматической единицей. Основное внимание уделяется способам влияния предложений на окружающие предложения. Таким образом, он также включает в себя анализ текстовой организации над предложением, включая способы, которыми предложения связаны друг с другом, и организацию текстов (например, организация очереди по очереди в интервью, общая структура газетной статьи). Было продемонстрировано, что текст на этом макроуровне имеет несколько структур. Интересный аспект дискурс-анализа описывает и объясняет эти текстовые структуры. Другой аспект изучает, как «поверхностные» лингвистические формы или явления сигнализируют о текстовых структурах, и объясняет, почему эти формы выбраны.

Помимо свойств текста, дискурс-анализ изучает характеристики социальной ситуации коммуникативного события, которые систематически влияют на текст, то есть на контекст текста (van Dijk, 1997).

При дальнейшем описании атрибутов текста мы следуем различию микро- и макроуровневых описаний, предложенных van Dijk (1997). Когда текст описывается с точки зрения понимания текста, Haberlandt и Graesser (1985) различают слово, предложение и уровень текста. Уровни слов и предложений, соответственно, относятся к лексическому кодированию и доступу, а также к сегментации и интерпретации предложений, в то время как уровень текста связан с идентификацией темы, активацией знаний и интеграцией между участниками.

3. Обзор некоторых распространенных типов текста

Существует огромное разнообразие видов текстов (например, дорожный знак, стихотворение, учебник, научная статья). Но не хватает поддающейся проверке таксономии типов текста (Пинто Молина, 1995). В этом разделе мы даем обзор некоторых распространенных типов письменного текста без цели быть исчерпывающим.

Тексты часто отличаются своей функцией. Второе важное различие заключается в пояснительном тексте, повествовательном тексте и типах текста, привязанных к определенной дисциплине.

Что касается функции текста, Хэллидей (1989, стр. 40 и далее) различает текст, написанный для того, чтобы предпринять какие-либо действия (например, публичные вывески, ярлыки продуктов и инструкции, рецепты, карты, руководства по телевизионным и радиопрограммам, счета, меню, телефон справочники, бюллетени для голосования, компьютерные руководства) или для установления социальных контактов (например, письма, электронные письма, открытки), текст, написанный для предоставления информации (например, статьи в газетах и журналах, научные статьи и отчеты, отчеты о пациентах, политические брошюры, информативные книги, публичные объявления, рекламные объявления, туристические брошюры) и тексты, написанные для развлечения (например, журнальные статьи, полосы, поэтические и драматические тексты, романы, эссе, субтитры к фильмам).

Часто проводится различие между пояснительным и повествовательным текстом (Rau, Jacobs, & Zernik, 1989). Повествовательный текст ориентирован на сюжет рассказа, который состоит из нескольких действий. Текст обычно строится таким образом, чтобы читатель мог легко следить за действиями. Примерами повествовательных текстов являются новостные статьи, романы и короткие рассказы. В пояснительном тексте больше внимания уделяется темам и подтемам текста. Здесь, организация текста важна для эффективного поиска информации по темам в тексте. Научные тексты являются важной частью описательных текстов (например, энциклопедических статей, научных статей, технической документации).

Помимо пояснительного и повествовательного текста, существуют текстовые типы, которые являются частью определенных дисциплин. Часто в этих дисциплинах используются свои особые типы, которые требуют особых объяснений (van Dijk, 1978, p. 19 и далее).

Юридические документы представляются в довольно условных формах, которые определяют несколько типов (Danet, 1985; Gunnarsson, 1997; Moens, Uyttendaele, & Dumortier, 1999b). Некоторые из этих текстов могут быть частью статутного права (договоры, статуты, королевские указы, министерские указы, местные указы и т. д.). Их функция — сформулировать общие правила, которым должен следовать каждый. Они официально опубликованы, и все граждане должны знать об их содержании. Другие тексты связаны с судебным разбирательством: заявления полиции, ордера, официальные заявления и судебные решения. Каждый из них указывает на определенный этап процедуры и служит официальным доказательством этого. Третий вид текстов составлен в качестве юридического доказательства в коммерческой сфере, т. е. Документов, договоров и уставов. Кроме того, ряд текстов используются по административным причинам (например, налоговые декларации). Наконец, есть тексты правовой доктрины, составленной для научных или исследовательских целей.

Другие поля используют определенные типы текста. В области медицины клинические тексты представляются в различных видах (например, текстовые отчеты, сопровождающие результаты технических осмотров, отчеты об истории болезни, сводные данные о выписках, переписка между практикующими врачами, рецепты на лекарства, направления пациентов). В политике есть политические комментарии и партийные программы. В экономической сфере есть отчеты о фондовом рынке, счета и контракты. Религия обрабатывает типичные текстовые типы, такие как библейское письмо, гимны и псалмы.

Для целей индексации и абстрагирования нас особенно интересуют тексты, которые выполняют информативную функцию. Это первичные тексты, которые извлекаются из документальных баз данных. Некоторые другие типы текста с развлекательной функцией (например, журнальные статьи) представляют интерес для автоматического индексирования, облегчая последующий автоматический выбор.

4. Текст, описанный на микроуровне

Основными единицами текста являются слова. На более детальном уровне анализа текст состоит из букв, которые являются основными символами письменного текста, и фонем, которые являются основными звуковыми единицами разговорного текста. Письма и фонемы отдельно не имеют никакого значения, но они объединяются в небольшие смысловые единицы, называемые морфемами, которые образуют компоненты, из которых составляются слова. Сами слова объединяются в более значимые, лингвистические единицы, такие как фразы, предложения и предложения. Буквы и ряд знаков образуют набор символов электронных текстов.

4.1 Фонемы и буквы

Наука фонологии анализирует основные звуковые единицы, из которых состоят слова. Фонема — это самая маленькая единица речи, которая отличает одно высказывание от другого. Фонема — это фундаментальный теоретический компонент звуковой системы. Заимствуя символы у финикийцев, древнегреческий язык разработал алфавит, набор символов (букв), который является основой набора символов, используемых в западноевропейских языках. В принципе, одна буква представляет одну фонему, что более или менее соответствовало древнегреческому алфавиту (Halliday, 1989, p. 22 и далее). В течение истории человечества языки развивались (диалекты и заимствования из других языков), и в настоящее время письменный язык приближается только к фонетическим звукам, и однозначное соответствие между правописанием и звуками часто теряется. Например, одна и та же буква может представлять разные звуки. Буквы (a-z) могут быть заглавными (A-Z). Буквы с заглавными буквами обычно выполняют определенную функцию (Halliday, 1989, p. 33).

4.2 Морфемы

Морфология представляет собой изучение структуры слов и описывает, как слова формируются из префиксов, суффиксов и других компонентов. Компоненты слов называются морфемами1 (Эллис, 1992, стр. 33 и далее; Аллен, 1995, стр. 23; Дин и др., 1995, стр. 490). Слово состоит из корневой формы (основа или базовое слово) и, возможно, из дополнительных аффиксов. Например, слово «друг» считается корнем прилагательных «дружелюбный» и «недружественный». Прилагательные создаются путем добавления суффикса «ly» к корню, а «недружественный» — путем добавления дополнительного префикса «un». Более сложная конструкция связана с выводом существительного «дружелюбие» из формы прилагательного «дружественный».

Более сложная конструкция связана с выводом существительного «дружелюбие» из формы прилагательного «дружественный»
Более сложная конструкция связана с выводом существительного «дружелюбие» из формы прилагательного «дружественный»

Морфемы — это компоненты языка, с которыми связано значение. Корень включает в себя основное значение слова. Корень — это свободная морфема, потому что он может возникать изолированно и не может быть разделен на более мелкие смысловые единицы. Аффикс называется связанной морфемой, потому что он должен быть присоединен к другой смысловой единице. Есть два класса связанных морфем. Инфлективные морфемы не изменяют грамматическую категорию базового слова (например, существительное) в другую категорию, но сигнализируют об изменениях, например, числа, лица, пола и времени. Производные морфемы действительно изменяют категорию базового слова (например, «дружественный»: происхождение прилагательного от существительного). Морфемы могут изменять формы (например, создание прошлой морфемы «выбегало» из «бега»). Конструкция слов из морфем управляется правилом. Правила зависят от языка.

4.3 Слова

Слово является основной единицей языковой структуры. Слово в письменном тексте состоит из строки символов и ограничено пробелами или пробелами (возможно, в сочетании с знаками препинания). Слова текста составляют словарный запас текста.

Слова делятся на категории, часто называемые классами слов или частями речи (Allen, 1995, p. 23 и далее). Эта категоризация мотивируется свидетельством того, что в зависимости от его категории слово по-разному вносит вклад в значение фразы или является отдельным компонентом синтаксической структуры. Согласно своему классу слово может относиться к человеку или объекту, к действию, состоянию, событию, ситуации или к свойствам и качествам. Например, слова существительного класса идентифицируют базовый тип обсуждаемого объекта, концепции или места, а прилагательное класса содержит эти слова, которые дополнительно определяют объект, концепцию или место. Во-вторых, согласно своему классу слова являются специфическими компонентами синтаксических структур. Например, прилагательное и существительное могут быть объединены в синтаксическую структуру именной фразы. Слово может относиться к разным категориям (например, «игра» — это существительное или глагол).

Некоторые классы слов содержат слова, которые являются лучшими индикаторами содержания текста, в то время как другие классы содержат слова, которые имеют более ярко выраженные функциональные свойства в синтаксических структурах, в которых они играют роль. В этом отношении проводится различие между содержанием и служебными словами (Halliday, 1989, с. 63 и др .; Dean et al., 1995, с. 491 и далее). Содержательные слова служат для идентификации объектов, отношений, свойств, действий и событий в мире. Обычно рассматриваются четыре важных класса содержательных слов. Существительные описывают классы объектов, событий или веществ. Прилагательные описывают свойства объектов. Глаголы описывают отношения между объектами, действиями и вхождениями. Здесь временность и аспект глагола играют важную роль в формировании семантического выражения высказывания (Grosz & Sidner, 1986; Dorfmüller-Karpusa, 1988). Наречия описывают свойства отношений или другие свойства (например, «очень»). Функциональные слова играют более конструктивную роль в соединении слов для формирования предложений. Они имеют тенденцию определять, как содержательные слова должны использоваться в предложении, и как они связаны друг с другом. Это лексические устройства, которые служат грамматическим целям и не относятся к объектам или понятиям мира. Функциональное слово часто бывает маленьким, состоящим всего из нескольких букв3, и его частота встречаемости в тексте обычно намного выше, чем частота встречаемости информационного слова.4 Функциональные слова относятся к синтаксическим классам, таким как статьи, местоимения, частицы, и предлоги. Следующие четыре класса функциональных слов часто различаются. Определители указывают, что конкретный объект идентифицируется (например, «а», «тот»). Квантификаторы указывают, сколько из набора объектов идентифицируется (например, «многие»). Предлоги сигнализируют о конкретной взаимосвязи между фразами (например, «сквозной»). Связи указывают на отношения между предложениями и фразами («и», «но»).

Слово имеет значение или смысл, который известен как лексическое значение (Ellis, 1992, p. 38). Лексическое значение или семантика слов касается того, что слова символизируют, включая их обозначения и коннотации. Происхождение и использование слов в определенных текстовых контекстах определяют лексическое значение. Словари документируют различные значения слов. Значение слова в тексте не всегда четко определено, что иллюстрируется следующим.

  1. Слово может иметь более одного значения (например, слово «предложение» может относиться к текстовому предложению, к приговору суда и к акту вынесения приговора). Множественные значения одного слова известны как омонимия и многозначность (Krovetz & Croft, 1992). В письменном тексте омоним — это слово, которое пишется таким же образом (т. е. Гомограф), как и другое слово с несвязанным значением. Омонимы получены из разных оригинальных слов. Говорят о многозначности, когда слово имеет разные, связанные значения. «Кора собаки» и «кора дерева» является примером омонимии; «Открытие двери» против «открытия книги» является примером многозначности. Иногда слово относится не только к разным классам слов, каждый из которых указывает на группу возможных значений слов, в пределах класса слов это слово может по-прежнему иметь разные значения. Когда слова с несколькими значениями встречаются во фразах или предложениях, они часто имеют только один смысл, так как слова фразы или предложения взаимно ограничивают возможные интерпретации друг друга.
  2. Разные слова могут иметь одинаковое значение (например, «паразиты» и «вредители»), что известно как синонимия. Часто разные слова или фразовые сочетания слов выражают одно и то же понятие. Рядом синонимы — это слова, имеющие близкое значение (например, «информация» и «данные»). Кроме того, одно слово может обобщать или определять значение другого слова (например, слово «яблоко» определяет слово «фрукт»).
  3. Автор обладает большой свободой в выборе слов и может даже придумывать новые слова или менять значение знакомых. Таким образом, слово или комбинация слов могут использоваться метафорически и иметь фигуративную интерпретацию для создания эстетического, риторического или эмоционального эффекта (Scholz, 1988). Использование метафор практически не ограничено. Ни один словарь не может ответить на все образные использования слова или комбинации слов.
  4. Слово может относиться к другому слову в тексте для интерпретации. Anaphora5 — это текстовые элементы, которые относятся к другим текстовым элементам с более полными описательными формулировками, найденными ранее в тексте (так называемые корреляты), и которые разделяют значение коррелятов (Halliday & Hasan, 1976, p. 14 и далее; Liddy, 1990) ( например, слова «это» и «его» в «Студент покупает книгу и дает ее своей сестре».) Анафоры используются вполне естественно и часто в письменном и устном общении, чтобы избежать чрезмерного повторения терминов и улучшить связность текста. Катафорическая ссылка — это слово, которое относится к другому слову в тексте (Halliday & Hasan, 1976, p. 56 и далее). Также стоит упомянуть, что слово или некоторые слова могут быть опущены в тексте. Это называется многоточием (например, «Дэвид ударил по мячу, а мяч (поразил) меня») (Аллен, 1995, с. 449 и далее).
4.4 Фразы

Слова объединяются в фразы. Фраза состоит из заголовка и необязательных оставшихся слов, которые определяют ключевое слово (Halliday, 1989, p. 69 и др .; Dean et al., 1995, p. 492 ff.). В начале фразы указывается тип вещи, действия или качества, которые описывает фраза. Остальные слова называются модификаторами заголовков, модификаторами заголовков и дополнениями в зависимости от их местоположения в фразе. Модификаторы и дополнения могут сами составлять фразы. Дополнения — это фразы, которые следуют сразу за главным словом. Например, фраза «это изображение Питера здесь» состоит из модификатора заголовка «это», заголовка «картинка», дополнения «Петра» и модификатора заголовка «здесь».

Четыре класса содержательных слов обеспечивают главные слова четырех широких классов фраз: существительные фразы, фразы прилагательных, фразы глаголов и фразы наречий (Allen, 1995, p. 24 и далее). Пятый класс фраз построен с предлогом и существительной фразой.

  1. Существительные фразы используются для обозначения таких понятий, как объекты, места, качества и личности. Самая простая именная фраза состоит из одного местоимения (например, «она» и «я»). Собственное имя образует другую основную именную фразу, состоящую из одного или нескольких слов, которые появляются заглавными буквами на многих западноевропейских языках (например, Лос-Анджелес). Остальные формы словосочетаний состоят из заглавного слова и, возможно, других слов, которые определяют или определяют заглавие.
  2. Прилагательное может быть частью существительного, когда оно изменяет существительное. Это также происходит как дополнение определенных глаголов (например, «тяжелый» в «это выглядит тяжелым»). Более сложные формы прилагательных включают в себя квалификаторы, предшествующие прилагательному (например, «ужасно» в «ужасно опасном»), а также дополнения после прилагательного («водить» в «опасно водить»).
  3. Группа глаголов состоит из главного глагола плюс необязательные вспомогательные глаголы. Вспомогательные глаголы и формы головного глагола объединяются определенным образом, образуя различные времена, аспекты, активные и пассивные формы (например, «ходил», «ходил» и «был замечен»). Некоторые формы глагола состоят из глагола и дополнительного слова, называемого частицей (например, «out» в «look out»). Фраза глагола состоит из формы глагола и необязательных модификаторов и дополнений. Глагольные фразы могут стать довольно сложными, состоящими из нескольких сочинительных фраз (например, «дал приговор обвиняемому без колебаний»).
  4. Фраза наречий состоит из наречий головы и возможных модификаторов (например, «слишком быстро»).
  5. Термин предлогическая фраза используется для предлога, за которым следует именная фраза, которая называется объектом предлога (например, «от суда»). Также возможны другие формы предлогических фраз (например, «из тюрьмы»). Пропозициональные фразы часто используются как дополнения и модификаторы глагольных фраз.

Фразы обычно образуют компоненты, из которых строятся предложения. Отдельные фразы (например, именные фразы) можно найти, например, в заголовках, подзаголовках и подписях к текстам.

Фразы менее двусмысленны по смыслу, чем отдельные слова, из которых они состоят. Но это не общее правило.

4.5 Предложения

Предложения используются, чтобы утверждать, запрашивать, командовать или вызывать некоторое частичное описание мира. Предложение организовано таким образом, чтобы минимизировать коммуникативные усилия пользователя текста. Предложение состоит из темы и дополнений (комментариев) к теме (например, свойств темы, отношений с другими элементами, модификаций темы) (Halicová & Sgall, 1988; Tomlin, Forrest, Pu, & Kim, 1997). Дополнения к теме часто называют фокусом предложения. Например, в очень простых английских предложениях тема совпадает с темой предложения и фокусом с предикатом. Термины «тема» и «ритм» часто используются как синонимы соответственно для темы и фокуса (Halicová & Sgall, 1988) .6 Тема является отправной точкой высказывания, объектом или человеком, о котором или о ком что-то будет сообщил, и Рим является новой информацией, основанной на теме (Halliday, 1976; Fries, 1994). Переходным элементом между темой и ритмом обычно является глагол, несущий некоторую новую информацию в предложении, но в меньшей степени, чем ритм.

Выражение структурно состоит из темы и комментария к этой теме. Эта структура тесно связана с тем, как мы общаемся устно (Halicová & Sgall, 1988). Эта «глубокая» структура считается общей для всех языков. Оно закодировано в предложении в соответствии с грамматическими правилами используемого языка (см. Chomsky, 1975; Ellis, 1992, p. 36). Предложение имеет синтаксическую структуру (Dean et al., 1995, p. 490). Он состоит из составляющих (классы фраз), которые регулярно объединяются. В свою очередь, фраза состоит из классов слов, которые также регулярно объединяются. Таким образом, любое предложение может быть разложено или изменено путем применения определенных правил. Структуры, допустимые в языке, формально определяются грамматикой. Грамматика позволяет разложить предложение на фразы определенного класса, которые, в свою очередь, могут быть разложены на слова определенного класса. Например, предложение (S) «Судья похоронил дело» состоит из начальной именной фразы (NP) и глагольной фразы (VP). Фраза существительного состоит из артикля (ART) «The» и нарицательного (NOUN) «судья». Фраза глагола состоит из глагола (VERB) «похоронен» и именной группы (NP), которая содержит статью (ART) «the» и нарицательное (NOUN) «падеж». Мы можем определить следующий набор правил, которые определяют синтаксическую структуру.

<S> : := <N P> <VP>
<NP> ::= <ART> <NOUN>
<VP> ::= <VERB> <NP>

Основываясь на грамматических правилах, мы можем создавать неограниченное количество предложений, и любое предложение может быть изменено и удлинено путем добавления бесконечного числа прилагательных и относительных предложений (ср. Chomsky, 1975).

Представление содержания предложения называется суждением (Allen, 1995, p. 234). Предложение формируется из предиката, за которым следует соответствующее количество терминов в качестве аргументов. «Судья похоронил дело» может быть представлен суждением (BURY JUDGE CASE). В этом предложении глагол BURY имеет два аргумента JUDGE и CASE.

Предложения обычно менее двусмысленны, чем фразы и отдельные слова, из которых они состоят. Лексическая неоднозначность отдельных слов часто решается с учетом значения других составляющих предложения. Помимо неразрешенной лексической неоднозначности, двусмысленность в значении предложения, возможно, является результатом структурной неоднозначности (см. Ellis, 1992, p. 38), когда синтаксическая структура предложения, которая вносит вклад в значение предложения, является неоднозначной (например, предложение «Я видел человека с биноклем»). Значение неоднозначного предложения может быть неоднозначным при рассмотрении значения окружающих текстовых предложений.

4.6 Пункты

Сложные предложения могут быть построены из меньших предложений, позволяя одному предложению включать другое в качестве подпункта (Allen, 1995, p. 31 и далее). Обычно используемые формы — это встроенные предложения в виде имен существительных (например, «отправиться в тюрьму …») и относительных предложений фраз существительных («… кто приговорил человека»). Первая форма предполагает небольшие изменения в структуре предложения, чтобы пометить фразу как существительную фразу, но в остальном фраза идентична предложению. Последняя форма часто вводится относительным местоимением (например, «кто», «тот»). Относительное предложение имеет ту же структуру, что и обычное предложение, за исключением того, что отсутствует одна существительная фраза (например, в положении субъекта, положении объекта, объекте с предлогом).

Что касается тематической структуры, то основные предложения, как правило, являются приоритетными темами, тогда как подчиненные предложения, как правило, служат фоном для них.

4.7 Метки

Использование специальных символов, обозначающих письменный текст, развивалось на протяжении веков (Halliday, 1989, p. 32 и далее). Метки или символы помогают пользователю текста правильно анализировать текст. У них есть три вида функций. Первая функция — маркировка границ. Например, знаки препинания используются для выделения предложений или предложений. Другим примером является пустой символ, который разделяет слова и используется в текстах, хранящихся в электронном виде. Вторая функция — это маркировка статуса, указывающая речевую функцию. Например, вопросительный знак относится к вопросу, а кавычки относятся к цитируемой речи. Третья функция — маркировка отношений. Специальные символы обозначают связи, интерполяции и пропуски (например, дефис, скобка, апостроф). Помимо этих специальных символов, текущие тексты содержат символы, которые кодируют определенные понятия, такие как доллар, знак процента и цифры, для записи чисел в цифровом виде.

Таким образом, набор символов письменных текстов включает, помимо букв и цифр, ряд знаков препинания и специальных символов (например, ‘,’, ‘+’, ‘%’) и несколько пробелов или пустых символов в текстах, хранящихся в электронном виде. (например, в качестве разделителей слов) (ср. Lebart, Salem & Berry, 1997, p. 37). Хотя мы не обсуждаем характеристики макета, специальные характеристики макета (например, использование подчеркивания, символы крупным шрифтом, курсив и жирный шрифт) могут подчеркивать некоторые слова или фразы текста.

5. Текст, описанный на макроуровне

Текст не просто состоит из слов, фраз и предложений, но предложения и фразы упорядочены в соответствии с некоторыми соглашениями. Текст в целом имеет свой синтаксис и семантику и характеризуется несколькими структурами. Текстовые структуры являются важной характеристикой письменного и устного текста и гарантируют согласованность текста (Мейер, 1985). Согласованность описана в главе 1 как одна из основных характеристик текста и касается глобальной организации дискурса (De Beaugrande & Dressler, 1981, p. 84 и далее; Rudolph, 1988). Связность следует рассматривать как связь в ментальном представлении, приписываемую тексту. Сплоченность, которая является еще одной важной характеристикой текста, касается поверхностных организационных структур, которые соединяют элементы текста в единое целое (De Beaugrande & Dressler, 1981, p. 48 и далее; Rudolph, 1988). Структуры и их сигнальные лингвистические связные сигналы (Таблица 1) являются важным средством для создателя текста, чтобы гарантировать, что пользователь может установить правильную интерпретацию.

Литература по текстовым структурам очень разнородна. Необходимо больше изучать синтаксис и семантику текста, предоставляя описание свойств и организации различных жанров текста и предоставляя описания для разных типов текста. В следующих разделах предпринята попытка обобщить основные выводы в литературе (см. Moens et al., 1999b).

5.1 Схематическая структура или надстройка
Definition — Определение

Наиболее типичной характеристикой типа текста является его общая формальная структура, также называемая схематической структурой или надстройкой (van Dijk, 1997). Надстройка текстового типа — это обычная (и, следовательно, культурная вариация) производственная схема, к которой адаптирован текст. Определение типа текста часто опирается на его схематическую структуру. Схематическая структура определенного типа текста определяется в терминах упорядоченных частей, из которых он построен.

Таблица 1. Макроуровень текстового описания текстовые структуры и их основные сигнальные сигналы
Таблица 1. Макроуровень текстового описания текстовые структуры и их основные сигнальные сигналы

Сегменты являются либо обязательными, либо обязательными, а некоторые необязательными. Они происходят в фиксированном или частично фиксированном порядке. Сегменты объединяются для создания больших частей и целых текстов. Таким образом, схематическая структура часто организована иерархически, но сегменты также могут быть организованы последовательно (см. Paice, 1991). Текстовый сегмент может быть разного размера. Он может состоять из одного предложения или абзаца, охватывать несколько предложений или абзацев или представлять собой одно текстовое утверждение. Текстовые схемы показывают рутинную и формальную природу большого объема текстового вывода. Эксперименты Dillon (1991) ясно демонстрируют, что читатели, имеющие опыт чтения определенных типов текста, обладают надстройкой или моделью текста, которая позволяет им с высоким уровнем точности предсказывать, где находится конкретная информация (см. Reichman, 1985, p. 19). Итак, создатели и пользователи этих текстов (неосознанно) знают текстовые схемы.

Examples — Примеры

Простым примером в классе пояснительного текста является схематическая структура научных статей в западной культуре. Научная статья обычно содержит следующие упорядоченные текстовые сегменты: цель исследования, методология, результаты, обсуждение результатов и выводы (Пинто Молина, 1995). На более детальном уровне анализа схематическая структура научных статей, возможно, демонстрирует варианты, типичные для естественных или социальных и гуманитарных наук.

Текстовые схемы были тщательно изучены в случае письменных новостных сообщений (van Dijk, 1985, 1988a, 1988b; Bell, 1991). Новостные сюжеты относятся к классу повествовательного текста. Например, Ван Дейк (1988b) изучил схематическую структуру 700 статей из 138 избранных газет в 99 странах. Было обнаружено, что новостной дискурс следует нескольким обычным схемам, состоящим из категорий, типичных для новостного дискурса. Ван Дейк и Белл предполагают, что в новостном сообщении есть заголовок и ведущая информация, которая обобщает историю, указание авторства, задающее контекст истории, элемент событий, который охватывает основные события истории, и элемент комментария. Схемы новостных камней предупреждают нас о том, что огромное разнообразие событий в мире сводится к зачастую жестким форматам.

Другим примером типа текста в специализированном поле (правовое поле) является текст бельгийского исправительного дела (Moens & Uyttendaele, 1997), который состоит из следующих упорядоченных сегментов: надписи, которая может содержать название суда и дата; идентификация жертвы; идентификация обвиняемого; предполагаемые преступления, которые описывают преступления и фактические доказательства; формулировка перехода, которая знаменует собой переход к основанию дела; заключение суда, в котором содержатся доводы суда в обоснование его решения; правовые основы, которые содержат законодательные положения, применяемые судом; вердикт; заключение, которое может снова содержать название суда и дату. Некоторые из составляющих сегментов являются необязательными.

Signaling linguistic cues — Сигнальные лингвистические реплики

Схематическая структура или надстройка могут, но не обязательно, обозначаться в тексте поверхностными лингвистическими формами, такими как использование типичных фраз и других лексических сигналов (Allen, 1995, p. 504 ff.). Явное использование определенных слов и фраз относится к числу основных показателей границ или категорий текстовых сегментов. Например, начало текстового сегмента «переход» бельгийского уголовного дела обозначается фразой «Gezien de stukken van het onderzoek» («С учетом документов по делу»).

Схематическая структура текста может, но не обязательно, совпадать с логической структурой текста документа, которая является структурой его представления (например, главы, разделы и абзацы) (см. Paice, 1991).

Иногда нет явного лингвистического или презентационного маркера предела сегмента. Затем его предел может быть выведен из отношений с другим сегментом (например, до или после другого сегмента).

5.2 Риторическая структура
Definition — Определение

Термин «риторическая структура» берет свое начало в теории риторической структуры (RST), которая описывает, какие тексты частей или сегментов имеют и какие принципы объединения можно найти для объединения частей в целые тексты (Mann, Matthiessen, & Thompson, 1992). Термин риторическая структура охватывает широкое значение. Во-первых, риторическая структура относится к надстройке или схеме, которыми характеризуется тип текста (см. Выше). Во-вторых, оно часто относится к структуре, выражающей организацию связного, непрерывного текста, и к риторическим отношениям, которые существуют между текстовыми предложениями и предложениями, которые называются межпредметными дискурсивными отношениями (см. Hobbs, 1979; Reichman, 1985, p. 21 и далее). .7 Эти отношения могут быть простыми (например, преемственность, обусловленность) или могут быть семантически более сложными (например, мотивация, обстоятельства, контраст). В этом смысле конечной целью теории риторической структуры является определение набора независимых от предметной области отношений между предложениями, которые определяют согласованный дискурс. Были построены таксономии отношений дискурсивного сегмента (например, Mann et al., 1992; Hovy, 1993b). Риторические отношения применимы ко многим видам текстов, что позволяет унифицировать описание структуры текста независимо от типа текста или жанра. Именно в этом конкретном смысле мы будем использовать термин риторическая структура в этой книге. Но в широком смысле риторическая структура определяет подлинно специфичные для жанра аспекты текстовой структуры (надстройки) и более жанро-независимые структурные аспекты.

Examples — Примеры

В предложении «Самый крайний случай страха, который я когда-либо видел, было несколько лет назад, когда я был на Аляске». Подпункт «когда я был на Аляске» имеет риторическую связь обстоятельств с двумя вышеизложенными пунктами предложения. Предложение «Заполните форму, чтобы стать кандидатом». Демонстрирует отношение к цели. Становление кандидата представляет собой ситуацию, которую необходимо реализовать при заполнении формы. Другой пример сформирован предложениями: «Ухоженный Автомобиль отражает его владельца. Автомобиль, на котором ты ездишь, говорит о тебе многое ». Второе предложение является повторением первого.

Signaling linguistic cues — Сигнальные лингвистические реплики

Создатели текста часто используют определенные лингвистические сигналы, которые указывают на риторические отношения между текстовыми предложениями и другими предложениями. Лингвистическими поверхностными явлениями, которые сигнализируют о риторических отношениях, являются лексические сигналы, местоимение и другое использование в качестве ссылки, время и аспект (Hovy, 1993b). Хотя мы обсуждали текстовые метки как атрибуты микроуровня, некоторые из них могут вызывать риторические отношения между предложениями (например, вопросительный знак будет вызывать ответ в следующих предложениях). Наиболее заметные риторические сигналы — это лексические сигналы (Allen, 1995, p. 504 и далее), которые также называют связующими элементами или устройствами.

Основная функция связных текстовых элементов состоит в том, чтобы показать, что между задействованными текстовыми сегментами существует риторическая связь, которая направляет пользователя текста к правильной интерпретации текста. Например, цель обнаруживается с помощью слов «Для того, чтобы» в предложении «я усердно работаю, чтобы купить дом». Среди составляющих элементов сплоченности текста мы часто находим соединительные выражения и союзы, называемые соединительными (например, «и», «потому что») ( Рудольф, 1988). Тем не менее, явный лингвистический маркер риторического отношения иногда отсутствует, что усложняет идентификацию риторического отношения. Например, в приведенном выше примере нет явного лингвистического маркера, который указывает, что предложение «Автомобиль, на котором ты ездишь, говорит о тебе многое». Это повторение предложения «Ухоженный автомобиль отражает его владельца». Также возможно, что ключевые фразы функционируют неоднозначно в отношении определенной дискурсивной роли (Grosz & Sidner, 1986).

5.3 Тематическая структура
Definition — Определение

Тематическая структура текста касается его общей организации с точки зрения тем или заголовков. Обычно это иерархическая организация, в том смысле, что мы можем определить тему всего текста, которая обычно может быть изложена в терминах нескольких довольно менее общих тем, каждая из которых, в свою очередь, может быть изложена в терминах даже более конкретные темы.

Темы дискурса отражают объемность текста, а также его глобальное значение (van Dijk, 1997; Bánréti, 1981; Halicová & Sgall, 1988; Tomlin et al., 1997). Они представляют суть дискурса, его наиболее важную информацию. Дискурсивная тема (ы) текста обобщают и классифицируют семантическую информацию текста. Глобальная тема текста — это базовое предложение текста как глобальной сущности, то есть представление ядра его содержимого. Подтемы обобщают более подробные значения дискурса, которые его пользователи, возможно, приписывают тексту. Поскольку определение тематической структуры текста касается макроуровня анализа (т. Е. Касательно общего дискурса), иногда термин «макроструктура» используется в качестве синонима этой структуры (van Dijk, 1988b, p. 30 и далее; van Dijk, 1997).

Иерархическая организация тем и подтем может, но не обязательно, отражаться иерархической организацией сегментов тем в тексте. Возможны и другие организации, и тематическая организация часто зависит от типа текста (см. García-Berrio & Albaladejo Mayordomo, 1988). Текстовые сегменты могут иметь собственные темы (например, тема текстового отрывка). Во время беседы тема может быть приостановлена в какой-то момент, а затем возобновлена, как если бы она не была прервана, что называется семантическим возвращением (Allen, 1995, p. 532). Актуальность дискурса на самом деле более сложна, чем актуальность предложения, потому что его сложнее распознать и требует больше организационной работы, чем, например, предмет предложения (Ellis, 1992, p. 119).

На более детальном уровне анализа8 темы предложений или предложений демонстрируют риторические отношения с темами предыдущих или последующих предложений или предложений (например, контраст, иллюстрация) (van Dijk, 1997). Возможны другие формы тематической прогрессии в предложениях и предложениях: повторение темы (тема одного предложения повторяется в последовательных предложениях), тематизация ритма (ритм предложения становится темой следующего предложения), сдвиги тем и более сложные паттерны развития темы (Scinto, 1983).

Examples — Примеры

Предполагается, что основная тема научных статей обсуждается по всему тексту, а обсуждение подтемы ограничено предложениями отрывка текста (Hearst & Plaunt, 1993). Тематическая структура письменных новостей была изучена Ван Дейком (1985, 1988a, 1988b) и Fairclough (1995, с. 30). В новостях на первом месте стоят более общие темы, в то время как более подробные темы встречаются дальше. Последний пример касается типа текста в специализированном поле (правовое поле). В бельгийских уголовных делах текстовая часть, касающаяся аргументации судьи, обсуждает различные темы преступления. В этом обсуждении тема преступления может быть оставлена и возобновлена в тексте (Moens, Uyttendaele, & Dumortier, 1999a).

Signaling linguistic cues — Сигнальные лингвистические реплики

Темы текста тесно связаны с поверхностными лингвистическими явлениями текста. Создатель текста явно указывает на актуальность, чтобы добиться правильной интерпретации текста его пользователями (van Dijk, 1988b, p. 32 и далее). Исследования показали, что пользователи языка компетентны в определении тем текста и их границ (Ellis, 1992, p. 127), что подтверждает наличие поверхностных сигналов. Маркеры актуальности более изучены в речи, чем в письменном тексте (ср. Эллис, 1992, стр. 137). Тем не менее, можно выделить несколько языковых явлений, которые полезны при определении тем и границ тем в письменном тексте.

1. Схематическая структура упорядочивает тематическое содержание текста (Kieras, 1985). Например, было продемонстрировано, что тематическая структура новостных сюжетов параллельна новостным схемам (van Dijk, 1985; ср. Fairclough, 1995, p. 30). Заголовок сообщения новостей формулирует общую тему текста. Лидерство и атрибуция содержат самые важные темы, в то время как подтемы появляются в теле истории.

2. Места, отличные от тех, которые определены структурой схемы, важны для идентификации темы. Тематическая структура иногда определяется логической (презентационной) структурой письменного текста. Тематические блоки, возможно, совпадают с главами и параграфами. Этот абзац часто рассматривается как наиболее идентифицируемое разграничение темы (García-Berrio & Albaladejo Mayordomo, 1988; Ellis, 1992, p. 133). Кроме того, актуальная информация широко представлена ​​в первом предложении абзаца и в некоторой степени в конце абзаца (Kieras, 1985). Положение термина в предложении также является существенным (Kieras, 1985; ср. Сиднер, 1983).

3. Темы текста на самом деле описываются словами в предложениях текста. Использование содержательных слов и их частота встречаемости в тексте рассматриваются как общие ключи к их актуальности (Salton, 1989, p. 279). Кроме того, ссылки на определенную концепцию, встречающуюся в тексте в непосредственной близости от другой, являются хорошими показателями актуальности (Hearst & Plaunt, 1993).

4. Существуют и другие поверхностные лингвистические подсказки, такие как использование ключевых слов и фраз (Kieras, 1985; Ellis, 1992, p. 131 и далее). Примерами таких индикаторов темы являются ключевые фразы «о» и «говорить о», за которыми следует тема. Другие слова обозначают новые темы или смены тем (например, слово «сейчас»).

Принято считать, что признание и развитие темы в текстах являются предметами, которые требуют дальнейшего изучения (Hahn, 1990; Hovy, 1993a). Результаты этого исследования особенно ценны для автоматической индексации и абстрагирования текстов.

5.4 Коммуникативная цель
Definition — Определение

Дискурс в целом и составляющие его части имеют связанную цель. Целью дискурса является намерение или коммуникативная цель, лежащая в основе участия в конкретном дискурсе. Это намерение обеспечивает как причину, по которой проводится дискурс, так и причину, по которой передается конкретное содержание этого дискурса, а не какая-либо другая информация (Grosz & Sidner, 1986). Как и любая форма дискурса, письменный текст имеет коммуникативное намерение. Коммуникативная цель текста часто состоит из различных подцелей (рис. 1). Таким образом, можно определить коммуникативную целевую структуру, иногда называемую иллокутивной структурой (Branting, Lester, & Callaway, 1997; ср. Аллен, 1995, с. 567) или интенциональной структурой (Grosz & Sidner, 1986) .9 Создатели текста используют пропозициональное содержание высказываний для обозначения иллокутивных актов. Иллокутивные акты — это высказывания, имеющие социальные и коммуникативные цели. Пользователь текста должен не только понимать слова и синтаксические отношения текста, чтобы понять его смысл, но он или она должны понимать, как функционирует высказывание (Ellis, 1992, p. 89 и далее). Например, если на табличке написано «Собака-поводырь в помещении», предмет или знак обозначают собаку-поводыря. Но текст также является предупреждением о том, как вы должны себя вести, а не простым утверждением, описывающим природу животного поблизости. Коммуникативные цели очень заметны в информационных текстах.

В успешном дискурсе содержание полного текста и составляющих его частей достигает своей коммуникативной цели. Каждый текстовый сегмент является шагом в плане для достижения общей коммуникативной цели дискурса (Hovy, 1993a). Пользователь обращается к тексту с особым акцентом внимания (см. «Состояние внимания» в Grosz & Sidner, 1986), которое в соответствии с задачей использования текста может быть только частью структуры коммуникативной цели создателя (рисунок 1)

Рисунок 1. Пример коммуникативных целей создателя текста, фокуса внимания его пользователя и взаимосвязи целей с дискурсивными структурами макроуровня
Рисунок 1. Пример коммуникативных целей создателя текста, фокуса внимания его пользователя и взаимосвязи целей с дискурсивными структурами макроуровня
Examples — Примеры

Основной коммуникативной целью юридического текста постановления о показе по делу является установление предпосылок для отклонения апелляции (Branting et al., 1997). Основными подцелями являются:

-установить наличие юрисдикционного дефекта:
-установление апелляционных заказов
-установив, что уведомление об апелляции было несвоевременным в отношении одного из приказов:
-установление даты начала времени подачи уведомления об апелляции
-установление срока уведомления об апелляции
-установление фактической даты подачи
— постановив, что фактическая дата подачи была после даты оплаты
-приказать соответствующее разрешение:
-порядок ограничения времени для ответа
-санкция
— обоснование санкции.

Реализация коммуникативной цели в тексте

Коммуникативная цель и подзадачи текста реализуются через лексические и грамматические выражения в предложениях, а также через структуру текста (рис. 1). Надстройка, риторическая структура и тематическая структура текста помогают реализовать структуру коммуникативных целей (Hovy, 1993a; Fries, 1994). Эти структуры, которые упорядочивают текстовый контент, способствуют успешной реализации коммуникативного замысла. В частности, надстройка и риторическая структура часто тесно связаны с коммуникативной структурой цели. Без понимания структур дискурса создателем и пользователем текста, общение вряд ли будет успешным (Hovy, 1993b).

Кажется, что фактическое общение через текст состоит из множества отклонений от идеальных структур. Мы находим нарушения нормативных правил для соответствующего дискурса. Согласно Ван Дейку (1 997), интересно изучить эти отклонения самостоятельно. Действительно, то, что выглядит как нарушение какого-то правила или закономерности, может оказаться очень контекстуальной функцией. С этими отклонениями связана концепция стиля (van Dijk, 1997). Создатели дискурса занимаются разными стилями. Стиль — это связанная с контекстом вариация (контекст касается говорящего, перспективы, аудитории, группы и т. Д.) Уровня выражения дискурса. Понятие стиля обычно предполагает, что одни и те же понятия могут быть выражены по-разному в зависимости от разного контекста общения. Например, выбор конкретного слова зависит от целевой аудитории.

5.5 Длина текста

Длина текста в некоторой степени определяется типом текста, но это не общее правило. Для некоторых типов текста (например, повествовательная история) создатель может сам решать, сколько слов он или она будет использовать для передачи своего сообщения. Длина текста может быть рассчитана по-разному. Обычно оно рассчитывается как количество слов или как количество (разных) содержательных слов, содержащихся в тексте (см. Salton & Buckley, 1988).

6. Выводы в главе 2

Наше общение посредством письменного (и устного) текста регулируется многими шаблонами как на микроуровне, так и на макроуровне. Дискурсы, среди которых тексты, имеют важные коммуникативные цели и подцели. Эти намерения реализуются с помощью ряда правил дискурса, которые являются общими для членов группы, сообщества или культуры. Чтобы реализовать свои коммуникативные цели, текст обладает рядом внутренних структур, которые выходят за рамки структуры отдельных предложений. Интересно описать и объяснить надстройку, риторическую структуру и тематическую структуру текста, поскольку все они способствуют успешной реализации коммуникативного намерения. Также интересно посмотреть, какие поверхностные лингвистические формы или явления сигнализируют о текстовых структурах. Дискурсивные паттерны и правила помогают управлять выбором и упорядочением элементов в дискурсе и делают наши, казалось бы, случайно организованные тексты понятными друг другу.

В предыдущей главе утверждалось, что, несмотря на десятилетия работы над обработкой естественного языка, компьютеры не способны объяснить текст на естественном языке так, как это делают люди. Тем не менее, дискурсивные исследования дают ценные знания для автоматического поиска информации и контента в текстах. Дискурсивные паттерны, помогающие определить темы текста, особенно интересны. Эти знания могут быть включены в различные приложения, предназначенные для извлечения информации, такие как индексация текста и абстрагирование.

1 — В разговорной речи фонемы сгруппированы в слоги. Каждый слог отмечен максимумом акустической энергии в речевом сигнале. Слог производится со скоростью четыре или пять в секунду на всех языках. Большинство морфем соответствуют одним слогам, но есть много, которые представлены полисиллабическими словами.

2 — Фонемы и соответствующие им буквы не имеют значения, хотя они различают значения, так как n различает «бар» и «сарай».

3 — «Принцип наименьшего усилия» со стороны оратора или автора объясняет тот факт, что наиболее часто встречающиеся слова, как правило, являются короткими функциональными словами, стоимость использования которых мала (Salton & McGill, 1983, p. 60)

4 — ср. Halliday (1989, стр. 64): лексическая плотность (доля содержания слов в общем количестве текстовых слов) может варьироваться в зависимости от типа текста.

5 — Анафорические и катафорические ссылки считаются текстовыми явлениями на макроуровне, потому что они обеспечивают целостность текста между предложениями.

6 — О совместимости этих терминов см. Tomlin et al. (1997).

7 — Ван Дейк (1997) рассматривает структуру, выражающую межпредметные дискурсивные отношения, как описание текста на микроуровне. Мы предпочитаем классифицировать риторическую структуру как описание макроуровня, потому что риторическая структура касается глобальной организации текста, а риторические отношения часто связывают несколько предложений в дискурсе.

8 — Это можно рассматривать как описание текста на микроуровне (ср. Van Dijk, 1997).

9 — коммуникативная цель не идентична смыслу текста, но оба понятия связаны между собой. Коммуникативная цель — это свойство текста с точки зрения создателя текста. Смысл является свойством текста с точки зрения его пользователя. В успешном дискурсе значение совпадает с коммуникативной целью (см. Hovy, 1993a), но пользователи текста всегда могут придать ему дополнительное значение.

Глава 3 — Текстовые представления и их использование

1. Введение в Главу 3

В предыдущей главе мы обсудили характеристики исходных текстов. Здесь мы подробно остановимся на результатах процесса индексации и абстрагирования. Мы уточним некоторые понятия, упомянутые в предисловии, и определим связанные понятия. Результатом индексации или абстрагирования содержимого текста является текстовое представление. Обсуждаются различные формы текстовых представлений. Прежде чем описывать автоматические методы во второй части этой книги, представляется полезным изложить интеллектуальный процесс индексации и абстрагирования. Кроме того, использование текстовых представлений в текстовом просмотре, поиске и опросе важно для понимания их текущей формы. Хранение продуктов индексации и абстрагирования выходит за рамки этой книги и упоминается очень кратко. Наконец, приведены основные характеристики допустимых текстовых представлений.

2. Определения

Индексирование и абстрагирование текста — это процессы, которые создают краткое описание или характеристику содержания исходного текста (Rowley, 1988, с. 48; Salton & McGill, 1983, с. 52; Lancaster & Warner, 1993, с. 79 и далее. ). Результатом этих процессов является представление или представитель текста, который имеет признанный и принятый стиль или формат. Индексирование обычно назначает или извлекает из текста набор слов и фраз. Помимо отражения контента, термины индекса могут использоваться в качестве точек доступа или идентификаторов текста, с помощью которых текст может быть найден и извлечен в коллекции документов. Абстрагирование генерирует резюме содержания текста, которое имеет различные возможные форматы. Текстовое индексирование и абстракция относятся к интеллектуальному процессу человека, а также к автоматизированному процессу. Индексирование иногда относится к автоматизированному процессу хранения текстовых представлений в структурах данных (таких как инвертированные файлы) для обеспечения эффективного доступа к документам, которые они представляют. В этой книге мы не будем использовать термин индексация в этом смысле.

Оба термина «представление» и «представитель» используются для обозначения сокращенной характеристики контента. Мы предпочитаем использовать термин текстовое представление в этой книге. Этот термин также используется для промежуточных представлений, которые сделаны из текста во время его индексации или абстрагирования (см. Lancaster 1991, p. 219 и далее; Lancaster & Warner, 1993, p. 243). Также термин «представитель документа» может относиться к продукту индексации и абстрагирования текста (van Rijsbergen, 1979, p. 14; Lewis, Croft, & Bhandaru, 1989). Мы считаем, что этот термин является слишком общим, потому что он может также относиться к дескрипторам контента других носителей, кроме текста (например, изображений) в мультимедийном контексте, или к дескрипторам контекста документа (называемых объективными идентификаторами), такими как дата создание и имя автора.

Представление сделано из полного текста или из определенных текстовых отрывков, последний упоминается как индексация отрывка (Salton, Allan, & Buckley, 1993). Текстовые представления используются во многих формах. Наиболее распространенными являются термины индекса естественного языка, определенные в текстах, и термины индекса контролируемого языка, назначенные текстам. Термины образуют язык индексации (Cleveland & Cleveland, 1990, с. 78; Rowley, 1988, с. 52). Тезисы обычно имеют форму текстовых профилей, которые структурируют определенную информацию текста или непрерывного, связного текста. Они описывают содержание текста более подробно и структурировано, чем термины указателя.

3. Представления, которые характеризуют содержание текста

3.1 Набор терминов индекса естественного языка

Индексирование часто состоит из рисования терминов индекса на естественном языке непосредственно из текста документа (Lancaster & Warner, 1993, p. 80 и далее). Этот процесс называется индексированием извлечения. Извлеченные термины индекса представляют собой термины содержания в форме отдельных слов или фраз (Harter, 1986, p. 42). Количество извлекаемых терминов варьируется от нескольких до большого количества, в зависимости от необходимости более или менее детально представлять содержание текста (Salton, 1975b, p. 17). Термины индекса могут иметь вес, указывающий на их важность в представлении контента (Sparck Jones, 1973). Полнотекстовый поиск (см. Главу 1) является простейшей формой индексации извлечения: каждое слово в тексте может действовать как индексный термин.

Индексирование с помощью терминов на естественном языке имеет свои преимущества и недостатки (Blair & Maron, 1985; Harter, 1986, p. 51 и далее; Lancaster, 1986, p. 161 ff .; Furnas, Landauer, Gomez & Dumais, 1987; Salton, 1989 , стр. 276; Krovetz & Croft, 1992). Его преимущество состоит в том, что он очень выразителен и гибок, представляет различные точки доступа и перспективы текста и легко представляет новые и сложные концепции. Словарь терминов индексирования менее строго контролируется, чем термины индекса контролируемого языка, и обычно можно идентифицировать большое количество дескрипторов индекса. Из-за отсутствия фиксированных терминов индекса термины индекса естественного языка делают текстовую базу данных переносимой и совместимой с различными коллекциями документов. Однако есть и недостатки. Слова текста имеют свойство быть потенциально двусмысленными (например, омонимы). Индексные фразы обычно менее неоднозначны, потому что каждое содержательное слово в фразе обеспечивает контекст для других. Более того, слова и фразы в тексте часто слишком специфичны для представления текстового содержимого, что предотвращает общий поиск информации в текстах. Существует трудность захвата основных концепций.

При извлечении слов и фраз из текстов полное отсутствие словарного контроля встречается редко, потому что разные морфологические варианты одного термина или разные синонимы одного термина часто заменяются одной стандартной формой (Lancaster & Warner, 1993, p. 84.). Например, используется наименее конкретный морфологический вариант (обычно существительное) выбранных терминов.

3.2 Набор терминов индекса контролируемого языка

Индексирование присвоений — это приписывание терминов тексту документа из источника, отличного от самого документа. Условия могут быть взяты из головы индексатора. Чаще всего индексация назначений включает в себя назначение терминов или меток, взятых из некоторой формы контролируемого словаря (Lancaster, 1986; Salton, 1989, p. 230; Lancaster, 1991, p. 13 ff .; Meadow, 1992, p. 68 ff .; Lancaster & Warner, 1993, стр. 80 и далее). Назначенные термины также называются дескрипторами.

Контролируемый словарь — это, в основном, предопределенный список терминов индекса, созданный неким авторитетом в отношении управления коллекцией документов. Индексные термины списка представляют собой отдельные слова или полные фразы. Обычно словарный запас — это не просто список. Как правило, он будет включать в себя некоторую форму семантической структуры. Обычно идентифицируются два типа отношений между терминами индекса: иерархические и ассоциативные отношения. Набор контролируемых терминов индекса языка называется системой классификации (Beghtol, 1986).

Индексирование с использованием терминов индекса контролируемого языка предполагает заранее определенный долгосрочный набор интересов пользователей (Belkin & Croft, 1992). Обычно система классификации предоставляет действительный, часто структурированный словарь для предметного содержания коллекции документов. Но для данной базы документов может быть использовано много систем классификации, возможно, отражающих другие аспекты содержания, помимо актуальности. Система классификации может варьироваться по времени и содержанию. Он всегда отражает структуру, которая, как мы надеемся, в течение длительного времени будет полезна для выполнения определенной задачи.

Распространенными примерами систем классификации являются предметные тезаурусы, широкие предметные рубрики и схемы классификации (Harter, 1986, p. 40 и далее). Тезаурус содержит множество понятий, их эквивалентов и связанных с ними терминов. Он содержит различные поверхностные формы понятий в текстах. Тезаурусы обычно получают из существующих и растущих коллекций документов по одной предметной дисциплине. Словарь в тезаурусе предназначен для решения проблем синонимии и семантической неоднозначности в этих сборниках. Предметные заголовки представляют структуру тем разнородных коллекций документов. Другой тип искусственного языка для представления документов — очень широкая классификационная схема. Примером этого является десятичная классификация Дьюи (DDC), используемая в США для классификации книг, которая является априорным представлением всех человеческих знаний в большой иерархии.

Индексирование с помощью терминов с индексом контролируемого языка имеет свои преимущества и недостатки (Harter, 1986, стр. 51 и далее; Lancaster, 1986, стр. 161 и след .; Свеноний, 1986).

Преимущества особенно касаются общности, свойства однозначности и точности терминов. Что касается общности и свойства однозначности, термины индекса контролируемого языка управляют изменением поверхностных признаков для идентичных или сходных понятий и, таким образом, имеют дело с синонимией и другими терминами отношений и с семантической неоднозначностью (Blair & Maron, 1985; Furnas et al., 1987; Krovetz & Croft, 1992; Riloff & Lehnert, 1994). Поскольку они однозначны по смыслу, они легко переводятся на другие языки для использования в приложениях, которые извлекают тексты на разных языках. Более того, поскольку термины представляют общие точки доступа к текстовым классам, они легко используются в универсальном поиске (Harter, 1986, p. 41 и далее), при маршрутизации и фильтрации документов по общим классам (Belkin & Croft, 1992), в связывание текстов (Agosti, 1996) или создание тематических карт текстов (Zizi, 1996). Первоначальная классификация текстов часто предшествует задаче извлечения информации, так что можно использовать правильный набор специфичных для класса методов обработки естественного языка (DeJong, 1982; Young & Hayes, 1985; Liddy & Paik, 1993). Что касается точности, фразы на контролируемом языке часто функционируют как предварительно согласованные индексные термины, которые указывают и стандартизируют конкретные отношения между содержательными словами фраз (Salton & McGill, 1983, p. 58; Soergel, 1994). Например, текст может быть проиндексирован с точной фразой «растворители, влияние на цветовые спектры красителей». Термины индекса контролируемого языка полезны, когда тексты могут быть представлены точными и однозначными понятиями, независимо от того, являются ли они общими или конкретными.

Контролируемые языковые термины индекса также имеют недостатки. Они разрешают только несколько точек доступа к тексту или представляют несколько точек зрения. Более того, они довольно негибкие, чтобы адаптироваться к потребностям пользователей текстов. Таким образом, словарь должен регулярно обновляться, чтобы учесть изменения в интересах и концепциях поиска, а также изменение коллекций документов. Когда словари не являются взаимозаменяемыми, поисковые системы, основанные на терминах индекса управляемого языка, менее переносимы и менее совместимы между различными коллекциями. Термины индекса контролируемого языка могут дополнять термины индекса естественного языка в текстовом представлении (Hearst, 1994).

Связь с классификацией и категоризацией текста

Индексирование с использованием словаря с контролируемым языком связано с классификацией текста (Lancaster, 1991, p. 14 и далее). Термин «классификация» относится к процессу группировки объектов. Классификация текста относится к формированию текстовых классов, которые концептуально тесно связаны. Классы часто содержат тексты, которые относятся к одному и тому же предмету. Термин «категоризация текста» используется для классификации текстовых документов в отношении набора из одной или нескольких ранее существующих меток категорий или терминов индекса контролируемого языка, по которым идентифицируются классы.

Назначение класса является двоичным (текст является или не является членом класса) или оценивается (текст имеет степень членства в классе) (Sparck Jones, 1973; Cleveland & Cleveland, 1990, p. 112). Последнее соответствует присвоению весов индексированным терминам языка.

Ровно одному дескриптору или нескольким терминам присваивается один текст. Но количество назначаемых терминов обычно ограничено (Salton, 1975b, p. 17). Когда используются несколько терминов, текст может принадлежать различным связанным и не связанным классам. Индексные термины, которые являются ключами к этим классам, назначаются независимо или независимо. Первый — это случай, когда, например, назначаются индексные термины иерархической системы классификации. Присвоение одного термина включает в себя назначение терминов, которые находятся выше в иерархии. Классы — даже те же уровни в иерархической системе классификации — обычно не являются взаимоисключающими (Harter, 1986, p. 56). Разделение реального мира на род, вид, подвид и т. д. Не всегда приводит к определенным классам. Зачастую лучшая индексация достигается путем независимого назначения каждого элемента индекса, особенно одного и того же уровня иерархии.

3.3 Аннотация

Другой важной формой текстового представления является аннотация или резюме. Резюме является сжатой производной исходного текста. Резюме касается информации о контенте и ее выражения. Существует много различных форм резюме (Sparck Jones, 1993; Rowley, 1988, p. 11 и далее). Обычно, аннотация и резюме считаются синонимами и будут использоваться в этой книге. Однако иногда делается небольшое различие. Затем реферат скорее относится к суррогату отдельного документа (например, аннотации в технической литературе журнала), тогда как реферат является неотъемлемой частью текста документа, в которой подчеркиваются его основные выводы.

Минимальная функция, которую должна предоставлять сводка, — это указание содержания текста. Ориентировочный реферат помогает читателю решить, будет ли целесообразным ознакомиться с полным документом. Информативный реферат сообщает о фактическом содержании текста и представляет в максимально возможной степени информацию, содержащуюся в нем. Такой реферат может выступать в качестве самостоятельного текстового заменителя. Выписка состоит из фрагментов текста, извлеченных из оригинала, и может иметь как информативную, так и информативную функцию. Разделы или фрагменты текста представляют его содержание и / или его вкус или выделяют важную информацию. Последний тип аннотации называется абстрактным моментом. Резюме, состоящее из ключевых слов, служит грубым индикатором предметной области. Содержание текста может быть обобщено в профиле. Профиль представляет собой рамочное представление, содержащее отдельные слоты, каждый из которых имеет четко определенное семантическое значение. Слоты заполнены информацией из текста. Критическая аннотация не только описывает содержание текста, но также оценивает его содержание и его представление. Сравнительный реферат оценивает содержание и представление текста по сравнению с другими текстами или представляет краткое изложение нескольких текстовых документов.

Информационное содержание реферата обычно выражается в связном тексте. Как видно выше, некоторые абстрактные типы представляют информацию в других формах — от выписки и профиля до списка терминов индекса.

Аннотация высоко ценится как сжатое и понятное представление содержания текста. Это особенно ценится читателями-людьми за оценку актуальности исходного текста (Rowley, 1988, p. 12 и далее).

Связь с текстовой индексацией

Индексация и абстракция текста тесно связаны (Lancaster, 1991, стр. 5 и далее; Sparck Jones, 1993; Sparck Jones & Galliers, 1996, стр. 28). Рефератор записывает описательное описание содержимого текста документа, в то время как индексатор описывает его содержимое, используя один или несколько терминов индекса. Но многие формы рефератов делают это различие все более и более размытым. Краткое резюме может служить в качестве описания сложного структурированного индекса, которое обеспечивает доступ к текстовой коллекции, в то время как список ключевых терминов может служить простой формой резюме. Многие формы текстовых представлений являются промежуточными формами индексирования описаний и рефератов. Предполагается, что тезисы являются более исчерпывающими при представлении контента, чем индексные описания (Cleveland & Cleveland, 1990, с. 105; Stadnyk & Kass, 1992).

4. Интеллектуальная индексация и абстрагирование

4.1 Общие положения

Исторически, и до сих пор в значительной степени сегодня, индексирование или абстрагирование текста выполняется вручную — следует сказать, интеллектуально — экспертами. Автоматическое индексирование и абстрагирование могут учиться на когнитивных процессах человека. Это не означает, что полный когнитивный процесс должен дублироваться в автоматизированных системах, но, возможно, хорошие инженерные решения некоторых проблем индексации и абстрагирования лежат в некоторой работе, выполненной в когнитивной области. Во-первых, когнитивная психология может предложить основной вклад в анализ текстового контента, особенно в понимании сложного механизма приобретения и структурирования знаний. Также могут быть полезны инструкции, доступные для индексаторов и абстракционистов. Это причина для краткого описания интеллектуального индексирования и абстрагирования в книге.

Интеллектуальная индексация и абстрагирование не являются простыми процессами. По этой причине эти задачи выполняют подготовленные и опытные специалисты, то есть профессиональные индексаторы и абстракционисты (Lancaster, 1991, p. 104). В некоторых случаях автор текста может нести ответственность за эти задачи. Но автор часто недостаточно обучен, чтобы объективно и правильно индексировать или абстрагировать его или ее тексты (Rowley, 1988, p. 23).

Индексация или абстракция включает в себя три основных этапа (Lancaster, 1991, стр. 8 и далее) (рис. 1). Во-первых, это концептуальный анализ исходного текста и определение его содержания (контент-анализ). Индексация, а также абстрагирование всегда сводят контент к его основам и часто включают в себя отбор и обобщение информации, которые образуют второй этап процесса. В-третьих, существует перевод выбранного и обобщенного контента на язык текстового представления, то есть определенного словарного запаса индексных терминов или сводного текста. Идентификация контента и выбор информации не всегда являются отдельными шагами.

4.2 Интеллектуальная индексация

Существует много руководств по интеллектуальной индексации (Borko & Bernier, 1978; Rowley, 1988; Cleveland & Cleveland, 1990; Lancaster, 1991).

Анализ содержания

При индексировании с помощью терминов, извлеченных из текста или присвоенных ему, индексатор обычно не выполняет полное чтение текста документа. Рекомендуется сочетание чтения и скимминга. Части, которые необходимо внимательно прочитать, — это те, которые могут наиболее полно рассказать о содержании в кратчайшие сроки (например, резюме, выводы, реферат, вводные абзацы разделов, вводные и закрывающие предложения абзацев, иллюстрации, диаграммы, таблицы и их подписи). Эти существенные разделы часто определяются схематической структурой текста. Остальная часть текста обычно просматривается, чтобы более сжатые части давали точное представление о том, о чем идет речь.

Важным аспектом идентификации контента является выявление субъектов текста. Индексаторы имеют руководящие принципы для анализа содержания предмета (темы или о предметности) (Hutchins, 1985). Индексаторы должны особенно знать о лингвистических подсказках, которые сигнализируют о тематической структуре текста на микро-, а также на макроуровне (см. Главу 2). На макроуровне понятие темы, по-видимому, связано с текстовым абзацем, который имеет большинство ссылок на другие абзацы. Или тема часто появляется в первом предложении абзаца. На микроуровне предполагается, что тематические формулировки предложений дают ключи к глобальным темам текста. Тема также обозначена существительной фразой, которая много раз появляется в качестве предмета предложения. Также предлагается, чтобы индексаторы сначала сканировали тексты на предмет конкретных слов или фраз (например, «были убиты» в области терроризма) (Hutchins, 1985; Riloff & Lehnert, 1994). Затем, в качестве второго шага, читателю иногда необходимо оценить контекст выражения в случае семантической неоднозначности (например, контекст «солдаты были убиты» больше не соответствует террористической сфере, поскольку жертвы террористов должны быть гражданскими лицами).

Выбор и обобщение

Как только темы текста определены, можно выбрать конкретные темы или информацию. Темы могут быть заменены более общими понятиями.

Перевод контента в термины индекса

На следующем этапе идентифицированное содержание текста переводится в виде набора терминов индекса. Эти термины индекса являются терминами естественного языка, извлеченными из текста или терминов контролируемого языка, выбранных из схемы классификации.

Индексаторы идентифицируют термины на естественном языке в тексте документа, когда считают, что они точно отражают идентифицированный контент. Предположительно, на них влияет частота появления слова или фразы в тексте, место его появления (например, в заголовке, в резюме, в подписи к иллюстрациям) и его контекст (Lancaster, 1991, p. 221). Обычно индексаторы чувствуют себя хорошо с такой практикой, которая проводится быстро, уменьшая стоимость индексации. Но руководящие принципы часто недостаточно точны, чтобы регулировать выбор индексатором подходящих предметных терминов из текста, так что даже обученные индексаторы становятся непоследовательными в выборе терминов (Blair & Maron, 1985).

Чаще всего индексаторы назначают контролируемые языковые термины для текстов документов. Бехтол (1986) описал этот когнитивный процесс. Сначала необходимо разработать систему классификации индексных терминов или меток категорий, которая будет навязываться документам. Фактический процесс индексации — это отображение поверхностных выражений текста на естественном языке в соответствующие классификационные обозначения или термины индекса в соответствии с восприятием индексатором содержимого текста. Понятие, выраженное выражением естественного языка, должно быть достаточно важным. Таким образом, индексатор назначает индексный термин для комбинации слов или фраз, которые часто встречаются в тексте документа (Lancaster, 1991, p. 225). Это звучит просто, но понятия, выраженные терминами индекса контролируемого языка, часто встречаются во многих различных комбинациях слов и фраз с различными частотами совместного вхождения. Например, если «СПИД» встречается в журнальной статье 20 раз, индексный термин «СПИД» почти наверняка следует назначить. С другой стороны, предположим, что «СПИД» встречается в документе только дважды, а «вирус иммунодефицита человека» встречается несколько раз, а «вирусная инфекция» встречается довольно часто. Затем также может быть назначен термин «СПИД». Другой пример иллюстрирует важность частоты встречаемости. Если в документе несколько раз встречаются слова «тепло», «озеро» и «загрязнение», этого может быть достаточно для назначения терминов «тепловое загрязнение» и «загрязнение воды». Но «жара» и «озеро» без появления «загрязнения» должны встречаться в документе много раз, прежде чем «тепловое загрязнение» станет хорошим выбором для назначения. Интересно отметить, что иногда индексаторы рассуждают, ссылаясь на сходство новых и старых экземпляров текстов. Таким образом, при назначении терминов индекса контролируемого языка они ищут текстовые шаблоны, встречающиеся в текстах, ранее классифицированных по этим меткам, и назначают термины, когда присутствует достаточное сходство между старым и новым текстами (Hayes-Roth & Hayes-Roth, 1977) ,

Индексаторы могут приписывать вес индексным терминам естественного и контролируемого языка на основе своего суждения о важности термина.

4.3 Интеллектуальное абстрагирование

Поскольку способность обобщать информацию является необходимой частью понимания текста и производства текста, работа Кинча и ван Дейка в отношении понимания и производства текста важна для разгадывания интеллектуального процесса абстрагирования (Kintsch & van Dijk, 1978; van Dijk & Kintsch 1983). Существует множество моделей и руководств по интеллектуальному абстрагированию (Borko & Bernier, 1975; Hutchins, 1987; Rowley, 1988; Lancaster, 1991; Pinto Molina, 1995; Cremmins, 1996; Endres-Niggemeyer & Neugebauer, 1998). Некоторые из них основаны на выводах Кинча и ван Дейка.

Рисунок 1. Интеллектуальная индексация и абстрагирование
Рисунок 1. Интеллектуальная индексация и абстрагирование
Анализ содержания

Идентификация контента для абстрагирования очень похожа на интеллектуальный процесс индексации. Профессиональный реферат учится быстро просматривать текст, чтобы быстро определить основные моменты, после чего следует более подробное чтение некоторых ключевых разделов. Схематическая структура текста намекает на заметные участки. Рекомендации по составлению резюме часто относятся к конкретным типам текста и их надстройке. Анализ содержания для абстрагирования более детализирован, чем при индексации с помощью терминов. Но это, конечно, также зависит от типа абстрактного, который должен быть реализован.

Выбор и обобщение

Модель понимания текста в Kintsch и van Dijk (Kintsch & van Dijk, 1978; van Dijk & Kintsch, 1983) подчеркивает важность тематической структуры при выборе тематической информации и подчеркивает важность обобщения содержания текста. В этой модели темы текста выводятся с применением различных правил. Первый касается удаления ненужной и не относящейся к делу информации (например, подробных описаний, справочной информации, избыточной информации и общеизвестных знаний). Второй относится к выбору путем извлечения необходимой и релевантной информации (например, информация в ключевых разделах, выбор тематического предложения). Затем выбранные тематические сегменты указываются в форме предложений. Третье правило их модели обобщения касается обобщения и определяет конструкцию общих предложений из более конкретных. Например, из предложений, которые описывают девочек, играющих с куклами, и мальчиков, играющих с поездами, дается описание детей, играющих с игрушками. Четвертое правило, которое необходимо в повествовательных текстах, заменяет последовательности предложений отдельными предложениями, выражающими отдельные события. Подводя итог темам текста, важно сохранить акценты темы оригинала и провести четкое различие между основными и второстепенными темами.

Сводная продукция

Профессиональная абстракция включает перевод выбранного и обобщенного контента в понятное и понятное резюме. Этот шаг отсутствует, если резюме состоит из фраз, предложений или других текстовых единиц, извлеченных из исходного текста.

Основное беспокойство вызывает краткость и удобочитаемость резюме (Rowley, 1988, p. 25 и далее; Lancaster, 1991, p. 97 и далее). Обычно абстракционисты составляют черновик, который пересматривается и улучшается с помощью контрольных списков. Однако полная переформулировка выбранной информации не всегда желательна из-за опасности искажения значения исходного текста (Endres-Niggemeyer, 1989). Когда полный текст реферата используется в качестве суррогата документа в поисковых системах, другой проблемой является возможность поиска реферата. Например, рекомендуется, чтобы в нем содержалось много однозначных терминов содержания и их синонимов (Rowley, 1988, с. 31; Lancaster & Warner, 1993, с. 88).

Есть рекомендации по длине реферата. Когда аннотация представляет собой связный текст, его длина определяется различными факторами. Наиболее важным из них является объем информационных деталей содержания источника, которые будут предоставлены в реферате. Вторым фактором является длина исходного текста. Когда аннотация представляет собой сбалансированную картину наиболее важного содержания текста, идеальная длина составляет от 10% до 15% оригинала (Edmundson, 1964; Borko & Bernier, 1975, p. 69; Tombros & Sanderson, 1998), или от 20% до 30% оригинала, когда требуется больше информации (Brandow, Mitze, & Rau, 1995). С другой стороны, когда аннотация только выделяет конкретную информацию, аннотация может быть очень краткой. Иногда применяется более или менее фиксированная длина, например, минимальное и максимальное количество предложений (Edmundson, 1969; Paice, 1981; Brandow et al., 1995; Tombros & Sanderson, 1998) слов (Lancaster, 1991, p. 101) или пунктов, содержащихся в резюме (Lancaster, 1991, p. 101). Наконец, длина реферата определяется его интеллектуальной доступностью. Некоторые тексты могут быть более компактно сжаты, чем другие, оставляя понятность реферата без изменений.

5. Использование текстовых представлений

Текстовые представления давно хранятся на бумаге (например, в карточных каталогах) или на других материалах для эффективного и действенного определения содержания оригинальных текстов. Здесь мы имеем дело с использованием текстовых представлений в системах, которые хранят и извлекают документы или информацию соответственно в базе данных электронных документов и из нее. В электронной среде существуют устройства, позволяющие просматривать, искать и опрашивать текстовые представления. Две основные функции текстового представления (индикативное и информативное содержание исходного текста) в значительной степени определяют тип устройства для их доступа и использования. Мы обсуждаем использование индексных описаний и аннотаций в системах поиска и фильтрации информации, системах ответов на вопросы или извлечения информации и системах просмотра (рис. 2). В настоящее время существует тенденция интегрировать эти системы для эффективного доступа к информации в коллекциях документов (Agosti & Smeaton, 1996).

5.1 Показательные и информативные текстовые представления

Результатом индексации или абстрагирования текста является представление, функция которого должна указывать или информативна в отношении содержания текста.

Рисунок 2. Актуализация информационной потребности
Рисунок 2. Актуализация информационной потребности

Ориентировочное текстовое представление раскрывает элементы контента, на основании которых может быть решена актуальность полного исходного текста. Во-первых, он используется для просмотра коллекции документов. Вместо просмотра полных текстов документов можно просматривать индексные описания или рефераты и направлять пользователя при принятии решения просмотреть полный текст определенных документов. Во-вторых, показательное текстовое представление может использоваться в системах поиска текста. Здесь его функция заключается в фильтрации текстов в коллекции документов на основе определенных индикаторов содержания. В обоих случаях важно наличие и возможность ознакомления с оригинальными текстами документов.

Информативное текстовое представление представляет собой суррогат содержания полного текста или части полного текста. Он действует, но не обязательно, как самостоятельный продукт без ссылок на его первоначальный текст. Это особенно полезно для систем ответа на вопросы. Но он также используется в информационно-поисковых системах.

5.2 Информационно-поисковые системы

Типичная система поиска информации (IR — information retrieval) выбирает документы из коллекции в ответ на запрос пользователя и ранжирует эти документы в соответствии с их релевантностью для запроса (Salton, 1989, p. 229 и далее). Обычно это достигается путем сопоставления текстового представления с представлением запроса. Лун (1957) предложил эту процедуру.

Поисковый запрос или запрос, который является формальным представлением потребности пользователя в информации, представленной в поисковой системе, обычно состоит либо из одного термина из словаря индексации, либо из некоторой логически или численно взвешенной комбинации таких терминов. В случае, если поисковый запрос изначально сформулирован на естественном языке, формальное представление может быть получено путем применения простых методов индексации или путем анализа запроса с использованием методов обработки на естественном языке.

Абстрактные представления как текста документа, так и запроса делают возможным эффективное сравнение. Извлекаются тексты, представления которых лучше всего соответствуют представлению запроса. Обычно список возможных релевантных текстов возвращается. При поиске информации довольно статичная коллекция документов запрашивается большим количеством изменчивых запросов. Вариант формы поиска информации — маршрутизация или фильтрация (Belkin & Croft, 1992). Здесь информационные потребности являются долгоживущими, с запросами, применяемыми к коллекции, которая быстро меняется со временем. Фильтрация обычно основана на описании информационных предпочтений отдельного лица или группы пользователей, которые называются «профилями пользователей».

Поиск основан на представлениях текстового контента и информационных потребностей и их сопоставлении. Существует ряд моделей поиска, которые определяются формой, используемой для представления текста документа и запроса, а также процедурой сопоставления. И текст, и информация нуждаются в представлении, являются неопределенными и, кроме того, не всегда точное совпадение. Запросы к информационно-поисковой системе не похожи на запросы к классической базе данных. Соответствие не является детерминированным. Модели поиска часто включают этот элемент неопределенности. Кроме того, поисковые модели обычно ранжируют извлеченные документы в соответствии с их потенциальной релевантностью для запроса. Вот почему их иногда называют моделями ранжирования (Harman, 1992a). Поскольку поисковые модели разрабатываются в среде с документами, которые были проиндексированы вручную с помощью набора терминов, многие модели используют эту форму текстовых дескрипторов. Далее мы дадим обзор наиболее распространенных поисковых моделей.

Булева модель

В самой старой модели, булевой модели поиска (Salton, 1989, p. 235 и далее; Smeaton, 1986), запрос имеет форму выражения, содержащего термины индекса и булевы операторы (например, «и», «или», «Не») определено на условиях. Модель поиска сравнивает логический оператор запроса с наборами терминов, используемыми для идентификации содержимого документа. Документ, условия индекса которого удовлетворяют запросу, возвращается как релевантный. Эта поисковая модель все еще используется во многих коммерческих системах. Это мощная поисковая модель, когда пользователи поисковой системы обучаются проектированию булевых запросов. В чисто булевой модели ранжирование документов по релевантности не предусмотрено. Варианты модели обеспечивают ранжирование на основе частичного выполнения выражения запроса.

Модель векторного пространства

В модели поиска векторного пространства (Salton, 1989, p. 313 и далее; Wang, Wong, & Yao, 1992) документы и запросы представлены в виде векторов в векторном пространстве, причем релевантность документа для запроса вычисляется как мера расстояния. И запрос, и документы представлены в виде векторов терминов в форме:

\(D_m\;=\;(a_{m1},\;a_{m2},\;.\;.\;.,\;a_{mn})\)
\(Q_k\;=\;(q_{k1},\;q_{k2},\;…,\;q_{kn})\)

где коэффициенты  \(a_{mi}\) и \(q_{ki}\) представляют значения индексного члена \(_{i}\) в документе \(D_m\) и \(Q_k\) соответственно. Обычно \(a_{mi}\) (или \(q_{ki}\)) устанавливается равным 1, когда термин i появляется в документе \(D_m\) или запросе \(Q_k\) соответственно, и равным 0, когда термин отсутствует (векторы с двоичными терминами). В качестве альтернативы, векторные коэффициенты могут принимать числовые значения, указывающие вес или важность терминов индекса (вектор с взвешенными терминами). В результате текст документа и запрос представляются в n-мерном векторном пространстве (с n = количеством различных терминов в наборе индексных терминов коллекции).

Сравнение документа и вектора запроса выполняется путем вычисления сходства между ними (Jones & Furnas, 1987). Наиболее распространенными функциями подобия являются функция косинуса, которая вычисляет косинус угла между двумя векторами слагаемых, и внутреннее произведение, которое вычисляет скалярное произведение между векторами слагаемых. Результатом сравнения является ранжирование документов по их сходству с запросом.

Векторная модель очень популярна и успешна в исследовательских и коммерческих системах из-за простоты представления, ее применения в неограниченных предметных областях и для различных типов текста и простых операций сравнения. Он подвергся критике за то, что не точно представляет запросы и документы (Raghaven & Wong, 1986). Он адаптирует упрощающее предположение, что члены не коррелированы, а векторы членов попарно ортогональны. Тем не менее, многие полезные и интересные результаты поиска были получены, несмотря на упрощающие предположения.

Вероятностная модель

Модель вероятностного извлечения (Fuhr, 1992) рассматривает извлечение как проблему оценки вероятности того, что представление документа соответствует или удовлетворяет запросу. Термин «вероятностная модель поиска» обычно используется для обозначения поисковых моделей, которые дают вероятность того, что документ релевантен для запроса, и ранжируют документы в соответствии с этими вероятностями («Принцип ранжирования вероятностей») (Robertson, 1977; Croft & Turtle, 1992). С этой точки зрения многие поисковые модели можно рассматривать как вероятностные. Часто термин специально относится к поисковым моделям, которые узнают вес терминов запроса из документов, которые признаны релевантными или не относящимися к запросу и которые содержат или не содержат термины. Самые ранние вероятностные модели, которые изучают вес или вероятность термина запроса из учебного корпуса, описаны Maron и Kuhns (1960) и Robertson and Sparck Jones (1976). Текущие модели используют более точные статистические методы, такие как 2-пуассоновские распределения (Robertson & Walker, 1994) и логистическая регрессия (Gey, 1994) для оценки этой вероятности. При оценке вероятности релевантности документа запросу, предполагается независимость термина.

Вероятностные модели используются в некоторых коммерческих системах и активно исследуются.

Следующие две модели определяют релевантность документа из запроса. Вывод основывается на знаниях, которые отражают свойства предметной области, на лингвистических знаниях и / или знаниях предполагаемых поисковых стратегий пользователя. Знания вносят вклад в построение семантически богатых представлений содержимого документа и запроса. Предполагается, что эти семантические представления помогают в идентификации значимых документов для пользователя. Стратегия вывода в обеих моделях различна. В модели сети логический вывод основан на комбинации свидетельств, распространяемых в сети. В логической модели логические правила используются для определения релевантности документа для запроса. Обе модели предоставляют возможность рассуждения с неопределенностью. Их основным узким местом является приобретение и внедрение баз знаний.

Модель сети

В модели поиска по сети (Croft & Turtle, 1992; Turtle & Croft, 1992) содержимое документов и запросов представлено в виде сетей. Оценка релевантности документа осуществляется путем связывания сетей запросов и документов и выведения релевантности документа для запроса. Модель также хорошо подходит для рассуждений с неопределенной информацией: байесовские сети используются для вероятностного представления содержания документов и запросов и для вероятностного вывода (Del Favero & Fung, 1994; Fung & Del Favero, 1995).

Сети очень хорошо подходят для представления структуры и содержания документов и запросов. Сети имеют вид направленных ациклических графов (тип DAG). Модель логического вывода популярна в поиске информации. В типичных случаях узлы сети документов представляют идентификаторы, понятия или термины индекса. Каждый документ обычно имеет текстовый узел, который соответствует определенному текстовому представлению и состоит из компонентов, составляющих представление. Документ может иметь несколько текстовых узлов, которые генерируются с использованием различных методов индексации. Возможны промежуточные уровни в представлении (например, концепции и их обозначающие термины в текстах). Отношения между узлами в сети могут быть вероятностными или взвешенными. Каждый набор дуг в узле представляет (вероятностную) зависимость между узлом и его родителями (узлами на других концах входящих дуг). Часто сеть документов создается для полного сбора документов. Аналогичное представление создается для запроса. Эти две сети связаны своими общими понятиями и образуют логическую или причинную сеть.

Поиск — это процесс вывода в сеть. Особенно байесовский вывод, примененный к нескольким источникам неопределенных доказательств, привлекателен в контексте поиска информации. Извлечение — это процесс объединения неопределенных доказательств из сети и вывода о том, что документ является релевантным. Это убеждение вычисляется как распространение вероятностей от узла документа к узлу запроса. Документы ранжируются в соответствии с этим убеждением актуальности.

Логическая модель

Логическая модель поиска (van Rijsbergen, 1986; Chiaramella & Chevallet, 1992; Lalmas, 1998) предполагает, что запросы и документы могут быть представлены логическими формулами. Затем поиск выводит релевантность документа для запроса. Приведенная выше логическая модель основана на логике. Но типичная логическая модель будет использовать информацию в запросе и документе в сочетании со знанием предметной области, лингвистическими знаниями и знанием интересов и стратегий пользователей из кодированной базы знаний. Знания будут использоваться функцией сопоставления как часть доказательства того, что документ подразумевает запрос.

Релевантность документа для запроса определяется применением правил вывода. В логической модели релевантность документа для запроса определяется как: С учетом запроса Q и документа D, D относится к Q, если D логически подразумевает Q (D-> Q). Булева логика слишком ограничена для этой задачи. Он не может иметь дело с временными и пространственными отношениями, особенно с противоречивой или неопределенной информацией. Чтобы справиться с неопределенностью, вводится логика вероятностного вывода с понятием неопределенной импликации: D логически подразумевает Q с уверенностью P (P (D-> Q)). Оценка функции неопределенности P связана с количеством семантической информации, которая необходима для доказательства того, что D-> Q. Ранжирование в соответствии с релевантностью зависит от количества преобразований, необходимых для получения соответствия, и достоверности преобразований. Для представления неопределенных последствий и причин с их помощью иногда используется модальная логика (Nie, 1989; van Rijsbergen, 1989; Chiaramella & Nie, 1990; Nie, 1992). Например, когда сопоставление между запросом и текстовым представлением не является успешным, текстовое представление преобразуется, чтобы удовлетворить другие возможные интерпретации (см. Возможные миры модальной логики), которые могут соответствовать запросу.

В мультимедийной среде извлечение на основе логики имеет преимущество, заключающееся в простой интеграции текстовых представлений с другими формами представлений документов (например, логическая структура, содержание изображений) (см. Bruza & van der Weide, 1992; Chiaramella & Kheirbek, 1996; Fuhr, Gövert, & Rolleke, 1998).

Модель кластера

В кластерной модели поиска запрос ранжируется по группе документов (van Rijsbergen, 1979, p. 45 и далее; Griffiths, Luckhurst, & Willett, 1986; Salton, 1989, p. 341 и далее; Hearst & Pedersen, 1996 ). Общее предположение состоит в том, что взаимно схожие документы будут иметь тенденцию быть релевантными для одних и тех же запросов, и, следовательно, автоматическое определение групп таких документов повышает эффективность поиска соответствующих документов и может улучшить отзыв поиска. Подобные документы сгруппированы в кластер. Для каждого кластера создается представление (например, средний вектор (центроид) кластера), с которым сопоставляется запрос. После сопоставления запрос извлекает все документы кластера. Как правило, корпус с фиксированным текстом объединяется либо в исчерпывающий раздел, непересекающийся или иным образом, либо в иерархическую древовидную структуру. В случае раздела запросы сопоставляются с кластерами, и в результате возвращается содержимое лучших кластеров с оценками, возможно, отсортированных по количеству баллов. В случае иерархии, запросы обрабатываются в нисходящем направлении, всегда принимают наибольшую ветвь оценки, пока не будет достигнуто некоторое условие остановки. Поддерево в этой точке затем возвращается в результате. Гибридные стратегии также доступны. Документы и запросы обычно представлены как векторы терминов. Сходство между парами векторов вычисляется с помощью функций сходства (см. Выше). Доступны различные алгоритмы кластеризации термина «вектор документов» (обзор см. В Willett, 1988).

5.3 Системы вопросов и ответов

Система ответа на вопросы или извлечения информации — это система, которая синтезирует ответ из одного или нескольких текстов документов. В отличие от системы поиска, которая извлекает документы, в которых можно найти ответ, запрос в системе, отвечающей на вопросы, извлекает конкретную информацию из документов. Ответы обычно извлекаются или выводятся из текстовых представлений. Системы ответов на вопросы используют текстовые представления, которые являются реальными заменами содержимого исходного текста или части этого содержимого.

Представления имеют явную и правильную форму. Они часто имеют форму инстанцированных фреймов, слоты которых содержат запрашиваемую информацию (например, Young & Hayes, 1985). Отношения могут быть определены между кадрами. Фреймы формируют информацию или базу знаний для ответа на запросы. Когда эта информационная база представляет собой чистый набор фактов, ее опрос похож на запрос классической базы данных. Когда определены сложные взаимосвязи фреймов, набор текстовых представлений составляет реальную базу знаний. В этом случае запрос больше похож на вывод ответов из базы знаний. Когда отношения между кадрами являются неопределенными, необходима форма байесовского вывода или логика, которая имеет дело с неопределенностью.

5.4 Системы просмотра

Системы просмотра или навигации обычно являются частью гипертекстовых и гипермедиа систем и позволяют пользователям просматривать коллекции документов в поисках ценной информации. Текстовые представления, особенно текстовые рефераты, могут быть частью гипертекстовой системы. Тезисы просматриваются последовательно (как листая книгу) или не последовательно. Просмотр или навигация могут осуществляться в коллекции отдельных текстовых представлений или в коллекции документов с определенными связями между текстовыми представлениями и их исходными текстами. Преимущество систем просмотра заключается в том, что пользователям не нужно генерировать описания того, что они хотят, или заранее указывать темы, в которых они заинтересованы, а просто указывать документы, которые они считают уместными. Такой способ доступа к информации полезен, когда у пользователя нет явной потребности, он не может точно выразить свою потребность или является случайным пользователем информации (Allen, 1990; Croft, Krovetz & Turtle, 1990; Hearst, 1994). Просмотр текстовых рефератов действует как дополнительный фильтр к документам, которые извлекаются как ответ на информационную потребность, и делает их выбор более простым, точным и быстрым (Tombros & Sanderson, 1998).

Есть несколько других способов, которыми текстовые представления могут быть полезными частями систем просмотра. Содержательные дескрипторы текста являются полезными компонентами устройств, которые направляют пользователя коллекции в его или ее выборе документов. Их присутствие на тематических картах или в оглавлениях является ценным (Cutting, Karger, Pedersen, & Tukey, 1992). В продвинутых системах текстовые представления могут помочь в автоматическом создании ссылок между текстами, которые обрабатывают идентичное и похожее содержимое, при связывании текстов, имеющих сходные представления (Lucarella & Zanzi, 1996; Salton, Allan, Buckley & Singhal, 1996).

6. Примечание о хранении текстовых представлений

Мы даем краткий обзор важных структур данных, которые используются для хранения текстовых представлений, чтобы они были доступными для поиска, просмотра и сомнительными. Для более подробного обзора существующих структур данных, мы обращаемся к Frakes и Baeza-Yates, 1992, p. 28 ff и Kowalski, 1997, p. 65 фф. Важны два аспекта структуры данных: способность представлять понятия и отношения и способность поддерживать расположение этих понятий в коллекции документов.

В поисковом приложении наиболее распространенной формой является хранение индексных терминов и их привязка к документам в инвертированном индексе или в инвертированном файле. Для каждого термина в инвертированном файле хранятся идентификаторы или адреса всех документов, проиндексированных этим термином. Полный инвертированный файл сначала представляется в виде массива проиндексированных документов, где каждая строка представляет адрес документа, а в каждом столбце — назначение конкретного термина для документа (двоичное значение, указывающее на наличие или отсутствие термина или веса термина). ). Затем массив терминов документа транспонируется (так называемый инвертированный) таким образом, что каждая строка транспонированного массива определяет документы, соответствующие некоторому конкретному термину. Информация о местонахождении термина в документе может быть добавлена.

Другой доступной для поиска структурой данных в среде поиска является структура n-граммы, которая разбивает слова и фразы текстового представления на более мелкие строковые единицы из n символов и использует эти фрагменты для поиска. Это позволяет искать разные морфологические формы слов.

Файлы подписи содержат подписи или битовые шаблоны, которые представляют собой индексные термины документов. Подписи могут быть эффективно найдены. В методе общей подписи документы разбиваются на логические блоки, каждый из которых содержит фиксированное количество терминов индекса. Каждое слово в блоке хэшируется, чтобы дать сигнатуру, которая представляет собой битовую комбинацию с некоторыми битами, установленными в 1. Сигнатуры каждого слова в блоке объединяются или объединяются для создания сигнатуры блока. Подписи блока затем объединяются для создания подписи документа. Поиск можно эффективно выполнить, сравнив подписи запросов с документами.

В системах ответов на вопросы текстовые представления могут храниться в виде набора фактов в базе данных. Чаще всего они хранятся в виде фреймов в базе знаний и используются системами, основанными на знаниях, или экспертными системами. Из-за портативности и простоты обслуживания знаний базы знаний обычно хранятся отдельно от механизма логического вывода, основанного на знаниях.

В среде просмотра текстовое представление часто хранится в виде гипертекста на языке разметки гипертекста (HTML) и связывается с исходным текстом. HTML определяет внутреннюю структуру для обмена информацией через всемирную сеть в Интернете. Он определяет язык разметки для разметки и отображения гипертекста, а также для определения связей между текстовыми объектами. Гипертекстовая ссылка может быть привязкой, указывающей положение текста, когда исходный текст, на который ссылаются, сохраняется в том же файле, что и его представление. Это также может быть имя файла, когда ссылочный элемент хранится на том же компьютере, что и ссылочное представление, или URL (Uniform Resource Locator), который указывает протокол доступа, интернет-адрес сервера, на котором хранится элемент, и имя файла элемента.

7. Характеристики хороших текстовых представлений

Конечная цель индексации и абстрагирования состоит в том, чтобы увеличить отзыв, долю соответствующих документов, которые просматриваются или извлекаются в системе просмотра и поиска соответственно, а также повысить точность, долю просматриваемых или извлекаемых документов, которые имеют отношение к делу (см. Солтон, 1989, с. 277 и далее). Высокий уровень отзыва в системе вопросов и ответов относится к высокой доле правильных ответов с учетом доступных ответов, в то время как высокая точность касается высокой доли правильных ответов среди ответов (Chinchor, 1992; Chinchor, Hirschman, & Lewis, 1993) , Текстовое представление, являющееся результатом индексации и абстрагирования, имеет ряд характеристик, чтобы повысить отзыв и точность выбранных документов или информации. В зависимости от применения каждая характеристика имеет различную степень важности. Некоторые из этих характеристик могут быть описаны исключительно со ссылкой на исходный текст. Другие определяются по отношению к другим текстовым представлениям в коллекции документов. Ниже приведены некоторые важные характеристики, некоторые из которых представляют противоречивые требования.

1. Основной характеристикой представления текста является способность представлять предметность или темы текста документа (Maron, 1977; Hutchins, 1985). Идентификация темы высоко ценится в системах просмотра, поиска и фильтрации, особенно когда эти системы работают в общих настройках (например, в публичных библиотеках, в Интернете). Кроме того, он подразумевает способность представлять потенциальные значения, которые текст имеет для своих пользователей (Hutchins, 1977; Salton & McGill, 1983, p. 54; Hutchins, 1985; Lancaster, 1991, p. 8; Fidel, 1994). Это может быть реализовано путем более детального индексирования или абстрагирования, приводящего к представлению подтем и конкретной информации исходного текста. Эта «ориентация на пользователя» в индексировании и абстрагировании позволяет осуществлять точный выбор тематического контента. Это свойство высоко ценится в информационно-поисковых системах, которые используются специалистами и экспертами (например, в исследовательских библиотеках, базах данных медицинских документов) и в системах ответов на вопросы.

2. В отличие от вышеизложенного, текстовое представление часто является сокращением содержания исходного текста. Это сокращение может быть результатом обобщения или выбора контента. Эта характеристика важна при извлечении или фильтрации информации из больших коллекций документов (Sparck Jones, 1991). Когда индексные описания или рефераты используются в качестве предварительного просмотра текста в системах просмотра или навигации, этот сокращающий символ также является фундаментальным.

3. Недостаточно, чтобы текстовое представление было хорошим описанием содержания исходного текста. Это должно позволить отличить его содержание от содержимого других текстовых представлений (Lewis & Sparck Jones, 1996). Эта характеристика особенно полезна в системах просмотра и поиска, когда текстовое представление должно отличать соответствующие документы от многих не относящихся к делу. Если текстовое представление уменьшает содержание, оно, естественно, уменьшает разницу с другими текстовыми представлениями. Опять же, быть дискриминационным и быть редуцирующим не всегда идет рука об руку.

4. При просмотре больших коллекций документов или получении информации из них важно ознакомиться со всеми соответствующими документами. В этих коллекциях, когда сходные текстовые представления группируются, тексты можно эффективно извлекать или обращаться к ним с высокой степенью напоминания (см. Модель поиска с кластеризацией) (Lewis & Sparck Jones, 1996). В этом случае текстовые представления должны содержать элементы содержимого, позволяющие группировать. Эта характеристика также противоречит вышеупомянутому требованию быть дискриминационным.

5. Наконец, текстовое представление нормализует лексические и концептуальные вариации исходного текста (Хатчинс, 1975, с. 37 и далее). Эта характеристика выгодна в системах поиска и фильтрации информации, и особенно важна в системах ответов на вопросы.

Сами текстовые представления оцениваются по критериям исчерпанности, специфичности, правильности и согласованности (Salton & McGill, 1983, стр. 55; Lancaster & Warner, 1993, стр. 81 и далее; Soergel, 1994):

1. Исчерпанность (Exhaustivity) относится к степени, в которой все понятия и понятия, включенные в текст, распознаются в его описании, включая основные темы и те, которые рассматриваются лишь кратко.

2. Специфичность (Specificity) относится к степени обобщения представления.

3. Правильность (Correctness) важна. Индексирование и абстрагирование подвержены двум видам ошибок: ошибки пропуска и ошибки комиссии. Первый относится к описанию контента, которое должно быть назначено, но опущено. Последнее относится к описанию контента, которое не должно присваиваться, но тем не менее присваивается. Пропуск правильного описания и назначение более широкого, более узкого или связанного описания — это особый вид ошибки, который одновременно является ошибкой упущения и комиссии. Корректность сравнивает фактическое текстовое представление с идеальным.

4. Согласованность (Consistency) сравнивает представления, сделанные из одного и того же исходного текста в разных контекстах (например, сгенерированные разными методами).

При оценке автоматической индексации и абстрагирования трудно дать исчерпывающую оценку и конкретность. Текущая оценка подчеркивает правильность и последовательность. Автоматическая индексация и суммирование текста обычно рассматриваются как задачи обработки на естественном языке. Критерии, применяемые при оценке эффективности таких задач, обычно подразделяются на две основные категории: внутреннюю и внешнюю (Sparck Jones & Galliers, 1996, p. 19ff.). Внутренние критерии — это те, которые относятся к цели системы, внешние критерии — это те, которые влияют на ее функцию, то есть на ее роль по отношению к цели ее установки. Часто это зависит от типа текстового представления, является ли оценка внутренней или внешней. Например, значение извлеченных терминов индекса естественного языка, как правило, измеряется путем вычисления возврата и точности поиска текстов на основе представлений, которые содержат термины, что является внешней оценкой. С другой стороны, предмет и классификационные коды контролируемого языка оцениваются путем измерения степени извлечения и точности назначенных терминов по сравнению с их ручным назначением экспертами, что является внутренней оценкой. При обсуждении методов автоматической индексации и абстрагирования в следующей части, оценка будет кратко описана с каждым основным подходом. Принято считать, что оценка индексации и абстрагирования текста требует дальнейших исследований (см. Hersh & Molnar, 1995).

Идея исчерпывающего, многофункционального текстового представления для управления текстами документов является привлекательной. Это позволяет создавать несколько видов одного и того же текста и, следовательно, выбирать конкретную информацию, соответствующую различным потребностям (см. Soergel, 1994; Lucarella & Zanzi, 1996; Frants, Shapiro, & Voiskunskii, 1997, p. 139 и далее). Кроме того, когда атрибуты содержимого имеют взвешенные значения, которые отражают важность содержимого, это позволяет увеличивать и уменьшать информационную детализацию содержимого текста (см. Fidel, 1994). На разных уровнях детализации информации можно отличить текстовые представления от других в коллекции или, если необходимо, групповые представления. Такое исчерпывающее текстовое представление может объединять различные типы представлений содержимого (например, термины индекса на естественном языке и контролируемого языка, извлеченные слова, фразы и другие информационные единицы) (см. Strzalkowski et al., 1997). Новые формы текстовых представлений, безусловно, будут проверены в будущем.

8. Выводы в Главе 3

В этой главе мы описали традиционные формы индексирования описаний и рефератов, а также их преимущества и недостатки. Мы также обрисовали в общих чертах интеллектуальный процесс индексации и абстрагирования и увидели, что эти когнитивные процессы в значительной степени зависят от текстовых структур и повторяющихся шаблонов слов для идентификации содержания текстов. В главе 1 мы подробно рассмотрели необходимость и возрастающую важность систем, которые автоматически создают полезные и правильные текстовые представления в виде индексных описаний и аннотаций. Использование текстовых представлений в системах просмотра, поиска и ответов на вопросы подтверждает эту необходимость.

В следующей части мы дадим подробный обзор существующих методов автоматической индексации и абстрагирования. Они включают в себя методы идентификации ключевых терминов (терминов индекса естественного языка) в текстах, присвоение фиксированных дескрипторов (терминов индекса контролируемого языка) текстам и методы обобщения текста.

 

Часть 2 — Методы автоматической индексации и абстрагирования

Глава 4 — Автоматическая индексация: выбор терминов индексации на естественном языке

1. Введение в Главу 4

Большинство существующих методов автоматической индексации выбирают термины индекса естественного языка из текста документа. Выбранные термины индекса относятся к отдельным словам и словосочетаниям и, как предполагается, отражают содержание текста. Они могут быть непосредственно извлечены из заголовка, аннотации и полного текста документа. Это был Лун (1957), который первым предположил, что определенные слова могут быть автоматически извлечены из текстов, чтобы представить их содержание. До сих пор поисковые системы, работающие в Интернете, индексируют документы, основанные на этом принципе (Szuprowicz, 1997, p. 43 и далее). Однако не все слова в тексте являются хорошими индексными терминами, а слова, которые являются хорошими индексными терминами, не способствуют одинаково при определении содержания текста. Ряд методов помогает в определении и взвешивании надежных терминов содержания.

Преобладающий процесс выбора терминов индекса естественного языка из текстов, отражающих его содержание, состоит из следующих этапов (см. Salton, 1989, p. 303 ff.):

1. идентификация отдельных слов текста, называемая лексическим анализом;
2. удаление функциональных слов и очень часто встречающихся терминов в предметной области, которые недостаточно специфичны для представления контента с использованием стоп-листа;
3. необязательное приведение оставшихся слов к их основополагающей форме, называемой stemming;
4. необязательное формирование фраз в качестве индексных терминов;
5. необязательная замена слов, основ слов или фраз их
6. вычисление веса каждого оставшегося слова, основы или слова, терминов класса тезаурус; Термин «класс тезауруса» или термин «фраза».

Возможен вариант заказа вышеуказанных шагов. Например, распознавание фраз может происходить до удаления функциональных слов. Прежде чем обсуждать различные этапы, кратко описывается оценка выбранных терминов индекса естественного языка. Мы заканчиваем эту главу перечислением достижений и проблем техники. Поскольку замена слов или основ слов их классовыми терминами тезауруса касается индексации с помощью словаря контролируемого языка, мы обсудим этот пункт в следующей главе.

2. Примечание об оценке

Выбор терминов индекса на естественном языке обычно оценивается внешним способом (см. Sparck Jones & Galliers, 1996, p. 19 и далее). Внешняя оценка оценивает качество индексных терминов на основе того, как индексные термины выполняют какую-то другую задачу. Обычно определяется, как они влияют на эффективность поиска, когда выбор документа основан на этих условиях. Эффективность извлечения обычно измеряется с точки зрения отзыва и точности:

recall and precision
recall and precision

отзыв = количество соответствующих документов извлечено / общее количество соответствующих документов в коллекции

точность = количество соответствующих документов извлечено / общее количество документов, извлеченных из коллекции

3. Лексический анализ

Лексический анализ начинается, когда текст уже хранится в электронном виде и может рассматриваться как последовательность символов. Лексический анализ — это процесс преобразования входного потока символов в поток слов или токенов (Fox, 1992). Слово или токен определяется как строка символов, разделенных пробелом и / или пунктуацией. Лексический анализ создает кандидатные термины индекса, которые могут быть дополнительно обработаны и в конечном итоге выбраны как термины индекса.

Распознавание отдельных слов кажется простым процессом, но это не всегда просто:

1. Сокращения (например, «ср.») Могут быть перепутаны со словами, оканчивающимися на точку в конце предложения.

2. Трудное и зависящее от языка решение состоит в том, следует ли разбивать дефисные термины на составляющие их слова или сохранять их как единичные индексные термины. В английском и голландском языках некоторые сложные слова могут быть образованы через дефис. Разделение терминов переноса слов повышает вероятность отзыва, когда термины используются для поиска, но снижает точность. Кроме того, дефисы могут быть частью собственного имени (например, «MS-DOS») или могут разбивать одно слово на слоги в конце строки в переносимом тексте.

3. Числа в текстах обычно не составляют хорошие термины индекса и часто пренебрегают.

Во время лексического анализа часто делают небольшие преобразования в словах.

1. Регистр букв обычно не имеет значения в индексных терминах, и все символы могут быть преобразованы в нижний или верхний регистр. Следует соблюдать осторожность при использовании правильных названий фраз. Сохранение различий в регистре индексных терминов обычно повышает точность, но уменьшает количество запросов на поиск.

2. Аббревиатуры и сокращения могут быть преобразованы в их исходный формат с использованием машиночитаемого словаря.

Лексический анализ широко изучается для задач обработки текста. Широко распространенным подходом является трактовка лексического анализатора как конечного автомата или конечного автомата (Aho, Sethi, & Ullman, 1986, p. 113 и далее). Конечный автомат (Krulee, 1991, с. 167 и далее) является наиболее простым для распознавания, если определенная входная строка разрешена в предопределенном синтаксисе языка. При синтаксическом анализе входной строки конечный автомат запускается из начального состояния или конфигурации, затем с помощью шагов, которые определяют переход из одного состояния в другое, машина считывает последовательности ввода, пока не будет достигнуто конечное состояние, и ввод Строка полностью обработана. В конечном автомате определено только конечное число состояний. Лексические анализаторы на основе конечного автомата распознают отдельные слова, читая поток вводимых символов, пока не будет найден какой-либо символ, кроме буквы или цифры. При чтении символа или слова его можно изменить (например, заменить другим символом или словом). Такая информация о переводе может быть закодирована в таблицах или в потоке управления.

4. Использование стоп-листа

Слова текста не имеют одинакового значения для целей индексации. Стоп-лист или отрицательный словарь — это машиночитаемый список слов (стоп-слов), которые нельзя выбрать в качестве индексных терминов (Salton, 1975a, стр. 30 и далее; Salton, 1989, стр. 279; Fox, 1992). Как правило, стоп-лист используется для исключения слов, которые не влияют на содержание текста. Когда это делается на ранних этапах процесса индексации, исключение стоп-слов имеет дополнительное преимущество, заключающееся в том, что дальнейшая обработка возможных индексных терминов становится более эффективной и сокращается объем их памяти. Стоплисты различаются по размеру (например, большинство стоп-листов на английском языке содержат от 50 до 400 слов).

Существуют разные методы создания стоп-листа.

1. Некоторые классы слов являются лучшими индикаторами содержания текста, в то время как другие содержат функциональные слова, которые служат грамматическим целям и не относятся к объектам или понятиям (например, «the», «and», «of») (см. Главу 2). Функциональные слова составляют большую часть текстов. Крайне важно исключить их как индексные термины. Слова, принадлежащие к синтаксическим классам, которые составляют функциональные слова, образуют общий стоп-лист (например, Hoch, 1994). Обратная стратегия выбирает слова в качестве индексных терминов, когда они принадлежат к определенному синтаксическому классу (например, существительные) (Luhn, 1957; Приходько и Скороходько, 1982).

2. Наиболее распространенный способ создания стоп-листа — это включение наиболее часто встречающихся слов (Luhn, 1957; Salton, 1989, p. 279). Это основано на обнаружении того, что частота появления функционального слова намного выше, чем частота появления информационного слова. Либо стоп-лист составляется с учетом наиболее часто встречающихся слов общего корпуса, который отражает широкий круг предметов, что приводит к общему стоп-листу (например, стоп-лист для английского языка, полученный из корпуса Брауна: Fox, 1989), либо составлен путем наблюдения за частотой слов в коллекции документов, которая должна быть проиндексирована, в результате чего создается стоп-лист для конкретного домена. Пороговое значение задается для определения количества слов, которые должны быть включены в стоп-лист (например, 200 наиболее часто встречающихся слов), или для определения их минимальной частоты появления. В редких случаях слова с очень низкой частотой обратной частоты документа (см. Ниже) считаются стоп-словами. Тем не менее, частота появления слова в корпусе документа не является 100% обоснованным критерием важности контента. Например, возможно, что слова, которые часто встречаются в корпусе, являются важными индексными терминами. Это тот случай, когда подмножество базы данных документов содержит несколько текстов, относящихся к одной и той же теме. Также возможно, что специализированная текстовая база данных содержит слова, бесполезные в качестве индексных терминов, которые не часто встречаются на стандартном языке или в базе данных.

3. Поскольку функциональные слова имеют тенденцию быть маленькими, иногда все короткие слова, которые содержат меньше порогового значения количества символов, удаляются из текста (Ballerini et al., 1997). Использование списка анти-стоп-слов предотвращает удаление важных коротких слов.

4. Более агрессивный метод удаления специфичных для предметной области стоп-слов использует набор обучающих текстов и информацию об их родстве в обучающем наборе (Wilbur & Sirotkin, 1992; Yang & Wilbur, 1996). Оценка слова отражает, насколько важно слово для идентификации текстов, которые связаны друг с другом (то есть текстов, которые относятся к одной и той же теме). Эта оценка рассчитывается на основе распределения слов по связанным текстам. Стоп-слова — это слова с низким баллом.

Создание стоп-листа — это процесс, который происходит до фактической индексации отдельных текстов. Удаление слов стоп-листа во время автоматической индексации может рассматриваться как проблема поиска. Потенциальный индексный термин проверяется по стоп-листу и исключается как кандидатный индексный термин, если он там найден. Поиск в стоп-листе более эффективен с помощью бинарного поиска или хэширования. Удаление стоп-слов часто интегрируется в лексический анализатор (Fox, 1992).

5. Морфологический поиск

Еще одна методика, которая может улучшить качество автоматической индексации — это стеминг (stemming). Связывание или объединение слов — это процесс сведения морфологических вариантов слов к их основанию или корню (например, сопоставление форм единственного и множественного числа одного и того же слова с одним основанием). Программа, которая выполняет отображение, называется стеммером. Предполагается, что слова с одинаковым основанием семантически связаны и имеют одинаковое значение для пользователя текста.

Стемминг в области поиска информации направлен на улучшение соответствия между индексными терминами запроса и текстом документа. Шансы на совпадение увеличиваются, когда термины индекса сводятся к основам их слов. Стемминг, таким образом, является средством, улучшающим отзыв, для расширения индексного термина в текстовом поиске (Salton, 1986). Кроме того, стемминг сокращает число индексных терминов, отображая морфологические варианты в стандартную форму. Следовательно, размер текстового представления уменьшается, что выгодно с точки зрения хранения.

Существует четыре основных автоматических подхода к решению проблемы морфологического поиска:

1. Метод поиска в таблице является наиболее простым методом и требует, чтобы термины и их основы были сохранены в таблице или машиночитаемом словаре (Frakes, 1992). Стемминг осуществляется с помощью поиска в таблице. Преимущество этого метода заключается в том, что результаты определения в основном правильные. Тем не менее, таблица становится большой, когда она принимает во внимание термины на стандартном языке и, возможно, термины в специализированной предметной области текстового корпуса. Большие таблицы требуют больших пространств памяти и эффективных алгоритмов поиска (например, двоичное дерево поиска, хеш-таблица).

2. Наиболее часто используются алгоритмы удаления аффиксов, которые удаляют суффиксы и / или префиксы из терминов, выходящих из основы (Frakes, 1992). Эти алгоритмы также преобразуют результирующий ствол (например, от «a» к «u» в «run», чтобы «запустить»; ср. На голландском языке: «т.е.» в «oo» в «liep» в «loop»). Стефлер Lovins (1968) удаляет суффиксы, используя алгоритм самого длинного соответствия. Он удаляет максимально длинную строку символов из слова в соответствии с набором правил. Этот процесс повторяется до тех пор, пока больше не будут удалены символы. Даже после того, как все символы были удалены, основы могут быть неправильно объединены. Затем лингвистические знания используются для перекодирования ствола. Алгоритм Портера (Porter, 1980) удаляет аффиксы, применяя набор правил. Правила также учитывают трансформации ствола. Алгоритмы удаления аффиксов могут стать довольно изобретательными и использовать много выводов из лингвистических знаний о внутренней структуре слов для генерации правильных сокращений (Krovetz, 1993). Знание алгоритмов удаления аффиксов зависит от языка.

3. Преемники буквы преемника (Hafer & Weiss, 1974) изучают морфемы из большого количества примеров слов. Они используют частоты буквенных последовательностей в совокупности текстов в качестве основы для определения. Для каждой возможной последовательности начальных букв слова вычисляется количество вариантов последовательных букв (отдельных букв) в корпусе. Сорт-преемник имеет тенденцию к уменьшению слева направо, тогда как на границах морфем (например, после аффикса) сорт-преемник возрастает. Вычислив множество вариантов-преемников для тестового слова и отметив пики, мы можем обнаружить морфемы слова. Когда в конце слова разнообразие преемников становится очень низким, суффиксы обнаруживаются, рассматривая слово и слова в корпусе в обратном буквенном порядке. Эвристика определяет, является ли найденная морфема стеблем или аффиксом. Когда морфема совпадает с другими корпусными словами, это, вероятно, ствол. Когда сегмент встречается как первая (последняя) часть в нескольких разных словах, это, вероятно, префикс (суффикс). Преимущество этого метода состоит в том, что он может адаптироваться к изменяющимся текстовым коллекциям и языкам, но метод не отличает флективные от деривационных аффиксов.

4. Наконец, метод n-граммы объединяет термины на основе количества ngram, которые они разделяют. N-грамм — это последовательность из n последовательных букв. Adamson и Boreham (1974) вычисляют количество уникальных совпадающих биграмм в парах слов (вычисляется с помощью коэффициента Кости1). Биграмм — это пара последовательных букв. Сюй и Крофт (1998) используют триграммы. Термины, которые сильно связаны по количеству общих n-граммов, сгруппированы в группы связанных слов. Эвристическая помощь в обнаружении корневой формы (см. Выше) или специальные кластерные алгоритмы могут быть полезны для этой задачи (например, кластерные алгоритмы, основанные на выборе объектов представления, см. Главу 8). Опять же, этот метод не делает различий между афлективными и деривационными аффиксами.

Многие стеммеры были разработаны для английского языка (обзор см. Frakes, 1992). Двумя наиболее распространенными стеммерами для английского языка являются стеммеры Lovins (Lovins, 1968) и стеммеры Porter (Porter, 1980). Kraaij и Pohlmann (1996) использовали алгоритм Портера для разработки родословного для голландского языка и разработали дополнительный инфлекционный и деривационный родословный, используя машиночитаемый словарь голландских слов. В голландском языке именные соединения обычно образуются путем объединения двух (или более) слов для создания одного орфографического слова (например, «fiets» + «wiel» = «fietswiel» («велосипед» + «колесо» = «велосипедное колесо»)) , Основы голландского языка расширяются с помощью составного анализатора (разделителя слов) (Vosse, 1994, цитируется в Kraaij & Pohlmann, 1996). Этот инструмент нацелен на разбиение соединения на его компоненты (основы), применяя правила словосочетания и лексикон.

Автоматическая остановка может привести к чрезмерной и недостаточной остановке. Первый относится к случаю, когда удаляется слишком много термина, что приводит к тому, что несвязанные термины объединяются с одним и тем же основанием. Последнее относится к удалению слишком мало из термина, который предотвращает смешение связанных терминов. Стемминг полезен, когда морфология языка богата (например, венгерский или иврит) или когда индексируемый текст короткий (Krovetz, 1993). Удаление инфлективных морфем обычно мало влияет на значение слова и, таким образом, может быть безопасно сделано (например, отображение единственного и множественного числа одного и того же слова в одном стебле). Удаление деривационных морфем может изменить значение слова. Стемминг был оценен с точки зрения эффективности поиска (обзор исследований, касающихся английского языка, см. Frakes, 1992 и Hull, 1996; относительно голландского языка, см. Kraaij & Pohlmann, 1996). Общепринято, что остановка либо положительно влияет, либо не влияет на эффективность поиска. Раскол голландских составных существительных доказал свою эффективность для повышения эффективности поиска.

6. Подбор фраз

Общепринято, что фразы (см. Главу 2) несут больше смыслового значения, чем отдельные слова. В частности, считается, что существительные и предлоги являются содержательными единицами информации и, следовательно, хорошими индикаторами содержания текста (Earl, 1970; Salton, Buckley, & Smith, 1990; Smeaton, 1992). Фраза может рассматриваться как спецификация понятия. Это может обозначать важную концепцию в определенных предметных областях. Например, термин «совместное предприятие» является важным термином в финансовых текстах, хотя ни «совместное», ни «предприятие» сами по себе не важны. Фразы улучшают специфику языка индексации. Использование фраз в качестве индексных терминов повышает точность операции поиска (Fagan, 1989). Кроме того, фразы имеют менее двусмысленное значение, чем отдельные слова, из которых они состоят. Каждое слово фразы предлагает контекст для удаления неоднозначности в оставшейся части фразы (например, слово «дерево» устраняет неоднозначность слова «кора» в «коре дерева»). Несмотря на дополнительные вычислительные требования для их распознавания (Callan & Lewis, 1994), фразы являются основными кандидатами в термины индекса естественного языка, которые должны быть включены в текстовое представление.

Когда фразы используются в качестве терминов индекса естественного языка, необходимо автоматизировать два аспекта: их идентификацию в текстах и их приведение в стандартную форму. Существует два основных метода идентификации фраз: статистическое распознавание фраз и синтаксическое распознавание фраз, каждый из которых генерирует соответственно статистические фразы и синтаксические фразы (Croft, Turtle & Lewis, 1991). Фразы, относящиеся к одному и тому же понятию, могут быть выражены разными способами. Итак, нормализация фраз к стандартной форме необходима. Особый случай распознавания фраз касается распознавания имен собственных.

6.1 Статистические фразы

Статистическое распознавание фраз предполагает, что, когда набор слов часто встречается в текстах коллекции документов, набор встречающихся слов может обозначать фразу. Идея использования статистических ассоциаций между словами восходит, по крайней мере, к началу 1960-х годов (см. Salton, Buckley & & Smith, 1990 для обзора исследования; Damerau, 1993). Часто пары смежных нон-стоп-слов рассматриваются как фразы-кандидаты (Salton, Yang, & Yu, 1975; Buckley, Salton, & Allan, 1992), но также проверяются наборы из нескольких слов. Статистическая фраза затем определяется ограничениями на частоту появления фразы, на совпадение ее компонентов и / или на близость ее компонентов в текстах (Salton et al., 1990; Croft et al. 1991). Близость компонентов фразы может быть определена по их количеству промежуточных слов или по их вхождению в том же предложении, абзаце или целом тексте (Salton & McGill, 1983, p. 84 и далее). Когда для заданной фразы-кандидата значения вышеуказанных параметров находятся в пределах пороговых значений (установленных после экспериментов с текстовым сборником), он выбирается как индексный термин.

Частота встречаемости и параметры близости не всегда дают правильные и содержательные фразы. Возможно, два или более слова встречаются по причинам, которые не являются частью одного и того же фразового понятия. Поэтому неудивительно, что Фаган (1989) обнаружил, что использование статистических фраз не значительно повышает эффективность поиска.

6.2 Синтаксические фразы

Синтаксическая фраза может быть выбрана по частоте ее появления, совместному появлению ее компонентов и / или по близости ее компонентов в тексте, но всегда существует синтаксическая связь между компонентами фразы (Salton & McGill, 1983, стр. 90 и далее; Croft et al., 1991; Strzalkowski, 1994; Strzalkowski et al., 1997). Синтаксическая фраза является грамматической частью предложения и, по крайней мере, частично, определяется на основе лингвистических критериев. Использование синтаксических фраз основано на предположении, что слова текста, имеющие синтаксические отношения, часто имеют коррелированные семантические отношения (Smeaton & Sheridan, 1991). Распознавание синтаксических фраз было популярно на протяжении десятилетий (обзор см. Schwarz, 1990). Далее мы опишем основные методы распознавания.

Самый простой метод использует машиночитаемый словарь или тезаурус, который содержит предварительно закодированные фразовые термины в соответствии с различными синтаксическими форматами (ср. Эванс, Гинтер-Вебстер, Харт, Леффертс и Монарх, 1991). Такие словари должны охватывать множество способов объединения отдельных слов для выражения одной и той же концепции, поэтому их использование целесообразно только в ограниченных предметных областях.

Более реалистичный, но зависящий от языка метод основан на идее, что контент-фразы принадлежат определенным грамматическим классам или комбинациям классов. Метод состоит из двух этапов: определение классов (частей речи) слов текста и распознавание комбинаций классов слов в тексте.

Классы слов определяются с помощью машиночитаемого словаря слов с их классами или с помощью стохастического тегера. Стохастический тегер (Dermatas & Kokkinakis, 1995) назначает теги части речи для слов текста на основе вероятности того, что тег должен быть назначен слову. Эта вероятность вычисляется с учетом вероятности тега части речи для конкретного слова и вероятности того, что конкретный тег подходит для конкретного контекста. Лексические и контекстуальные вероятности получаются из наблюдения статистических закономерностей в примерах текстов, которые вручную помечаются разметкой части речи.

Существует два основных способа определения комбинаций классов слов в текстах: использование синтаксических шаблонов и синтаксический анализ на основе контекстно-свободной грамматики.

Первый относится к сопоставлению шаблонов смежных классов с библиотекой синтаксических шаблонов (пример шаблона: прилагательное, за которым следует существительное) (Dillon & Gray, 1983; Fuhr & Knorz, 1984).

В последнем случае контекстно-свободная грамматика, которая содержит правила допустимого синтаксиса предложений, используется для получения для каждого предложения синтаксического анализа, показывающего его синтаксическую структуру (см. Главу 6) (Salton 1968, стр. 151 и далее). ; Metzler & Haas, 1989; Salton et al., 1990; Schwarz, 1990; Smeaton & Sheridan, 1991). Результат анализа фиксируется формализмом дерева зависимостей, который отражает логическую структуру предиката-аргумента предложения. Дерево указывает зависимости между компонентами фразы в предложении (например, заголовок и модификатор фразы). Таким образом, обнаруживаются различия в значении между фразами, такими как «колледж младший» и «младший колледж». Простые грамматики структуры фраз могут использоваться для распознавания многих типов имен существительных и предлоговых фраз, которые могут представлять собой полезные текстовые идентификаторы. Простые грамматики не могут учитывать все структуры фраз и должны дополняться семантическими знаниями в случае неоднозначных синтаксических структур (например, во фразе «все более опасные несчастные случаи и несчастные случаи» «несчастные случаи» являются или не являются «все более опасными») (Льюис , Croft, & Bhandaru, 1989). Однако эти проблемы не мешают тому, что в настоящее время существуют алгоритмы синтаксического анализа распознавания существительных, которые работают с низким уровнем ошибок.

Обычно ряд фраз выбирается на основе их комбинации грамматических классов, частоты фраз и веса фраз (см. Ниже) (см. Salton et al., 1990).

Следует отметить, что составное существительное в голландском языке обычно объединяет два (или более) слова, чтобы создать одно орфографическое слово. В случае составных существительных, которые не были разделены во время процедуры определения (см. Выше), отдельные голландские слова иногда выражают очень специфические понятия индексации (например, «onroerendgoedmarkt» («рынок недвижимости»)).

По сравнению с однократным индексированием, Fagan (1989) обнаружил, что распознавание синтаксических фраз лишь незначительно улучшило эффективность поиска (ср. Strzalkowski, Ling, Perez-Carballo, 1998). Недостатком синтаксических методов является их высокая потребность в мощности компьютера, объеме памяти и доступности программ.

Частично обескураживающий эффект от использования фраз в текстовом поиске заключается в том, что они должны быть нормализованы к стандартной форме и должны быть эффективно выбраны. Нормализация обсуждается в следующем разделе. Взвешивание фраз для представления контента обсуждается далее в этой главе. Предлагаемые решения в первую очередь относятся к именным фразам, потому что словосочетания в основном выбираются из текста.

6.3 Нормализация фраз

Индексация текста с учетом фраз предполагает, что фразы относятся к осмысленным понятиям. Когда в среде поиска фраза появляется как в запросе, так и в тексте документа, они могут относиться к одной и той же концепции. Этот подход ограничен тем фактом, что фраза должна появляться в одной и той же форме в тексте документа и в запросе, чтобы концепция соответствовала (Lewis et al., 1989; Smeaton, 1992). Тем не менее, это редко имеет место с фразовыми терминами. Одну и ту же концепцию можно выразить с использованием различных синтаксических структур (например, «вечеринка в саду» и «вечеринка в саду»), возможно, в сочетании с лексическими вариациями в использовании слов (например, «пренатальная ультразвуковая диагностика» и «в маточной сонографической диагностике»). плода ») или с морфологическими вариантами (например,« вибрация над вейвлетами »и« вейвлет-колебания »). Фразы могут содержать анафоры и эллипсы. Правильное сопоставление со стандартной отдельной фразой должно учитывать лексические, синтаксические и морфологические вариации и разрешать анафоры и эллипсы. В среде поиска нормализация фразы улучшает отзыв операции поиска (Salton, 1986).

Следующее касается важных методов нормализации фраз.

1. Простым методом является использование машиночитаемого словаря вариантов фраз (например, Evans et al., 1991). В настоящее время такой словарь построен вручную, что ограничивает метод ограниченными предметными областями.

2. Отсутствие функциональных слов (например, пропозиций, определителей, местоимений) и возможное пренебрежение порядком оставшихся содержательных слов образует другой простой, но не всегда надежный метод нормализации фраз (Dillon & Gray, 1983; Fagan, 1989)

3. Более безопасный метод распознавания синтаксических вариантов основан на распознавании синтаксических фраз. Он использует вывод синтаксического разбора предложения и определяет (мета) правила для эквивалентных фраз (Jacquemin & Royauté 1994; Strzalkowski et al., 1997; Tzoukermann, Klavans & Jacquemin, 1997; см. Sparck Jones & Tait, 1984 ). Этот подход может быть объединен с анафорическим разрешением (см. Grishman, 1986, p. 124 и далее, Lappin & Leass, 1994) и словом «stemming».

6.4 Распознавание имен собственных

Особый случай распознавания фраз в текстах — это выбор собственных имен или имен собственных (Rau, 1992; Jacobs, 1993; Mani & MacMillan, 1996; Paik, Liddy, Yu, & McKenna, 1993; Strzalkowski et al., 1997) , Индексирование с важными именами полезно во многих поисковых приложениях. Собственные имена относятся к именам людей, компаний, учреждений, торговых марок продуктов, мест и валют. Есть два основных способа их распознавания.

1. Применение лексикона или машиночитаемого словаря имен требует наличия базы данных имен, предоставляемой на внешней основе (например, Hayes, 1994). Составление базы данных имен вручную возможно только для приложений с узкой областью применения. Лексика может содержать варианты названий.

2. Поскольку многие собственные имена (например, компании) появляются, исчезают или изменяются, точная идентификация требует распознавания новых имен. Они распознаются по особым правилам, которые выражают типичные особенности фраз собственных имен (например, заглавные буквы) или лингвистического контекста (например, индикаторные слова), в котором имена должны быть найдены (Jacobs, 1993; Hayes, 1994; Cowie & Lehnert) , 1996). Распознавание иногда проблематично (например, «van Otterloo & Coo»).

Правильные средства распознавания имен должны справляться со многими вариантами. Различия в именах касаются: суффиксных слов (например, «Inc», «NV»), префиксных слов (например, личных названий), других необязательных слов (например, «van»), альтернативных слов (например, «Intl Business Machines» и «International Business Machines»), альтернативные имена (например, «IBM» и «Big Blue»), имена (например, «Gerald Thijs», «G. Thijs» и «Thijs»), знаки препинания (например, «Sensotec NV») »И« Sensotec NV »), чувствительность к регистру (например,« SigmaDelta »и« Sigmadelta ») и переносы слов (например,« Sigma Delta »,« Sigma-Delta »и« SigmaDelta »). Один из способов разрешения вариантов заключается в определении сходства между именами на основе общих буквенных последовательностей (n-грамм) (см. Pfeifer, Poersch, & Fuhr, 1996).

Другой сложной проблемой является признание семантической категории собственных имен (например, идентификация личных имен, названий компаний) (McDonald, 1996; Paik et al., 1993; Paik, Liddy, Yu & McKenna, 1996). Категория собственного имени может быть извлечена из машиночитаемого словаря, если таковой имеется. В качестве альтернативы, категория может быть обнаружена путем применения эвристики контекста, разработанной на основе анализа контекстов в примерном корпусе.

7. Индексный термин Взвешивание

7.1 Общий процесс

До сих пор процесс индексации генерировал набор терминов индекса на естественном языке в качестве представления текста. Термин, как правило, представляет собой слово, словосочетание или фразу. Хотя термины относятся к общему классу содержания слов, они не одинаково важны в отношении содержания текста. Индикатор важности или вес термина связан с каждым индексным термином. Взвешивание терминов важно для выбора хороших терминов индекса для включения в текстовое представление или для лучшего распознавания терминов индекса при сопоставлении запроса в среде поиска (Salton & Yang, 1973; Buckley, 1993). Взвешивание повышает точность поиска (Salton, 1986; Ro, 1988).

Многие весовые функции были предложены и протестированы (обзоры см. Sparck Jones, 1973; Salton, 1975a, стр. 4 и далее; van Rijsbergen, 1979, стр. 24 и далее; Noreault, McGill, & Koll, 1981; Salton & McGill, 1983, стр. 59 и стр. 204 и далее; Ro, 1988; Salton & Buckley, 1988; Fuhr & Buckley, 1991; Tenopir, Ro, & Harter, 1991, p. 144-146). Следующие параметры играют роль в вычислении веса индексного члена:

1. Индексный термин: например, его синтаксический класс.
2. Индексируемый текст: параметры, которые описывают текст: например, длина текста и количество различных терминов в тексте.
3. Связь между индексным термином и текстом, подлежащим индексации: например, частота появления термина в тексте, расположение термина в тексте, связь с другими терминами текста и контекст термина в тексте.
4. Связь между индексным термином и корпусом документа (или другой ссылки): например, частота его появления в этом корпусе.

Большинство весовых функций основаны на шаблонах распределения терминов в тексте, подлежащем индексации и / или в справочном наборе, и используют статистику для вычисления весов. Другие параметры используются реже. Лишь в редких случаях веса индексных терминов определяются на основе экспертных знаний о важности терминов (Sparck Jones, 1973).

Вес индексного члена обычно является числовым значением. Весовые коэффициенты имеют значение от нуля или больше, или в случае нормализованных весовых коэффициентов варьируются от нуля до единицы, причем значения, близкие к единице, указывают на очень важные индексы, а значения, близкие к нулю, на очень слабые термины (Salton & Buckley, 1988). Нулевое значение указывает, что у термина нет никакого значения содержания.

7.2 Классические весовые функции
Закон Ципфа

Это был Лун (1957), который обнаружил, что шаблоны распределения слов могут дать значительную информацию о свойстве содержания контента. Он отметил, что высокочастотные слова, как правило, являются общими, не несущими слова. Он также признал, что одно или два вхождения слова в относительно длинный текст нельзя считать значимым при определении предмета. Ранее Zipf (1949) построил логарифм частоты термина в теле текстов против ранга (член с самой высокой частотой имеет ранг 1, второй член с самой высокой частотой имеет ранг 2 и т. Д.). Для большой части текста «хорошо написанного английского» полученная кривая представляет собой почти прямую линию. Таким образом, закон постоянной частоты ранга Ципфа описывает характеристики вхождения словаря, когда отдельные слова расположены в порядке убывания их лог-частоты встречаемости:

log (frequency) . rank = constant

Этот закон выражает, что произведение логарифма частоты каждого слагаемого на его ранг является приблизительно постоянным. Другие языки или другие стили написания могут быть выражены другими нелинейными функциями. Но есть связь между кривой Зипфиана и концепцией Луна о том, где находятся важные слова. Слова с низким значением находятся в обоих хвостах распределения. Поэтому Лун предложил использовать слова в середине частотного диапазона. Эти результаты являются основой ряда классических весовых функций.

Определение «Частота»

Предполагается, что степень обработки предмета в тексте отражается частотой встречаемости в тексте терминов, обозначающих это понятие. Писатель обычно повторяет определенные слова, когда он или она выдвигает или изменяет аргументы, и когда он или она развивает какой-либо аспект предмета. Это средство акцентирования принимается за показатель значимости. Термин контента, который часто встречается в тексте, важнее в тексте, чем редкий термин. Частота появления слова контента используется для обозначения важности термина для представления контента (Luhn, 1957; Baxendale, 1958; Salton, 1975a, стр. 4 и далее; Salton & McGill, 1983, стр. 59 и далее; Salton, 1989, стр. 279).

Частота термина (tf) измеряет частоту появления индекса в тексте документа (Salton & Buckley, 1988):

\(tf_i\) = частота встречаемости индексного термина i в тексте

Появление редкого термина в коротком тексте является более значительным, чем его появление в длинном тексте. Частота логарифмического термина уменьшает важность частоты необработанных терминов в тех коллекциях, где длина текста варьируется (см. Приведенную ниже нормировку длины) (Sparck Jones, 1973; Salton & Buckley, 1988; Lee, 1995):

log( \(tf_i\) ) = общий логарифм частоты встречаемости индексного термина i в тексте

In( \(tf_i\) ) = натуральный логарифм частоты встречаемости индекса i в тексте.

Индексные термины с высокой периодичностью хорошо подходят для представления текстового контента, особенно в длинных текстах и в текстах, содержащих много значимых или технических терминов. Для коротких текстов информация о частоте терминов незначительна (большинство терминов встречаются один или два раза) или даже вводит в заблуждение. Анафорические конструкции и синонимы в тексте скрывают истинную частоту терминов (Bonzi & Liddy, 1989; Smeaton, 1992). Предполагается, что высокочастотные контент-термины представляют основные темы текста. Когда индексный термин встречается с частотой, большей, чем можно было бы ожидать в определенном отрывке текста, он, возможно, представляет подтему текста (Hearst & Plaunt, 1993).

Обратная частота документа (Inverse document frequency)

После устранения стоп-слов текст все еще содержит много общих слов, которые являются плохими показателями его содержания. Общие слова, как правило, встречаются в многочисленных текстах в коллекции и часто кажутся случайным образом распределенными по всем текстам. Чем больше текстов встречается в термине, тем менее важным оно может быть. Например, термин «компьютер» не является хорошим индексным термином для набора документов в вычислительной технике, независимо от частоты его появления в тексте коллекции. Чем реже термин встречается в отдельных текстах, тем более дифференцируем этот термин. Поэтому вес термина должен быть обратно пропорционален числу текстов документов, в которых этот термин встречается, или частоте документа термина (Sparck Jones, 1972; Salton & Yang, 1973; Salton, 1975a, p. 4 и др. Salton & McGill, 1983, с. 63; Salton, 1989, с. 279 и др .; Greiff, 1998). Обратный коэффициент частоты документа (idf factor) обычно используется для включения этого эффекта. Логарифм уменьшает влияние коэффициента обратной частоты документа. Вес обратной частоты документа (idf) обычно вычисляется как (Sparck Jones, 1973; Salton & Buckley, 1988; Lee, 1995):

\(\log\left(\frac N{n_i}\right)\)

log = общий логарифм (альтернатива ln = натуральный логарифм)

N = количество документов в справочной коллекции

\(n_i\)количество документов в справочной коллекции, имеющих индексный термин i.

Вес частоты обратного документа зависит от коллекции. Обычно он получается из анализа коллекции до фактической индексации документов и основан на распределении термина в эталонной коллекции. Сборник ссылок обычно представляет собой полный текстовый корпус для индексации. Это также может быть общий корпус, отражающий широкий спектр текстов (например, корпус Брауна на английском языке) (см. Evans et al., 1991). Когда коллекция ссылок изменяется со временем, вес индекса должен пересчитываться каждый раз, когда документ добавляется или удаляется из коллекции. Это не только непрактично, но и приводит к нестабильному текстовому представлению. Таким образом, использование обратного частотного коэффициента документа, основанного на изменяющемся наборе ссылок, не рекомендуется (Salton & Buckley, 1988). Возможны и другие типы справочных коллекций. Например, Херст и Плаунт (1993) рассматривают полный текст документа как систему отсчета для вычисления веса индексных терминов небольших текстовых сегментов (3-5 строк), чтобы различать подтемы этих сегментов.

Частотный коэффициент обратного документа важен при идентификации терминов, несущих содержание в тексте (Sparck Jones, 1973). Иногда индексные термины с низким значением частоты обратного документа удаляются как стоп-слова (например, Smeaton, O’Donnell, & Kelledy, 1995).

Произведение термина и частоты обратного документа

При оценке значения термина для целей представления контента учитываются два различных статистических критерия. Предполагается, что термин, встречающийся в тексте чаще, имеет большее значение для представления контента, чем редко встречающийся термин. С другой стороны, если этот же термин встречается и во многих других документах коллекции, этот термин, возможно, не так ценен, как другие термины, которые редко встречаются в остальных документах. Это говорит о том, что специфичность данного термина применительно к данному тексту может быть измерена путем сочетания его частоты встречаемости внутри этого текста (термин частота или tf) и обратной функции количества документов в коллекции, к которой это назначено (обратная частота документа или idf). Лучшими терминами будут те, которые часто встречаются в тексте, но редко в других текстах коллекции документов. Эти результаты являются основой для очень популярной весовой функции термина, которая определяет произведение частоты термина и частоты обратного документа (tf x idf) индексного термина (Sparck Jones, 1973; Salton, 1975a, p. 26 ff ; Salton & Buckley, 1988; Salton, 1989, p. 280 и далее; Harman, 1986, цитируемый в Harman, 1992a). Обычно произведение необработанного термина частоты (2) и общего логарифма обратной частоты документа (5) вычисляется:

\(tf_i\;\times\;\log\left(\frac N{n_i}\right)\)

…продолжение книги появится позднее

Поделись записью