Автоматическая индексация и абстракция текстов документов | Мари-Франсин Моэнс

Оглавление

Предисловие
Благодарности
Часть 1 — Среда индексирования и абстрагирования
Глава 1 — Необходимость индексации и реферата текстов
1. Введение в Главу 1
2. Электронные документы
3. Общение через текст на естественном языке
4. Понимание текста на естественном языке: когнитивный процесс
5. Понимание текста на естественном языке: автоматизированный процесс
6. Важные понятия в поиске и отборе информации
6.1 Означение и смысл
6.2 Актуальность
6.3 Информационная потребность
6.4 Информационная (поисковая) проблема
7. Общие решения проблемы поиска информации
7.1 Полнотекстовый поиск и исправление
7.2 Актуальность. Обратная связь
7.3 Информационные агенты
7.4 Проектирование документов
8. Необходимость в более совершенных методах автоматической индексации и абстрагирования

Глава 2 — Атрибуты текста
1. Введение в Главу 2
2. Изучение текста
3. Обзор некоторых распространенных типов текста
4. Текст, описанный на микроуровне
4.1 Фонемы и письма
4.2 Морфемы
4.3 Слова
4.4 Фразы
4.5 Изречения
4.6 Пункты
4.7 Метки
5. Текст, описанный на макроуровне
5.1 Схематическая структура или надстройка
5.2 Риторическая структура
5.3 Тематическая структура
5.4 Коммуникативная цель
5.5 Длина текста
6. Выводы в главе 2

Глава 3 — Текстовые представления и их использование
1. Введение в Главу 3
2. Определения
3. Представления, которые характеризуют содержание текста
3.1 Набор терминов индекса естественного языка
3.2 Набор терминов индекса контролируемого языка
3.3 Аннотация
4. Интеллектуальная индексация и абстрагирование
4.1 Общие положения
4.2 Интеллектуальная индексация
4.3 Интеллектуальное абстрагирование
5. Использование текстовых представлений
5.1 Показательные и информативные текстовые представления
5.2 Информационно-поисковые системы
5.3 Системы вопросов и ответов
5.4 Системы просмотра
6. Примечание о хранении текстовых представлений
7. Характеристики хороших текстовых представлений
8. Выводы в главе 3

Часть 2 — Методы автоматической индексации и абстрагирования
Глава 4 — Автоматическая индексация: выбор терминов индексации на естественном языке
1. Введение в Главу 4
2. Примечание об оценке
3. Лексический анализ
4. Использование стоп-листа
5. Стеблинг
6. Подбор фраз
6.1 Статистические фразы
6.2 Синтаксические фразы
6.3 Нормализация фраз
6.4 Распознавание имен собственных
7. Индексный термин Взвешивание
7.1 Общий процесс
7.2 Классические весовые функции
8. Альтернативные процедуры выбора терминов индекса
8.1 Модель множественного Пуассона (nP) для распределения слов
8.2 Роль дискурсивной структуры
9. Выбор терминов индекса естественного языка: достижения и проблемы
10. Выводы в главе 4

Глава 5 — Автоматическая индексация: назначение терминов индекса контролируемого языка
1. Введение в Главу 5
2. Примечание об оценке
3. Тезаурус Условия
3.1 Функция терминов тезауруса
3.2 Тезаурус, Строительство и обслуживание
3.2.1 Статистические методы
3.2.2 Синтаксические методы
4. Предмет и классификационные коды
4.1 Текстовая категоризация
4.2 Текстовые классификаторы с внедренными вручную шаблонами классификации
4.3 Текстовые классификаторы, которые изучают шаблоны классификации
5. Учебные подходы к текстовой категоризации
5.1 Выбор и извлечение функций
5.1.1 Выбор функций
5.1.2 Извлечение функций
5.1.3 Выбор функции в текстовой категоризации
5.1.4 Извлечение возможностей в текстовой категоризации
5.1.5 Примечание о перекрестной проверке
5.2 Обучение с использованием статистических методов
5.2.1 Методы дискриминации
5.2.2. Иллюстрация: алгоритм Роккио
5.2.3. Иллюстрация: алгоритм Видроу-Хоффа
5.2.4 k-классификатор ближайшего соседа
5.2.5 Байесовские классификаторы независимости
5.3 Изучение правил и деревьев
5.4 Обучение с нейронными сетями
6. Присвоение терминов индекса контролируемого языка: достижения и проблемы
7. Выводы в главе 5

Глава 6 — Автоматическое абстрагирование: создание текстовых аннотаций
1. Введение в Главу 6
2. Примечание об оценке
3. Этап анализа текста
3.1 Более глубокая обработка
3.1.1 Знания
3.1.2 Методы разбора
3.1.3 Оригинальные модели
3.1.4 Другие приложения
3.1.5 Значение дискурсивных структур
3.2 Статистическая обработка
3.2.1 Идентификация тем текста
3.2.2 Изучение важности параметров суммирования
4. Шаг трансформации
4.1 Выбор и обобщение контента
4.2 Выбор и обобщение содержания нескольких текстов
5. Генерация аннотации
6. Текстовая абстракция: достижения и проблемы
7. Выводы в главе 6

Часть 3 — Приложения
Глава 7 — Структурирование и категоризация текста при обобщении судебных дел
1. Введение в Главу 7
2. Текстовый корпус и вывод системы
3. Методы: использование текстовой грамматики
3.1 Представление знаний
3.2 Разбор и тегирование текста
4. Результаты и обсуждение
5. Вклад исследования
6. Выводы в главе 7

Глава 8 — Кластеризация параграфов при обобщении судебных дел
1. Введение в Главу 8
2. Текстовый корпус и вывод системы
3. Методы: техники кластеризации
4. Результаты и обсуждение
5. Вклад исследования
6. Выводы в главе 8

Глава 9 — Создание выделенных рефератов журнальных статей
1. Введение в Главу 9
2. Текстовый корпус и вывод системы
3. Методы: использование текстовой грамматики
3.1 Лингвистический фон
3.2 Представление знаний
3.3 Разбор текста и генерация аннотации
4. Результаты и обсуждение
5. Вклад исследования
6. Выводы в главе 9

Глава 10 — Присвоение предметных дескрипторов журнальным статьям
1. Введение в Главу 10
2. Текстовый корпус и вывод системы
3. Методы: контролируемое изучение шаблонов классификации
3.1 Выбор и взвешивание важных условий содержания
3.2 Алгоритмы обучения
3.3 Назначение дескриптора
3.4 Выбор примеров
4. Результаты и обсуждение
4.1 Выбор и оценка важных условий содержания
4.2 Изучение алгоритмов и присвоение дескриптора
4.3 Выбор примеров
4.4 Возможные улучшения
5. Вклад исследования
6. Выводы
Резюме и будущие перспективы
1. Резюме
2. Будущие перспективы
Рекомендации
Предметный указатель

Предисловие

В настоящее время мы сталкиваемся с огромным количеством электронных документов, написанных на естественном языке. Мы хороши в создании текстов, но не так способны управлять их информационным содержанием. Документы хранятся на компьютерных дисках или на компакт-дисках для формирования больших коллекций. Системы поиска, поисковые системы, инструменты просмотра и другое программное обеспечение для управления информацией находятся в нашем распоряжении для выбора соответствующих документов или информации из коллекций. Когда современные средства поиска и выбора информации работают с содержимым текстов документов или делают его доступным, они не являются достаточно мощными для идентификации документов или информации, которые могут иметь отношение к их пользователям.

Индексирование и абстрагирование текста — это старые методы организации содержания текста на естественном языке. Эти процессы создают краткое описание или характеристику исходного текста, который называется текстовым представлением или представителем и имеет признанный и принятый формат. Индексирование обычно извлекает или присваивает тексту набор отдельных слов или фраз, которые функционируют как индексные термины текста. Слова или фразы текста обычно называют индексными терминами естественного языка. Когда назначенные слова или фразы приходят из фиксированного словаря, они называются индексными терминами контролируемого языка. Индексные термины, помимо отражения содержимого, могут использоваться в качестве точек доступа или идентификаторов текста в коллекции документов (document collection). Абстрагирование приводит к уменьшенному представлению содержания текста. Резюме обычно имеет форму непрерывного, связного текста или профиля, который структурирует определенную информацию исходного текста.

Идея и первые попытки автоматизировать индексацию и абстрагирование текста восходят к концу 1950-х годов. То, что в то время было прогрессивной теорией, теперь стало абсолютной необходимостью. Ручная задача индексирования и абстрагирования просто неосуществима с постоянно расширяющимися коллекциями текстовых документов (например, в Интернете). Автоматическая индексация и абстракция, помимо того, что они эффективны, вероятно, дают более последовательный, объективный и более полный конечный продукт. Процесс автоматической индексации и абстрагирования начинается, когда текст уже хранится в электронном виде и может рассматриваться как строка символов (включая пробелы и знаки пунктуации). Как и в случае ручной индексации и абстрагирования, автоматизированный метод влечет за собой контентный анализ текста, отбор и обобщение информации и перевод в окончательную форму. Современные системы, которые индексируют и аннотируют тексты, генерируют текстовые представления, которые аналогичны тем, которые подготовлены людьми с точки зрения содержания и формата (например, набор терминов индекса, аннотация в форме свободного текста). Это связано с тем, что поисковые и другие системы управления текстом поддерживают эти представления.

Текстовые представления используются в системах, которые управляют содержимым документа. Большинство из них являются системами поиска документов. Конечная цель индексации и абстрагирования в текстовом поиске — эффективная операция поиска, чтобы находить более релевантные и менее несущественные элементы. В настоящее время предполагается, что основной проблемой в современных поисковых системах является получение значения, которое документ может иметь для своего пользователя. Таким образом, прогресс может быть достигнут путем точного определения потребностей пользователя. Мы не отрицаем важность точного представления потребностей пользователя, но точное определение информационных потребностей будет хорошо работать только с более насыщенными семантическими представлениями текстового содержимого документов, созданных с помощью автоматической индексации и абстрагирования. Текущие текстовые представления, которые генерируются автоматически, являются лишь грубым отражением содержания текстов документа. Они часто ограничены некоторыми терминами, которые часто встречаются в тексте, всеми словами в начале текста или предложениями, которые содержат частые термины.

Интуитивное решение для создания богатых семантических представлений текстов на естественном языке состоит в том, чтобы анализировать их и интерпретировать их слова и фразы на основе полного лингвистического, предметного мира и контекстуального знания. Учитывая текущее состояние обработки естественного языка, это невозможно и не всегда желательно. Лингвистическое знание относится к лексическим, синтаксическим и семантическим свойствам языка текстов и типичным свойствам дискурса. Знание предметной области описывает понятия и подконцепции предметной области и их отношения. Контекстуальные знания относятся к коммуникативным знаниям, которые касаются предпочтений и потребностей тех, кто использует информацию в текстах. Рабочая гипотеза в области поиска информации состоит в том, что допустимые текстовые представления могут быть сделаны без полной и сложной обработки, зависящей от языка. Это правильная гипотеза для начала. В ходе этой книги мы разработаем и защитим несколько менее значимых гипотез. Во-первых, утверждается, что знание структур дискурса — независимо от того, присущ он или нет типу текста или жанру — и поверхностных лингвистических сигналов, которые их сигнализируют, очень полезно для автоматической индексации и абстрагирования содержания текста. Это знание также позволяет нам сосредоточиться на определенной информации в текстах, которая имеет отношение к конкретным коммуникационным потребностям. Также возможно изучать структуры дискурса из текстов с помощью статистических методов. Наконец, знание предметной области важно для определения актуальных понятий в текстах. Знание понятий и их вариантов текстовых шаблонов можно извлечь из примеров текстов.

Книга ставит перед собой амбициозные задачи: изучить автоматическую индексацию и абстрагирование во всех ее аспектах и описать новейшие новые методы автоматической индексации и абстрагирования. Кроме того, она сталкивается со многими проблемами, которые ставит автоматическая индексация и абстрагирование текста. Хотя книга посвящена индексации и абстрагированию письменного текста, многие выводы также важны для устных текстовых документов, которые все чаще используются для передачи и хранения информации.

Эта книга организована следующим образом:

Первая часть, «Среда индексирования и абстрагирования — The Indexing and Abstracting Environment», помещает проблему в широкий контекст и определяет важные концепции книги. В первой главе «Необходимость индексирования и абстрагирования текстов — The Need for Indexing and Abstracting Texts» обосновывается необходимость разработки более совершенных методов автоматической индексации и абстрагирования текстового содержимого. С широкой точки зрения, обсуждаются некоторые относящиеся к делу проблемы поиска информации и управления текстом в целом. Нынешние решения этих проблем намечены. В ходе этой главы становится очевидной реальная потребность в улучшенных методах автоматической индексации и абстрагирования. Вторая глава этой части, «Атрибуты текста — The Attributes of Text», раскрывает особенности текста. Она дает обзор различных компонентов и структур, составляющих текст. В последней главе этой части «Текстовые представления и их использование — Text Representations and their Use» обсуждаются свойства и использование различных текстовых представлений для поиска документов и информации.

Вторая часть книги «Методы автоматического индексирования и абстрагирования — Methods of Automatic Indexing and Abstracting» дает обзор существующих методов автоматического индексирования и абстрагирования. В настоящее время такой подробный обзор отсутствует в литературе. В разных главах рассматриваются основные формы представления текста: «Автоматическая индексация: выбор терминов индекса естественного языка — Automatic Indexing: The Selection of Natural Language Index Terms», «Автоматическая индексация: назначение терминов индекса контролируемого языка — Automatic Indexing: The Assignment of Controlled Language Index Terms» и «Автоматическое абстрагирование: создание текстовых резюме — Automatic Abstracting: The Creation of Text Summaries». Содержание этой части обеспечивает контекст для приложений, обсуждаемых в третьей части, и обосновывает выбор определенных методов в приложениях.

Третья часть книги рассматривает «Приложения — Applications». Четыре важные проблемы описаны для двух сборников текстов, написанных на голландском языке. Проблемы в основном касаются индексации с помощью терминов индекса контролируемого языка, классификации текста и абстрагирования. Один корпус содержит тексты судебных дел, а другой состоит из журнальных статей. Решения предлагаются и тестируются с помощью программного обеспечения для индексации и абстрагирования, разработанного и реализованного автором. Приложения разрабатывают новые методы и улучшают существующие для автоматической индексации и абстрагирования. Первая глава «Структурирование и категоризация текста при обобщении юридических дел — Text Structuring and Categorization when Summarizing Legal Cases» посвящена успешной первоначальной классификации и структурированию уголовных дел. Текстовая грамматика используется для представления знаний о структурах дел, о концепциях, типичных для области уголовного права, и об информационной направленности. В следующей главе «Кластеризация пунктов при обобщении юридических дел — Clustering of Paragraphs when Summarizing Legal Cases» краткий отрывок из судебных дел обобщен путем выделения репрезентативных параграфов и ключевых терминов. Методы идентификации репрезентативных текстовых единиц основаны на распределении лексических единиц в юридических текстах и демонстрируют полезность кластеризации на основе выбора репрезентативных объектов. В третьей главе, озаглавленной «Создание выделенных аннотаций журнальных статей — The Creation of Highlight Abstracts of Magazine Articles», демонстрируется переносимость текстового грамматического подхода к абстрагированию текста в процессе создания выделенных аннотаций журнальных статей. Здесь используются типичные дискурсивные шаблоны новостных сюжетов. В последней главе этой части, «Назначение предметных дескрипторов журнальным статьям — The Assignment of Subject Descriptors to Magazine Articles», метод изучает типичные текстовые шаблоны широких предметных классов статей из ограниченного набора примеров текстов и применяет эти знания для назначения предметных дескрипторов новые, ранее невиданные статьи.

Книга заканчивается кратким обзором, обзором вклада исследования и направлениями будущих исследований.

Книга междисциплинарная. Его тема «Автоматическое индексирование и абстрагирование текстов документов» является важным элементом информационно-поискового исследования. Поиск информации — это дисциплина, основанная на информационной науке, компьютерной науке и статистике. Исследование особенно изучает текст и его автоматический анализ. Эта исследовательская область компьютерной лингвистики, подразделение информатики. Из-за природы двух текстовых корпусов, используемых в исследовании, юридических текстов и журнальных статей, исследование сталкивается с дисциплинами права и науки о коммуникации. Область когнитивной науки затрагивается, когда когнитивный процесс индексации и абстрагирования дает модели для автоматических процессов.

Благодарности

Эта публикация является несколько сокращенной версией моей докторской диссертации, защищенной 28 июня 1999 года на факультете наук в Университете Католике в Лёвене, Бельгия. Хотя невозможно признать вклад тех, кто помог мне, я хотела бы упомянуть тех, чья помощь была прямой и жизненно важной для завершения этой работы.

Истоки этой книги лежат в моих работах по древнеегипетскому языку под руководством профессора Дж. Куэгбёра (Katholieke Universiteit Leuven, Бельгия) и профессора Дж. Каллендера (Калифорнийский университет в Лос-Анджелесе, Калифорния, США), которые глубоко пробудили во мне интерес к анализу языка и текстов.

Я очень благодарна профессору Дж. Дюмортье, моему научному руководителю, который дал мне великолепный шанс изучить тему этой книги. Он дал мне возможность работать в Междисциплинарном центре права и информационных технологий (ICRI) (Katholieke Universiteit Leuven, Бельгия), который является очень стимулирующей средой для творческих исследований. Именно под его руководством исследование, содержащееся в этом томе, началось около пяти лет назад.

Я должна выразить свою признательность консультантам моей докторской диссертации в Университете Католике в Левене, Бельгия: профессору Х. Оливье, профессору Л. Верстралену и профессору Ж. Дюмортье. Их постоянное поощрение значительно облегчило его подготовку. Я благодарю профессора Х. Оливия за его полезные советы.

Я также благодарю членов экзаменационного жюри, профессора Д. Де Шрайе (Katholieke Universiteit Leuven, Бельгия), профессора Дж. Лейзена (Koninklijke Militaire School, Бельгия) и профессора Дж. Хоббса (Стэнфордский исследовательский институт, Калифорния, США), которые своими замечаниями и предложениями позволили мне достичь конечных целей этой публикации.

С глубоким уважением я благодарю профессора А. Оостерлинка, ректора Университета Католике в Левене, Бельгия, и профессора Дж. Херботса, декана юридического факультета, за предоставленную мне возможность работать в Университете Католике в Лювене, Бельгия. Я также должна поблагодарить профессора Дж. Берламонта, декана факультета прикладных наук, который дал мне возможность пройти докторантуру в области компьютерных наук в Университете Католике в Левене, Бельгия, и профессора Л. Ванкуикенбоме, декана факультета Наук, которые позволили мне защитить мою докторскую степень. Я благодарю профессора С. Вандевалле за то, что он позаботился о моем досье на докторскую подготовку.

Я больше всего признательна моему коллеге д-ру. C. Uyttendaele, который оказал неоценимую помощь в одном из проектов, описанных в книге, и который перевел большинство юридических текстов с голландского на английский. Я также благодарна г-же Т. Боувен за проверку некоторых результатов, содержащихся в этой публикации. Я благодарю доктора В. Веттерстрома (Гарвардский университет, Массачусетс, США), который помог мне исправить мой английский в предисловии и резюме. Я также хотела бы поблагодарить профессора Дж. Зелезникова (Университет Ла Троб, Австралия) за его полезные комментарии. Я благодарю анонимных рецензентов моих научных работ, которые включены в эту книгу.

Кроме того, я благодарна доктору С. Бельмансу и Ир. J. Huens (Katholieke Universiteit Leuven, Бельгия) и г-н L. Misseeuw и г-н P. Huyghe (Roularta Media Group) за техническую помощь в обеспечении доступности текста. Я благодарна г-же Н. Вербиест за административную поддержку. Я хочу поблагодарить мою семью и коллег за их постоянную поддержку.

Наконец, я хотела бы выразить свою благодарность организациям, которые предоставили мне грантовую поддержку во время учебы и исследований: Бельгийско-Американский образовательный фонд (BAEF), Совет по высшему образованию и научным исследованиям Министерства образования, Исследовательский фонд KU Leuven, Национальный фонд научных исследований (NFWO), Фламандский институт содействия научно-техническим исследованиям в промышленности (IWT), Vlaamse Leergangen Leuven и Фламандский научный фонд.

Часть 1. Среда индексирования и абстрагирования

Глава 1 — Необходимость индексирования и абстрагирования текстов

1. Введение в главу 1

Люди общаются, беседуя. С давних времен человечество использует зарегистрированные формы общения. Один из них, письменный текст, как правило, считается знаменующим историческую эпоху человечества. Люди научились кодировать звуковые высказывания в последовательности графических символов и снова расшифровывать текст на языке разговорной речи. Даже если текст, написанный на естественном языке, является лишь грубой формой представления того, что происходит в уме автора, он играет важную роль в общении. Последние разработки в области электронных технологий представили много новых физических форм общения, но не остановили производство документов в виде письменных текстов. Технология не только объясняет их легкое создание, но также и их безудержное воспроизведение и распространение. Однако важнейшей задачей является эффективное распространение электронных документов. Когда люди сталкиваются с большими базами электронных документов, они хотят найти документы и информацию, соответствующие их потребностям.

В этой главе объясняются некоторые важные концепции и проблемы выбора документов и информации в целом и поиска текста в частности. Это постепенно формирует утверждение о том, что существует определенная потребность в автоматической индексации и абстрагировании с помощью расширенных методов анализа текста, не вызывая сложную и полную обработку текстов на естественном языке. Инструменты для индексации и абстрагирования содержания текстов являются необходимыми компонентами будущих систем поиска и отбора информации. Они дополнят инструменты для анализа данных изображений и распознавания речи при управлении контентом документов.

2. Электронные документы

Понятие «документ» используется как существительное, а также как глагол. Латинское слово «documentum» означает «официальный документ, используемый в качестве улик или доказательства, в некоторых случаях в качестве примера». В своем узком смысле существительный документ все еще имеет эту связь (например, контракт). В ходе истории концептуальный документ использовался в более широком смысле: «любое печатное представление, содержащее текстовые и / или нетекстовые компоненты, такие как фотографии, подписи, диаграммы, таблицы и т. д., Которые создаются с целью обмениваться знаниями (Vervenne, Hamerlinck & Vandamme, 1995). Глагол «документировать» означает проиллюстрировать или показать доказательства. В более широком смысле глагол относится ко всем действиям, связанным с редактированием, печатью и распространением документов. С этой точки зрения документ является важным средством межличностного и социального общения между его создателем и пользователем (Schamber, 1996). Создатель использует содержание документа для описания, организации и синтеза своих идей. Он целенаправленно создает документ таким образом, чтобы его пользователи могли понять его содержание наиболее оптимальным способом. Для эффективного общения документ должен содержать информацию, которая способствует работе пользователя или его интересам.

В нашем современном обществе документы на бумажной и печатной основе постепенно заменяются электронными документами. Электронные документы хранятся на электронных носителях, таких как компакт-диски или распределенные аппаратные диски, доступные через сети (например, Интернет). Электронные документы имеют некоторые важные характеристики (более подробно см. Schamber, 1996):

1. Они легко создаются, манипулируются и неограниченно копируются авторскими системами. Они также легко транспортируются и эффективно хранятся. В результате мы сталкиваемся с огромными объемами электронных документов.

2. Они могут быть замечательными неуловимыми, преходящими и постоянно развивающимися. С другой стороны, они доступны одновременно для многих людей.

3. Они создают новые коммуникативные структуры и открывают перспективы для новых упорядоченных систем кодификации и обозначений (например, языков разметки), которые позволяют представлять новые типы контента (например, видео- и аудиоданные в мультимедийных документах).

3. Общение через текст на естественном языке

Многие современные документы содержат текст на естественном языке. Текст на естественном языке высоко ценится как средство общения. Определение понятий коммуникации и текста проясняет, почему они тесно связаны.

Коммуникация была тщательно изучена, и были предложены различные модели общения. Общение включает отправителя и получателя. В случае общения посредством документа мы говорим о создателе и пользователе. В модели кода (Shannon & Weaver, 1949), которая восходит к Аристотелю (Sperber & Wilson, 1995, p. 2), связь достигается путем кодирования сообщения, которое не может передаваться, в сигнал, который может перемещаться, и путем декодирования сигнала на приемном конце. Такой взгляд предполагает гипотезу взаимного знания. Эта гипотеза гласит, что если получатель должен быть уверен в восстановлении правильной интерпретации, той, которая предназначена отправителю, каждый элемент контекстной информации, используемой при интерпретации сообщения, должен быть взаимно известен отправителю и получателю. Спербер и Уилсон (1995) рассматривают словесное общение или общение на естественном языке как включающие два типа коммуникационных процессов: один основан на кодировании и декодировании, другой — на демонстрации и выводе.

Акустические или графические сигналы используются для передачи семантических представлений. Семантические представления, восстановленные декодированием, полезны только в качестве источника гипотез и свидетельств второго процесса коммуникации, логического вывода. Согласно демонстративно-инференциальной модели, коммуникация достигается с помощью коммуникатора, предоставляющего доказательства его или ее намерений, и аудиторией, определяющей его намерения на основании данных. Коммуникатор демонстрирует свои коммуникативные намерения или цели, демонстрируя публичное толкование своих мыслей. Толкование (Ostension) помогает сосредоточить внимание аудитории на соответствующей информации. Аудитория применяет правила вывода к восстановленным семантическим представлениям мыслей коммуникатора, чтобы сформировать их ментальную интерпретацию. Эта интерпретация доходит до того, что подразумевает значение, которое не подразумевалось коммуникатором.

Взаимное знание, безусловно, участвует в вербальном общении, но общение направлено на расширение и изменение взаимного когнитивного окружения коммуникатора и аудитории и не направлено на дублирование мыслей.

Текст определен Petöfí и Garcia Berrio (1978, цитируется Pinto Molina, 1995) как «группа связанных языковых единиц в общем конгломерате коммуникативного намерения». Де Beaugrande и Dressler (1981, стр. 3 и далее) определяют текст как коммуникативный случай, который соответствует семи стандартам текстуальности.

  • Первый стандарт, связность (cohesion), касается способов, которыми компоненты поверхностного текста, то есть фактические слова (выражения языка), которые мы слышим или видим, взаимно связаны внутри последовательности. Компоненты поверхности зависят друг от друга в соответствии с грамматическими формами и условностями. Сплоченность влияет на связность поверхностных выражений.
  • Второй стандарт, согласованность (coherence), касается способов, которыми компоненты текстового мира, то есть конфигурация понятий и отношений, лежащих в основе поверхностного текста, являются взаимно доступными и актуальными. Согласованность касается глобальной организации и связности основного контента. Согласованность и связность являются тексто-центричными понятиями (см. Главу 2). Остальные стандарты представляют собой ориентированные на пользователя понятия, которые влияют на активность текстовой коммуникации в целом как создателями, так и пользователями.
  • Преднамеренность (Intentionality) касается отношения создателя к тому, что совокупность явлений должна составлять сплочённое и связное средство, способствующее выполнению намерений создателя, например, распространять знания или достигать определенной цели.
  • Приемлемость (Acceptability) относится к позиции пользователя текста о том, что набор вхождений должен представлять собой сплочённый и связный текст, имеющий определенное использование или значимость для пользователя, например, для получения знаний или обеспечения сотрудничества в плане.
  • Информативность (Informativeness) касается степени, в которой вхождения представленного текста ожидаются по сравнению с неожиданными или известными и неизвестными.
  • Ситуативность (Situationality) относится к факторам, которые делают текст релевантным ситуации возникновения.
  • Последний стандарт, интертекстуальность (intertextuality), касается факторов, которые делают использование одного текста зависимым от знания одного или нескольких ранее встреченных текстов. Интертекстуальность отвечает за эволюцию текстовых типов как классов текстов с типичными образцами характеристик.

Пока ясно, что текст делает возможным целый ряд коммуникативных действий. Текст тесно связан с естественным языком (natural language). Его содержание в основном проявляется в выражениях на естественном языке. Естественный язык является наиболее сложной символической системой, которую контролируют люди, и является важным инструментом во многих когнитивных процессах, включая общение, обработку и запоминание информации (Sperber & Wilson, 1995, p. 173). Репрезентативная сила естественного языка не имеет себе равных. Естественный язык обеспечивает экономичный, эффективный и выразительный инструмент для передачи контента (Sparck Jones, 1991). Отдельные слова в тексте и их порядок отображают содержание этого текста. Маловероятно, что естественный язык будет отдан в пользу искусственного языка для выражения содержания текста (Coulmas, 1989, p. 27). Согласно Кулмасу, для группы людей может быть возможно разработать графический код, который не зависит от их естественного языка и который достигает той же сложности и выразительной силы, что и их язык. Тем не менее, весьма маловероятно, что кодирование будет использоваться в человеческом общении.

Текст проявляется как в устной (речи), так и в письменной форме (Figge, 1979). В этой книге мы концентрируемся на письменном тексте.

4. Понимание текста на естественном языке: познавательный процесс

Текст можно рассматривать как сложное познавательное и социальное явление. Психологи изучили познавательный процесс осмысления или понимания текста. Пионерами в этом исследовании являются Kintsch и van Dijk (1978; см. Также van Dijk & Kintsch, 1983). Кинч и ван Дейк предполагают, что при чтении текста его поверхностные особенности (слова и их упорядоченность в тексте) интерпретируются как набор предложений. Предложение — это обычная форма для представления содержания из изречения. Различные семантические отношения между предложениями упорядочивают этот набор. Некоторые из этих отношений явно выражены в поверхностной структуре дискурса; другие выводятся в процессе интерпретации с помощью различных видов специфических для контекста или общих знаний. Из этого набора упорядоченных предложений выводится общий предмет или тема. Обычные схемы производства текстов помогают определить тип информации, которая важна для конкретной задачи понимания. Согласно Кинчу и Ван Дейку (1978) текст имеет ряд структур, которые позволяют нам понимать текст и идентифицировать содержание текста. В главе 2 мы подробно остановимся на этих текстовых структурах.

Со времени публикации пресловутой статьи Кинча и Ван Дейка (1978) многочисленные когнитивные исследования подтвердили, что когнитивный процесс понимания охватывает множество источников знаний и поддерживает множественные выводы. В этих исследованиях также подчеркивается, что понимание текста также включает в себя придание ему личного значения или толкования, которое не включено исключительно в сам текст. Модель Грейссера и Кларка (1985, с. 14 и далее) связывает четыре источника знаний с пониманием текста:

  1. Первый источник — это явный лингвистический материал, включая слова, синтаксические конструкции и лингвистические сигнальные устройства, которые явно выражены в тексте. Он также включает в себя лингвистические знания, которые понимает об этих уровнях анализа языка.
  2. Второй источник состоит из мировых структур знаний, которые хранятся в долговременной памяти понимающего. Эти структуры знаний включают в себя как общие структуры знаний, так и конкретные структуры знаний. Понимание страдает, когда знание понимания слов и тем текста неадекватно.
  3. Третий источник состоит из целей автора, который читает текст. Значение текста меняется, когда к тексту обращаются для разных целей.
  4. Четвертый источник состоит из прагматического контекста общения. Это включает в себя социальные отношения между читателем и писателем, общие знания между участниками коммуникативного мероприятия, а также социальные отношения и идеологии.

Многие выводы генерируются во время понимания текста, если база знаний понимающего очень богата, а стратегии рассуждения варьируются от области знаний к области знаний (Schank, 1982; Graesser & Clark, 1985, p. 15 и далее). Выводы зависят от знаний, которые можно найти в тексте (например, значения других, в основном предыдущих предложений), общей системы знаний пользователя и от цели чтения текста (Black, 1981; Shiro, 1994). Понимание текста включает в себя огромное количество контекстной информации. Психологические усилия еще не сошлись в четкой картине того, какие выводы генерируются и сколько выводов генерируется. Необходимы дополнительные исследования, чтобы описать, какие стратегии рассуждения используются в различных областях знаний.

Текущее исследование подчеркивает необходимость моделей понимания текста, которые включают субъективную модель читателя (van Dijk, 1995). Поскольку понимание текста является личным, специальным и уникальным и будет определять одну конкретную интерпретацию конкретного текста в определенный момент, модель понимания текста будет включать личные ассоциации, выводы и контекст.

5. Понимание текста на естественном языке: автоматизированный процесс

Сложность когнитивного процесса понимания текста на естественном языке делает автоматизацию этого процесса очень сложной задачей. Автоматическое понимание текстов относится к области исследований обработки естественного языка. Обработка естественного языка (Natural language processing), нацеленная на полностью понятую интерпретацию текстов, касается обработки лингвистического кодирования (словарный запас, синтаксис и семантика свойств языка и дискурса), знания предметного мира, общих знаний между создателем и пользователем текста и полного контекста понимания в определенный момент времени, включая идеологию, нормы, предпосылки пользователя и цели использования текста. Обработка не только раскроет содержание текста, но и прояснит значение текста для его пользователя.

Такое полное понимание текстов, включая их интерпретацию, далеко не реализовано автоматическими средствами. Проблемы автоматического понимания текста касаются как моделирования знаний и задействованного механизма вывода, так и вычислительной сложности операций. Помимо огромной задачи получения необходимых знаний и умозаключений (acquiring the knowledge and inferences) — многие соответствующие структуры и стратегии до сих пор неизвестны (van Dijk, 1995) — существует амбициозная задача по созданию работоспособных моделей. Особенно трудно моделировать знания о целях, убеждениях, ценностях и эмоциональных состояниях пользователя информации в тексте и всего прагматического контекста общения. Более того, модель должна уметь приспосабливаться к изменениям личной ситуации пользователя текста. Помимо проблемы исчерпывающего и правильного моделирования процессов знаний и умозаключений, исследователи беспокоятся о вычислительной сложности (computational complexity) и потенциальных проблемах, возникающих при взаимодействии различных структур знаний (Jacobs & Rau, 1993).

Таким образом, сложная выразительная и коммуникативная сила текстов на естественном языке делает их в настоящее время еще не полностью понятными для машины. Исследования по автоматическому пониманию языка были сосредоточены на ограниченном лингвистическом вводе и интерпретации текстов на основе задач.

Термин «подъязык — sublanguage» используется, когда тексты имеют дело с ограниченной предметной областью и обрабатываются для конкретных целей. Этот термин еще более уместен, когда сообщество создателей текста и пользователей, делящихся специализированными знаниями, использует подъязык. Такой подъязык более ограничен в своих лингвистических свойствах (словарный запас, синтаксис, семантика и организация дискурса) (Kittredge & Lehrberger, 1982; Grishman & Kittredge, 1986). Типичными подъязыковыми текстами могут быть сводки погоды и медицинские выписки пациентов. Тем не менее, лингвистические выражения из стандартного языка или из соседних доменов могут войти в подъязык без прохождения процесса создания соглашений. Желание автоматически манипулировать таким подъязыком неизбежно приводит к предписанию дополнительных ограничений на использование языка помимо тех, которые присущи подъязыку. В далеко идущей форме такой контролируемый язык может развиться в направлении полного «искусственного языка», в котором не хватает выразительной и коммуникативной силы естественного языка.

Второй подход, связанный с вышеизложенным, касается интерпретации текстов, ориентированных на задачи (task driven interpretation) (Jacobs & Rau, 1993). Когда текст используется с четкими целями, общими для его пользователей, его обработка фокусируется на выявлении в нем конкретной информации, игнорируя при этом его полное понимание. Основная информация обычно имеет значение для класса пользователей. Такой подход обязательно уменьшает сложность процесса понимания текста.

Индексирование и абстрагирование — это старые методы организации контента на естественном языке. Эти процессы создают краткое описание или характеристику исходного текста, который называется текстовым представлением.

Индексирование (Indexing) обычно извлекает или присваивает тексту набор отдельных слов или фраз, которые функционируют как индексные термины текста.

Абстрагирование (Abstracting) обычно создает короткий связный текст или профиль, который структурирует определенную информацию исходного текста.

Простые автоматические методы нацелены на выявление тематических терминов на основе частоты появления отдельных слов в текстовых и справочных корпусах. В случае абстрагирования извлекаются предложения, содержащие важные тематические термины. Эта поверхностная форма понимания текста широко используется для характеристики содержания текста документа в текущих инструментах поиска и выбора информации (см. Ниже).

6. Важные понятия в поиске и отборе информации

Тексты документов являются важным средством общения. Современные инструменты обработки текста допускают их неограниченное создание и воспроизведение. В результате большие и постоянно развивающиеся коллекции текстов находятся в нашем распоряжении. Средства поиска и выбора информации помогают находить документы или информацию, которые имеют отношение к конкретной потребности. Эти инструменты в основном относятся к информационно-поисковым системам, системам ответа на вопросы и системам просмотра (рис. 1). Типичная информационная система (information system) состоит из базы данных документов, поисковой системы, которая идентифицирует документы или информацию, релевантную для информационной потребности, и интерфейса, который позволяет выражать информационную потребность (запрос-query или вопрос-question), просматривать результаты поиска или просматривать коллекцию.

Поиск документа или информации (Document or information retrieval) связан с выбором документов, которые пользователь хочет прочитать, чтобы узнать что-то о нем. Несмотря на растущий интерес к поиску звука и изображений, термин «поиск текстаtext retrieval», относящийся к процессу извлечения текстовых документов, часто рассматривается как синоним поиска документов (Lewis & Sparck Jones, 1996). Основной процесс поиска информации (process of information retrieval) может быть описан следующим образом: представление информационной проблемы или потребности пользователя, представление содержания документов и сравнение этих представлений для определения того, какие документы лучше всего соответствуют информационной потребности и должны быть извлечены. Как мы объясним далее в главе 3, соответствие определяется путем сопоставления или вывода. Часто документы и запросы на естественном языке представляются в абстрактной форме, облегчая сопоставление между документом и потребностью в информации. Системы фильтрации документов (Document filtering) и маршрутизации документов (routing systems) работают таким же образом, но, как правило, потребность в информации является более стабильной и долгосрочной.

Системы ответов на вопросы (Question-answering systems), которые мы также называем системами извлечения (text extraction) текста, включают извлечение информации и знаний из текстов документов (Lewis & Sparck Jones, 1996). Система извлечения текста обычно анализирует объемы неструктурированного текста, выбирает определенные элементы из текста и потенциально сохраняет такие функции в структурированной форме (Jacobs, 1992, p. 2). Таким образом, коллекция суррогатов или представлений структурированных документов может заменить коллекцию документов. Извлеченная информация и знания формируют ответы на конкретные вопросы, заданные к текстам документа. Как мы объясним далее в главе 3, соответствие определяется путем сопоставления или вывода.

 

В просмотровых или навигационных системах (browsing or navigation systems) нет необходимости в информации. Системы просмотра обычно являются частью гипертекста и гипермедиа систем. Гипертекстовые и гипермедиа системы (Hypertext and hypermedia systems)(Conklin, 1987; Nielsen, 1995) хранят и управляют коллекциями документов, которые соответственно содержат текстовые элементы и многие другие различные оцифрованные формы мультимедиа. Обычно документ разбивается на части или фрагменты. Все фрагменты хранятся и управляются в сети узлов, где каждый узел сети содержит фрагмент, а связанные узлы связаны через соединения, называемые информационными связями (information links). Документы и их части взаимосвязаны таким образом. Каждая последовательность соединений образует отдельный путь для просмотра (навигации по) документа или коллекции документов. Таким образом, коллекция может быть исследована непоследовательным способом (например, переход от одного текста к другому). Пользователь выбирает документы, просматривая их полные тексты или просматривая их рефераты (Croft, 1993).

Когда текущие инструменты поиска и выбора информации работают с содержимым текстов документов, они недостаточно эффективны для идентификации документов или информации, которая важна для их пользователей. Далее мы объясним концепции актуальности, актуальности и потребности в информации. Эти понятия фундаментально связаны и нуждаются в объяснении, чтобы полностью объяснить проблему поиска информации. Мы используем здесь термин «поиск информации — information retrieval» в качестве общего термина для информации и выбора документов.

Когда текущие инструменты поиска и выбора информации работают с содержимым текстов документов, они недостаточно эффективны для идентификации документов или информации, которая важна для их пользователей. Далее мы объясним концепции толкования (aboutness), релевантности (relevance) и потребности в информации (information need). Эти понятия фундаментально связаны и нуждаются в объяснении, чтобы полностью объяснить проблему поиска информации. Мы используем здесь термин «поиск информации» в качестве общего термина для информации и выбора документов.

6.1 Толкование и смысл

Толкование (aboutness) или актуальность (topicality) текста относится к предметам или темам, обсуждаемым в тексте (Schank, 1982; Beghtol, 1986). Текст имеет относительно постоянное толкование, и оно обычно согласовывается между различными участниками процесса коммуникации (создатель (и) и пользователь (ы) текста). Толкование текста не всегда явно указывается поверхностными особенностями текста, возможно, он включает в себя знания, которыми делятся создатель (и) и пользователь (ы) текста. Приведенная выше модель понимания текста Кинча и Ван Дейка (1978) особенно направлена на понимание смысла текста.

Как уже объяснялось, на понимание текста влияют многие когнитивные факторы, среди которых интерес, задача, цель, знания, нормы, мнения или установки. Эти факторы определяют смысл (meaning), который текст передаёт для своего пользователя. Другой термин, иногда используемый для обозначения значения текста, — это интерпретация (interpretation). Интерпретация текста в целом состоит из чтения текста не «нейтральным» способом с целью единственного понимания, но относится к чтению текста с учетом всей исходной ситуации читателя или пользователя (Bánréti, 1981). Большое количество текстового значения создается с помощью умозаключений, которые делаются в результате взаимодействия читателя и текста (Shiro, 1994). Значение может, но не обязательно, относиться к информативности (informativeness) (Boyce, 1982). Информативность — это качество добавления новой информации к информации, которой уже обладает текстовый пользователь. Информативность и смысл меняются со временем.

Текст имеет внутренний предмет, толкование, но имеет различное количество смыслов в соответствии с конкретным использованием, которое человек может использовать в отношении информации в данный момент времени.

 

 

Рисунок 2. Взаимосвязь между актуальной релевантностью, мотивационной релевантностью и интерпретационной релевантностью (см. Saracevic, 1975).

 

Признание относительно постоянного качества информации в документах является одним из предположений, на которых традиционно основывались системы библиографической классификации. Толкование — это то, что человеческий классификатор определяет во время анализа толкования документа, а значение — это причина, по которой пользователь хочет получить его. Конечно, существует тесная связь между краткостью документа и его потенциальным значением для отдельных лиц (Beghtol, 1986). Цель поисковых систем состоит в том, чтобы извлекать документы, информация о которых позволяет предположить, что пользователь может найти в них смысл (ы), подходящий для определенной потребности момента. Интересно привести различие, проведенное Мароном (1977) между объективным толкованием (то, что мы называем здесь толкованием), субъективным толкованием (смыслом) и поисковым толкованием, причем последнее относится к значению текста для класса людей.

6.2 Релевантность

Релевантность (Relevance) — это мера эффективности контакта между отправителем и получателем в процессе коммуникации. Релевантность также касается эффективности коммуникации в поиске информации и играет решающую роль в оценке полученной информации. Релевантность в поиске информации многогранна. Критерии релевантности в целом относятся к информационному содержанию документов, интерпретации пользователем информационного содержания и мотивации пользователя при доступе к документам.

Релевантность — это отношение документа к потребностям пользователя, которые он (документ) помогает решить. Выдающимися среди аспектов релевантности являются актуальность или толкование (Schutz, 1970, p. 26 и далее; Saracevic, 1975). Актуальность касается информационного содержания документа и касается темы или объекта, рассматриваемых в документе. Основная тема текста — неограниченное поле для дальнейшей тематизации. Эта субтематизация включает в себя расширение или углубление преобладающей темы или переход от одной подтемы к другой, когда между ними нет иерархической связи. Документ может содержать ряд подтем, которые так или иначе актуальны для пользователя. Актуальность не является единственным фактором релевантности, связанным с контентом, существуют другие факторы, которые так или иначе связаны с контентом, такие как глубина и объем информации, точность информации и ситуационные факторы репутации источника и свежесть информации (Барри, 1994).

Помимо тематической релевантности, Schutz (1970, с. 35 и далее) и Saracevic (1975) ссылаются на релевантность интерпретации и мотивационную релевантность (рис. 2). Релевантность интерпретации включает интерпретацию пользователем документа на основе его собственного предшествующего опыта, восприятия или убеждений. Релевантность интерпретации включает в себя новизну и понятность информации для пользователя. Мотивационная релевантность включает в себя цель поиска и предполагаемое использование информации.

Тематическая, интерпретационная и мотивационная релевантности взаимосвязаны. Интерпретационная и мотивационная релевантность включают в себя значение документа для пользователя и динамически взаимодействуют в процессе оценки релевантности. Тематичность относится к содержательности документа и играет значительную роль в определении значения документа (Boyce, 1982; Beghtol, 1986).

Учитывая эти критерии релевантности, практически невозможно при почти всех обстоятельствах точно и полностью идентифицировать подмножество информации или документов, относящихся к данному пользователю в контексте конкретной потребности. Во-первых, релевантность является субъективной концепцией, зависящей от индивидуального пользователя (Schutz, 1970, p. 35 и далее; Saracevic, 1975; Schamber, Eisenberg, & Nilan, 1990; Barry 1994). Тем не менее, очень трудно контролировать ум человека в данный момент (см. Sperber & Wilson, 1995, p. 118 и далее). Во-вторых, релевантность меняется со временем в зависимости от уровня знаний и убеждений пользователя (Schamber et al., 1990; Barry, 1994). В этом сильном смысле оценка релевантности подразумевает измерение значения документа для отдельного пользователя в данный момент времени. Таким образом, это сильное чувство релевантности еще не может быть полностью включено в проектирование и оценку информационно-поисковых систем. Более того, существует далеко идущая проблема синтеза знаний (Green, 1995). В связи с текущим информационным взрывом усиливается тенденция к специализации и фрагментации знаний. Таким образом, не исключено, что два документа, каждый из которых отдельно, не имеют отношения к потребностям пользователя, но из их совместного использования может быть получено решение для удовлетворения потребностей пользователя.

Следовательно, мы используем несколько более слабых понятий релевантности, основанных на наборе операционных предположений, лежащих в основе теории поиска. Целью идеальной системы документов является, как минимум, определение документа (ов), которые потенциально могут помочь пользователю в отношении его или ее потребностей (Green, 1995). С этой точки зрения релевантность — это свойство документа быть потенциально полезным для пользователя при решении проблемы. Тематичная релевантность является необходимым, но не достаточным условием релевантности (Froelich, 1994). Тематичная релевантность обычно выступает в качестве первого фильтра при выборе документов (Boyce, 1982). Это самый простой фактор релевантности для работы в текстовых системах, и он является основным фактором при ранжировании документов в соответствии с их релевантностью запросу в современных информационно-поисковых системах.

Релевантность сложно вычислить в точных цифрах. Релевантность оценивается людьми в абстрактных относительных терминах (например, «слабо релевантные», «очень релевантные», «совершенно неактуальные»), но не в терминах количественных абсолютных суждений и особенно не в бинарных решениях «да-нет» (Saracevic, 1995) , Однако производительность информационно-поисковых систем обычно измеряется с помощью метрик эффективности, то есть отзыва и точности, которые основаны на бинарном суждении о релевантности документов. Напомним, измеряет долю соответствующих документов, извлеченных и точную долю извлеченных документов, которые имеют отношение (Salton, 1989, стр. 248).

6.3 Потребность в информации

В современных системах поиска информации потребность в информации обычно выражается ключевыми терминами или логической комбинацией ключевых терминов. Или запрос выражается в виде естественного языка, который автоматически индексируется для предоставления необходимых ключевых терминов для сопоставления документов. Это, однако, плохое представление реальной потребности в информации. Ситуация с информационной потребностью охватывает все факторы, которые пользователь привносит в ситуацию: предыдущие знания, осведомленность о доступной информации, аффективные и эмоциональные факторы, ожидаемое использование информации и другие личные и ситуативные факторы. Даже когда потребность более или менее адекватно выражена на естественном языке, ее представление обычно сводится к некоторым ключевым терминам, которые недостаточно отражают реальную потребность.

Более того, ситуация с информационными потребностями динамична и постоянно меняется (Барри, 1994). Иногда пользователь базы данных документов не имеет четко определенной потребности. Он или она хочет просмотреть базу данных. Или, что еще более важно, документ становится очень важным только после его полного прочтения (Allen, 1990).

Очень трудно правильно и адекватно осмыслить и представить реальную информационную потребность человека в данный момент времени. Тем не менее, учитывая большое количество документов в существующих документах, выбор информации необходим. Пользователь не хочет читать текст заполнения каждого документа в коллекции, чтобы удовлетворить свои потребности в информации.

6.4 Информационная (поисковая) проблема

Ядром поиска информации является проблема оценки ценности содержимого данного документа для данной потребности в информации. Понятно, что простой подход — сначала понять содержание документа, а затем сопоставить его с точной моделью интереса пользователя, чреват серьезными проблемами. Самая важная проблема — это понимание естественного языка текстов документов и предпочтений пользователя.

Процесс поиска информации состоит из нескольких вероятностных операций (см. Blair, 1990, p. 319). Во-первых, представление потребности в информации часто является приближением к реальной потребности пользователя или группы пользователей. Во-вторых, понимание текста документа на естественном языке является плохим и часто приводит к неполной или неправильной характеристике текста и его содержательности. Наконец, соответствие между запросом и документом является вероятностной операцией. Документы обычно ранжируются в соответствии с их вероятностью соответствия запросу. Сопоставление обычно ограничивается сопоставлением терминов между запросом и документом, при этом вероятность релевантности пропорциональна количеству сопоставленных терминов (см. Green & Bean, 1995). В результате, вероятно, что вся операция извлечения информации не дает всех документов, относящихся к запросу, и / или предоставляет документы, которые не относятся или только незначительно относятся к запросу.

Вышеуказанная проблема касается классической информационно-поисковой системы. Однако информационная проблема также присутствует в системах просмотра и в системах ответов на вопросы. В системах просмотра пользователь не делает свою информацию необходимой явной. Однако системы демонстрируют определенную потребность в адекватных сокращенных дескрипторах содержания своих документов (например, в форме тематических карт, рефератов и предлагаемых ссылок), которыми пользователь должен руководствоваться при выборе документов. Тогда информационная проблема касается неадекватного выбора документов из-за неверной или неполной характеристики текстов и их содержательности. В вопросно-ответных системах потребность в информации четко указана (вопрос для конкретной информации). Здесь опять информационная проблема касается часто неправильной характеристики содержания документа.

7. Общие решения проблемы поиска информации

В этом разделе мы объясняем ряд основных стратегий, которые были реализованы и все еще разрабатываются для устранения вышеуказанной проблемы поиска информации.

7.1 Полнотекстовый поиск и исправление

Основная концепция полнотекстового поиска и восстановления заключается в хранении полнотекстового текста всех документов в коллекции, так что каждое слово в тексте доступно для поиска и может функционировать в качестве ключей для поиска. Затем, когда человек хочет получить информацию из хранимой коллекции, компьютер получает указание выполнить поиск всех документов, содержащих определенные пользователем слова или словосочетания. Этот подход отличается от поисковых коллекций, которые имеют фиксированные дескрипторы, прикрепленные к текстам документа.

Первоначальная идея (Swanson, 1960) была положительно проверена Солтоном (1970), и с тех пор реализация полнотекстового поиска получила все больший успех. Сегодня полнотекстовый сегмент все еще является растущим сегментом рынка коммерческих компьютеризированных баз данных (Sievert, 1996).

Полнотекстовый поиск привлекателен по многим причинам и имеет определенные преимущества.

  1. Полнотекстовый поиск привлекателен с коммерческой точки зрения (Blair & Maron, 1985). Цифровая технология обеспечивает дешевое хранение полнотекстового контента и обеспечивает быструю вычислительную технологию, которая делает поиск полнотекстового текста эффективным. Также очень удобно искать разные типы текста в больших коллекциях документов, просто выполняя поиск по отдельным словам. Кроме того, поскольку он использует простую форму автоматической индексации, он устраняет необходимость в людских индексаторах, работа которых становится все более дорогостоящей, а работа часто оказывается непоследовательной и менее полноэффективной.
  2. Полнотекстовый поиск — это первая попытка перенести индексирование с преимущественно априорного процесса на процесс, определяемый конкретными информационными потребностями и другими ситуационными факторами (Tenopir, 1985; Salton, 1986). Фиксированные текстовые дескрипторы сильно затрудняют доступность текстов. Иногда документы не могут быть извлечены, полагаясь на назначенные дескрипторы, потому что их информационная ценность для пользователей является второстепенной по отношению к их основной цели. Индексация понятий и терминов в полнотекстовом поиске зависит от ситуации и будет выполняться в соответствии с требованиями каждого входящего запроса.
  3. Неопытные пользователи обнаружили, что поиск с использованием полнотекстовых терминов на естественном языке проще, чем поиск с использованием фиксированных текстовых дескрипторов (Tenopir, 1985).

Тем не менее, полнотекстовый поиск не является магической формулой и страдает недостатками.

  1. В то время как отзыв обычно улучшается по сравнению с использованием фиксированных текстовых дескрипторов (Tenopir, 1985; McKinin, Sievert, Johnson, & Mitchell, 199 1), при поиске больших коллекций документов точность может пострадать недопустимо, и пользователи могут быть завалены ненужными материал (Blair & Maron, 1985; Blair & Maron, 1990). Появление слова или словосочетания не является гарантией актуальности. По мере роста базы данных эта проблема «слишком большого количества обращений» будет только усугубляться. В настоящее время это касается полнотекстового поиска в Интернете.
  2. Также отзыв может пострадать. Опрос Croft, Krovetz и Turtle (1990) показывает, что пользователи часто запрашивают документы в терминах, с которыми они знакомы, и эти термины часто не являются терминами, используемыми в самом документе. Этот недостаток еще более заметен, когда используются комбинации поисковых терминов, которые должны встречаться в документах вместе (Blair & Maron, 1985). Если вхождения этих терминов в соответствующем документе являются независимыми событиями, вероятность поиска документов, которые содержат точную комбинацию терминов, уменьшается с увеличением количества поисковых терминов в комбинации.

В последние годы исследования по полнотекстовому поиску значительно расширились из-за ежегодных конференций TREC (Text REtrieval Conference), спонсируемых NIST (Национальный институт стандартов и технологий, США). Конференции TREC отражают необходимость более совершенной автоматической индексации содержания текстов в качестве ответа на недостатки текущего полнотекстового поиска (см. Harman, 1993, 1994, 1995, 1996; Voorhees & Harman, 1997, 1998, 1999 ).

7.2 Релевантность Обратной связи

Важной и трудной операцией в поиске информации является создание полезных операторов запросов, которые могут извлечь все необходимые документы, требуемые пользователями, и отклонить оставшуюся часть. Поскольку идеальное представление запроса не может быть сгенерировано, не зная много о составе коллекции документов, обычно проводят итеративный поиск, сначала работая с предварительной формулировкой запроса, а затем улучшая формулировки для последующих поисков, основываясь на оценках ранее восстановленные материалы. Одним из способов автоматической генерации улучшенных формулировок запросов является хорошо известный процесс обратной связи по релевантности.

Методы, использующие релевантную информацию, изучались десятилетиями и все еще исследуются. Роккио (1971) был первым, кто экспериментировал с модификацией запросов и дал положительные результаты. Иде (1971) расширил работу Роккио. Солтон и Бакли (1990) сравнили эту работу в разных коллекциях тестов. Обратная связь по релевантности широко изучается на конференциях по поиску текста (TREC).

Основное предположение обратной связи по релевантности заключается в том, что документы, относящиеся к определенному запросу, похожи друг на друга. Это подразумевает, что, когда извлеченный документ идентифицирован как релевантный для данного запроса, формулировка запроса может быть улучшена путем повышения его сходства с таким ранее извлеченным релевантным элементом. Ожидается, что в переформулированном запросе будут получены дополнительные релевантные элементы, которые похожи на первоначально идентифицированный релевантный элемент. Аналогично, переформулируя запрос, можно уменьшить его сходство с найденными не относящимися к делу документами.

Таким образом, лучший запрос получается путем оценки найденных документов как релевантных или не относящихся к делу. Исходный запрос может быть изменен двумя существенными способами (Salton, 1989, p. 307). Во-первых, к исходной формулировке запроса добавляются термины индекса, присутствующие в ранее извлеченных документах, которые были идентифицированы как относящиеся к запросу пользователя. Во-вторых, использование характеристик вхождения терминов в ранее извлеченных релевантных и нерелевантных документах коллекции позволяет изменить вес исходных терминов запроса. Вес или важность условий запроса, встречающихся в соответствующих документах, повышается. Аналогично, термины, включенные в ранее извлеченные не относящиеся к делу документы, можно преуменьшить. Оба подхода дали улучшенные результаты поиска (Salton & Buckley, 1990; Harman, 1992b). Эксперименты показывают, что выполнение нескольких итераций обратной связи до тех пор, пока пользователь не будет полностью удовлетворен результатами, является крайне желательным.

Обратная связь по релевантности используется как для специального интерактивного поиска информации, так и для фильтрации документов на основе долгосрочных информационных потребностей.

Хотя обратная связь по релевантности считается эффективной для повышения эффективности поиска, все еще существуют некоторые препятствия. Нужно выбрать, какие термины добавить в формулировку запроса (Harman, 1992b) и вес каких терминов в формулировке запроса изменить (Buckley & Salton, 1995). Кроме того, текущие текстовые коллекции часто содержат большие документы, которые охватывают несколько предметных областей. Было показано, что обрезка больших документов путем выбора хорошего отрывка при выборе терминов индекса оказывает положительное влияние на эффективность обратной связи (Аллан, 1995).

7.3 Информационные агенты

Существует много определений понятия «агент» (мы ссылаемся здесь на Брэдшоу, 1997, с. 3 и далее,). Грубое определение заключается в том, что агент — это программное обеспечение, которое благодаря встроенным знаниям и / или приобретенному опыту может выполнять задачу непрерывно и с высокой степенью автономии в конкретной среде, часто населенной другими агентами и процессами (см. Shoham, 1997) , Возникает интерес к привлечению информационных агентов (Croft, 1987; Standera, 1987, p. 217 и далее; Maes, 1994; Koller & Shoham, 1996). Информационный агент предоставляет пользователю соответствующую информацию, которая, например, извлекается из коллекции документов.

Основная цель использования информационного агента в выборе и поиске информации состоит в том, чтобы определить реальную потребность пользователя и помочь удовлетворить эту потребность. Однако растет интерес к агентам, которые идентифицируют или изучают соответствующие атрибуты содержимого текстов.

  1. Типичной задачей в информационно-поисковой среде является фильтрация информации в соответствии с профилем пользователя или класса пользователей (Аллен, 1990). Такой профиль называется моделью пользователя. Агент знает интересы, цели, привычки, предпочтения и / или опыт пользователя или постепенно становится более эффективным по мере изучения этого профиля (Maes, 1994; Koller & Shoham, 1996). Знания в профиле приобретаются интеллектуально (от пользователя и экспертов), внедряются и поддерживаются инженерами по знаниям. Или знания приобретаются самим агентом на основе хороших положительных (и отрицательных) примеров обучения. Изучение профиля пользователя имеет множество преимуществ, в том числе позволяет избежать дорогостоящей реализации и обслуживания, а также легко адаптируется к изменяющимся предпочтениям. Изучение предпочтений пользователей тесно связано с техникой обратной связи по релевантности. Опять же, такой подход предполагает актуальность документов, которые аналогичны ранее найденным документам, признанным релевантными.
  2. Информационные агенты также выполняют другие функции, которые поддерживают операцию поиска. Они могут предоставлять услуги тезауруса, такие как предоставление синонимов для условий запроса или предоставление более широких или более узких терминов для условий запроса (Wellman, Durfee, & Birmingham, 1996; см. Главу 5). Агент также может выбрать лучшую поисковую систему, основываясь на знании методов поиска.
  3. Исследования информационных агентов особенно сосредоточены на характеристике и уточнении информационных потребностей. Не менее важно автоматически определять или изучать соответствующие атрибуты содержания текстов (Maes, 1994). Если мы получим детальный и понятный запрос пользователя, то для точного сравнения информационных потребностей и документа потребуется почти аналогичная детальная характеристика содержания документа.

7.4 Проектирование документов

Технологический переход к мультимедийным средам влияет на кодирование и структуру электронных документов. Электронные документы становятся более сложными, они наделены атрибутами, которые формируют описание документа. Также лингвистическое текстовое сообщение на электронном носителе структурировано и отличается от печатного и бумажного носителя (McArthur, 1987). Тексты имеют стилистические атрибуты (например, используемый стиль и шрифты), экстенсиональные атрибуты (например, имя автора, дата создания), которые также называются объективными идентификаторами, и атрибуты содержимого (например, ключевые термины, ссылки), которые называются необъективные идентификаторы (ср. Солтон, 1989, стр. 276). Эти атрибуты узнаваемы по разметке в документе. Различные стандарты описания документов позволяют использовать документы и их атрибуты независимо от аппаратного и прикладного программного обеспечения. Примерами таких стандартов являются SGML (стандартный обобщенный язык разметки) и HTML (язык разметки гипертекста). Использование таких наценок значительно повышает доступность информации, содержащейся в документах и ​​прилагаемой к ним.

Несмотря на привлекательность и обещание такого подхода, необходимо помнить о его пределах, среди которых сложность и стоимость назначения надбавок. Создание текущих и будущих электронных документов иногда сравнивают с созданием программного обеспечения (Walker, 1989). Следовательно, термин документная инженерия используется. Создание электронных документов — сложная задача. По сравнению с областью разработки программного обеспечения существует явная потребность в модульности, абстракции и согласованности. Объективные идентификаторы, такие как имена авторов, имена издателей и дата публикации, в целом не вызывают споров о том, как их назначать. Когда разметки относятся к атрибутам контента (например, ключевым терминам и гипертекстовым ссылкам), необходимо помнить о дорогостоящем, а иногда и субъективном и непоследовательном присвоении этих атрибутов. Интеллектуальное назначение разметки контента рассматривается как форма ручной индексации (Croft et al., 1990). Многочисленные исследования показывают, что ручная индексация противоречива и субъективна (Beghtol, 1986; Collantes, 1995).

«Согласованность между индексами» оказывает прямое положительное влияние на эффективность поиска (статья Леонарда, цитируемая в Ellis, Furner, & Willett, 1996). Тем не менее, у нас не так много исследований о «согласованности связующих». Исследование Ellis, Furner-Hines и Willett (1 994) показывает небольшое сходство между наборами ссылок, вставленными разными людьми в набор полнотекстовых документов. Этим авторам не удалось доказать положительную связь между согласованностью междоменных связей и навигационной эффективностью в гипертекстовых системах (Ellis et al., 1996). Эта проблема может быть устранена, когда автор текста выступает в роли инженера по документам и отвечает за назначение атрибутов содержимого и ссылок. Таким образом, автор текста определяет возможные варианты использования текста и навигацию между текстами (ср. Барретт, 1989; Франц, Шапиро, Войскунский, 1997, стр. 137). Более того, разработка документов не всегда экономически эффективна, особенно когда речь идет о разнородных материалах, таких как текстовое содержимое. Из-за лучшей доступности информации с помощью разметки документов время поиска информации увеличивается. Однако для точного назначения наценок требуется дополнительное время.

Следовательно, разработчик документов мог бы использовать некоторую дополнительную автоматическую поддержку для назначения атрибутов содержимого текстам во время создания документа (Alschuler, 1989; Wright & Lickorish, 1989; Brown, Foote, Jones, Sparck Jones, & Young, 1995). Особенно это может быть полезно для больших коллекций активных документов, таких как новостные тексты, предназначенные для разнородной аудитории (Аллен, 1990).

8. Потребность в улучшенных методах автоматической индексации и абстрагирования

Письменный, а также устный текст является очень важным средством передачи человеческих мыслей и знаний. В нашем нынешнем информационном обществе мы перегружены электронными текстовыми документами. Коллекции документов постоянно растут, а их содержание постоянно развивается. Системы поиска и отбора информации приобретают все большее значение. Они должны помочь нам найти документы или информацию, соответствующую нашим потребностям.

Письменный текст рассматривается как сложное когнитивное явление. Когнитивный процесс создания и понимания текста на естественном языке сложен и еще не полностью понят. Тем не менее, очевидно, что помимо кодирования и декодирования языковых знаков, он включает в себя дополнительные когнитивные процессы. Общение через текст на естественном языке в основном является демонстративным и выводным. Создатель демонстративно сигнализирует о своих коммуникативных целях. Дифференциальный характер понимания естественного языка является одним из факторов, который делает автоматизированное понимание текста трудной операцией. Выводы относятся к знаниям, которыми обмениваются создатель и пользователь текста, и которые не указаны в тексте явным образом. Выводы также относятся к индивидуальному когнитивному состоянию пользователя и позволяют определить значение текста для отдельного пользователя.

Рисунок 3. Важность текстовых представлений (r1. .Rn) для поиска и выбора информации.
Рисунок 3. Важность текстовых представлений (r1. .Rn) для поиска и выбора информации.

Для пользователя коллекции документов важно найти документы или информацию, которые соответствуют его потребностям. Даже если пользователь не нуждается в четко определенной информации и хочет просмотреть коллекцию документов, он или она хочет руководствоваться при выборе документов. Системы поиска и фильтрации информации, системы ответов на вопросы и системы просмотра, которые работают с текстовыми документами, основаны на характеристиках их содержания (рисунок 3). Эти текстовые представления являются результатом индексации и абстрагирования текстов. Текстовые представления сопоставляются с представлениями информации, необходимой или направляют пользователя при выборе соответствующих документов или информации. Качество полученной и отобранной информации приобретает все большее значение (Convey, 1992, p. 105). Пользователи все еще расширяющихся электронных баз данных и библиотек хотят получить все соответствующие документы или информацию, но не хотят, чтобы их завалили документами, которые не имеют отношения к делу или имеют лишь незначительное отношение к их потребностям. Пользователи систем просмотра хотят эффективно ориентироваться на интересные документы, не погружаясь в возможные варианты. В настоящее время это далеко не реализовано для текстовых баз данных. Существует реальная информационная (поисковая) проблема. Проблема вызвана неправильным и неполным представлением информационных потребностей и содержания текстов документов, а также вероятностным соответствием между ними.

Индексирование обычно извлекает или присваивает тексту набор отдельных слов или фраз, которые функционируют как ключевые термины. Слова или фразы текста обычно называют индексными терминами естественного языка. Когда назначенные слова или фразы приходят из фиксированного словаря, они называются индексными терминами контролируемого языка. Термины индекса, помимо отражения содержимого, могут использоваться в качестве точек доступа или идентификаторов текста в коллекции документов. Эта форма представления текста используется в системах поиска и фильтрации информации (рисунок 3). Абстрагирование приводит к уменьшенному представлению содержания текста. Резюме обычно имеет форму непрерывного, связного текста или профиля, который структурирует определенную информацию текста. Тезисы используются главным образом в системах ответов на вопросы и в системах просмотра (рисунок 3). Индексирование и абстрагирование содержания текстов являются традиционно ручными задачами. В растущих коллекциях документов задача человеческого индексирования и абстрагирования неосуществима с точки зрения эффективности и стоимости. Более того, ручной процесс не всегда выполняется последовательно. Тем не менее, текущие текстовые представления, которые генерируются автоматически, не точно и полностью представляют содержание текстов. Более совершенные методы автоматической индексации и абстрагирования, безусловно, способствуют решению проблемы поиска информации.

Другие решения проблемы поиска информации были предложены с некоторым успехом. Мы видели, что полнотекстовый поиск, обратная связь по релевантности, информационные агенты и проектирование документов — все это способствует более эффективным системам поиска и отбора информации. Мы также продемонстрировали, что каждый из этих ответов выигрывает от более точной характеристики содержания текстов.

Полнотекстовый поиск — это самая простая форма автоматической индексации. Обычно предполагается, что неполноценные результаты полнотекстового поиска обусловлены плохой автоматической идентификацией хороших терминов содержания в текстах. Обратная связь по релевантности будет улучшена, если в документах будет определен более избирательный контент, который будет использоваться при переформулировании запроса. Особенно при использовании длинных документов в процессе обратной связи такой выбор необходим. Разработка информационных агентов идет рука об руку с необходимостью более точной автоматической характеристики содержания текста. При изучении профиля пользователя в текстах документа должны быть определены контентные функции, которые важны для изучения профиля и позволяют проводить сравнения с подробным профилем. Мультимедийные информационные системы разрабатываются во всем мире. Необходимо представить содержание каждого объекта в мультимедийной системе (включая текстовые объекты). Без такого представления система не сможет интегрировать информацию с разных носителей. В настоящее время представление текстовых объектов осуществляется посредством интеллектуальной атрибуции ключевых терминов, которые должны отражать контент, путем интеллектуального связывания текстовых элементов, относящихся к аналогичному или связанному контенту, или путем интеллектуального создания рефератов, которые помогают при выборе документов. Здесь опять же существует необходимость в эффективной автоматической характеристике содержания текстов.

Приведенные выше соображения подчеркивают необходимость более совершенных процедур автоматической индексации и абстрагирования текстов. Это возвращает нас к тому, с чего мы начали рассуждать в этой главе. Понимание текста на естественном языке — сложная задача. Однако мы считаем, что прогресс в понимании содержания возможен без полной и сложной обработки текстов с целью их полного понимания.

  1. Может быть достигнут прогресс в определении смысла или темы текста. Несмотря на значительные улучшения, мы все еще не совершенны, когда автоматически определяем объемность текста. В идеале, текст должен быть представлен разными уровнями восприятия, что позволяет мотивировать масштабирование его тем и подтем (Lewis & Sparck Jones, 1996). Aboutness — это постоянное качество текста, доказавшее в прошлом свою полезность при выборе информации. В качестве когнитивной модели понимания текста модель Кинча и Ван Дейка (1978) обладает потенциалом для автоматического распознавания буквальности текста (Endres-Niggemeyer, 1989; Pinto Molina, 1995).
  2. Если методы индексации и абстрагирования могут правильно характеризовать подробные темы, включая конкретную информацию в текстах, подробные темы могут соответствовать определенной потребности пользователя в конкретный момент. В настоящее время полнотекстовые слова недостаточно сильны, чтобы их можно было уловить. такой подробный контент.
  3. Нам нужны более совершенные методы извлечения контента из текста, который имеет отношение к значению, которое пользователи могут придавать тексту (Fidel & Efthimiadis, 1994). Это кажется сложной задачей, но, по крайней мере, мы можем сосредоточиться на тех случаях, когда тексты используются с четкими целями, которые разделяются среди класса пользователей (см. Kintsch & Van Dijk, 1978). Это относится к тому, что Марон (1977) называет поисковым словарем, который является значением текста для класса пользователей.

Конечно, задача состоит в том, чтобы идентифицировать текстовое содержимое без необходимости обрабатывать его на основе полного лингвистического, предметного мира и контекстуального знания коммуникации. Мы думаем, что улучшения возможны, если добавить ограниченное количество знаний или автоматически получить полученные знания. Использование минимального количества источников знаний в понимании текста соответствует традиционным исследованиям в области автоматической индексации и абстрагирования в области поиска информации. Коллекции документов часто очень разнородны и состоят из текстов разных типов и происхождения. Мы уделяем особое внимание методам лучшей идентификации и извлечения терминов содержания, индексации разделов или отрывков, автоматизированным методам назначения тематических кодов, извлечения информации и методам суммирования текста (см. Carbonell, 1996).

Мы пришли к выводу, что существует абсолютная потребность в усовершенствованных методах автоматической индексации и абстрагирования текстов документов. Эти методы составляют предмет этой книги.

В этой книге мы делаем следующее различие между терминами «данные», «информация» и «знание» (ср. Пао, 1987, стр. 10-11). Данные представляют собой наборы символов, представляющих захваченные свидетельства транзакций и событий. Мы используем термин информация для выбранных данных. Когда мы используем термин «знания», он относится к знаниям, полученным людьми при выполнении задачи, или к знаниям, которые применяются и используются в системах, основанных на знаниях. Термин «поиск информации» иногда относится к управлению информацией в целом, чаще он относится к поиску документов, которые удовлетворяют определенной потребности в информации. Термин используется в обоих смыслах в этой книге.

Глава 2 — Атрибуты текста

1. Введение в Главу 2

В этой главе мы анализируем текст и его компоненты, чтобы определить основные атрибуты письменного текста. Значительное количество описанных атрибутов также применимо к устному тексту. Мы сосредотачиваемся на тексте, написанном на западноевропейских языках, не вдаваясь в подробности языкового аспекта текста. Иллюстрации атрибутов текста относятся к тексту, написанному на английском языке. Если иллюстрации взяты из голландского текста, они цитируются на голландском языке и переводятся на английский.

Письменный текст состоит из трех основных компонентов. Его структура макета относится к вне-текстовым элементам, таким как шрифты, стили шрифтов и цвета. Логическая структура влияет на организацию порций информации, например, в главах, абзацах и информационных узлах. Структура и логическая структура относятся к структуре представления и связаны со средой и технологией процесса коммуникации. Третий компонент — текстовый контент. Мы ориентируемся на атрибуты текста, которые относятся к его содержанию.

2. Изучение текста

Как указано в его определении (см. Главу 1), текст состоит из языковых единиц, лингвистика — это научное и строгое исследование формальной природы языка (Эллис, 1992, стр. 28). Междисциплинарная наука о тексте, также называемая лингвистикой текста, описывает и объясняет общие черты и функции текстов (de Beaugrande & Dressler, 1981, p. 3; van Dijk, 1997). Его задача состоит в том, чтобы описать и объяснить взаимосвязь различных аспектов форм использования языка и общения в различных дисциплинах (van Dijk, 1978, p. 8). Текстовая лингвистика также исследует, какие тексты стандартов должны соответствовать и как тексты могут быть произведены или получены.

Текстовая лингвистика является одной из областей более широкого междисциплинарного исследования дискурс-анализа (де Beaugrande, 1985). Дискурс является формой использования языка (van Dijk, 1997). Термин «дискурс» обычно относится как к разговорной, так и к письменной речи, хотя иногда эта концепция расширяется и включает другие виды семиотической активности (например, деятельность, которая производит значения), такие как визуальные образы (например, фотография, фильм, видео, диаграммы) и невербальное общение (например, жесты) (Fairclough, 1995, p. 54). Дискурсы (включая тексты) обычно относятся к определенному жанру или типу (например, письмо, новость). Жанр имеет специфическую структуру, то есть определенную организацию его компонентов (Fairclough, 1995, p. 76). Мы говорим о текстовом жанре или типе текста в случае текстового материала. В случае мультимедийных документов мы обычно говорим о типе дискурса или жанре. Хотя термины «тип» и «жанр» обычно используются в качестве синонима, иногда проводится различие, определяя тип дискурса как обладающий свойством притягиваться к двум или более жанрам (Fairclough, 1995, p. 76). В этой книге мы будем использовать термины «тип текста» и «жанр текста» в качестве синонимов. Дискурс-анализ также связан с прагматикой (van Dijk, 1997). Прагматика — это изучение использования языка в контексте общения. Он описывает, как предложения используются для передачи информации или как они создают когнитивное состояние своего создателя (Dean, Allen, & Aloimonos, 1995, p. 490).

Анализ дискурса описывает и объясняет свойства типов текста. На микроуровне описания дискурсивный анализ касается словарного запаса, синтаксиса и семантики отдельных предложений, предложений и фраз (van Dijk, 1997). На макроуровне описания дискурсивный анализ выходит за границы предложения и считает текст полной грамматической единицей. Основное внимание уделяется способам влияния предложений на окружающие предложения. Таким образом, он также включает в себя анализ текстовой организации над предложением, включая способы, которыми предложения связаны друг с другом, и организацию текстов (например, организация очереди по очереди в интервью, общая структура газетной статьи). Было продемонстрировано, что текст на этом макроуровне имеет несколько структур. Интересный аспект дискурс-анализа описывает и объясняет эти текстовые структуры. Другой аспект изучает, как «поверхностные» лингвистические формы или явления сигнализируют о текстовых структурах, и объясняет, почему эти формы выбраны.

Помимо свойств текста, дискурс-анализ изучает характеристики социальной ситуации коммуникативного события, которые систематически влияют на текст, то есть на контекст текста (van Dijk, 1997).

При дальнейшем описании атрибутов текста мы следуем различию микро- и макроуровневых описаний, предложенных van Dijk (1997). Когда текст описывается с точки зрения понимания текста, Haberlandt и Graesser (1985) различают слово, предложение и уровень текста. Уровни слов и предложений, соответственно, относятся к лексическому кодированию и доступу, а также к сегментации и интерпретации предложений, в то время как уровень текста связан с идентификацией темы, активацией знаний и интеграцией между участниками.

3. Обзор некоторых распространенных типов текста

Существует огромное разнообразие видов текстов (например, дорожный знак, стихотворение, учебник, научная статья). Но не хватает поддающейся проверке таксономии типов текста (Пинто Молина, 1995). В этом разделе мы даем обзор некоторых распространенных типов письменного текста без цели быть исчерпывающим.

Тексты часто отличаются своей функцией. Второе важное различие заключается в пояснительном тексте, повествовательном тексте и типах текста, привязанных к определенной дисциплине.

Что касается функции текста, Хэллидей (1989, стр. 40 и далее) различает текст, написанный для того, чтобы предпринять какие-либо действия (например, публичные вывески, ярлыки продуктов и инструкции, рецепты, карты, руководства по телевизионным и радиопрограммам, счета, меню, телефон справочники, бюллетени для голосования, компьютерные руководства) или для установления социальных контактов (например, письма, электронные письма, открытки), текст, написанный для предоставления информации (например, статьи в газетах и журналах, научные статьи и отчеты, отчеты о пациентах, политические брошюры, информативные книги, публичные объявления, рекламные объявления, туристические брошюры) и тексты, написанные для развлечения (например, журнальные статьи, полосы, поэтические и драматические тексты, романы, эссе, субтитры к фильмам).

Часто проводится различие между пояснительным и повествовательным текстом (Rau, Jacobs, & Zernik, 1989). Повествовательный текст ориентирован на сюжет рассказа, который состоит из нескольких действий. Текст обычно строится таким образом, чтобы читатель мог легко следить за действиями. Примерами повествовательных текстов являются новостные статьи, романы и короткие рассказы. В пояснительном тексте больше внимания уделяется темам и подтемам текста. Здесь, организация текста важна для эффективного поиска информации по темам в тексте. Научные тексты являются важной частью описательных текстов (например, энциклопедических статей, научных статей, технической документации).

Помимо пояснительного и повествовательного текста, существуют текстовые типы, которые являются частью определенных дисциплин. Часто в этих дисциплинах используются свои особые типы, которые требуют особых объяснений (van Dijk, 1978, p. 19 и далее).

Юридические документы представляются в довольно условных формах, которые определяют несколько типов (Danet, 1985; Gunnarsson, 1997; Moens, Uyttendaele, & Dumortier, 1999b). Некоторые из этих текстов могут быть частью статутного права (договоры, статуты, королевские указы, министерские указы, местные указы и т. д.). Их функция — сформулировать общие правила, которым должен следовать каждый. Они официально опубликованы, и все граждане должны знать об их содержании. Другие тексты связаны с судебным разбирательством: заявления полиции, ордера, официальные заявления и судебные решения. Каждый из них указывает на определенный этап процедуры и служит официальным доказательством этого. Третий вид текстов составлен в качестве юридического доказательства в коммерческой сфере, т. е. Документов, договоров и уставов. Кроме того, ряд текстов используются по административным причинам (например, налоговые декларации). Наконец, есть тексты правовой доктрины, составленной для научных или исследовательских целей.

Другие поля используют определенные типы текста. В области медицины клинические тексты представляются в различных видах (например, текстовые отчеты, сопровождающие результаты технических осмотров, отчеты об истории болезни, сводные данные о выписках, переписка между практикующими врачами, рецепты на лекарства, направления пациентов). В политике есть политические комментарии и партийные программы. В экономической сфере есть отчеты о фондовом рынке, счета и контракты. Религия обрабатывает типичные текстовые типы, такие как библейское письмо, гимны и псалмы.

Для целей индексации и абстрагирования нас особенно интересуют тексты, которые выполняют информативную функцию. Это первичные тексты, которые извлекаются из документальных баз данных. Некоторые другие типы текста с развлекательной функцией (например, журнальные статьи) представляют интерес для автоматического индексирования, облегчая последующий автоматический выбор.

4. Текст, описанный на микроуровне

Основными единицами текста являются слова. На более детальном уровне анализа текст состоит из букв, которые являются основными символами письменного текста, и фонем, которые являются основными звуковыми единицами разговорного текста. Письма и фонемы отдельно не имеют никакого значения, но они объединяются в небольшие смысловые единицы, называемые морфемами, которые образуют компоненты, из которых составляются слова. Сами слова объединяются в более значимые, лингвистические единицы, такие как фразы, предложения и предложения. Буквы и ряд знаков образуют набор символов электронных текстов.

4.1 Фонемы и буквы

Наука фонологии анализирует основные звуковые единицы, из которых состоят слова. Фонема — это самая маленькая единица речи, которая отличает одно высказывание от другого. Фонема — это фундаментальный теоретический компонент звуковой системы. Заимствуя символы у финикийцев, древнегреческий язык разработал алфавит, набор символов (букв), который является основой набора символов, используемых в западноевропейских языках. В принципе, одна буква представляет одну фонему, что более или менее соответствовало древнегреческому алфавиту (Halliday, 1989, p. 22 и далее). В течение истории человечества языки развивались (диалекты и заимствования из других языков), и в настоящее время письменный язык приближается только к фонетическим звукам, и однозначное соответствие между правописанием и звуками часто теряется. Например, одна и та же буква может представлять разные звуки. Буквы (a-z) могут быть заглавными (A-Z). Буквы с заглавными буквами обычно выполняют определенную функцию (Halliday, 1989, p. 33).

4.2 Морфемы

Морфология представляет собой изучение структуры слов и описывает, как слова формируются из префиксов, суффиксов и других компонентов. Компоненты слов называются морфемами1 (Эллис, 1992, стр. 33 и далее; Аллен, 1995, стр. 23; Дин и др., 1995, стр. 490). Слово состоит из корневой формы (основа или базовое слово) и, возможно, из дополнительных аффиксов. Например, слово «друг» считается корнем прилагательных «дружелюбный» и «недружественный». Прилагательные создаются путем добавления суффикса «ly» к корню, а «недружественный» — путем добавления дополнительного префикса «un». Более сложная конструкция связана с выводом существительного «дружелюбие» из формы прилагательного «дружественный».

Более сложная конструкция связана с выводом существительного «дружелюбие» из формы прилагательного «дружественный»
Более сложная конструкция связана с выводом существительного «дружелюбие» из формы прилагательного «дружественный»

Морфемы — это компоненты языка, с которыми связано значение. Корень включает в себя основное значение слова. Корень — это свободная морфема, потому что он может возникать изолированно и не может быть разделен на более мелкие смысловые единицы. Аффикс называется связанной морфемой, потому что он должен быть присоединен к другой смысловой единице. Есть два класса связанных морфем. Инфлективные морфемы не изменяют грамматическую категорию базового слова (например, существительное) в другую категорию, но сигнализируют об изменениях, например, числа, лица, пола и времени. Производные морфемы действительно изменяют категорию базового слова (например, «дружественный»: происхождение прилагательного от существительного). Морфемы могут изменять формы (например, создание прошлой морфемы «выбегало» из «бега»). Конструкция слов из морфем управляется правилом. Правила зависят от языка.

4.3 Слова

Слово является основной единицей языковой структуры. Слово в письменном тексте состоит из строки символов и ограничено пробелами или пробелами (возможно, в сочетании с знаками препинания). Слова текста составляют словарный запас текста.

Слова делятся на категории, часто называемые классами слов или частями речи (Allen, 1995, p. 23 и далее). Эта категоризация мотивируется свидетельством того, что в зависимости от его категории слово по-разному вносит вклад в значение фразы или является отдельным компонентом синтаксической структуры. Согласно своему классу слово может относиться к человеку или объекту, к действию, состоянию, событию, ситуации или к свойствам и качествам. Например, слова существительного класса идентифицируют базовый тип обсуждаемого объекта, концепции или места, а прилагательное класса содержит эти слова, которые дополнительно определяют объект, концепцию или место. Во-вторых, согласно своему классу слова являются специфическими компонентами синтаксических структур. Например, прилагательное и существительное могут быть объединены в синтаксическую структуру именной фразы. Слово может относиться к разным категориям (например, «игра» — это существительное или глагол).

Некоторые классы слов содержат слова, которые являются лучшими индикаторами содержания текста, в то время как другие классы содержат слова, которые имеют более ярко выраженные функциональные свойства в синтаксических структурах, в которых они играют роль. В этом отношении проводится различие между содержанием и служебными словами (Halliday, 1989, с. 63 и др .; Dean et al., 1995, с. 491 и далее). Содержательные слова служат для идентификации объектов, отношений, свойств, действий и событий в мире. Обычно рассматриваются четыре важных класса содержательных слов. Существительные описывают классы объектов, событий или веществ. Прилагательные описывают свойства объектов. Глаголы описывают отношения между объектами, действиями и вхождениями. Здесь временность и аспект глагола играют важную роль в формировании семантического выражения высказывания (Grosz & Sidner, 1986; Dorfmüller-Karpusa, 1988). Наречия описывают свойства отношений или другие свойства (например, «очень»). Функциональные слова играют более конструктивную роль в соединении слов для формирования предложений. Они имеют тенденцию определять, как содержательные слова должны использоваться в предложении, и как они связаны друг с другом. Это лексические устройства, которые служат грамматическим целям и не относятся к объектам или понятиям мира. Функциональное слово часто бывает маленьким, состоящим всего из нескольких букв3, и его частота встречаемости в тексте обычно намного выше, чем частота встречаемости информационного слова.4 Функциональные слова относятся к синтаксическим классам, таким как статьи, местоимения, частицы, и предлоги. Следующие четыре класса функциональных слов часто различаются. Определители указывают, что конкретный объект идентифицируется (например, «а», «тот»). Квантификаторы указывают, сколько из набора объектов идентифицируется (например, «многие»). Предлоги сигнализируют о конкретной взаимосвязи между фразами (например, «сквозной»). Связи указывают на отношения между предложениями и фразами («и», «но»).

Слово имеет значение или смысл, который известен как лексическое значение (Ellis, 1992, p. 38). Лексическое значение или семантика слов касается того, что слова символизируют, включая их обозначения и коннотации. Происхождение и использование слов в определенных текстовых контекстах определяют лексическое значение. Словари документируют различные значения слов. Значение слова в тексте не всегда четко определено, что иллюстрируется следующим.

  1. Слово может иметь более одного значения (например, слово «предложение» может относиться к текстовому предложению, к приговору суда и к акту вынесения приговора). Множественные значения одного слова известны как омонимия и многозначность (Krovetz & Croft, 1992). В письменном тексте омоним — это слово, которое пишется таким же образом (т. е. Гомограф), как и другое слово с несвязанным значением. Омонимы получены из разных оригинальных слов. Говорят о многозначности, когда слово имеет разные, связанные значения. «Кора собаки» и «кора дерева» является примером омонимии; «Открытие двери» против «открытия книги» является примером многозначности. Иногда слово относится не только к разным классам слов, каждый из которых указывает на группу возможных значений слов, в пределах класса слов это слово может по-прежнему иметь разные значения. Когда слова с несколькими значениями встречаются во фразах или предложениях, они часто имеют только один смысл, так как слова фразы или предложения взаимно ограничивают возможные интерпретации друг друга.
  2. Разные слова могут иметь одинаковое значение (например, «паразиты» и «вредители»), что известно как синонимия. Часто разные слова или фразовые сочетания слов выражают одно и то же понятие. Рядом синонимы — это слова, имеющие близкое значение (например, «информация» и «данные»). Кроме того, одно слово может обобщать или определять значение другого слова (например, слово «яблоко» определяет слово «фрукт»).
  3. Автор обладает большой свободой в выборе слов и может даже придумывать новые слова или менять значение знакомых. Таким образом, слово или комбинация слов могут использоваться метафорически и иметь фигуративную интерпретацию для создания эстетического, риторического или эмоционального эффекта (Scholz, 1988). Использование метафор практически не ограничено. Ни один словарь не может ответить на все образные использования слова или комбинации слов.
  4. Слово может относиться к другому слову в тексте для интерпретации. Anaphora5 — это текстовые элементы, которые относятся к другим текстовым элементам с более полными описательными формулировками, найденными ранее в тексте (так называемые корреляты), и которые разделяют значение коррелятов (Halliday & Hasan, 1976, p. 14 и далее; Liddy, 1990) ( например, слова «это» и «его» в «Студент покупает книгу и дает ее своей сестре».) Анафоры используются вполне естественно и часто в письменном и устном общении, чтобы избежать чрезмерного повторения терминов и улучшить связность текста. Катафорическая ссылка — это слово, которое относится к другому слову в тексте (Halliday & Hasan, 1976, p. 56 и далее). Также стоит упомянуть, что слово или некоторые слова могут быть опущены в тексте. Это называется многоточием (например, «Дэвид ударил по мячу, а мяч (поразил) меня») (Аллен, 1995, с. 449 и далее).

4.4 Фразы

Слова объединяются в фразы. Фраза состоит из заголовка и необязательных оставшихся слов, которые определяют ключевое слово (Halliday, 1989, p. 69 и др .; Dean et al., 1995, p. 492 ff.). В начале фразы указывается тип вещи, действия или качества, которые описывает фраза. Остальные слова называются модификаторами заголовков, модификаторами заголовков и дополнениями в зависимости от их местоположения в фразе. Модификаторы и дополнения могут сами составлять фразы. Дополнения — это фразы, которые следуют сразу за главным словом. Например, фраза «это изображение Питера здесь» состоит из модификатора заголовка «это», заголовка «картинка», дополнения «Петра» и модификатора заголовка «здесь».

Четыре класса содержательных слов обеспечивают главные слова четырех широких классов фраз: существительные фразы, фразы прилагательных, фразы глаголов и фразы наречий (Allen, 1995, p. 24 и далее). Пятый класс фраз построен с предлогом и существительной фразой.

  1. Существительные фразы используются для обозначения таких понятий, как объекты, места, качества и личности. Самая простая именная фраза состоит из одного местоимения (например, «она» и «я»). Собственное имя образует другую основную именную фразу, состоящую из одного или нескольких слов, которые появляются заглавными буквами на многих западноевропейских языках (например, Лос-Анджелес). Остальные формы словосочетаний состоят из заглавного слова и, возможно, других слов, которые определяют или определяют заглавие.
  2. Прилагательное может быть частью существительного, когда оно изменяет существительное. Это также происходит как дополнение определенных глаголов (например, «тяжелый» в «это выглядит тяжелым»). Более сложные формы прилагательных включают в себя квалификаторы, предшествующие прилагательному (например, «ужасно» в «ужасно опасном»), а также дополнения после прилагательного («водить» в «опасно водить»).
  3. Группа глаголов состоит из главного глагола плюс необязательные вспомогательные глаголы. Вспомогательные глаголы и формы головного глагола объединяются определенным образом, образуя различные времена, аспекты, активные и пассивные формы (например, «ходил», «ходил» и «был замечен»). Некоторые формы глагола состоят из глагола и дополнительного слова, называемого частицей (например, «out» в «look out»). Фраза глагола состоит из формы глагола и необязательных модификаторов и дополнений. Глагольные фразы могут стать довольно сложными, состоящими из нескольких сочинительных фраз (например, «дал приговор обвиняемому без колебаний»).
  4. Фраза наречий состоит из наречий головы и возможных модификаторов (например, «слишком быстро»).
  5. Термин предлогическая фраза используется для предлога, за которым следует именная фраза, которая называется объектом предлога (например, «от суда»). Также возможны другие формы предлогических фраз (например, «из тюрьмы»). Пропозициональные фразы часто используются как дополнения и модификаторы глагольных фраз.

Фразы обычно образуют компоненты, из которых строятся предложения. Отдельные фразы (например, именные фразы) можно найти, например, в заголовках, подзаголовках и подписях к текстам.

Фразы менее двусмысленны по смыслу, чем отдельные слова, из которых они состоят. Но это не общее правило.

4.5 Предложения

Предложения используются, чтобы утверждать, запрашивать, командовать или вызывать некоторое частичное описание мира. Предложение организовано таким образом, чтобы минимизировать коммуникативные усилия пользователя текста. Предложение состоит из темы и дополнений (комментариев) к теме (например, свойств темы, отношений с другими элементами, модификаций темы) (Halicová & Sgall, 1988; Tomlin, Forrest, Pu, & Kim, 1997). Дополнения к теме часто называют фокусом предложения. Например, в очень простых английских предложениях тема совпадает с темой предложения и фокусом с предикатом. Термины «тема» и «ритм» часто используются как синонимы соответственно для темы и фокуса (Halicová & Sgall, 1988) .6 Тема является отправной точкой высказывания, объектом или человеком, о котором или о ком что-то будет сообщил, и Рим является новой информацией, основанной на теме (Halliday, 1976; Fries, 1994). Переходным элементом между темой и ритмом обычно является глагол, несущий некоторую новую информацию в предложении, но в меньшей степени, чем ритм.

Выражение структурно состоит из темы и комментария к этой теме. Эта структура тесно связана с тем, как мы общаемся устно (Halicová & Sgall, 1988). Эта «глубокая» структура считается общей для всех языков. Оно закодировано в предложении в соответствии с грамматическими правилами используемого языка (см. Chomsky, 1975; Ellis, 1992, p. 36). Предложение имеет синтаксическую структуру (Dean et al., 1995, p. 490). Он состоит из составляющих (классы фраз), которые регулярно объединяются. В свою очередь, фраза состоит из классов слов, которые также регулярно объединяются. Таким образом, любое предложение может быть разложено или изменено путем применения определенных правил. Структуры, допустимые в языке, формально определяются грамматикой. Грамматика позволяет разложить предложение на фразы определенного класса, которые, в свою очередь, могут быть разложены на слова определенного класса. Например, предложение (S) «Судья похоронил дело» состоит из начальной именной фразы (NP) и глагольной фразы (VP). Фраза существительного состоит из артикля (ART) «The» и нарицательного (NOUN) «судья». Фраза глагола состоит из глагола (VERB) «похоронен» и именной группы (NP), которая содержит статью (ART) «the» и нарицательное (NOUN) «падеж». Мы можем определить следующий набор правил, которые определяют синтаксическую структуру.

<S> : := <N P> <VP>
<NP> ::= <ART> <NOUN>
<VP> ::= <VERB> <NP>

Основываясь на грамматических правилах, мы можем создавать неограниченное количество предложений, и любое предложение может быть изменено и удлинено путем добавления бесконечного числа прилагательных и относительных предложений (ср. Chomsky, 1975).

Представление содержания предложения называется суждением (Allen, 1995, p. 234). Предложение формируется из предиката, за которым следует соответствующее количество терминов в качестве аргументов. «Судья похоронил дело» может быть представлен суждением (BURY JUDGE CASE). В этом предложении глагол BURY имеет два аргумента JUDGE и CASE.

Предложения обычно менее двусмысленны, чем фразы и отдельные слова, из которых они состоят. Лексическая неоднозначность отдельных слов часто решается с учетом значения других составляющих предложения. Помимо неразрешенной лексической неоднозначности, двусмысленность в значении предложения, возможно, является результатом структурной неоднозначности (см. Ellis, 1992, p. 38), когда синтаксическая структура предложения, которая вносит вклад в значение предложения, является неоднозначной (например, предложение «Я видел человека с биноклем»). Значение неоднозначного предложения может быть неоднозначным при рассмотрении значения окружающих текстовых предложений.

4.6 Пункты

Сложные предложения могут быть построены из меньших предложений, позволяя одному предложению включать другое в качестве подпункта (Allen, 1995, p. 31 и далее). Обычно используемые формы — это встроенные предложения в виде имен существительных (например, «отправиться в тюрьму …») и относительных предложений фраз существительных («… кто приговорил человека»). Первая форма предполагает небольшие изменения в структуре предложения, чтобы пометить фразу как существительную фразу, но в остальном фраза идентична предложению. Последняя форма часто вводится относительным местоимением (например, «кто», «тот»). Относительное предложение имеет ту же структуру, что и обычное предложение, за исключением того, что отсутствует одна существительная фраза (например, в положении субъекта, положении объекта, объекте с предлогом).

Что касается тематической структуры, то основные предложения, как правило, являются приоритетными темами, тогда как подчиненные предложения, как правило, служат фоном для них.

4.7 Метки

Использование специальных символов, обозначающих письменный текст, развивалось на протяжении веков (Halliday, 1989, p. 32 и далее). Метки или символы помогают пользователю текста правильно анализировать текст. У них есть три вида функций. Первая функция — маркировка границ. Например, знаки препинания используются для выделения предложений или предложений. Другим примером является пустой символ, который разделяет слова и используется в текстах, хранящихся в электронном виде. Вторая функция — это маркировка статуса, указывающая речевую функцию. Например, вопросительный знак относится к вопросу, а кавычки относятся к цитируемой речи. Третья функция — маркировка отношений. Специальные символы обозначают связи, интерполяции и пропуски (например, дефис, скобка, апостроф). Помимо этих специальных символов, текущие тексты содержат символы, которые кодируют определенные понятия, такие как доллар, знак процента и цифры, для записи чисел в цифровом виде.

Таким образом, набор символов письменных текстов включает, помимо букв и цифр, ряд знаков препинания и специальных символов (например, ‘,’, ‘+’, ‘%’) и несколько пробелов или пустых символов в текстах, хранящихся в электронном виде. (например, в качестве разделителей слов) (ср. Lebart, Salem & Berry, 1997, p. 37). Хотя мы не обсуждаем характеристики макета, специальные характеристики макета (например, использование подчеркивания, символы крупным шрифтом, курсив и жирный шрифт) могут подчеркивать некоторые слова или фразы текста.

5. Текст, описанный на макроуровне

Текст не просто состоит из слов, фраз и предложений, но предложения и фразы упорядочены в соответствии с некоторыми соглашениями. Текст в целом имеет свой синтаксис и семантику и характеризуется несколькими структурами. Текстовые структуры являются важной характеристикой письменного и устного текста и гарантируют согласованность текста (Мейер, 1985). Согласованность описана в главе 1 как одна из основных характеристик текста и касается глобальной организации дискурса (De Beaugrande & Dressler, 1981, p. 84 и далее; Rudolph, 1988). Связность следует рассматривать как связь в ментальном представлении, приписываемую тексту. Сплоченность, которая является еще одной важной характеристикой текста, касается поверхностных организационных структур, которые соединяют элементы текста в единое целое (De Beaugrande & Dressler, 1981, p. 48 и далее; Rudolph, 1988). Структуры и их сигнальные лингвистические связные сигналы (Таблица 1) являются важным средством для создателя текста, чтобы гарантировать, что пользователь может установить правильную интерпретацию.

Литература по текстовым структурам очень разнородна. Необходимо больше изучать синтаксис и семантику текста, предоставляя описание свойств и организации различных жанров текста и предоставляя описания для разных типов текста. В следующих разделах предпринята попытка обобщить основные выводы в литературе (см. Moens et al., 1999b).

5.1 Схематическая структура или надстройка

Definition — Определение

Наиболее типичной характеристикой типа текста является его общая формальная структура, также называемая схематической структурой или надстройкой (van Dijk, 1997). Надстройка текстового типа — это обычная (и, следовательно, культурная вариация) производственная схема, к которой адаптирован текст. Определение типа текста часто опирается на его схематическую структуру. Схематическая структура определенного типа текста определяется в терминах упорядоченных частей, из которых он построен.

Таблица 1. Макроуровень текстового описания текстовые структуры и их основные сигнальные сигналы
Таблица 1. Макроуровень текстового описания текстовые структуры и их основные сигнальные сигналы

Сегменты являются либо обязательными, либо обязательными, а некоторые необязательными. Они происходят в фиксированном или частично фиксированном порядке. Сегменты объединяются для создания больших частей и целых текстов. Таким образом, схематическая структура часто организована иерархически, но сегменты также могут быть организованы последовательно (см. Paice, 1991). Текстовый сегмент может быть разного размера. Он может состоять из одного предложения или абзаца, охватывать несколько предложений или абзацев или представлять собой одно текстовое утверждение. Текстовые схемы показывают рутинную и формальную природу большого объема текстового вывода. Эксперименты Dillon (1991) ясно демонстрируют, что читатели, имеющие опыт чтения определенных типов текста, обладают надстройкой или моделью текста, которая позволяет им с высоким уровнем точности предсказывать, где находится конкретная информация (см. Reichman, 1985, p. 19). Итак, создатели и пользователи этих текстов (неосознанно) знают текстовые схемы.

Examples — Примеры

Простым примером в классе пояснительного текста является схематическая структура научных статей в западной культуре. Научная статья обычно содержит следующие упорядоченные текстовые сегменты: цель исследования, методология, результаты, обсуждение результатов и выводы (Пинто Молина, 1995). На более детальном уровне анализа схематическая структура научных статей, возможно, демонстрирует варианты, типичные для естественных или социальных и гуманитарных наук.

Текстовые схемы были тщательно изучены в случае письменных новостных сообщений (van Dijk, 1985, 1988a, 1988b; Bell, 1991). Новостные сюжеты относятся к классу повествовательного текста. Например, Ван Дейк (1988b) изучил схематическую структуру 700 статей из 138 избранных газет в 99 странах. Было обнаружено, что новостной дискурс следует нескольким обычным схемам, состоящим из категорий, типичных для новостного дискурса. Ван Дейк и Белл предполагают, что в новостном сообщении есть заголовок и ведущая информация, которая обобщает историю, указание авторства, задающее контекст истории, элемент событий, который охватывает основные события истории, и элемент комментария. Схемы новостных камней предупреждают нас о том, что огромное разнообразие событий в мире сводится к зачастую жестким форматам.

Другим примером типа текста в специализированном поле (правовое поле) является текст бельгийского исправительного дела (Moens & Uyttendaele, 1997), который состоит из следующих упорядоченных сегментов: надписи, которая может содержать название суда и дата; идентификация жертвы; идентификация обвиняемого; предполагаемые преступления, которые описывают преступления и фактические доказательства; формулировка перехода, которая знаменует собой переход к основанию дела; заключение суда, в котором содержатся доводы суда в обоснование его решения; правовые основы, которые содержат законодательные положения, применяемые судом; вердикт; заключение, которое может снова содержать название суда и дату. Некоторые из составляющих сегментов являются необязательными.

Signaling linguistic cues — Сигнальные лингвистические реплики

Схематическая структура или надстройка могут, но не обязательно, обозначаться в тексте поверхностными лингвистическими формами, такими как использование типичных фраз и других лексических сигналов (Allen, 1995, p. 504 ff.). Явное использование определенных слов и фраз относится к числу основных показателей границ или категорий текстовых сегментов. Например, начало текстового сегмента «переход» бельгийского уголовного дела обозначается фразой «Gezien de stukken van het onderzoek» («С учетом документов по делу»).

Схематическая структура текста может, но не обязательно, совпадать с логической структурой текста документа, которая является структурой его представления (например, главы, разделы и абзацы) (см. Paice, 1991).

Иногда нет явного лингвистического или презентационного маркера предела сегмента. Затем его предел может быть выведен из отношений с другим сегментом (например, до или после другого сегмента).

5.2 Риторическая структура
Definition — Определение

Термин «риторическая структура» берет свое начало в теории риторической структуры (RST), которая описывает, какие тексты частей или сегментов имеют и какие принципы объединения можно найти для объединения частей в целые тексты (Mann, Matthiessen, & Thompson, 1992). Термин риторическая структура охватывает широкое значение. Во-первых, риторическая структура относится к надстройке или схеме, которыми характеризуется тип текста (см. Выше). Во-вторых, оно часто относится к структуре, выражающей организацию связного, непрерывного текста, и к риторическим отношениям, которые существуют между текстовыми предложениями и предложениями, которые называются межпредметными дискурсивными отношениями (см. Hobbs, 1979; Reichman, 1985, p. 21 и далее). .7 Эти отношения могут быть простыми (например, преемственность, обусловленность) или могут быть семантически более сложными (например, мотивация, обстоятельства, контраст). В этом смысле конечной целью теории риторической структуры является определение набора независимых от предметной области отношений между предложениями, которые определяют согласованный дискурс. Были построены таксономии отношений дискурсивного сегмента (например, Mann et al., 1992; Hovy, 1993b). Риторические отношения применимы ко многим видам текстов, что позволяет унифицировать описание структуры текста независимо от типа текста или жанра. Именно в этом конкретном смысле мы будем использовать термин риторическая структура в этой книге. Но в широком смысле риторическая структура определяет подлинно специфичные для жанра аспекты текстовой структуры (надстройки) и более жанро-независимые структурные аспекты.

Examples — Примеры

В предложении «Самый крайний случай страха, который я когда-либо видел, было несколько лет назад, когда я был на Аляске». Подпункт «когда я был на Аляске» имеет риторическую связь обстоятельств с двумя вышеизложенными пунктами предложения. Предложение «Заполните форму, чтобы стать кандидатом». Демонстрирует отношение к цели. Становление кандидата представляет собой ситуацию, которую необходимо реализовать при заполнении формы. Другой пример сформирован предложениями: «Ухоженный Автомобиль отражает его владельца. Автомобиль, на котором ты ездишь, говорит о тебе многое ». Второе предложение является повторением первого.

Signaling linguistic cues — Сигнальные лингвистические реплики

Создатели текста часто используют определенные лингвистические сигналы, которые указывают на риторические отношения между текстовыми предложениями и другими предложениями. Лингвистическими поверхностными явлениями, которые сигнализируют о риторических отношениях, являются лексические сигналы, местоимение и другое использование в качестве ссылки, время и аспект (Hovy, 1993b). Хотя мы обсуждали текстовые метки как атрибуты микроуровня, некоторые из них могут вызывать риторические отношения между предложениями (например, вопросительный знак будет вызывать ответ в следующих предложениях). Наиболее заметные риторические сигналы — это лексические сигналы (Allen, 1995, p. 504 и далее), которые также называют связующими элементами или устройствами.

Основная функция связных текстовых элементов состоит в том, чтобы показать, что между задействованными текстовыми сегментами существует риторическая связь, которая направляет пользователя текста к правильной интерпретации текста. Например, цель обнаруживается с помощью слов «Для того, чтобы» в предложении «я усердно работаю, чтобы купить дом». Среди составляющих элементов сплоченности текста мы часто находим соединительные выражения и союзы, называемые соединительными (например, «и», «потому что») ( Рудольф, 1988). Тем не менее, явный лингвистический маркер риторического отношения иногда отсутствует, что усложняет идентификацию риторического отношения. Например, в приведенном выше примере нет явного лингвистического маркера, который указывает, что предложение «Автомобиль, на котором ты ездишь, говорит о тебе многое». Это повторение предложения «Ухоженный автомобиль отражает его владельца». Также возможно, что ключевые фразы функционируют неоднозначно в отношении определенной дискурсивной роли (Grosz & Sidner, 1986).

5.3 Тематическая структура

Definition — Определение

Тематическая структура текста касается его общей организации с точки зрения тем или заголовков. Обычно это иерархическая организация, в том смысле, что мы можем определить тему всего текста, которая обычно может быть изложена в терминах нескольких довольно менее общих тем, каждая из которых, в свою очередь, может быть изложена в терминах даже более конкретные темы.

Темы дискурса отражают объемность текста, а также его глобальное значение (van Dijk, 1997; Bánréti, 1981; Halicová & Sgall, 1988; Tomlin et al., 1997). Они представляют суть дискурса, его наиболее важную информацию. Дискурсивная тема (ы) текста обобщают и классифицируют семантическую информацию текста. Глобальная тема текста — это базовое предложение текста как глобальной сущности, то есть представление ядра его содержимого. Подтемы обобщают более подробные значения дискурса, которые его пользователи, возможно, приписывают тексту. Поскольку определение тематической структуры текста касается макроуровня анализа (т. Е. Касательно общего дискурса), иногда термин «макроструктура» используется в качестве синонима этой структуры (van Dijk, 1988b, p. 30 и далее; van Dijk, 1997).

Иерархическая организация тем и подтем может, но не обязательно, отражаться иерархической организацией сегментов тем в тексте. Возможны и другие организации, и тематическая организация часто зависит от типа текста (см. García-Berrio & Albaladejo Mayordomo, 1988). Текстовые сегменты могут иметь собственные темы (например, тема текстового отрывка). Во время беседы тема может быть приостановлена в какой-то момент, а затем возобновлена, как если бы она не была прервана, что называется семантическим возвращением (Allen, 1995, p. 532). Актуальность дискурса на самом деле более сложна, чем актуальность предложения, потому что его сложнее распознать и требует больше организационной работы, чем, например, предмет предложения (Ellis, 1992, p. 119).

На более детальном уровне анализа8 темы предложений или предложений демонстрируют риторические отношения с темами предыдущих или последующих предложений или предложений (например, контраст, иллюстрация) (van Dijk, 1997). Возможны другие формы тематической прогрессии в предложениях и предложениях: повторение темы (тема одного предложения повторяется в последовательных предложениях), тематизация ритма (ритм предложения становится темой следующего предложения), сдвиги тем и более сложные паттерны развития темы (Scinto, 1983).

Examples — Примеры

Предполагается, что основная тема научных статей обсуждается по всему тексту, а обсуждение подтемы ограничено предложениями отрывка текста (Hearst & Plaunt, 1993). Тематическая структура письменных новостей была изучена Ван Дейком (1985, 1988a, 1988b) и Fairclough (1995, с. 30). В новостях на первом месте стоят более общие темы, в то время как более подробные темы встречаются дальше. Последний пример касается типа текста в специализированном поле (правовое поле). В бельгийских уголовных делах текстовая часть, касающаяся аргументации судьи, обсуждает различные темы преступления. В этом обсуждении тема преступления может быть оставлена и возобновлена в тексте (Moens, Uyttendaele, & Dumortier, 1999a).

Signaling linguistic cues — Сигнальные лингвистические реплики

Темы текста тесно связаны с поверхностными лингвистическими явлениями текста. Создатель текста явно указывает на актуальность, чтобы добиться правильной интерпретации текста его пользователями (van Dijk, 1988b, p. 32 и далее). Исследования показали, что пользователи языка компетентны в определении тем текста и их границ (Ellis, 1992, p. 127), что подтверждает наличие поверхностных сигналов. Маркеры актуальности более изучены в речи, чем в письменном тексте (ср. Эллис, 1992, стр. 137). Тем не менее, можно выделить несколько языковых явлений, которые полезны при определении тем и границ тем в письменном тексте.

1. Схематическая структура упорядочивает тематическое содержание текста (Kieras, 1985). Например, было продемонстрировано, что тематическая структура новостных сюжетов параллельна новостным схемам (van Dijk, 1985; ср. Fairclough, 1995, p. 30). Заголовок сообщения новостей формулирует общую тему текста. Лидерство и атрибуция содержат самые важные темы, в то время как подтемы появляются в теле истории.

2. Места, отличные от тех, которые определены структурой схемы, важны для идентификации темы. Тематическая структура иногда определяется логической (презентационной) структурой письменного текста. Тематические блоки, возможно, совпадают с главами и параграфами. Этот абзац часто рассматривается как наиболее идентифицируемое разграничение темы (García-Berrio & Albaladejo Mayordomo, 1988; Ellis, 1992, p. 133). Кроме того, актуальная информация широко представлена ​​в первом предложении абзаца и в некоторой степени в конце абзаца (Kieras, 1985). Положение термина в предложении также является существенным (Kieras, 1985; ср. Сиднер, 1983).

3. Темы текста на самом деле описываются словами в предложениях текста. Использование содержательных слов и их частота встречаемости в тексте рассматриваются как общие ключи к их актуальности (Salton, 1989, p. 279). Кроме того, ссылки на определенную концепцию, встречающуюся в тексте в непосредственной близости от другой, являются хорошими показателями актуальности (Hearst & Plaunt, 1993).

4. Существуют и другие поверхностные лингвистические подсказки, такие как использование ключевых слов и фраз (Kieras, 1985; Ellis, 1992, p. 131 и далее). Примерами таких индикаторов темы являются ключевые фразы «о» и «говорить о», за которыми следует тема. Другие слова обозначают новые темы или смены тем (например, слово «сейчас»).

Принято считать, что признание и развитие темы в текстах являются предметами, которые требуют дальнейшего изучения (Hahn, 1990; Hovy, 1993a). Результаты этого исследования особенно ценны для автоматической индексации и абстрагирования текстов.

5.4 Коммуникативная цель

Definition — Определение

Дискурс в целом и составляющие его части имеют связанную цель. Целью дискурса является намерение или коммуникативная цель, лежащая в основе участия в конкретном дискурсе. Это намерение обеспечивает как причину, по которой проводится дискурс, так и причину, по которой передается конкретное содержание этого дискурса, а не какая-либо другая информация (Grosz & Sidner, 1986). Как и любая форма дискурса, письменный текст имеет коммуникативное намерение. Коммуникативная цель текста часто состоит из различных подцелей (рис. 1). Таким образом, можно определить коммуникативную целевую структуру, иногда называемую иллокутивной структурой (Branting, Lester, & Callaway, 1997; ср. Аллен, 1995, с. 567) или интенциональной структурой (Grosz & Sidner, 1986) .9 Создатели текста используют пропозициональное содержание высказываний для обозначения иллокутивных актов. Иллокутивные акты — это высказывания, имеющие социальные и коммуникативные цели. Пользователь текста должен не только понимать слова и синтаксические отношения текста, чтобы понять его смысл, но он или она должны понимать, как функционирует высказывание (Ellis, 1992, p. 89 и далее). Например, если на табличке написано «Собака-поводырь в помещении», предмет или знак обозначают собаку-поводыря. Но текст также является предупреждением о том, как вы должны себя вести, а не простым утверждением, описывающим природу животного поблизости. Коммуникативные цели очень заметны в информационных текстах.

В успешном дискурсе содержание полного текста и составляющих его частей достигает своей коммуникативной цели. Каждый текстовый сегмент является шагом в плане для достижения общей коммуникативной цели дискурса (Hovy, 1993a). Пользователь обращается к тексту с особым акцентом внимания (см. «Состояние внимания» в Grosz & Sidner, 1986), которое в соответствии с задачей использования текста может быть только частью структуры коммуникативной цели создателя (рисунок 1)

Рисунок 1. Пример коммуникативных целей создателя текста, фокуса внимания его пользователя и взаимосвязи целей с дискурсивными структурами макроуровня
Рисунок 1. Пример коммуникативных целей создателя текста, фокуса внимания его пользователя и взаимосвязи целей с дискурсивными структурами макроуровня
Examples — Примеры

Основной коммуникативной целью юридического текста постановления о показе по делу является установление предпосылок для отклонения апелляции (Branting et al., 1997). Основными подцелями являются:

-установить наличие юрисдикционного дефекта:
-установление апелляционных заказов
-установив, что уведомление об апелляции было несвоевременным в отношении одного из приказов:
-установление даты начала времени подачи уведомления об апелляции
-установление срока уведомления об апелляции
-установление фактической даты подачи
— постановив, что фактическая дата подачи была после даты оплаты
-приказать соответствующее разрешение:
-порядок ограничения времени для ответа
-санкция
— обоснование санкции.

Реализация коммуникативной цели в тексте

Коммуникативная цель и подзадачи текста реализуются через лексические и грамматические выражения в предложениях, а также через структуру текста (рис. 1). Надстройка, риторическая структура и тематическая структура текста помогают реализовать структуру коммуникативных целей (Hovy, 1993a; Fries, 1994). Эти структуры, которые упорядочивают текстовый контент, способствуют успешной реализации коммуникативного замысла. В частности, надстройка и риторическая структура часто тесно связаны с коммуникативной структурой цели. Без понимания структур дискурса создателем и пользователем текста, общение вряд ли будет успешным (Hovy, 1993b).

Кажется, что фактическое общение через текст состоит из множества отклонений от идеальных структур. Мы находим нарушения нормативных правил для соответствующего дискурса. Согласно Ван Дейку (1 997), интересно изучить эти отклонения самостоятельно. Действительно, то, что выглядит как нарушение какого-то правила или закономерности, может оказаться очень контекстуальной функцией. С этими отклонениями связана концепция стиля (van Dijk, 1997). Создатели дискурса занимаются разными стилями. Стиль — это связанная с контекстом вариация (контекст касается говорящего, перспективы, аудитории, группы и т. Д.) Уровня выражения дискурса. Понятие стиля обычно предполагает, что одни и те же понятия могут быть выражены по-разному в зависимости от разного контекста общения. Например, выбор конкретного слова зависит от целевой аудитории.

5.5 Длина текста

Длина текста в некоторой степени определяется типом текста, но это не общее правило. Для некоторых типов текста (например, повествовательная история) создатель может сам решать, сколько слов он или она будет использовать для передачи своего сообщения. Длина текста может быть рассчитана по-разному. Обычно оно рассчитывается как количество слов или как количество (разных) содержательных слов, содержащихся в тексте (см. Salton & Buckley, 1988).

6. Выводы в главе 2

Наше общение посредством письменного (и устного) текста регулируется многими шаблонами как на микроуровне, так и на макроуровне. Дискурсы, среди которых тексты, имеют важные коммуникативные цели и подцели. Эти намерения реализуются с помощью ряда правил дискурса, которые являются общими для членов группы, сообщества или культуры. Чтобы реализовать свои коммуникативные цели, текст обладает рядом внутренних структур, которые выходят за рамки структуры отдельных предложений. Интересно описать и объяснить надстройку, риторическую структуру и тематическую структуру текста, поскольку все они способствуют успешной реализации коммуникативного намерения. Также интересно посмотреть, какие поверхностные лингвистические формы или явления сигнализируют о текстовых структурах. Дискурсивные паттерны и правила помогают управлять выбором и упорядочением элементов в дискурсе и делают наши, казалось бы, случайно организованные тексты понятными друг другу.

В предыдущей главе утверждалось, что, несмотря на десятилетия работы над обработкой естественного языка, компьютеры не способны объяснить текст на естественном языке так, как это делают люди. Тем не менее, дискурсивные исследования дают ценные знания для автоматического поиска информации и контента в текстах. Дискурсивные паттерны, помогающие определить темы текста, особенно интересны. Эти знания могут быть включены в различные приложения, предназначенные для извлечения информации, такие как индексация текста и абстрагирование.

1 — В разговорной речи фонемы сгруппированы в слоги. Каждый слог отмечен максимумом акустической энергии в речевом сигнале. Слог производится со скоростью четыре или пять в секунду на всех языках. Большинство морфем соответствуют одним слогам, но есть много, которые представлены полисиллабическими словами.

2 — Фонемы и соответствующие им буквы не имеют значения, хотя они различают значения, так как n различает «бар» и «сарай».

3 — «Принцип наименьшего усилия» со стороны оратора или автора объясняет тот факт, что наиболее часто встречающиеся слова, как правило, являются короткими функциональными словами, стоимость использования которых мала (Salton & McGill, 1983, p. 60)

4 — ср. Halliday (1989, стр. 64): лексическая плотность (доля содержания слов в общем количестве текстовых слов) может варьироваться в зависимости от типа текста.

5 — Анафорические и катафорические ссылки считаются текстовыми явлениями на макроуровне, потому что они обеспечивают целостность текста между предложениями.

6 — О совместимости этих терминов см. Tomlin et al. (1997).

7 — Ван Дейк (1997) рассматривает структуру, выражающую межпредметные дискурсивные отношения, как описание текста на микроуровне. Мы предпочитаем классифицировать риторическую структуру как описание макроуровня, потому что риторическая структура касается глобальной организации текста, а риторические отношения часто связывают несколько предложений в дискурсе.

8 — Это можно рассматривать как описание текста на микроуровне (ср. Van Dijk, 1997).

9 — коммуникативная цель не идентична смыслу текста, но оба понятия связаны между собой. Коммуникативная цель — это свойство текста с точки зрения создателя текста. Смысл является свойством текста с точки зрения его пользователя. В успешном дискурсе значение совпадает с коммуникативной целью (см. Hovy, 1993a), но пользователи текста всегда могут придать ему дополнительное значение.

Глава 3 — Текстовые представления и их использование

1. Введение в Главу 3

В предыдущей главе мы обсудили характеристики исходных текстов. Здесь мы подробно остановимся на результатах процесса индексации и абстрагирования. Мы уточним некоторые понятия, упомянутые в предисловии, и определим связанные понятия. Результатом индексации или абстрагирования содержимого текста является текстовое представление. Обсуждаются различные формы текстовых представлений. Прежде чем описывать автоматические методы во второй части этой книги, представляется полезным изложить интеллектуальный процесс индексации и абстрагирования. Кроме того, использование текстовых представлений в текстовом просмотре, поиске и опросе важно для понимания их текущей формы. Хранение продуктов индексации и абстрагирования выходит за рамки этой книги и упоминается очень кратко. Наконец, приведены основные характеристики допустимых текстовых представлений.

2. Определения

Индексирование и абстрагирование текста — это процессы, которые создают краткое описание или характеристику содержания исходного текста (Rowley, 1988, с. 48; Salton & McGill, 1983, с. 52; Lancaster & Warner, 1993, с. 79 и далее. ). Результатом этих процессов является представление или представитель текста, который имеет признанный и принятый стиль или формат. Индексирование обычно назначает или извлекает из текста набор слов и фраз. Помимо отражения контента, термины индекса могут использоваться в качестве точек доступа или идентификаторов текста, с помощью которых текст может быть найден и извлечен в коллекции документов. Абстрагирование генерирует резюме содержания текста, которое имеет различные возможные форматы. Текстовое индексирование и абстракция относятся к интеллектуальному процессу человека, а также к автоматизированному процессу. Индексирование иногда относится к автоматизированному процессу хранения текстовых представлений в структурах данных (таких как инвертированные файлы) для обеспечения эффективного доступа к документам, которые они представляют. В этой книге мы не будем использовать термин индексация в этом смысле.

Оба термина «представление» и «представитель» используются для обозначения сокращенной характеристики контента. Мы предпочитаем использовать термин текстовое представление в этой книге. Этот термин также используется для промежуточных представлений, которые сделаны из текста во время его индексации или абстрагирования (см. Lancaster 1991, p. 219 и далее; Lancaster & Warner, 1993, p. 243). Также термин «представитель документа» может относиться к продукту индексации и абстрагирования текста (van Rijsbergen, 1979, p. 14; Lewis, Croft, & Bhandaru, 1989). Мы считаем, что этот термин является слишком общим, потому что он может также относиться к дескрипторам контента других носителей, кроме текста (например, изображений) в мультимедийном контексте, или к дескрипторам контекста документа (называемых объективными идентификаторами), такими как дата создание и имя автора.

Представление сделано из полного текста или из определенных текстовых отрывков, последний упоминается как индексация отрывка (Salton, Allan, & Buckley, 1993). Текстовые представления используются во многих формах. Наиболее распространенными являются термины индекса естественного языка, определенные в текстах, и термины индекса контролируемого языка, назначенные текстам. Термины образуют язык индексации (Cleveland & Cleveland, 1990, с. 78; Rowley, 1988, с. 52). Тезисы обычно имеют форму текстовых профилей, которые структурируют определенную информацию текста или непрерывного, связного текста. Они описывают содержание текста более подробно и структурировано, чем термины указателя.

3. Представления, которые характеризуют содержание текста

3.1 Набор терминов индекса естественного языка

Индексирование часто состоит из рисования терминов индекса на естественном языке непосредственно из текста документа (Lancaster & Warner, 1993, p. 80 и далее). Этот процесс называется индексированием извлечения. Извлеченные термины индекса представляют собой термины содержания в форме отдельных слов или фраз (Harter, 1986, p. 42). Количество извлекаемых терминов варьируется от нескольких до большого количества, в зависимости от необходимости более или менее детально представлять содержание текста (Salton, 1975b, p. 17). Термины индекса могут иметь вес, указывающий на их важность в представлении контента (Sparck Jones, 1973). Полнотекстовый поиск (см. Главу 1) является простейшей формой индексации извлечения: каждое слово в тексте может действовать как индексный термин.

Индексирование с помощью терминов на естественном языке имеет свои преимущества и недостатки (Blair & Maron, 1985; Harter, 1986, p. 51 и далее; Lancaster, 1986, p. 161 ff .; Furnas, Landauer, Gomez & Dumais, 1987; Salton, 1989 , стр. 276; Krovetz & Croft, 1992). Его преимущество состоит в том, что он очень выразителен и гибок, представляет различные точки доступа и перспективы текста и легко представляет новые и сложные концепции. Словарь терминов индексирования менее строго контролируется, чем термины индекса контролируемого языка, и обычно можно идентифицировать большое количество дескрипторов индекса. Из-за отсутствия фиксированных терминов индекса термины индекса естественного языка делают текстовую базу данных переносимой и совместимой с различными коллекциями документов. Однако есть и недостатки. Слова текста имеют свойство быть потенциально двусмысленными (например, омонимы). Индексные фразы обычно менее неоднозначны, потому что каждое содержательное слово в фразе обеспечивает контекст для других. Более того, слова и фразы в тексте часто слишком специфичны для представления текстового содержимого, что предотвращает общий поиск информации в текстах. Существует трудность захвата основных концепций.

При извлечении слов и фраз из текстов полное отсутствие словарного контроля встречается редко, потому что разные морфологические варианты одного термина или разные синонимы одного термина часто заменяются одной стандартной формой (Lancaster & Warner, 1993, p. 84.). Например, используется наименее конкретный морфологический вариант (обычно существительное) выбранных терминов.

3.2 Набор терминов индекса контролируемого языка

Индексирование присвоений — это приписывание терминов тексту документа из источника, отличного от самого документа. Условия могут быть взяты из головы индексатора. Чаще всего индексация назначений включает в себя назначение терминов или меток, взятых из некоторой формы контролируемого словаря (Lancaster, 1986; Salton, 1989, p. 230; Lancaster, 1991, p. 13 ff .; Meadow, 1992, p. 68 ff .; Lancaster & Warner, 1993, стр. 80 и далее). Назначенные термины также называются дескрипторами.

Контролируемый словарь — это, в основном, предопределенный список терминов индекса, созданный неким авторитетом в отношении управления коллекцией документов. Индексные термины списка представляют собой отдельные слова или полные фразы. Обычно словарный запас — это не просто список. Как правило, он будет включать в себя некоторую форму семантической структуры. Обычно идентифицируются два типа отношений между терминами индекса: иерархические и ассоциативные отношения. Набор контролируемых терминов индекса языка называется системой классификации (Beghtol, 1986).

Индексирование с использованием терминов индекса контролируемого языка предполагает заранее определенный долгосрочный набор интересов пользователей (Belkin & Croft, 1992). Обычно система классификации предоставляет действительный, часто структурированный словарь для предметного содержания коллекции документов. Но для данной базы документов может быть использовано много систем классификации, возможно, отражающих другие аспекты содержания, помимо актуальности. Система классификации может варьироваться по времени и содержанию. Он всегда отражает структуру, которая, как мы надеемся, в течение длительного времени будет полезна для выполнения определенной задачи.

Распространенными примерами систем классификации являются предметные тезаурусы, широкие предметные рубрики и схемы классификации (Harter, 1986, p. 40 и далее). Тезаурус содержит множество понятий, их эквивалентов и связанных с ними терминов. Он содержит различные поверхностные формы понятий в текстах. Тезаурусы обычно получают из существующих и растущих коллекций документов по одной предметной дисциплине. Словарь в тезаурусе предназначен для решения проблем синонимии и семантической неоднозначности в этих сборниках. Предметные заголовки представляют структуру тем разнородных коллекций документов. Другой тип искусственного языка для представления документов — очень широкая классификационная схема. Примером этого является десятичная классификация Дьюи (DDC), используемая в США для классификации книг, которая является априорным представлением всех человеческих знаний в большой иерархии.

Индексирование с помощью терминов с индексом контролируемого языка имеет свои преимущества и недостатки (Harter, 1986, стр. 51 и далее; Lancaster, 1986, стр. 161 и след .; Свеноний, 1986).

Преимущества особенно касаются общности, свойства однозначности и точности терминов. Что касается общности и свойства однозначности, термины индекса контролируемого языка управляют изменением поверхностных признаков для идентичных или сходных понятий и, таким образом, имеют дело с синонимией и другими терминами отношений и с семантической неоднозначностью (Blair & Maron, 1985; Furnas et al., 1987; Krovetz & Croft, 1992; Riloff & Lehnert, 1994). Поскольку они однозначны по смыслу, они легко переводятся на другие языки для использования в приложениях, которые извлекают тексты на разных языках. Более того, поскольку термины представляют общие точки доступа к текстовым классам, они легко используются в универсальном поиске (Harter, 1986, p. 41 и далее), при маршрутизации и фильтрации документов по общим классам (Belkin & Croft, 1992), в связывание текстов (Agosti, 1996) или создание тематических карт текстов (Zizi, 1996). Первоначальная классификация текстов часто предшествует задаче извлечения информации, так что можно использовать правильный набор специфичных для класса методов обработки естественного языка (DeJong, 1982; Young & Hayes, 1985; Liddy & Paik, 1993). Что касается точности, фразы на контролируемом языке часто функционируют как предварительно согласованные индексные термины, которые указывают и стандартизируют конкретные отношения между содержательными словами фраз (Salton & McGill, 1983, p. 58; Soergel, 1994). Например, текст может быть проиндексирован с точной фразой «растворители, влияние на цветовые спектры красителей». Термины индекса контролируемого языка полезны, когда тексты могут быть представлены точными и однозначными понятиями, независимо от того, являются ли они общими или конкретными.

Контролируемые языковые термины индекса также имеют недостатки. Они разрешают только несколько точек доступа к тексту или представляют несколько точек зрения. Более того, они довольно негибкие, чтобы адаптироваться к потребностям пользователей текстов. Таким образом, словарь должен регулярно обновляться, чтобы учесть изменения в интересах и концепциях поиска, а также изменение коллекций документов. Когда словари не являются взаимозаменяемыми, поисковые системы, основанные на терминах индекса управляемого языка, менее переносимы и менее совместимы между различными коллекциями. Термины индекса контролируемого языка могут дополнять термины индекса естественного языка в текстовом представлении (Hearst, 1994).

Связь с классификацией и категоризацией текста

Индексирование с использованием словаря с контролируемым языком связано с классификацией текста (Lancaster, 1991, p. 14 и далее). Термин «классификация» относится к процессу группировки объектов. Классификация текста относится к формированию текстовых классов, которые концептуально тесно связаны. Классы часто содержат тексты, которые относятся к одному и тому же предмету. Термин «категоризация текста» используется для классификации текстовых документов в отношении набора из одной или нескольких ранее существующих меток категорий или терминов индекса контролируемого языка, по которым идентифицируются классы.

Назначение класса является двоичным (текст является или не является членом класса) или оценивается (текст имеет степень членства в классе) (Sparck Jones, 1973; Cleveland & Cleveland, 1990, p. 112). Последнее соответствует присвоению весов индексированным терминам языка.

Ровно одному дескриптору или нескольким терминам присваивается один текст. Но количество назначаемых терминов обычно ограничено (Salton, 1975b, p. 17). Когда используются несколько терминов, текст может принадлежать различным связанным и не связанным классам. Индексные термины, которые являются ключами к этим классам, назначаются независимо или независимо. Первый — это случай, когда, например, назначаются индексные термины иерархической системы классификации. Присвоение одного термина включает в себя назначение терминов, которые находятся выше в иерархии. Классы — даже те же уровни в иерархической системе классификации — обычно не являются взаимоисключающими (Harter, 1986, p. 56). Разделение реального мира на род, вид, подвид и т. д. Не всегда приводит к определенным классам. Зачастую лучшая индексация достигается путем независимого назначения каждого элемента индекса, особенно одного и того же уровня иерархии.

3.3 Аннотация

Другой важной формой текстового представления является аннотация или резюме. Резюме является сжатой производной исходного текста. Резюме касается информации о контенте и ее выражения. Существует много различных форм резюме (Sparck Jones, 1993; Rowley, 1988, p. 11 и далее). Обычно, аннотация и резюме считаются синонимами и будут использоваться в этой книге. Однако иногда делается небольшое различие. Затем реферат скорее относится к суррогату отдельного документа (например, аннотации в технической литературе журнала), тогда как реферат является неотъемлемой частью текста документа, в которой подчеркиваются его основные выводы.

Минимальная функция, которую должна предоставлять сводка, — это указание содержания текста. Ориентировочный реферат помогает читателю решить, будет ли целесообразным ознакомиться с полным документом. Информативный реферат сообщает о фактическом содержании текста и представляет в максимально возможной степени информацию, содержащуюся в нем. Такой реферат может выступать в качестве самостоятельного текстового заменителя. Выписка состоит из фрагментов текста, извлеченных из оригинала, и может иметь как информативную, так и информативную функцию. Разделы или фрагменты текста представляют его содержание и / или его вкус или выделяют важную информацию. Последний тип аннотации называется абстрактным моментом. Резюме, состоящее из ключевых слов, служит грубым индикатором предметной области. Содержание текста может быть обобщено в профиле. Профиль представляет собой рамочное представление, содержащее отдельные слоты, каждый из которых имеет четко определенное семантическое значение. Слоты заполнены информацией из текста. Критическая аннотация не только описывает содержание текста, но также оценивает его содержание и его представление. Сравнительный реферат оценивает содержание и представление текста по сравнению с другими текстами или представляет краткое изложение нескольких текстовых документов.

Информационное содержание реферата обычно выражается в связном тексте. Как видно выше, некоторые абстрактные типы представляют информацию в других формах — от выписки и профиля до списка терминов индекса.

Аннотация высоко ценится как сжатое и понятное представление содержания текста. Это особенно ценится читателями-людьми за оценку актуальности исходного текста (Rowley, 1988, p. 12 и далее).

Связь с текстовой индексацией

Индексация и абстракция текста тесно связаны (Lancaster, 1991, стр. 5 и далее; Sparck Jones, 1993; Sparck Jones & Galliers, 1996, стр. 28). Рефератор записывает описательное описание содержимого текста документа, в то время как индексатор описывает его содержимое, используя один или несколько терминов индекса. Но многие формы рефератов делают это различие все более и более размытым. Краткое резюме может служить в качестве описания сложного структурированного индекса, которое обеспечивает доступ к текстовой коллекции, в то время как список ключевых терминов может служить простой формой резюме. Многие формы текстовых представлений являются промежуточными формами индексирования описаний и рефератов. Предполагается, что тезисы являются более исчерпывающими при представлении контента, чем индексные описания (Cleveland & Cleveland, 1990, с. 105; Stadnyk & Kass, 1992).

4. Интеллектуальная индексация и абстрагирование

4.1 Общие положения

Исторически, и до сих пор в значительной степени сегодня, индексирование или абстрагирование текста выполняется вручную — следует сказать, интеллектуально — экспертами. Автоматическое индексирование и абстрагирование могут учиться на когнитивных процессах человека. Это не означает, что полный когнитивный процесс должен дублироваться в автоматизированных системах, но, возможно, хорошие инженерные решения некоторых проблем индексации и абстрагирования лежат в некоторой работе, выполненной в когнитивной области. Во-первых, когнитивная психология может предложить основной вклад в анализ текстового контента, особенно в понимании сложного механизма приобретения и структурирования знаний. Также могут быть полезны инструкции, доступные для индексаторов и абстракционистов. Это причина для краткого описания интеллектуального индексирования и абстрагирования в книге.

Интеллектуальная индексация и абстрагирование не являются простыми процессами. По этой причине эти задачи выполняют подготовленные и опытные специалисты, то есть профессиональные индексаторы и абстракционисты (Lancaster, 1991, p. 104). В некоторых случаях автор текста может нести ответственность за эти задачи. Но автор часто недостаточно обучен, чтобы объективно и правильно индексировать или абстрагировать его или ее тексты (Rowley, 1988, p. 23).

Индексация или абстракция включает в себя три основных этапа (Lancaster, 1991, стр. 8 и далее) (рис. 1). Во-первых, это концептуальный анализ исходного текста и определение его содержания (контент-анализ). Индексация, а также абстрагирование всегда сводят контент к его основам и часто включают в себя отбор и обобщение информации, которые образуют второй этап процесса. В-третьих, существует перевод выбранного и обобщенного контента на язык текстового представления, то есть определенного словарного запаса индексных терминов или сводного текста. Идентификация контента и выбор информации не всегда являются отдельными шагами.

4.2 Интеллектуальная индексация

Существует много руководств по интеллектуальной индексации (Borko & Bernier, 1978; Rowley, 1988; Cleveland & Cleveland, 1990; Lancaster, 1991).

Анализ содержания

При индексировании с помощью терминов, извлеченных из текста или присвоенных ему, индексатор обычно не выполняет полное чтение текста документа. Рекомендуется сочетание чтения и скимминга. Части, которые необходимо внимательно прочитать, — это те, которые могут наиболее полно рассказать о содержании в кратчайшие сроки (например, резюме, выводы, реферат, вводные абзацы разделов, вводные и закрывающие предложения абзацев, иллюстрации, диаграммы, таблицы и их подписи). Эти существенные разделы часто определяются схематической структурой текста. Остальная часть текста обычно просматривается, чтобы более сжатые части давали точное представление о том, о чем идет речь.

Важным аспектом идентификации контента является выявление субъектов текста. Индексаторы имеют руководящие принципы для анализа содержания предмета (темы или о предметности) (Hutchins, 1985). Индексаторы должны особенно знать о лингвистических подсказках, которые сигнализируют о тематической структуре текста на микро-, а также на макроуровне (см. Главу 2). На макроуровне понятие темы, по-видимому, связано с текстовым абзацем, который имеет большинство ссылок на другие абзацы. Или тема часто появляется в первом предложении абзаца. На микроуровне предполагается, что тематические формулировки предложений дают ключи к глобальным темам текста. Тема также обозначена существительной фразой, которая много раз появляется в качестве предмета предложения. Также предлагается, чтобы индексаторы сначала сканировали тексты на предмет конкретных слов или фраз (например, «были убиты» в области терроризма) (Hutchins, 1985; Riloff & Lehnert, 1994). Затем, в качестве второго шага, читателю иногда необходимо оценить контекст выражения в случае семантической неоднозначности (например, контекст «солдаты были убиты» больше не соответствует террористической сфере, поскольку жертвы террористов должны быть гражданскими лицами).

Выбор и обобщение

Как только темы текста определены, можно выбрать конкретные темы или информацию. Темы могут быть заменены более общими понятиями.

Перевод контента в термины индекса

На следующем этапе идентифицированное содержание текста переводится в виде набора терминов индекса. Эти термины индекса являются терминами естественного языка, извлеченными из текста или терминов контролируемого языка, выбранных из схемы классификации.

Индексаторы идентифицируют термины на естественном языке в тексте документа, когда считают, что они точно отражают идентифицированный контент. Предположительно, на них влияет частота появления слова или фразы в тексте, место его появления (например, в заголовке, в резюме, в подписи к иллюстрациям) и его контекст (Lancaster, 1991, p. 221). Обычно индексаторы чувствуют себя хорошо с такой практикой, которая проводится быстро, уменьшая стоимость индексации. Но руководящие принципы часто недостаточно точны, чтобы регулировать выбор индексатором подходящих предметных терминов из текста, так что даже обученные индексаторы становятся непоследовательными в выборе терминов (Blair & Maron, 1985).

Чаще всего индексаторы назначают контролируемые языковые термины для текстов документов. Бехтол (1986) описал этот когнитивный процесс. Сначала необходимо разработать систему классификации индексных терминов или меток категорий, которая будет навязываться документам. Фактический процесс индексации — это отображение поверхностных выражений текста на естественном языке в соответствующие классификационные обозначения или термины индекса в соответствии с восприятием индексатором содержимого текста. Понятие, выраженное выражением естественного языка, должно быть достаточно важным. Таким образом, индексатор назначает индексный термин для комбинации слов или фраз, которые часто встречаются в тексте документа (Lancaster, 1991, p. 225). Это звучит просто, но понятия, выраженные терминами индекса контролируемого языка, часто встречаются во многих различных комбинациях слов и фраз с различными частотами совместного вхождения. Например, если «СПИД» встречается в журнальной статье 20 раз, индексный термин «СПИД» почти наверняка следует назначить. С другой стороны, предположим, что «СПИД» встречается в документе только дважды, а «вирус иммунодефицита человека» встречается несколько раз, а «вирусная инфекция» встречается довольно часто. Затем также может быть назначен термин «СПИД». Другой пример иллюстрирует важность частоты встречаемости. Если в документе несколько раз встречаются слова «тепло», «озеро» и «загрязнение», этого может быть достаточно для назначения терминов «тепловое загрязнение» и «загрязнение воды». Но «жара» и «озеро» без появления «загрязнения» должны встречаться в документе много раз, прежде чем «тепловое загрязнение» станет хорошим выбором для назначения. Интересно отметить, что иногда индексаторы рассуждают, ссылаясь на сходство новых и старых экземпляров текстов. Таким образом, при назначении терминов индекса контролируемого языка они ищут текстовые шаблоны, встречающиеся в текстах, ранее классифицированных по этим меткам, и назначают термины, когда присутствует достаточное сходство между старым и новым текстами (Hayes-Roth & Hayes-Roth, 1977) ,

Индексаторы могут приписывать вес индексным терминам естественного и контролируемого языка на основе своего суждения о важности термина.

4.3 Интеллектуальное абстрагирование

Поскольку способность обобщать информацию является необходимой частью понимания текста и производства текста, работа Кинча и ван Дейка в отношении понимания и производства текста важна для разгадывания интеллектуального процесса абстрагирования (Kintsch & van Dijk, 1978; van Dijk & Kintsch 1983). Существует множество моделей и руководств по интеллектуальному абстрагированию (Borko & Bernier, 1975; Hutchins, 1987; Rowley, 1988; Lancaster, 1991; Pinto Molina, 1995; Cremmins, 1996; Endres-Niggemeyer & Neugebauer, 1998). Некоторые из них основаны на выводах Кинча и ван Дейка.

Рисунок 1. Интеллектуальная индексация и абстрагирование
Рисунок 1. Интеллектуальная индексация и абстрагирование
Анализ содержания

Идентификация контента для абстрагирования очень похожа на интеллектуальный процесс индексации. Профессиональный реферат учится быстро просматривать текст, чтобы быстро определить основные моменты, после чего следует более подробное чтение некоторых ключевых разделов. Схематическая структура текста намекает на заметные участки. Рекомендации по составлению резюме часто относятся к конкретным типам текста и их надстройке. Анализ содержания для абстрагирования более детализирован, чем при индексации с помощью терминов. Но это, конечно, также зависит от типа абстрактного, который должен быть реализован.

Выбор и обобщение

Модель понимания текста в Kintsch и van Dijk (Kintsch & van Dijk, 1978; van Dijk & Kintsch, 1983) подчеркивает важность тематической структуры при выборе тематической информации и подчеркивает важность обобщения содержания текста. В этой модели темы текста выводятся с применением различных правил. Первый касается удаления ненужной и не относящейся к делу информации (например, подробных описаний, справочной информации, избыточной информации и общеизвестных знаний). Второй относится к выбору путем извлечения необходимой и релевантной информации (например, информация в ключевых разделах, выбор тематического предложения). Затем выбранные тематические сегменты указываются в форме предложений. Третье правило их модели обобщения касается обобщения и определяет конструкцию общих предложений из более конкретных. Например, из предложений, которые описывают девочек, играющих с куклами, и мальчиков, играющих с поездами, дается описание детей, играющих с игрушками. Четвертое правило, которое необходимо в повествовательных текстах, заменяет последовательности предложений отдельными предложениями, выражающими отдельные события. Подводя итог темам текста, важно сохранить акценты темы оригинала и провести четкое различие между основными и второстепенными темами.

Сводная продукция

Профессиональная абстракция включает перевод выбранного и обобщенного контента в понятное и понятное резюме. Этот шаг отсутствует, если резюме состоит из фраз, предложений или других текстовых единиц, извлеченных из исходного текста.

Основное беспокойство вызывает краткость и удобочитаемость резюме (Rowley, 1988, p. 25 и далее; Lancaster, 1991, p. 97 и далее). Обычно абстракционисты составляют черновик, который пересматривается и улучшается с помощью контрольных списков. Однако полная переформулировка выбранной информации не всегда желательна из-за опасности искажения значения исходного текста (Endres-Niggemeyer, 1989). Когда полный текст реферата используется в качестве суррогата документа в поисковых системах, другой проблемой является возможность поиска реферата. Например, рекомендуется, чтобы в нем содержалось много однозначных терминов содержания и их синонимов (Rowley, 1988, с. 31; Lancaster & Warner, 1993, с. 88).

Есть рекомендации по длине реферата. Когда аннотация представляет собой связный текст, его длина определяется различными факторами. Наиболее важным из них является объем информационных деталей содержания источника, которые будут предоставлены в реферате. Вторым фактором является длина исходного текста. Когда аннотация представляет собой сбалансированную картину наиболее важного содержания текста, идеальная длина составляет от 10% до 15% оригинала (Edmundson, 1964; Borko & Bernier, 1975, p. 69; Tombros & Sanderson, 1998), или от 20% до 30% оригинала, когда требуется больше информации (Brandow, Mitze, & Rau, 1995). С другой стороны, когда аннотация только выделяет конкретную информацию, аннотация может быть очень краткой. Иногда применяется более или менее фиксированная длина, например, минимальное и максимальное количество предложений (Edmundson, 1969; Paice, 1981; Brandow et al., 1995; Tombros & Sanderson, 1998) слов (Lancaster, 1991, p. 101) или пунктов, содержащихся в резюме (Lancaster, 1991, p. 101). Наконец, длина реферата определяется его интеллектуальной доступностью. Некоторые тексты могут быть более компактно сжаты, чем другие, оставляя понятность реферата без изменений.

5. Использование текстовых представлений

Текстовые представления давно хранятся на бумаге (например, в карточных каталогах) или на других материалах для эффективного и действенного определения содержания оригинальных текстов. Здесь мы имеем дело с использованием текстовых представлений в системах, которые хранят и извлекают документы или информацию соответственно в базе данных электронных документов и из нее. В электронной среде существуют устройства, позволяющие просматривать, искать и опрашивать текстовые представления. Две основные функции текстового представления (индикативное и информативное содержание исходного текста) в значительной степени определяют тип устройства для их доступа и использования. Мы обсуждаем использование индексных описаний и аннотаций в системах поиска и фильтрации информации, системах ответов на вопросы или извлечения информации и системах просмотра (рис. 2). В настоящее время существует тенденция интегрировать эти системы для эффективного доступа к информации в коллекциях документов (Agosti & Smeaton, 1996).

5.1 Показательные и информативные текстовые представления

Результатом индексации или абстрагирования текста является представление, функция которого должна указывать или информативна в отношении содержания текста.