Автоматическая индексация и абстракция текстов документов | Мари-Франсин Моэнс

Поделись записью

Оглавление

Предисловие

Благодарности

Часть 1. Среда индексирования и абстрагирования

Глава 1 — Необходимость индексирования и абстрагирования текстов

1. Введение в главу 1

2. Электронные документы

3. Общение через текст на естественном языке

4. Понимание текста на естественном языке: познавательный процесс

5. Понимание текста на естественном языке: автоматизированный процесс

6. Важные понятия в поиске и отборе информации

Предисловие

В настоящее время мы сталкиваемся с огромным количеством электронных документов, написанных на естественном языке. Мы хороши в создании текстов, но не так способны управлять их информационным содержанием. Документы хранятся на компьютерных дисках или на компакт-дисках для формирования больших коллекций. Системы поиска, поисковые системы, инструменты просмотра и другое программное обеспечение для управления информацией находятся в нашем распоряжении для выбора соответствующих документов или информации из коллекций. Когда современные средства поиска и выбора информации работают с содержимым текстов документов или делают его доступным, они не являются достаточно мощными для идентификации документов или информации, которые могут иметь отношение к их пользователям.

Индексирование и абстрагирование текста — это старые методы организации содержания текста на естественном языке. Эти процессы создают краткое описание или характеристику исходного текста, который называется текстовым представлением или представителем и имеет признанный и принятый формат. Индексирование обычно извлекает или присваивает тексту набор отдельных слов или фраз, которые функционируют как индексные термины текста. Слова или фразы текста обычно называют индексными терминами естественного языка. Когда назначенные слова или фразы приходят из фиксированного словаря, они называются индексными терминами контролируемого языка. Индексные термины, помимо отражения содержимого, могут использоваться в качестве точек доступа или идентификаторов текста в коллекции документов (document collection). Абстрагирование приводит к уменьшенному представлению содержания текста. Резюме обычно имеет форму непрерывного, связного текста или профиля, который структурирует определенную информацию исходного текста.

Идея и первые попытки автоматизировать индексацию и абстрагирование текста восходят к концу 1950-х годов. То, что в то время было прогрессивной теорией, теперь стало абсолютной необходимостью. Ручная задача индексирования и абстрагирования просто неосуществима с постоянно расширяющимися коллекциями текстовых документов (например, в Интернете). Автоматическая индексация и абстракция, помимо того, что они эффективны, вероятно, дают более последовательный, объективный и более полный конечный продукт. Процесс автоматической индексации и абстрагирования начинается, когда текст уже хранится в электронном виде и может рассматриваться как строка символов (включая пробелы и знаки пунктуации). Как и в случае ручной индексации и абстрагирования, автоматизированный метод влечет за собой контентный анализ текста, отбор и обобщение информации и перевод в окончательную форму. Современные системы, которые индексируют и аннотируют тексты, генерируют текстовые представления, которые аналогичны тем, которые подготовлены людьми с точки зрения содержания и формата (например, набор терминов индекса, аннотация в форме свободного текста). Это связано с тем, что поисковые и другие системы управления текстом поддерживают эти представления.

Текстовые представления используются в системах, которые управляют содержимым документа. Большинство из них являются системами поиска документов. Конечная цель индексации и абстрагирования в текстовом поиске — эффективная операция поиска, чтобы находить более релевантные и менее несущественные элементы. В настоящее время предполагается, что основной проблемой в современных поисковых системах является получение значения, которое документ может иметь для своего пользователя. Таким образом, прогресс может быть достигнут путем точного определения потребностей пользователя. Мы не отрицаем важность точного представления потребностей пользователя, но точное определение информационных потребностей будет хорошо работать только с более насыщенными семантическими представлениями текстового содержимого документов, созданных с помощью автоматической индексации и абстрагирования. Текущие текстовые представления, которые генерируются автоматически, являются лишь грубым отражением содержания текстов документа. Они часто ограничены некоторыми терминами, которые часто встречаются в тексте, всеми словами в начале текста или предложениями, которые содержат частые термины.

Интуитивное решение для создания богатых семантических представлений текстов на естественном языке состоит в том, чтобы анализировать их и интерпретировать их слова и фразы на основе полного лингвистического, предметного мира и контекстуального знания. Учитывая текущее состояние обработки естественного языка, это невозможно и не всегда желательно. Лингвистическое знание относится к лексическим, синтаксическим и семантическим свойствам языка текстов и типичным свойствам дискурса. Знание предметной области описывает понятия и подконцепции предметной области и их отношения. Контекстуальные знания относятся к коммуникативным знаниям, которые касаются предпочтений и потребностей тех, кто использует информацию в текстах. Рабочая гипотеза в области поиска информации состоит в том, что допустимые текстовые представления могут быть сделаны без полной и сложной обработки, зависящей от языка. Это правильная гипотеза для начала. В ходе этой книги мы разработаем и защитим несколько менее значимых гипотез. Во-первых, утверждается, что знание структур дискурса — независимо от того, присущ он или нет типу текста или жанру — и поверхностных лингвистических сигналов, которые их сигнализируют, очень полезно для автоматической индексации и абстрагирования содержания текста. Это знание также позволяет нам сосредоточиться на определенной информации в текстах, которая имеет отношение к конкретным коммуникационным потребностям. Также возможно изучать структуры дискурса из текстов с помощью статистических методов. Наконец, знание предметной области важно для определения актуальных понятий в текстах. Знание понятий и их вариантов текстовых шаблонов можно извлечь из примеров текстов.

Книга ставит перед собой амбициозные задачи: изучить автоматическую индексацию и абстрагирование во всех ее аспектах и описать новейшие новые методы автоматической индексации и абстрагирования. Кроме того, она сталкивается со многими проблемами, которые ставит автоматическая индексация и абстрагирование текста. Хотя книга посвящена индексации и абстрагированию письменного текста, многие выводы также важны для устных текстовых документов, которые все чаще используются для передачи и хранения информации.

Эта книга организована следующим образом:

Первая часть, «Среда индексирования и абстрагирования — The Indexing and Abstracting Environment», помещает проблему в широкий контекст и определяет важные концепции книги. В первой главе «Необходимость индексирования и абстрагирования текстов — The Need for Indexing and Abstracting Texts» обосновывается необходимость разработки более совершенных методов автоматической индексации и абстрагирования текстового содержимого. С широкой точки зрения, обсуждаются некоторые относящиеся к делу проблемы поиска информации и управления текстом в целом. Нынешние решения этих проблем намечены. В ходе этой главы становится очевидной реальная потребность в улучшенных методах автоматической индексации и абстрагирования. Вторая глава этой части, «Атрибуты текста — The Attributes of Text», раскрывает особенности текста. Она дает обзор различных компонентов и структур, составляющих текст. В последней главе этой части «Текстовые представления и их использование — Text Representations and their Use» обсуждаются свойства и использование различных текстовых представлений для поиска документов и информации.

Вторая часть книги «Методы автоматического индексирования и абстрагирования — Methods of Automatic Indexing and Abstracting» дает обзор существующих методов автоматического индексирования и абстрагирования. В настоящее время такой подробный обзор отсутствует в литературе. В разных главах рассматриваются основные формы представления текста: «Автоматическая индексация: выбор терминов индекса естественного языка — Automatic Indexing: The Selection of Natural Language Index Terms», «Автоматическая индексация: назначение терминов индекса контролируемого языка — Automatic Indexing: The Assignment of Controlled Language Index Terms» и «Автоматическое абстрагирование: создание текстовых резюме — Automatic Abstracting: The Creation of Text Summaries». Содержание этой части обеспечивает контекст для приложений, обсуждаемых в третьей части, и обосновывает выбор определенных методов в приложениях.

Третья часть книги рассматривает «Приложения — Applications». Четыре важные проблемы описаны для двух сборников текстов, написанных на голландском языке. Проблемы в основном касаются индексации с помощью терминов индекса контролируемого языка, классификации текста и абстрагирования. Один корпус содержит тексты судебных дел, а другой состоит из журнальных статей. Решения предлагаются и тестируются с помощью программного обеспечения для индексации и абстрагирования, разработанного и реализованного автором. Приложения разрабатывают новые методы и улучшают существующие для автоматической индексации и абстрагирования. Первая глава «Структурирование и категоризация текста при обобщении юридических дел — Text Structuring and Categorization when Summarizing Legal Cases» посвящена успешной первоначальной классификации и структурированию уголовных дел. Текстовая грамматика используется для представления знаний о структурах дел, о концепциях, типичных для области уголовного права, и об информационной направленности. В следующей главе «Кластеризация пунктов при обобщении юридических дел — Clustering of Paragraphs when Summarizing Legal Cases» краткий отрывок из судебных дел обобщен путем выделения репрезентативных параграфов и ключевых терминов. Методы идентификации репрезентативных текстовых единиц основаны на распределении лексических единиц в юридических текстах и демонстрируют полезность кластеризации на основе выбора репрезентативных объектов. В третьей главе, озаглавленной «Создание выделенных аннотаций журнальных статей — The Creation of Highlight Abstracts of Magazine Articles», демонстрируется переносимость текстового грамматического подхода к абстрагированию текста в процессе создания выделенных аннотаций журнальных статей. Здесь используются типичные дискурсивные шаблоны новостных сюжетов. В последней главе этой части, «Назначение предметных дескрипторов журнальным статьям — The Assignment of Subject Descriptors to Magazine Articles», метод изучает типичные текстовые шаблоны широких предметных классов статей из ограниченного набора примеров текстов и применяет эти знания для назначения предметных дескрипторов новые, ранее невиданные статьи.

Книга заканчивается кратким обзором, обзором вклада исследования и направлениями будущих исследований.

Книга междисциплинарная. Его тема «Автоматическое индексирование и абстрагирование текстов документов» является важным элементом информационно-поискового исследования. Поиск информации — это дисциплина, основанная на информационной науке, компьютерной науке и статистике. Исследование особенно изучает текст и его автоматический анализ. Эта исследовательская область компьютерной лингвистики, подразделение информатики. Из-за природы двух текстовых корпусов, используемых в исследовании, юридических текстов и журнальных статей, исследование сталкивается с дисциплинами права и науки о коммуникации. Область когнитивной науки затрагивается, когда когнитивный процесс индексации и абстрагирования дает модели для автоматических процессов.

Благодарности

Эта публикация является несколько сокращенной версией моей докторской диссертации, защищенной 28 июня 1999 года на факультете наук в Университете Католике в Лёвене, Бельгия. Хотя невозможно признать вклад тех, кто помог мне, я хотела бы упомянуть тех, чья помощь была прямой и жизненно важной для завершения этой работы.

Истоки этой книги лежат в моих работах по древнеегипетскому языку под руководством профессора Дж. Куэгбёра (Katholieke Universiteit Leuven, Бельгия) и профессора Дж. Каллендера (Калифорнийский университет в Лос-Анджелесе, Калифорния, США), которые глубоко пробудили во мне интерес к анализу языка и текстов.

Я очень благодарна профессору Дж. Дюмортье, моему научному руководителю, который дал мне великолепный шанс изучить тему этой книги. Он дал мне возможность работать в Междисциплинарном центре права и информационных технологий (ICRI) (Katholieke Universiteit Leuven, Бельгия), который является очень стимулирующей средой для творческих исследований. Именно под его руководством исследование, содержащееся в этом томе, началось около пяти лет назад.

Я должна выразить свою признательность консультантам моей докторской диссертации в Университете Католике в Левене, Бельгия: профессору Х. Оливье, профессору Л. Верстралену и профессору Ж. Дюмортье. Их постоянное поощрение значительно облегчило его подготовку. Я благодарю профессора Х. Оливия за его полезные советы.

Я также благодарю членов экзаменационного жюри, профессора Д. Де Шрайе (Katholieke Universiteit Leuven, Бельгия), профессора Дж. Лейзена (Koninklijke Militaire School, Бельгия) и профессора Дж. Хоббса (Стэнфордский исследовательский институт, Калифорния, США), которые своими замечаниями и предложениями позволили мне достичь конечных целей этой публикации.

С глубоким уважением я благодарю профессора А. Оостерлинка, ректора Университета Католике в Левене, Бельгия, и профессора Дж. Херботса, декана юридического факультета, за предоставленную мне возможность работать в Университете Католике в Лювене, Бельгия. Я также должна поблагодарить профессора Дж. Берламонта, декана факультета прикладных наук, который дал мне возможность пройти докторантуру в области компьютерных наук в Университете Католике в Левене, Бельгия, и профессора Л. Ванкуикенбоме, декана факультета Наук, которые позволили мне защитить мою докторскую степень. Я благодарю профессора С. Вандевалле за то, что он позаботился о моем досье на докторскую подготовку.

Я больше всего признательна моему коллеге д-ру. C. Uyttendaele, который оказал неоценимую помощь в одном из проектов, описанных в книге, и который перевел большинство юридических текстов с голландского на английский. Я также благодарна г-же Т. Боувен за проверку некоторых результатов, содержащихся в этой публикации. Я благодарю доктора В. Веттерстрома (Гарвардский университет, Массачусетс, США), который помог мне исправить мой английский в предисловии и резюме. Я также хотела бы поблагодарить профессора Дж. Зелезникова (Университет Ла Троб, Австралия) за его полезные комментарии. Я благодарю анонимных рецензентов моих научных работ, которые включены в эту книгу.

Кроме того, я благодарна доктору С. Бельмансу и Ир. J. Huens (Katholieke Universiteit Leuven, Бельгия) и г-н L. Misseeuw и г-н P. Huyghe (Roularta Media Group) за техническую помощь в обеспечении доступности текста. Я благодарна г-же Н. Вербиест за административную поддержку. Я хочу поблагодарить мою семью и коллег за их постоянную поддержку.

Наконец, я хотела бы выразить свою благодарность организациям, которые предоставили мне грантовую поддержку во время учебы и исследований: Бельгийско-Американский образовательный фонд (BAEF), Совет по высшему образованию и научным исследованиям Министерства образования, Исследовательский фонд KU Leuven, Национальный фонд научных исследований (NFWO), Фламандский институт содействия научно-техническим исследованиям в промышленности (IWT), Vlaamse Leergangen Leuven и Фламандский научный фонд.

Часть 1. Среда индексирования и абстрагирования

Глава 1 — Необходимость индексирования и абстрагирования текстов

1. Введение в главу 1

Люди общаются, беседуя. С давних времен человечество использует зарегистрированные формы общения. Один из них, письменный текст, как правило, считается знаменующим историческую эпоху человечества. Люди научились кодировать звуковые высказывания в последовательности графических символов и снова расшифровывать текст на языке разговорной речи. Даже если текст, написанный на естественном языке, является лишь грубой формой представления того, что происходит в уме автора, он играет важную роль в общении. Последние разработки в области электронных технологий представили много новых физических форм общения, но не остановили производство документов в виде письменных текстов. Технология не только объясняет их легкое создание, но также и их безудержное воспроизведение и распространение. Однако важнейшей задачей является эффективное распространение электронных документов. Когда люди сталкиваются с большими базами электронных документов, они хотят найти документы и информацию, соответствующие их потребностям.

В этой главе объясняются некоторые важные концепции и проблемы выбора документов и информации в целом и поиска текста в частности. Это постепенно формирует утверждение о том, что существует определенная потребность в автоматической индексации и абстрагировании с помощью расширенных методов анализа текста, не вызывая сложную и полную обработку текстов на естественном языке. Инструменты для индексации и абстрагирования содержания текстов являются необходимыми компонентами будущих систем поиска и отбора информации. Они дополнят инструменты для анализа данных изображений и распознавания речи при управлении контентом документов.

2. Электронные документы

Понятие «документ» используется как существительное, а также как глагол. Латинское слово «documentum» означает «официальный документ, используемый в качестве улик или доказательства, в некоторых случаях в качестве примера». В своем узком смысле существительный документ все еще имеет эту связь (например, контракт). В ходе истории концептуальный документ использовался в более широком смысле: «любое печатное представление, содержащее текстовые и / или нетекстовые компоненты, такие как фотографии, подписи, диаграммы, таблицы и т. д., Которые создаются с целью обмениваться знаниями (Vervenne, Hamerlinck & Vandamme, 1995). Глагол «документировать» означает проиллюстрировать или показать доказательства. В более широком смысле глагол относится ко всем действиям, связанным с редактированием, печатью и распространением документов. С этой точки зрения документ является важным средством межличностного и социального общения между его создателем и пользователем (Schamber, 1996). Создатель использует содержание документа для описания, организации и синтеза своих идей. Он целенаправленно создает документ таким образом, чтобы его пользователи могли понять его содержание наиболее оптимальным способом. Для эффективного общения документ должен содержать информацию, которая способствует работе пользователя или его интересам.

В нашем современном обществе документы на бумажной и печатной основе постепенно заменяются электронными документами. Электронные документы хранятся на электронных носителях, таких как компакт-диски или распределенные аппаратные диски, доступные через сети (например, Интернет). Электронные документы имеют некоторые важные характеристики (более подробно см. Schamber, 1996):

1. Они легко создаются, манипулируются и неограниченно копируются авторскими системами. Они также легко транспортируются и эффективно хранятся. В результате мы сталкиваемся с огромными объемами электронных документов.

2. Они могут быть замечательными неуловимыми, преходящими и постоянно развивающимися. С другой стороны, они доступны одновременно для многих людей.

3. Они создают новые коммуникативные структуры и открывают перспективы для новых упорядоченных систем кодификации и обозначений (например, языков разметки), которые позволяют представлять новые типы контента (например, видео- и аудиоданные в мультимедийных документах).

3. Общение через текст на естественном языке

Многие современные документы содержат текст на естественном языке. Текст на естественном языке высоко ценится как средство общения. Определение понятий коммуникации и текста проясняет, почему они тесно связаны.

Коммуникация была тщательно изучена, и были предложены различные модели общения. Общение включает отправителя и получателя. В случае общения посредством документа мы говорим о создателе и пользователе. В модели кода (Shannon & Weaver, 1949), которая восходит к Аристотелю (Sperber & Wilson, 1995, p. 2), связь достигается путем кодирования сообщения, которое не может передаваться, в сигнал, который может перемещаться, и путем декодирования сигнала на приемном конце. Такой взгляд предполагает гипотезу взаимного знания. Эта гипотеза гласит, что если получатель должен быть уверен в восстановлении правильной интерпретации, той, которая предназначена отправителю, каждый элемент контекстной информации, используемой при интерпретации сообщения, должен быть взаимно известен отправителю и получателю. Спербер и Уилсон (1995) рассматривают словесное общение или общение на естественном языке как включающие два типа коммуникационных процессов: один основан на кодировании и декодировании, другой — на демонстрации и выводе.

Акустические или графические сигналы используются для передачи семантических представлений. Семантические представления, восстановленные декодированием, полезны только в качестве источника гипотез и свидетельств второго процесса коммуникации, логического вывода. Согласно демонстративно-инференциальной модели, коммуникация достигается с помощью коммуникатора, предоставляющего доказательства его или ее намерений, и аудиторией, определяющей его намерения на основании данных. Коммуникатор демонстрирует свои коммуникативные намерения или цели, демонстрируя публичное толкование своих мыслей. Толкование (Ostension) помогает сосредоточить внимание аудитории на соответствующей информации. Аудитория применяет правила вывода к восстановленным семантическим представлениям мыслей коммуникатора, чтобы сформировать их ментальную интерпретацию. Эта интерпретация доходит до того, что подразумевает значение, которое не подразумевалось коммуникатором.

Взаимное знание, безусловно, участвует в вербальном общении, но общение направлено на расширение и изменение взаимного когнитивного окружения коммуникатора и аудитории и не направлено на дублирование мыслей.

Текст определен Petöfí и Garcia Berrio (1978, цитируется Pinto Molina, 1995) как «группа связанных языковых единиц в общем конгломерате коммуникативного намерения». Де Beaugrande и Dressler (1981, стр. 3 и далее) определяют текст как коммуникативный случай, который соответствует семи стандартам текстуальности.

  • Первый стандарт, связность (cohesion), касается способов, которыми компоненты поверхностного текста, то есть фактические слова (выражения языка), которые мы слышим или видим, взаимно связаны внутри последовательности. Компоненты поверхности зависят друг от друга в соответствии с грамматическими формами и условностями. Сплоченность влияет на связность поверхностных выражений.
  • Второй стандарт, согласованность (coherence), касается способов, которыми компоненты текстового мира, то есть конфигурация понятий и отношений, лежащих в основе поверхностного текста, являются взаимно доступными и актуальными. Согласованность касается глобальной организации и связности основного контента. Согласованность и связность являются тексто-центричными понятиями (см. Главу 2). Остальные стандарты представляют собой ориентированные на пользователя понятия, которые влияют на активность текстовой коммуникации в целом как создателями, так и пользователями.
  • Преднамеренность (Intentionality) касается отношения создателя к тому, что совокупность явлений должна составлять сплочённое и связное средство, способствующее выполнению намерений создателя, например, распространять знания или достигать определенной цели.
  • Приемлемость (Acceptability) относится к позиции пользователя текста о том, что набор вхождений должен представлять собой сплочённый и связный текст, имеющий определенное использование или значимость для пользователя, например, для получения знаний или обеспечения сотрудничества в плане.
  • Информативность (Informativeness) касается степени, в которой вхождения представленного текста ожидаются по сравнению с неожиданными или известными и неизвестными.
  • Ситуативность (Situationality) относится к факторам, которые делают текст релевантным ситуации возникновения.
  • Последний стандарт, интертекстуальность (intertextuality), касается факторов, которые делают использование одного текста зависимым от знания одного или нескольких ранее встреченных текстов. Интертекстуальность отвечает за эволюцию текстовых типов как классов текстов с типичными образцами характеристик.

Пока ясно, что текст делает возможным целый ряд коммуникативных действий. Текст тесно связан с естественным языком (natural language). Его содержание в основном проявляется в выражениях на естественном языке. Естественный язык является наиболее сложной символической системой, которую контролируют люди, и является важным инструментом во многих когнитивных процессах, включая общение, обработку и запоминание информации (Sperber & Wilson, 1995, p. 173). Репрезентативная сила естественного языка не имеет себе равных. Естественный язык обеспечивает экономичный, эффективный и выразительный инструмент для передачи контента (Sparck Jones, 1991). Отдельные слова в тексте и их порядок отображают содержание этого текста. Маловероятно, что естественный язык будет отдан в пользу искусственного языка для выражения содержания текста (Coulmas, 1989, p. 27). Согласно Кулмасу, для группы людей может быть возможно разработать графический код, который не зависит от их естественного языка и который достигает той же сложности и выразительной силы, что и их язык. Тем не менее, весьма маловероятно, что кодирование будет использоваться в человеческом общении.

Текст проявляется как в устной (речи), так и в письменной форме (Figge, 1979). В этой книге мы концентрируемся на письменном тексте.

4. Понимание текста на естественном языке: познавательный процесс

Текст можно рассматривать как сложное познавательное и социальное явление. Психологи изучили познавательный процесс осмысления или понимания текста. Пионерами в этом исследовании являются Kintsch и van Dijk (1978; см. Также van Dijk & Kintsch, 1983). Кинч и ван Дейк предполагают, что при чтении текста его поверхностные особенности (слова и их упорядоченность в тексте) интерпретируются как набор предложений. Предложение — это обычная форма для представления содержания из изречения. Различные семантические отношения между предложениями упорядочивают этот набор. Некоторые из этих отношений явно выражены в поверхностной структуре дискурса; другие выводятся в процессе интерпретации с помощью различных видов специфических для контекста или общих знаний. Из этого набора упорядоченных предложений выводится общий предмет или тема. Обычные схемы производства текстов помогают определить тип информации, которая важна для конкретной задачи понимания. Согласно Кинчу и Ван Дейку (1978) текст имеет ряд структур, которые позволяют нам понимать текст и идентифицировать содержание текста. В главе 2 мы подробно остановимся на этих текстовых структурах.

Со времени публикации пресловутой статьи Кинча и Ван Дейка (1978) многочисленные когнитивные исследования подтвердили, что когнитивный процесс понимания охватывает множество источников знаний и поддерживает множественные выводы. В этих исследованиях также подчеркивается, что понимание текста также включает в себя придание ему личного значения или толкования, которое не включено исключительно в сам текст. Модель Грейссера и Кларка (1985, с. 14 и далее) связывает четыре источника знаний с пониманием текста:

  1. Первый источник — это явный лингвистический материал, включая слова, синтаксические конструкции и лингвистические сигнальные устройства, которые явно выражены в тексте. Он также включает в себя лингвистические знания, которые понимает об этих уровнях анализа языка.
  2. Второй источник состоит из мировых структур знаний, которые хранятся в долговременной памяти понимающего. Эти структуры знаний включают в себя как общие структуры знаний, так и конкретные структуры знаний. Понимание страдает, когда знание понимания слов и тем текста неадекватно.
  3. Третий источник состоит из целей автора, который читает текст. Значение текста меняется, когда к тексту обращаются для разных целей.
  4. Четвертый источник состоит из прагматического контекста общения. Это включает в себя социальные отношения между читателем и писателем, общие знания между участниками коммуникативного мероприятия, а также социальные отношения и идеологии.

Многие выводы генерируются во время понимания текста, если база знаний понимающего очень богата, а стратегии рассуждения варьируются от области знаний к области знаний (Schank, 1982; Graesser & Clark, 1985, p. 15 и далее). Выводы зависят от знаний, которые можно найти в тексте (например, значения других, в основном предыдущих предложений), общей системы знаний пользователя и от цели чтения текста (Black, 1981; Shiro, 1994). Понимание текста включает в себя огромное количество контекстной информации. Психологические усилия еще не сошлись в четкой картине того, какие выводы генерируются и сколько выводов генерируется. Необходимы дополнительные исследования, чтобы описать, какие стратегии рассуждения используются в различных областях знаний.

Текущее исследование подчеркивает необходимость моделей понимания текста, которые включают субъективную модель читателя (van Dijk, 1995). Поскольку понимание текста является личным, специальным и уникальным и будет определять одну конкретную интерпретацию конкретного текста в определенный момент, модель понимания текста будет включать личные ассоциации, выводы и контекст.

5. Понимание текста на естественном языке: автоматизированный процесс

Сложность когнитивного процесса понимания текста на естественном языке делает автоматизацию этого процесса очень сложной задачей. Автоматическое понимание текстов относится к области исследований обработки естественного языка. Обработка естественного языка (Natural language processing), нацеленная на полностью понятую интерпретацию текстов, касается обработки лингвистического кодирования (словарный запас, синтаксис и семантика свойств языка и дискурса), знания предметного мира, общих знаний между создателем и пользователем текста и полного контекста понимания в определенный момент времени, включая идеологию, нормы, предпосылки пользователя и цели использования текста. Обработка не только раскроет содержание текста, но и прояснит значение текста для его пользователя.

Такое полное понимание текстов, включая их интерпретацию, далеко не реализовано автоматическими средствами. Проблемы автоматического понимания текста касаются как моделирования знаний и задействованного механизма вывода, так и вычислительной сложности операций. Помимо огромной задачи получения необходимых знаний и умозаключений (acquiring the knowledge and inferences) — многие соответствующие структуры и стратегии до сих пор неизвестны (van Dijk, 1995) — существует амбициозная задача по созданию работоспособных моделей. Особенно трудно моделировать знания о целях, убеждениях, ценностях и эмоциональных состояниях пользователя информации в тексте и всего прагматического контекста общения. Более того, модель должна уметь приспосабливаться к изменениям личной ситуации пользователя текста. Помимо проблемы исчерпывающего и правильного моделирования процессов знаний и умозаключений, исследователи беспокоятся о вычислительной сложности (computational complexity) и потенциальных проблемах, возникающих при взаимодействии различных структур знаний (Jacobs & Rau, 1993).

Таким образом, сложная выразительная и коммуникативная сила текстов на естественном языке делает их в настоящее время еще не полностью понятными для машины. Исследования по автоматическому пониманию языка были сосредоточены на ограниченном лингвистическом вводе и интерпретации текстов на основе задач.

Термин «подъязык — sublanguage» используется, когда тексты имеют дело с ограниченной предметной областью и обрабатываются для конкретных целей. Этот термин еще более уместен, когда сообщество создателей текста и пользователей, делящихся специализированными знаниями, использует подъязык. Такой подъязык более ограничен в своих лингвистических свойствах (словарный запас, синтаксис, семантика и организация дискурса) (Kittredge & Lehrberger, 1982; Grishman & Kittredge, 1986). Типичными подъязыковыми текстами могут быть сводки погоды и медицинские выписки пациентов. Тем не менее, лингвистические выражения из стандартного языка или из соседних доменов могут войти в подъязык без прохождения процесса создания соглашений. Желание автоматически манипулировать таким подъязыком неизбежно приводит к предписанию дополнительных ограничений на использование языка помимо тех, которые присущи подъязыку. В далеко идущей форме такой контролируемый язык может развиться в направлении полного «искусственного языка», в котором не хватает выразительной и коммуникативной силы естественного языка.

Второй подход, связанный с вышеизложенным, касается интерпретации текстов, ориентированных на задачи (task driven interpretation) (Jacobs & Rau, 1993). Когда текст используется с четкими целями, общими для его пользователей, его обработка фокусируется на выявлении в нем конкретной информации, игнорируя при этом его полное понимание. Основная информация обычно имеет значение для класса пользователей. Такой подход обязательно уменьшает сложность процесса понимания текста.

Индексирование и абстрагирование — это старые методы организации контента на естественном языке. Эти процессы создают краткое описание или характеристику исходного текста, который называется текстовым представлением.

Индексирование (Indexing) обычно извлекает или присваивает тексту набор отдельных слов или фраз, которые функционируют как индексные термины текста.

Абстрагирование (Abstracting) обычно создает короткий связный текст или профиль, который структурирует определенную информацию исходного текста.

Простые автоматические методы нацелены на выявление тематических терминов на основе частоты появления отдельных слов в текстовых и справочных корпусах. В случае абстрагирования извлекаются предложения, содержащие важные тематические термины. Эта поверхностная форма понимания текста широко используется для характеристики содержания текста документа в текущих инструментах поиска и выбора информации (см. Ниже).

6. Важные понятия в поиске и отборе информации

Тексты документов являются важным средством общения. Современные инструменты обработки текста допускают их неограниченное создание и воспроизведение. В результате большие и постоянно развивающиеся коллекции текстов находятся в нашем распоряжении. Средства поиска и выбора информации помогают находить документы или информацию, которые имеют отношение к конкретной потребности. Эти инструменты в основном относятся к информационно-поисковым системам, системам ответа на вопросы и системам просмотра (рис. 1). Типичная информационная система (information system) состоит из базы данных документов, поисковой системы, которая идентифицирует документы или информацию, релевантную для информационной потребности, и интерфейса, который позволяет выражать информационную потребность (запрос-query или вопрос-question), просматривать результаты поиска или просматривать коллекцию.

Поиск документа или информации (Document or information retrieval) связан с выбором документов, которые пользователь хочет прочитать, чтобы узнать что-то о нем. Несмотря на растущий интерес к поиску звука и изображений, термин «поиск текстаtext retrieval», относящийся к процессу извлечения текстовых документов, часто рассматривается как синоним поиска документов (Lewis & Sparck Jones, 1996). Основной процесс поиска информации (process of information retrieval) может быть описан следующим образом: представление информационной проблемы или потребности пользователя, представление содержания документов и сравнение этих представлений для определения того, какие документы лучше всего соответствуют информационной потребности и должны быть извлечены. Как мы объясним далее в главе 3, соответствие определяется путем сопоставления или вывода. Часто документы и запросы на естественном языке представляются в абстрактной форме, облегчая сопоставление между документом и потребностью в информации. Системы фильтрации документов (Document filtering) и маршрутизации документов (routing systems) работают таким же образом, но, как правило, потребность в информации является более стабильной и долгосрочной.

Системы ответов на вопросы (Question-answering systems), которые мы также называем системами извлечения (text extraction) текста, включают извлечение информации и знаний из текстов документов (Lewis & Sparck Jones, 1996). Система извлечения текста обычно анализирует объемы неструктурированного текста, выбирает определенные элементы из текста и потенциально сохраняет такие функции в структурированной форме (Jacobs, 1992, p. 2). Таким образом, коллекция суррогатов или представлений структурированных документов может заменить коллекцию документов. Извлеченная информация и знания формируют ответы на конкретные вопросы, заданные к текстам документа. Как мы объясним далее в главе 3, соответствие определяется путем сопоставления или вывода.

 

В просмотровых или навигационных системах (browsing or navigation systems) нет необходимости в информации. Системы просмотра обычно являются частью гипертекста и гипермедиа систем. Гипертекстовые и гипермедиа системы (Hypertext and hypermedia systems)(Conklin, 1987; Nielsen, 1995) хранят и управляют коллекциями документов, которые соответственно содержат текстовые элементы и многие другие различные оцифрованные формы мультимедиа. Обычно документ разбивается на части или фрагменты. Все фрагменты хранятся и управляются в сети узлов, где каждый узел сети содержит фрагмент, а связанные узлы связаны через соединения, называемые информационными связями (information links). Документы и их части взаимосвязаны таким образом. Каждая последовательность соединений образует отдельный путь для просмотра (навигации по) документа или коллекции документов. Таким образом, коллекция может быть исследована непоследовательным способом (например, переход от одного текста к другому). Пользователь выбирает документы, просматривая их полные тексты или просматривая их рефераты (Croft, 1993).

Когда текущие инструменты поиска и выбора информации работают с содержимым текстов документов, они недостаточно эффективны для идентификации документов или информации, которая важна для их пользователей. Далее мы объясним концепции актуальности, актуальности и потребности в информации. Эти понятия фундаментально связаны и нуждаются в объяснении, чтобы полностью объяснить проблему поиска информации. Мы используем здесь термин «поиск информации — information retrieval» в качестве общего термина для информации и выбора документов.

Когда текущие инструменты поиска и выбора информации работают с содержимым текстов документов, они недостаточно эффективны для идентификации документов или информации, которая важна для их пользователей. Далее мы объясним концепции толкования (aboutness), релевантности (relevance) и потребности в информации (information need). Эти понятия фундаментально связаны и нуждаются в объяснении, чтобы полностью объяснить проблему поиска информации. Мы используем здесь термин «поиск информации» в качестве общего термина для информации и выбора документов.

6.1 Толкование и смысл

Толкование (aboutness) или актуальность (topicality) текста относится к предметам или темам, обсуждаемым в тексте (Schank, 1982; Beghtol, 1986). Текст имеет относительно постоянное толкование, и оно обычно согласовывается между различными участниками процесса коммуникации (создатель (и) и пользователь (ы) текста). Толкование текста не всегда явно указывается поверхностными особенностями текста, возможно, он включает в себя знания, которыми делятся создатель (и) и пользователь (ы) текста. Приведенная выше модель понимания текста Кинча и Ван Дейка (1978) особенно направлена на понимание смысла текста.

Как уже объяснялось, на понимание текста влияют многие когнитивные факторы, среди которых интерес, задача, цель, знания, нормы, мнения или установки. Эти факторы определяют смысл (meaning), который текст передаёт для своего пользователя. Другой термин, иногда используемый для обозначения значения текста, — это интерпретация (interpretation). Интерпретация текста в целом состоит из чтения текста не «нейтральным» способом с целью единственного понимания, но относится к чтению текста с учетом всей исходной ситуации читателя или пользователя (Bánréti, 1981). Большое количество текстового значения создается с помощью умозаключений, которые делаются в результате взаимодействия читателя и текста (Shiro, 1994). Значение может, но не обязательно, относиться к информативности (informativeness) (Boyce, 1982). Информативность — это качество добавления новой информации к информации, которой уже обладает текстовый пользователь. Информативность и смысл меняются со временем.

Текст имеет внутренний предмет, толкование, но имеет различное количество смыслов в соответствии с конкретным использованием, которое человек может использовать в отношении информации в данный момент времени.

 

 

Рисунок 2. Взаимосвязь между актуальной релевантностью, мотивационной релевантностью и интерпретационной релевантностью (см. Saracevic, 1975).

 

Признание относительно постоянного качества информации в документах является одним из предположений, на которых традиционно основывались системы библиографической классификации. Толкование — это то, что человеческий классификатор определяет во время анализа толкования документа, а значение — это причина, по которой пользователь хочет получить его. Конечно, существует тесная связь между краткостью документа и его потенциальным значением для отдельных лиц (Beghtol, 1986). Цель поисковых систем состоит в том, чтобы извлекать документы, информация о которых позволяет предположить, что пользователь может найти в них смысл (ы), подходящий для определенной потребности момента. Интересно привести различие, проведенное Мароном (1977) между объективным толкованием (то, что мы называем здесь толкованием), субъективным толкованием (смыслом) и поисковым толкованием, причем последнее относится к значению текста для класса людей.

6.2 Релевантность

Релевантность (Relevance) — это мера эффективности контакта между отправителем и получателем в процессе коммуникации. Релевантность также касается эффективности коммуникации в поиске информации и играет решающую роль в оценке полученной информации. Релевантность в поиске информации многогранна. Критерии релевантности в целом относятся к информационному содержанию документов, интерпретации пользователем информационного содержания и мотивации пользователя при доступе к документам.

Релевантность — это отношение документа к потребностям пользователя, которые он (документ) помогает решить. Выдающимися среди аспектов релевантности являются актуальность или толкование (Schutz, 1970, p. 26 и далее; Saracevic, 1975). Актуальность касается информационного содержания документа и касается темы или объекта, рассматриваемых в документе. Основная тема текста — неограниченное поле для дальнейшей тематизации. Эта субтематизация включает в себя расширение или углубление преобладающей темы или переход от одной подтемы к другой, когда между ними нет иерархической связи. Документ может содержать ряд подтем, которые так или иначе актуальны для пользователя. Актуальность не является единственным фактором релевантности, связанным с контентом, существуют другие факторы, которые так или иначе связаны с контентом, такие как глубина и объем информации, точность информации и ситуационные факторы репутации источника и свежесть информации (Барри, 1994).