US 6643641 B1 | Поисковый веб-движок с графическими снапшотами

US 6643641 B1 | Поисковый веб-движок с графическими снапшотами

Дата патента

04 ноября 2003 года

Изобретатель патента

Russell Snyder

Аннотация

Поисковая система управляет индексированием содержимого веб-страницы и принимает критерии выбора пользователя, чтобы найти и сообщить о совпадениях, которые соответствуют критериям поиска. Поисковая система по настоящему изобретению имеет связанную функцию сканирования, при которой отображаемые изображения веб-страниц отображаются и сохраняются в виде моментальных снимков, предпочтительно, когда страницы проиндексированы. Поисковая система сообщает о результатах поиска, составляя html-страницу со ссылками на соответствующие обращения к страницам и содержит графические изображения уменьшенного размера снимка, показывающие веб-страницы в том виде, в котором они отображались при извлечении и сохранении в виде снимков.

 

3 листа для рисования

Предпосылки создания изобретения

1. Область техники, к которой относится изобретение

Изобретение относится к способам и устройству для представления содержимого файла данных для поиска в файлах данных и сообщения об выбранных адресах файлов данных, в частности, к файлам языка разметки гипертекста, доступ к которым осуществляется с помощью поисковой машины в Интернете (то есть веб-страниц). Один процесс разрабатывает базу данных, представляющую текстовое содержимое файлов данных в сети. Другой процесс визуализирует графические представления файлов в соответствии с конфигурацией по умолчанию и сохраняет сжатый графический файл для каждого. Дальнейший процесс выбирает обращения к файлам в соответствии с критериями пользователя и сообщает их адреса с соответствующим представлением сохраненного графического файла.

2. Предшествующий уровень техники

Поисковая система является полезным средством для просмотра Интернета или Всемирной паутины. Популярные браузеры, такие как Microsoft Internet Explorer и Netscape Navigator, отображают визуальные результаты, используя язык разметки гипертекста или «html». Огромное разнообразие информации хранится в формате html на домашних страницах подписчиков и т.п. в Интернете, и большая часть информации доступна в Интернет, просто указывая браузер на соответствующую страницу или файл. HTML-файлы обычно содержат, например, текстовую и цифровую информацию, типографские символы, информацию, определяющую особенности форматирования, с помощью которых текст должен отображаться на дисплее файла, и унифицированные ссылки на местоположение ресурса (URL), которые являются гипертекстовыми ссылками, которые обращаются к другим файлам.

Некоторые из URL-адресов обращаются или указывают на другие гипертекстовые страницы, которые связаны с отображаемой страницей. Пользователь может выделить и выбрать URL, указав и щелкнув мышью, после чего браузер загрузит и отобразит указанную страницу. Альтернативно, ссылка может быть такой, что этот метод «укажи и щелкни» заставляет браузер перейти к отображению другой позиции в файле или выполнить идентифицированное действие, такое как загрузка и воспроизведение аудио или видео файла, или может заставить браузер изменять отображение текущих данных, например вставлять или увеличивать отображение графического файла. Ссылка также может привести к тому, что браузер вызовет прикладную программу или процесс и т. д..

Адреса html-файлов обычно содержат определенную информацию о форматировании. Все пользователи, которые скачивают html-файл, получают идентичный файл и форматирование. Однако отображение и обработка файлов не обязательно одинаковы для разных пользователей. HTML-страница не содержит фиксированного графического отображения данных. HTML-страница содержит текст, адреса и информацию о кодировке, которые обрабатываются браузером и системой, использующей браузер, для подготовки и представления графического отображения данных.

Браузеры от разных поставщиков программного обеспечения не идентичны и работают несколько по-разному. Одну и ту же программу браузера можно настроить с помощью пользовательских параметров для отображения данных выбранными способами, включая, например, выбор размера шрифта и типа шрифта. Существуют также альтернативные варианты для прикладных программ, которые могут запускаться в браузере (часто называемые подключаемыми модулями) или которые вызываются при выборе файла определенного типа.

Используя размер шрифта в качестве примера, операционная система (например, Microsoft Windows) и дисплей могут быть сконфигурированы для использования определенного размера пикселя X-Y и цветового разрешения дисплея. В браузере пользователь может выбрать один из нескольких доступных размеров шрифта, который в сочетании с размером пикселя X-Y поля отображения определяет вертикальный и горизонтальный размер каждого символа. Эти варианты влияют на разбиение на страницы и расположение текста в текстовых подразделениях, таких как абзацы или таблицы. Браузер может позволить пользователю выбрать алфавит по умолчанию. Браузер также может позволять пользователю выбирать, как и будут ли отображаться цвета фона и переднего плана, или используются ли цвета даже в определенных ситуациях, например, чтобы отличать ссылки от другого текста или выделять ссылку при выборе курсором или мышью.

Типичный исходный HTML-файл содержит текст и может включать или содержать адреса, идентифицирующие статические или динамические файлы и информацию, но исходные файлы обычно не ограничиваются текстом. Исходные файлы содержат маркеры заголовка, нижнего колонтитула, абзаца и раздела, изменения шрифта и цвета, которые могут отличать разделы, маркеры, указывающие текстовые строки, которые должны интерпретироваться как ссылки html (URL-адреса, которые определены как таковые), а также другие форматирование и инструкции. Эти и другие маркеры, которые включают в себя скрытые текстовые теги и текстовые маркеры запуска / остановки, сами по себе не отображаются, а вместо этого используются для переноса не отображаемой информации или в качестве спецификаций для отображения оставшегося текста в соответствии с предустановленными правилами и вариантами конфигурации в браузере и операционной системе.

Пользователи часто называют отображение определенной веб-страницы «переходом» на веб-страницу. На самом деле, «посещение» веб-страницы является неправильным. На самом деле этот процесс включает в себя отправку сообщения на удаленный сервер или пользовательскую станцию в сети, которая запрашивает передачу исходного кода html, хранящегося там. После получения исходный код обрабатывается браузером локально для получения данных, представляющих графическое отображение. Данные графического отображения сохраняются в буфере памяти в системном ОЗУ или в соответствующей карте драйвера дисплея, из которой определяются яркость, насыщенность и оттенок каждого пикселя на дисплее. После «перехода» на веб-страницу браузер может локально сохранить копию исходного кода, чтобы с помощью функции «Назад» перезагрузить страницу без необходимости ждать другого обмена сообщениями через Интернет.

Поисковые системы, работающие в настоящее время, не выполняют поиск веб-страниц по запросу. Вместо этого операторы поисковых систем используют различные средства для создания ограниченной базы данных, отражающей содержание ряда веб-страниц. Критерии поиска пользователей применяются к базе данных для определения адресов веб-страниц, которые соответствуют критериям поиска, по крайней мере, из подмножества всех существующих веб-страниц. Содержание веб-страницы может быть изменено. Поиск актуален до самого последнего времени, когда база данных поисковой системы была обновлена, чтобы отразить последнее содержание веб-страниц, подлежащих поиску.

Веб-страницы, которые должны быть отражены в базе данных, индексируются для создания записи терминов, которые появляются на каждой веб-странице. Поисковые системы различаются, но, как правило, база данных индекса отражает, по крайней мере, наличие отдельных слов, чтобы обеспечить возможность выбора по логическим комбинациям. По крайней мере, некоторые близкие отношения и / или наличие точных фраз можно сделать доступными для поиска. Индексирование может включать в себя выбор информации о полях, такой как даты пересмотра, страна домена и другие поля, которые в некоторых случаях генерируются автоматически, а в других требуется проверка человеком (например, для определения бизнес-категории).

Оператор поисковой системы может использовать различные методы для поиска или выбора адресов веб-страниц, которые будут загружены и проанализированы или проиндексированы при построении базы данных. Методы могут быть выбраны для расширения или ограничения количества веб-страниц, к которым будет обращаться поисковая система. В итоге, результаты поиска различаются среди разных поисковых систем.

Например, веб-сканер или аналогичная подпрограмма может попытаться загрузить и проанализировать страницы, соответствующие всем доменным именам верхнего уровня, которые, как обнаружено, зарегистрированы в службах имен общего домена или перечислены в службе каталогов [например, http: //www.fdomainJ .com]. Службы поисковой системы также могут ставить в очередь для индексации всех страниц, которые они специально запрашивают для индексирования (какой запрос может быть отправлен владельцем страницы или другим лицом).

При индексации начальной коллекции веб-страниц список можно расширить, анализируя полученные страницы на наличие гипертекстовых ссылок и URL-адресов, которые идентифицируют дополнительные страницы, а затем загружая и анализируя все страницы, которые связаны с начальными страницами таким образом. Этот процесс может быть продлен до бесконечности. Меньший набор страниц может быть получен только путем индексации страниц верхнего уровня или только ссылок на страницы верхнего уровня на определенное количество ссылок с первоначально целевой страницы.

Примерами поисковых систем являются Flotbot, AltaVista, Yahoo, NorthernLight, Excite и т. д.. Кроме того, существуют порталы поисковых систем, которые выполняют один и тот же пользовательский запрос через множество других поисковых систем. Поисковая система содержит процессор, который поддерживает веб-страницу, которую пользователь загружает, направляя свой браузер на URL поисковой системы (например, URL-адрес Excite — http://www.excite.com/). Полученная страница (а именно обработанная версия исходного HTML-кода, которая отображается) обычно включает в себя один или несколько блоков Common Gateway Interface (CGI) или аналогичные средства обработки формы, с помощью которых пользователь, желающий выполнить поиск, вводит одну или несколько буквенных строк. в качестве критерия поиска. Булевы комбинации из двух или более строк часто могут быть включены или будут подразумеваться, если не указано иное. Критерии обычно истолковываются, если указанные слова или фразы находятся в любом месте исходного кода html целевых страниц при последней индексации. Это включает в себя части, которые не отображаются (например, мета-теги и комментарии). Критерии могут указывать атрибуты, отличные от присутствия в любом месте определенной текстовой строки. Это может быть полезно, например, чтобы ограничить результаты поиска поиском файлов определенного типа (например, с URL-адресами, связанными с определенным типом расширения файла, чтобы найти определенный тип мультимедиа). Критерии также могут заключать в скобки файлы в выбранном окне даты.

Поисковая система сравнивает критерии с доступной информацией для веб-страниц и отправляет пользователю отчет, идентифицирующий веб-страницы, которые соответствуют критериям. Отчет пользователю передается в виде исходного кода html. Чтобы сгенерировать отчет, поисковая система находит URL-адреса для выбранных веб-страниц и вставляет список этих URL-адресов в форму оболочки (т. е. «Пустой» HTML-файл исходного кода). Форма оболочки имеет текст и форматирование для отображения заголовков, возможно, также рекламных баннеров и аналогичной информации. Созданный список URL-адресов вставляется в html-оболочку. Каждый URL-адрес помечен в источнике html как идентифицирующий ссылку html (href = [и т. д.]). Таким образом, когда список отображается браузером пользователей, пользователь может выбрать среди результатов и указать и щелкнуть или аналогичным образом выделить и вызвать ссылку html, относящуюся к странице, которая, по мнению поисковой системы, соответствует критериям пользователя. Затем он загружает исходный код html непосредственно с удаленной страницы, которая была выбрана, и браузер отображает текущее содержимое ссылочной веб-страницы в соответствии с исходным кодом html, найденным там в то время.

После запуска поиска и загрузки веб-страницы, на которую ссылается URL-адрес, упомянутый поисковой системой как отвечающий критериям поиска, нет ничего необычного в том, что пользователь может не найти загруженную веб-страницу, содержащую термины, используемые в качестве критериев поиска. Это происходит из-за того, что содержимое страницы было изменено, чтобы исключить поисковый термин между временем, когда оно было проиндексировано поисковой системой и загружено пользователем, запустившим поиск. По тем же причинам связанные страницы, о которых сообщает поисковая система, иногда больше не существуют.

Можно было бы использовать процесс поискового робота не только для поиска и индексации веб-страниц, но и для обновления уже проиндексированных страниц. Работа по индексированию веб-страниц постоянно растет, и работа по пересмотру уже выполненной работы по индексированию является гораздо более сложной задачей. Оператор поисковой системы должен принять некоторые решения о распределении доступных ресурсов памяти, вычислительной мощности и пропускной способности связи для поиска веб-страниц, индексирования и хранения полезной полной информации базы данных на страницах и обновления их базы данных, а также обрабатывать пользовательские поисковые запросы и отчеты.

Типичная поисковая система сообщает о поиске больше, чем URL проиндексированных страниц, которые соответствуют критериям выбора поисковика. Сами URL-адреса, отформатированные как гипертекстовые ссылки в отчете о поиске, иногда предоставляют информацию о том, соответствует ли поисковый запрос желаниям пользователя. Например, имя домена, связанное со страницей, может идентифицировать владельца, о котором известно, что оно имеет отношение к соответствующему бизнесу, или, наоборот, может показать, что результат поиска явно не имеет отношения к поиску. Поисковая система обычно также сохраняет и включает в отчет о поиске одну или две первые строки веб-страницы, на которую ссылаются, что часто включает в себя заголовок, который может быть полезен, чтобы быстро показать, интересует ли выбранная страница. В списке поиска также может отображаться дата последнего обновления веб-страницы или дата ее индексации.

Обычный показатель успеха при поиске подходящей страницы или веб-сайта за одну или несколько попыток на самом деле довольно низок. Уровень успеха варьируется в зависимости от предмета, но в типичном поиске критерии поиска пользователя могут оказаться чрезмерно широкими и могут выбирать столько страниц, что их невозможно просмотреть, или они могут быть настолько узкими, что исключается много желаемого контента, любой из которых может быть неудовлетворительным и, возможно, разочаровывающим опытом. Уравновешивание потребностей для включения соответствующих материалов и исключения не относящихся к делу материалов может привести к значительным затратам времени, большая часть которого эффективно теряется.

Было бы полезно, если бы представление результатов поиска могло быть дополнено, чтобы более эффективно помочь пользователю, выполняющему поиск, быстро и содержательно разделить соответствующие и несущественные результаты. Как бы то ни было, такая возможность будет полезна только в том случае, если она может быть реализована без необоснованного добавления времени обработки и требований к хранению к шагам, связанным с подготовкой информации базы данных для поиска и представлением результатов пользователю.

 

Сущность изобретения

Задача изобретения состоит в том, чтобы предоставить сокращенное представление файлов данных с возможностью поиска, в частности HTML-страниц данных Internet / Intranet / Extranet, которые представляют их текст и связанную графику в виде визуального снимка для дополнения таких представлений, как вводные текстовые отрывки и URL-адреса. Еще одной целью является сбор и обработка необходимой информации перед выполнением поиска и сохранение относительно небольшого графического файла вместе с базой данных поиска для представления каждого потенциального попадания. Соответствующий графический файл сообщается пользователю, когда поиск приводит к попаданию в файл, а именно путем вставки гиперссылки на сохраненный файл в отчете о поиске, отправляемом пользователю в качестве результатов поиска.

Другой целью изобретения является преодоление проблем, связанных с тем фактом, что различные пользовательские конфигурации приводят к различиям в способе отображения файлов, путем подготовки графического представления моментального снимка, как описано, в соответствии с набором параметров конфигурации по умолчанию. Такие параметры могут указывать тип и размеры шрифта, цвета, фоны, разрешение пикселей экрана и т.п.

Еще одной целью является создание и сохранение такого сокращенного визуального представления или shapshot как часть процесса создания одной или нескольких баз данных с использованием веб-сканера или процесса автоматического просмотра информации для поиска и загрузки или иного принятия и обработки html-страниц. Предпочтительно к ранее обработанным страницам снова обращаются, и база данных периодически обновляется. Необязательно, сокращенное представление снимка может предоставляться в сочетании с табличным списком связанной гипертекстовой ссылки или вместо него, а также, возможно, с вводной частью текста HTML-страниц. Гипертекстовая ссылка может быть связана с графическим моментальным снимком, так что пользователь (искатель) может указать и щелкнуть изображение, чтобы загрузить и просмотреть связанную веб-страницу.

Другая цель состоит в том, чтобы позволить такому представлению моментального снимка быть первоначально обработанным или перезагруженным, обработанным и обновленным время от времени или с частотой, которая отличается от той, при которой база данных веб-сканера обновляется относительно текстового содержимого веб-страниц.

Эти и другие цели выполняются усовершенствованным поисковым механизмом по изобретению для управления пользовательским поиском и выбором файлов данных, хранящихся в распределенных системах, связанных по сетевым адресам. В частности, поисковая система эффективна для улучшения поиска гипертекстовых веб-страниц в Интернете. Поисковая система имеет связанный веб-сканер, работающий для адресации и загрузки последовательных веб-страниц, а также для индексирования текстовых данных, связанных с последовательными веб-страницами. Таким образом, поисковая система получает информацию о параметрах, такую ​​как слова, встречающиеся в документах, близость слов и другую информацию, которая может использоваться для различения по меньшей мере групп веб-страниц друг от друга при проведении поиска. Обходчик хранит информацию о параметрах таким образом, что перекрестные ссылки на информацию о параметрах связаны с соответствующими веб-адресами или URL-адресами веб-страниц. Поисковая система принимает предоставленные пользователем критерии поиска и проводит поиск или информацию о параметрах, чтобы выбрать связанные адреса веб-страниц, которые удовлетворяют всем или частично критериям поиска. Результаты могут быть ранжированы, разделены на категории и обработаны аналогичным образом в соответствии с известной работой поисковой системы. Согласно аспекту изобретения, в сочетании с получением информации о параметрах, по меньшей мере, для поднабора веб-страниц, подлежащих поиску, сканер отображает изображение индексируемой веб-страницы и обрабатывает изображение, чтобы обеспечить уменьшенный размер файл графического изображения, соответствующий статическому визуальному представлению каждой из проиндексированных веб-страниц. Этот файл графического изображения предпочтительно хранится в формате сжатого графического файла, такого как GIF, JPG, или в аналогичном файле, адрес файла или URL которого хранится с перекрестными ссылками на критерии в базе данных, которая идентифицирует соответствующую веб-страницу. Когда поиск выполняется и приводит к попаданию на веб-страницу, его графический снимок связывается с результатами поиска, сообщаемыми пользователю.

В предпочтительном варианте осуществление принятия критериев поиска пользователя и представление отчетов о результатах обрабатываются посредством обмена HTML-страницами между поисковой системой и пользователем. Пользователь обращается к поисковой системе и предоставляет страницу формы, имеющую поля CGI или тому подобное, для приема текста и / или других вариантов выбора от пользователя. Поисковая система проводит поиск, который идентифицирует одно или несколько обращений, о которых сообщается пользователю путем отправки страницы результатов поиска html. Страница результатов поиска составляется поисковой системой как функция результатов поиска и может не содержать совпадений или количества совпадений. Каждое из совпадений идентифицируется в результатах поиска по графическому снимку и, предпочтительно, также по текстовой информации, которая отражает содержание попадания веб-страницы. Предпочтительно страница результатов поиска составлена ​​так, чтобы включать гипертекстовую ссылку на URL-адрес, где файл графического снимка был сохранен процессами веб-сканера / базы данных / поисковой системы, например IMG SRC = [путь \ имя файла] Команда вставлена ​​в исходный код HTML. В результате файл изображения загружается браузером пользователя при обработке страницы результатов поиска, что обычно происходит после завершения отображения текста.

В итоге, результаты поиска, отображаемые в браузере пользователя, включают ссылки на веб-страницы, которые были найдены в соответствии с критериями (хиты), а также снимок графического изображения того, как веб-страница отображалась при визуализации во время индексирования.

Изобретение применимо к широкому кругу поисковых систем. Например, в дополнение к использованию с веб-сканером и базой данных с индексированными текстовыми словами (или вместо автоматической индексации текста) изобретение применимо для создания и связывания репрезентативных графических моментальных снимков с веб-сайтами, которые находятся в каталоге, проверенном человеком, таком как Yahoo причем субъективные характеристики данных (текстовая форма которых иногда называется «дескрипторами») хранятся в базе данных для сравнения с пользовательскими критериями при поиске совпадений. В такой ситуации такие характеристики, как произвольная классификация предприятий или художественных произведений, могут классифицировать веб-страницы для выбора способом, аналогичным используемым аспектам текстовых строк, таким как наличие выбранных строк, ассоциации слов, близость и тому подобное. Изобретение также применимо к автоматизированным процессам категоризации, таким как используемый Northern Light.

Согласно аспекту изобретения созданный файл графического изображения не обязательно идентичен внешнему виду страницы, когда пользователь в конечном итоге загружается после поиска. В дополнение к тому факту, что веб-страница могла измениться с момента ее визуализации в графический файл, визуализация выполняется в соответствии с заранее определенной конфигурацией отображения искателя при визуализации. Тем не менее, графика является полезным и очень быстрым средством для пользователя, чтобы просмотреть результаты поиска и сразу определить, стоит ли по крайней мере некоторые из хитов подвергаться дальнейшему исследованию.

Краткое описание рисунков

На чертежах показаны некоторые неограничивающие примеры, иллюстрирующие варианты осуществления изобретения, которые в настоящее время являются предпочтительными. Одинаковые номера ссылок используются на всех чертежах для идентификации соответствующих элементов на соответствующих фигурах.

На изображении 1 показана блок-схема, иллюстрирующая первый вариант осуществления изобретения.

Рисунок 1 - Блок-схема, иллюстрирующая первый вариант осуществления изобретения
Рисунок 1 — Блок-схема, иллюстрирующая первый вариант осуществления изобретения

На изображении 2 — блок-схема, иллюстрирующая элементы, связанные со сбором, обработкой и организацией базы данных информации согласно изобретению, которая будет использоваться для проведения поиска.

Рисунок 2 - Блок-схема, иллюстрирующая элементы, связанные со сбором, обработкой и организацией базы данных информации согласно изобретению, которая будет использоваться для проведения поиска.
Рисунок 2 — Блок-схема, иллюстрирующая элементы, связанные со сбором, обработкой и организацией базы данных информации согласно изобретению, которая будет использоваться для проведения поиска.

На изображении 3 — блок-схема, иллюстрирующая работу изобретения в связи с выполнением и сообщением результатов поиска.

Рисунок 3 - Блок-схема, иллюстрирующая работу изобретения в связи с выполнением и сообщением результатов поиска.
Рисунок 3 — Блок-схема, иллюстрирующая работу изобретения в связи с выполнением и сообщением результатов поиска.

Подробное описание предпочтительных вариантов осуществления

Согласно изобретению, как в целом показано на рисунках 1, 2, 3, представление результатов поиска с помощью поисковой машины (20) улучшается и облегчается за счет того, что каждый поисковик или пользователь (30) предлагает визуальное представление (35) веб-страниц, которые, как было обнаружено, удовлетворяют критериям поиска пользователя, представленным поисковой машине. Изобретение особенно применимо к поисковой системе Интернет, но также может применяться к другим сетям (50), где доступна поисковая система 20 для управления поиском пользователей и выбором веб-страниц или аналогичных файлов, хранящихся в распределенных системах (52), соединенных с сетью. Веб-страницы, которые могут рассматриваться как файлы данных, находятся по адресам, на которые поисковая система может ссылаться для загрузки файлов данных, например, будучи доступными с помощью URL-адресации страниц в качестве языка разметки гипертекста (html), протокола передачи файлов ( ftp), telnet или другие подобные типы файлов. Файлы данных могут иметь встроенные ссылки на другой файл данных или на графические или другие мультимедийные файлы. Поисковая машина (20) по изобретению принимает запросы пользователей, которые характеризуют интересующие файлы, осуществляет поиск файлов и сообщает каждому такому пользователю результаты поиска, включая сетевые адреса файлов, которые, по меньшей мере, частично соответствуют запросу, позволяя пользователю ссылаться непосредственно на файлы, а также снимок того, как файл будет выглядеть в соответствии с последним рендерингом, выполненным сканером поисковой системы.

Изобретение описывается в этом раскрытии с основной ссылкой на предпочтительное приложение к поисковой системе, связанной с Интернетом, в которой искомые файлы данных представляют собой HTML-страницы в Интернете или всемирной сети (50). Поскольку такие файлы доступны для загрузки и просмотра другими пользователями, через браузеры и поисковые системы они обычно содержат текст на языке гипертекстовой разметки (html), комментарии или теги, команды форматирования и ссылки на другие файлы. Данные могут содержать текст, мультимедиа, сценарии, программы и т. д. И могут быть адресуемыми по тому же сетевому адресу или другому адресу. Файлы могут содержать информацию, которая не отображается при рендеринге файла, но тем не менее может использоваться для категоризации содержимого файлов.

В предпочтительном примере базовые файлы (например, веб-страницы), а также другие файлы и системы, к которым они относятся, могут быть адресованы с использованием стандартных адресов унифицированного указателя ресурса (URL), содержащих доменное имя высокого, среднего и низкого уровня. Это разрешается сервером доменных имен в числовой адрес протокола управления передачей / интернет-протокола (TCP / IP), по которому пакеты данных направляются из одной компьютерной системы в Интернете в другую. В этом случае такие пакеты, которые передаются в систему (52), содержащую веб-страницу, подлежат передаче запроса поиска на адресную веб-страницу (см. рисунок 1). Эта система (52) отвечает передачей адресованного содержимого. Пакеты собираются или принимаются принимающей системой. Браузер или аналогичный процесс принимающей системы обрабатывает данные, обычно, но не обязательно для визуального отображения на локальном мониторе.

Хотя это описано в отношении поиска в браузере в Интернете, изобретение также применимо к другим средам, таким как поиск в интрасети компании или другой группе доступных хранилищ данных, которые имеют визуальный аспект. Изобретение также применимо к платформам и пользовательским интерфейсам, отличным от ПК и браузеров, таким как различные процессы Unix, которые выполняются на ПК или мэйнфреймах и т. д..

Кроме того, изобретение применимо к различным архитектурам беспроводной связи. Эти среды и платформы не ограничиваются потребительским и бизнес-использованием, а также имеют применение в технических, военных и других ситуациях.

Блок-схема, показывающая улучшенный механизм (20) поиска в Интернете в соответствии с изобретением, для управления веб-страницами поиска и выбора пользователя, хранящимися в распределенных системах (52), подключенных по сетевым адресам к Интернету (50) или тому подобное, в целом показана на рисунке 1. Рисунок 2 иллюстрирует последовательность этапов способа и / или запрограммированных операций системы для создания и добавления или обновления базы данных (62) доступной для поиска информации. Рисунок 3 иллюстрирует способ и устройство для проведения поиска путем принятия пользовательских запросов (54), проведения поиска в базе данных (62) и представления результатов поиска в форме составленного поискового отчета (80), содержащего визуальные представления или снимки (35), которые изображают представление того, как выбранные страницы будут появляться в соответствии с конфигурацией дисплея по умолчанию во время обращения к сканеру (60).

Следует понимать, что изобретение обсуждается в связи с процессами, организованными в функциональных блоках на чертежах. Эта иллюстрация полезна для иллюстрации входных и выходных источников и назначений, предпринятых рабочих шагов, различных хранилищ памяти и типов данных, а также других аспектов. Однако иллюстрация не предназначена для исключения компоновок, например, в которых отдельно проиллюстрированные блоки представляют собой последовательные операции одного и того же элемента обработки или в которых проиллюстрированные функции или объем памяти распределены по отдельным блокам, особенно отдельным процессорам, подключенным к общей сети. Отдельно проиллюстрированные или обычно проиллюстрированные элементы могут быть объединены или разделены так, как это удобно, без отступления от изобретения и выполнения тех же функций.

Поисковая машина (20) в варианте осуществления, показанном на рисунке 1 имеет связанный веб-сканер (60), предназначенный для адресации и загрузки последовательных веб-страниц с удаленных серверов (52) в сети (50), а также для индексирования или иного приема или генерации дескрипторов, которые характеризуют текстовые данные, связанные с последовательными загружаемыми веб-страницами. Таким образом, сканер (60) формирует информацию о параметрах на последовательных веб-страницах, которая может отличать, по меньшей мере, группы веб-страниц друг от друга, и иногда может использоваться выборочно для идентификации одной веб-страницы, при условии, что некоторый закодированный аспект этой страницы является уникальным среди загруженных и обработанных страниц. Сканер (60) хранит информацию о параметрах и связанные адреса веб-страниц в качестве базы данных (62) на носителе (64) данных, который доступен для процессора (78) поиска, который принимает критерии (54) пользователя, подготавливает и отправляет отчеты (80) о поиске пользователю (30), отправляющему запрос. Портал или процессор (78) поисковой системы реагирует на представленные пользователем критерии поиска путем поиска информации о параметрах в базе данных (62) и сообщая пользователю (30) по меньшей мере связанные адреса файлов данных, которые удовлетворяли критериям поиска при индексации. В частности, поисковый портал / процессор (78) сообщает об URL-адресах (82) веб-страниц, соответствующих критериям пользователя.

Веб-страницы обычно поддерживаются на веб-серверах 52 (рисунок 1), которые «удалены» от запрашивающего пользователя 30 и от поисковой машины 78, но на самом деле могут находиться в любом месте, адресуемом в конкретной сети, в том числе и по собственной системе пользователя. Веб-серверы 52 известным способом хранят текстовые и графические данные или адреса графических данных, найденных в других местах. Эта информация предоставляется по запросу, а в случае Интернета и других сетей типа протокола TCP / IP любой пользователь, запрашивающий веб-страницу, передается в виде пакета, направляя запрос на веб-сервер, идентифицирующий адрес TCP / IP веб-сервер 52, адрес отправителя или личность и адрес желаемой страницы. Обычно это включает адресацию с использованием URL-адресов, которые определяют желаемый тип связи, например, передачу html-страницы (по сравнению со связанным графическим файлом или мультимедийным файлом, или, возможно, интерфейс другого типа, такой как ftp или telnet), и адрес, который представляет имя домена и путь к подкаталогу, ведущий к фактическому HTML-файлу или другому файлу.

Такой же вид URL-адресации используется внутри html-страниц для адресации изображений и других файлов, которые могут находиться на одном и том же веб-сервере или в другом месте всемирной сети, а именно путем предоставления гиперссылки с указанием сетевого адреса текста или другого содержимого, в отличие от содержания самого контента. Такие гиперссылки могут также вызываться для перемещения в данном файле, например, из одного подзаголовка в другой. Гиперссылки заключаются в автоматически распознаваемые коды (например, «href =» или «img src =»), которые появляются в исходном коде вместе с различными тегами start и stop, которые задают форматирование текста, цвета и другие аспекты страницы, как это должен отображаться, например, с помощью браузера. В браузере, таком как MS Internet Explorer, источник отображаемой страницы можно отобразить, выбрав «Вид» и «Источник» на панели инструментов.

Согласно изобретению сканер 60 собирает данные веб-страницы, как правило, показан на рисунке 2. Гусеничный механизм 60 может работать предварительно, но предпочтительно работает непрерывно во время работы других компонентов для сбора дополнительных данных и / или для обновления уже собранных данных. Гусеничный механизм 60 имеет один или несколько процессов 66 извлечения, несколько из которых показаны на рисунке 1 и идентифицированы как процессы агента A (выборки). Сканер 60 посредством своих процессов 66 извлечения определяет загружаемые веб-страницы и пытается загрузить их. Например, сканер 60 может тестировать адреса TCP / IP (известные как сканирование) или пытаться загрузить страницы с определенных адресов доменных имен, где могут быть запущены и работающие серверы, полученные, например, с сервера доменных имен (не показан). Текстовая часть любых данных, полученных процессами 66 выборки с определенного URL-адреса, анализируется или разделяется на отдельные термины и утверждения. Эти термины и заявления сравниваются с заранее определенными зарезервированными терминами и форматами, которые представляют URL-адреса, адреса файлов и тому подобное. Когда сравнение показывает, что гиперссылка на другой файл или веб-сервер была найдена (или что данная строка так похожа на гиперссылку, что ее следует интерпретировать как таковую), найденный адрес добавляется в список адресов и делается попытка со временем, чтобы загрузить файл по этому адресу, тем самым увеличивая поле файлов, с которыми были проведены консультации.

Основная функция процессов 66 извлечения агента состоит в том, чтобы получать файлы, доступные с удаленных веб-серверов 52, и записывать адреса файлов (URL-адреса для Интернета), которые при вызове будут адресовать и загружать файл. В результате задержек связи предпочтительно использовать множество одновременно активных запросов файлов, чтобы один файл мог быть обработан в ожидании получения другого. Этот аспект представлен на чертеже множеством процессов 66 агента А, которые получают извлеченные файлы и сохраняют, по меньшей мере, часть извлеченных файлов в буферной памяти или очереди 92. В связи с веб-страницами html данные включают в себя исходный код html, адресные файлы, содержащие изображения, аудио или другие носители, которые хранятся в буфере 92 вместе с адресами, с которых они были получены.

Собранная информация из загруженных файлов, в частности текстовых файлов, обрабатывается в соответствии с общепринятым способом 68 обработки текста или классификации по категориям для создания индекса текста или дескриптора в базе данных 62, как показано. База данных 62 содержит индекс, разработанный на основе автоматического анализа (обычно «индексация») или анализа (категоризации) текста и других данных человеком, проиндексированных по URL-адресам страниц, с которых они были получены. Поскольку автоматические или сгенерированные человеком дескрипторы и адреса описаны здесь как «текстовый» индекс, следует понимать, что индекс может представлять любые атрибуты содержимого соответствующих веб-сайтов, не ограничиваясь словами в отображаемом тексте. Например, термины в скрытых метатегах, комментарии в исходном коде, строки, найденные в адресах и т.п., также являются потенциальными точками данных, которые могут быть собраны. Любая произвольная характеристика, которая может быть автоматически назначена или назначена рецензентом-человеком, может считаться индексированной точкой. Например, индекс может содержать информацию о типе ссылок, найденных в источнике, дате последнего обновления, стране происхождения или языке, является ли сайт академическим или коммерческим, запись для оценки контента как взрослого или «общее признание» для определения интересов защиты детей и т. д..

Согласно аспекту изобретения сканер 60, который может принимать веб-страницы и извлекать из них информацию о параметрах, генерирует файл 72 данных графического изображения, соответствующих внешнему виду каждой из веб-страниц, который сохраняется, предпочтительно в качестве файла 75 данных уменьшенного размера и сжатого изображения в сочетании с данными базы данных, относящимися к странице. Когда результаты поиска сообщаются пользователю (рисунок 3), поисковая система сообщает о связанных URL-адресах 82 веб-страниц, которые соответствовали критериям поиска обычным способом, предпочтительно вставляя гипертекстовую ссылку на каждую идентифицированную страницу в сообщаемую html-страницу. Пользователю, при необходимости, краткое описание или выдержку, а также вставляет на страницу отчета файл снимка графического изображения, вставляя в источник страницы отчета ссылку на сохраненный сжатый файл графического изображения 75. Браузер пользователя отображает результаты поиска в обычной форме, а именно, показывая выбираемую гиперссылку на адреса и, возможно, описание или выдержку, и отображает моментальный снимок того, как идентифицированная страница может появиться, если или когда она загружается браузером пользователя, если пользователь указывает и нажимает на ссылку, чтобы вызвать URL страницы попадания.

Поисковый портал 78, который выполняет поиск по ссылке на базу данных 62 на носителе 64 данных, сообщает о поиске путем составления веб-страницы, содержащей результаты поиска, сборки отчета о поиске с использованием языка разметки гипертекста. Отчет о поиске содержит заголовки и информацию, идентифицирующую портал, и, возможно, содержит рекламу. В отчете о поиске также перечислены результаты поиска. Более конкретно, поисковая система вставляет (в форме списка или таблицы) текстовую строку, показывающую URL-адрес каждого обращения к веб-странице (т. е. страницы, найденные в соответствии с критериями пользователя), вместе с гипертекстовой связью с этим URL (например, «Href =»), в результате чего в браузере пользователя отображается ссылка, которая может быть вызвана (указана и нажата) для загрузки страницы по указанному адресу. Такой отчет является общепринятым в отчете по поиску источников HTML. Обычно оно также имеет описание или выдержку и может быть организовано в виде пирамиды или иерархии категорий. В соответствии с вышеизложенным аспектом изобретения поисковая машина также вставляет URL-адрес графического файла, который был обработан дополнительным процессом, идентифицированным на рисунке 2 в качестве «веб-агента B» 95, чтобы содержать уменьшенный снимок / сжатый рисунок 35, представляющий попадание на страницу.

Ссылка на сжатый визуализированный графический файл может быть сделана, например, с помощью команды IMG SRC = <domain> / <pathxfilename> в источнике html. Графическое изображение может быть связано с гипертекстовой ссылкой на URL страницы попадания, а также с помощью команды HREF = <URL страницы совпадения>, как упомянуто выше. В результате браузер пользователя при отображении результатов поиска также отображает графическое изображение моментального снимка, как показано на рисунке 3.

Изобретение имеет три основных компонента, показанных в целом на рисунке 1. Как показано на рисунке 2, они включают процессы искателя, которые извлекают файлы из веб-страниц во вселенной веб-страниц, подлежащих поиску, и процессы, которые индексируют или каталогизируют страницы и отображают извлеченные файлы в файлы графических изображений. Процессы на рисунке 2 обычно можно рассматривать как процессы, которые получают необработанные данные и обрабатывают их для предоставления базы данных с возможностью поиска и информации, которая может быть включена в отчеты о поиске, когда веб-страница становится хитом. Предпочтительно в соответствии с изобретением процессы 66 сканирования, которые связаны с сбором файлов необработанных данных, которые испытывают задержки связи, отделены от процессов 68, 95, которые обрабатывают необработанные данные в форму, пригодную для хранения в базе данных 62 при подготовке к поиск. Рисунок 3 иллюстрирует процессы 78, которые взаимодействуют с пользователем, который ищет в сети 50, включая представление пользователю информации о посещении веб-страницы в виде HTML для отображения в браузере.

Ссылаясь на рисунок 2, поисковый механизм включает в себя или связан с веб-сканером 60, который является механизмом, который выполняет адресацию, загрузку и анализ веб-страницы и хранит репрезентативные данные в устройстве хранения 64, содержащем базу данных 62. Сохраненные репрезентативные данные характеризуют сеть страниц, которые загружает сканер и которые анализируются на содержание с помощью процесса 68. Из основных действий, которые должны быть выполнены поисковой системой (т. е. сканером и поисковым процессором), подготовка базы данных 62 позволяет проводить поиск больше. быстро со ссылкой на обработанную информацию базы данных, полученную из поля возможных выбранных файлов, что было бы возможно, если бы поисковая система попыталась загрузить и проанализировать всю совокупность файлов после того, как пользователь отправил запрос 54 (рисунок 3), а именно пока пользователь ждал результатов поиска.

Процесс подготовки базы данных 62 включает в себя определение URL-адресов (или, возможно, адресов TCP / IP или других строк адресации) для файлов, подлежащих поиску, и затем загрузку и анализ файлов, чтобы отметить возникновение и сопоставление текстовых строк. В качестве альтернативы или в дополнение файлы классифицируются для других аспектов, например, путем анализа человеком и присвоения произвольных категорий дескрипторов, которые имеют тенденцию различать файлы по их содержанию, владельцу или типу и т. д.. Файлы или веб-страницы состоят в основном из символов ASCII, хранящихся в текстовом файле, который известен или идентифицирован как язык разметки гипертекста, часто имеющий расширение «htm» или «html» в имени файла). В результате в символьных строках ASCII на веб-странице выполняется поиск комбинаций символов, соответствующих определенному кодовому имени и правилам символов, посредством чего они могут интерпретироваться как команды или ссылки или другие конкретные формы информации в формате html.

HTML — это форма стандартизированного языка разметки, в которой различные теги связаны со строками символов ASCII. Многие строки символов и теги, используемые на html-страницах, касаются внешнего вида связанного текста и визуальных аспектов, которые должны отображаться одновременно с текстом. Такие команды могут указывать заголовок, фоновый рисунок, цвет или полное изображение, устанавливать или сбрасывать тип шрифта, размер шрифта, заглавные буквы или цвет, изменять выравнивание, центрирование и поля, указывать строки, таблицу или кадры, вызывать вставку Графических рисунков в любом из нескольких форматов, которые могут быть статическими или анимированными, и, как правило, в целом изменяют внешний вид страницы и текст на странице. Строки также могут обращаться к дополнительным файлам.

Кодирование представления вхождения и сопоставления текстовых строк обычно называется индексированием и приводит к созданию базы данных с информацией, в которой каждая текстовая строка, найденная во время анализа всех найденных файлов или страниц, ссылается на URL-адрес, где файлы или страницы могут быть найдены. Согласно настоящему изобретению такое индексирование может быть истолковано как включающее в себя другие способы категоризации файлов данных таким образом, который позволяет проводить различия, которые полезны для поиска, включая категоризацию рецензента человеком и дискриминацию по нетекстовым факторам, таким как дата пересмотра, страна происхождения или тому подобное.

База данных 62 генерируется путем подготовки или получения набора характеризующих параметров, относящихся к извлеченным файлам или их адресам, содержимому или тому подобному. База данных 62 содержит перекрестную ссылку между критериями и идентификатором (обычно URL-адресом) файла, который соответствует критериям. Предполагая, что критерии касаются объединения терминов (например, «быстрая коричневая лиса»), все URL-адреса файлов, которые содержат эту строку, доступны путем поиска строки. Аналогичным образом доступны URL-адреса всех файлов, содержащих термины компонента («быстрый», «коричневый» или «лиса»), и эти термины или фразы можно комбинировать с другими терминами или произвольными категориями для поиска страницы (например, Быстрый Браун Фокс Магазин бытовой техники). Особенности индексации и / или категоризации могут быть объективными или произвольными и полностью или частично основываться на результатах анализа человеком или автоматизированными средствами и могут касаться любого аспекта, который имеет тенденцию быть уникальным для отдельных файлов или общим для только подмножеств файлов.

Автоматическая индексация и аналогичные системы характеризации могут показаться объективными, но результаты частично определяются использованием, выбранным автором контента, что в некоторой степени произвольно. Рецензирование человеком может быть потенциально произвольным выбором со стороны рецензента. База данных поиска, как описано здесь, включает в себя любую коллекцию информации, подготовленную таким образом, который позволяет сравнивать критерии поиска с сохраненными критериями, чтобы отличать файлы друг от друга. Критерии поиска включают в себя комбинации категоризаций и / или текстовых строк и других факторов, выбранных пользователем в целях нацеливания на файлы или страницы, которые имеют желаемую тему или включают ссылку на конкретную информацию. В то же время каждый критерий не применим к каждой просмотренной странице, и в результате можно собирать файлы, которые соответствуют критериям пользователя, и удалять файлы, которые не соответствуют критериям и, таким образом, не имеют отношения к конкретному поиску.

Обращаясь снова к рисунку 2, совокупность файлов и страниц может содержать, например, все страницы высокого уровня зарегистрированных доменных имен в Интернете, а также ряд дополнительных страниц более низкого уровня. Страницы более низкого уровня могут включать в себя все страницы, с которыми страницы высокого уровня связаны гиперссылками в содержимом страниц высокого уровня и / или часто встречающимися именами подстраниц, такими как «index» и «home». Различные такие процессы обычно практикуются с использованием так называемых веб-сканеров, которые работают постоянно, часто в часы с небольшим трафиком, для поиска, загрузки и анализа (индексации) очень большого множества веб-страниц.

Традиционные веб-сканеры подготавливают базу данных, которая записывает и может использоваться поисковиками для выбора (или отмены выбора) веб-страниц, главным образом на текстовых строках и логических комбинациях текстовых строк, найденных в содержимом веб-страниц и проиндексированных в базе данных поисковой системы. База данных поискового робота / веб-поискового механизма также может быть настроена на запись и разрешение поисковикам выбирать и отменять выбор типа носителя, связанного со страницей, в окне дат, языка веб-сайта или страницы, местоположения зарегистрированного домена, глубины конкретной веб-страницы в структуре каталогов целевого сайта и другие аспекты.

Хотя возможно и полезно кодировать и выбирать веб-страницы на основе атрибутов, которые определяются по буквенным строкам, найденным в их тексте, или, возможно, в деталях их URL-адреса, для автоматического веб-сканера и связанного процессора не всегда возможно кодировать большую часть внешнего вида веб-страницы. В случае, если веб-страница содержит ссылку на файл графического изображения, например, URL-адрес файла графического изображения, включая его имя, будет найден на этой веб-странице, но графическое изображение может иметь любое содержимое и может или не может соответствовать имени файла. Поэтому известные поисковые системы не могут различать веб-сайты в силу большинства атрибутов, которые влияют на внешний вид содержимого сайта при его отображении в браузере и т.п. Однако пользователи могут легко различать веб-сайты, особенно некоторые формы веб-сайтов, только по внешнему виду.

Конфигурация системы пользователя также влияет на внешний вид содержимого веб-сайта при его отображении. На уровне браузера пользователь может выбрать отображение шрифтов определенных типов, а также указать размеры шрифтов. Эти варианты конфигурации влияют на внешний вид извлеченной страницы, даже если на странице определены определенные шрифты, доступные для браузера. Браузер также может разрешать пользователю выбирать, использовать ли цвета фона найденных сайтов и другие функции, влияющие на отображение. На уровне операционной системы пользователь может выбрать различные параметры отображения, такие как количество пикселей и используемое разрешение цвета. Эти аспекты также влияют на отображение. В результате такого выбора пользователя извлеченные веб-страницы по-разному отображаются на разных пользовательских экранах при извлечении. По большей части различия из-за таких вариантов конфигурации не оказывают серьезного влияния на внешний вид веб-сайта, но они приводят к тому, что идентично закодированная страница отображается по-разному в системах с различной конфигурацией и / или браузерах.

 

Этапы поиска / сообщения браузера, как правило, показанные на рисунке 3, включают в себя принятие критериев поиска 54 от пользователя 30, например, с использованием метода сценария CGI, в котором пользователь вводит выборки, включающие текстовые строки, буквенные строки множественных терминов, дополнительные кодированные аспекты, такие как типы мультимедиа, окна или ограничения даты, страны происхождения и т. д.. Пользователь также может выбрать логические отношения (И, ИЛИ, НЕ, XOR). Поисковый портал может потребовать команды или разрешить выбор, используя шаги «укажи и щелкни». Поисковая система сравнивает критерии поиска с заранее подготовленной базой данных, собранных на веб-страницах, которые она загрузила и проанализировала из поля. Результаты сообщаются пользователю путем подготовки и форматирования HTML-страницы отчетности источника, на которую вводятся гиперссылки с таким именем и указываются адреса файлов, которые были найдены в соответствии с критериями. Часто в отчет включается другая информация, такая как дата последнего обновления страницы до ее индексации, а также несколько строк вводного текста со страницы, которые дают подсказку, чтобы помочь пользователю определить, не загружая страницу, вероятность того, что страница вероятна иметь отношение к поиску. Если пользователь находит ссылку, которая представляется уместной, он выбирает и включает гиперссылку. Это заставляет браузер загружать источник html, найденный по URL-адресу, указанному в отчете о поиске, а также по всем ссылочным файлам и ссылкам в нем. Тем не менее, страница может измениться с момента завершения индексации и может иметь совершенно другое содержимое, чем при индексировании. Страница может больше не существовать. В этих случаях поиск завершается неудачей, за исключением того, что он сообщает пользователю, что на странице ранее находилась информация, которая могла представлять интерес.

Преднамеренное, а также непреднамеренное «повреждение поисковой системы» иногда происходит. Это может иметь решающее значение для маркетинга или других целей, чтобы веб-сайт находился в поисковых запросах пользователей в поисковых системах, и он может быть выгодным или иным образом выгодным для оператора веб-сайта, если его / ее сайт занимает высокое место в результатах поиска для конкретного термина. Таким образом, большое количество операторов веб-сайтов имеют способы искажать содержание своих страниц. Ключевые слова, предназначенные для выбора страницы и высокой оценки в определенных категориях, могут быть включены и могут отображаться или не отображаться. Вводящий в заблуждение текст можно поместить мелким шрифтом внизу страницы, а вводящий в заблуждение текст можно скрыть, сделав его таким же цветом, что и фон, на котором он появляется. Текст также может быть помещен в «ALT» описания изображений и графики, что индексируется сканером, но не просматривается пользователем. Определенный термин может быть включен один или много раз для улучшения ранжирования с помощью одного из вышеупомянутых методов или путем перегрузки ключевых слов в тегах «META», включенных в веб-страницы и не отображаемых визуально. Другой метод заключается в том, чтобы временно опубликовать страницу для индексирования в текстовом виде сканером / поисковой системой, а затем заменить ее содержимое после того, как она была проиндексирована, или аналогичным образом мета-обновить веб-страницу, чтобы перенаправить пользователя на другой адрес страницы. Согласно аспекту настоящего изобретения пользователь может визуально различать страницы, имеющие нежелательный контент, и не тратить на них время. Повреждение поисковой системы с использованием вышеупомянутых методов для предоставления вводящего в заблуждение текста предотвращается благодаря визуальной природе настоящего изобретения.

В соответствии с аспектом изобретения, система, которая индексирует или классифицирует информацию на веб-страницах для поиска, улучшается за счет кодирования и предоставления в отчете 80 поиска стандартизированного графического представления 35 внешнего вида и визуализации каждой страницы в то время, когда страница проиндексирована. Графическое представление 35 предпочтительно имеет форму сжатого изображения страницы, описанного здесь как снимок, сохраненного в стандартном графическом формате сжатого файла в месте, доступном для процесса 78 портала поиска. Снимок получается, когда страница первоначально загружается сканером 60 для индексации (рисунок 2). Снимок отображается, преобразуется в сжатый формат и сохраняется. Когда тематическая страница выбрана в поиске (рисунок 3), пользователю передаются отдельные моментальные снимки, которые были сохранены локально в процессоре 78 портала поиска, в связи с базой данных индекса / категоризации. Таким образом, снимки 35 страницы совпадений (которые могут быть одним из нескольких обращений, о которых сообщается пользователю 30) показываются при предоставлении отчета о поиске.

Снимки 35 могут содержаться в отформатированных файлах изображений (например, GIF, JPG и т. д.). Файлы изображений моментальных снимков или URL-адреса, указывающие на файлы изображений, предпочтительно хранятся в базе данных 62, которая также содержит URL-адреса проиндексированных страниц. При составлении отчетов о результатах поиска поисковая машина 78 вставляет ссылку 82, направленную на файл 35 снимка с изображением, на страницу 80 результатов поиска html. Результаты поиска отображаются в браузере 84 пользователей как ссылка на выбранные страницы со связанным снимком страницы. при индексации, как показано на рисунке 3.

Эти операции налагают проблемы, которые решаются в соответствии с изобретением. Одна проблема с получением снимков связана с очень большим количеством сайтов, которые должны быть физически отображены, а именно каждый сайт, который проиндексирован и доступен во вселенной сайтов, подлежащих поиску. Содержимое веб-сайта, включая любые файлы изображений, на которые имеются ссылки, должно быть загружено процессом (ами) сканирования агента A 66 и обработано процессом (ами) агента B воспроизведения на приемлемых скоростях, и предпочтительно также уменьшено для получения файлов 35 изображения разумного размера. Файлы изображений должны быть доступным образом сохранены и загружены из поисковой машины 78 в поисковик (в частности, в браузер 84 пользователя) также на приемлемых скоростях. Изобретение применяет конкретные технологии для решения этих и других проблем.

Каждый из основных порталов поисковых систем обычно имеет собственный «робот» или автоматизированный процесс, который сканирует сеть, как описано выше. На каждом поисковом портале или системе робот или сканер, который принимает или находит URL-адреса веб-сайтов, получает доступ к веб-сайтам по TCP / IP-адресации и загружает их исходный код. Робот-обходчик автоматически анализирует текст веб-сайта, а именно разделяет найденные в исходном коде строки на блоки, разделенные такими разделителями, как пробелы или знаки пунктуации. Строки и последовательность строк сравниваются с сохраненными параметрами, в результате чего определенные строки интерпретируются как ссылки или команды форматирования, что отмечается соответствующим образом. Наличие и близость этих строк и строк бесплатного контента, которые должны отображаться в виде текста на веб-странице при отображении в браузере, все отмечаются и хранятся в базе данных, где эта информация перекрестно ссылается на URL-адрес веб-сайта из какой страницы была загружена.

При использовании обычной процедуры сканирования и индексации, как обсуждалось, текст веб-сайта можно анализировать и индексировать с чрезвычайно высокой скоростью, поскольку страница обрабатывается только как последовательность текстовых строк. Не требуется времени на обработку для загрузки и обработки или иной обработки любой встроенной или ссылочной графики, мультимедиа, сценариев, Java или анимации. Такие файлы не полезны для традиционной индексации и поэтому не запрашиваются. HTML-теги, которые могут использоваться для поиска и загрузки файлов для нетекстового содержимого, могут анализироваться текстовым способом, но связанные с ними файлы данных никогда не запрашиваются и не извлекаются традиционными сканерами текста, используемыми основными поисковыми системами. Помимо избежания накладных расходов, программа-обходчик не тратит время на передачу данных, которая может потребоваться для запроса и получения пакетов, содержащих графические или другие мультимедийные файлы. Загрузка сканера сведена к минимуму, поскольку загружаемая и обрабатываемая часть веб-сайта, а именно текстовая часть, представляет собой небольшой «вес» в требованиях к пропускной способности связи, времени обработки и т. д.. Для большинства веб-страниц нет необходимости загружать и обрабатывать большие графические и мультимедийные файлы простая индексация текста в традиционном смысле обычными сканерами является очень эффективной, простой и быстрой.

Хотя простая индексация текста является быстрой и простой, полная противоположность имеет место для полной графической визуализации веб-страницы. Прежде чем завершить отображение веб-страницы, браузеру необходимо подождать, чтобы загрузить все необходимые файлы. Браузер должен дождаться получения всех необходимых файлов перед полной визуализацией дисплея. Кроме того, любой сценарий или другой динамический контент обычно ожидает получения всего файла до начала обработки. Кроме того, изображение, графика и мультимедийные файлы требуют большого объема данных и, следовательно, требуют значительно большего времени передачи по сравнению с текстом.

Веб-страница будет содержать один текстовый файл, но, в отличие от этого, может содержать десятки графических и мультимедийных файлов. Традиционное сканирование текста основными поисковыми системами требует передачи и анализа только одного текстового файла. В отличие от этого, полная графическая визуализация, используемая в настоящем изобретении, требует, чтобы каждый картиночный, графический и мультимедийный файл передавался и впоследствии отображался в полном визуальном изображении веб-страницы.

В обычной установке веб-сканера десятки роботов могут одновременно работать на одном и том же процессоре, причем все они выполняют свои индивидуальные задачи без учета других присутствующих роботов. Использование большого количества роботов на одном и том же процессоре компьютера облегчает обычную индексацию текста. Кроме того, обычный сканер занимается только обработкой текстовых данных. Процессы сканера не должны включать в себя много шагов, требуемых от браузера для обработки графического содержимого. В частности, традиционные процессы сканера не включают в себя генерацию и представление визуального дисплея, что потребует дополнительной сетевой связи (для получения графики и т. д.), времени и вычислительной мощности и потребует использования системных ресурсов, таких как сам визуальный дисплей (например, монитор).

Часть текстовых данных веб-страницы обычно имеет длину от пяти до десяти килобайт и принимается менее чем за секунду при обычном сетевом соединении. Текстовый файл обычно является первым файлом, отправленным с исходного веб-сервера. Файлы изображений и сценарий или другой код, если требуется, следуйте впоследствии. Роботизированные процессы запроса текстового файла, извлечения пакетов и повторной сборки текстового файла, синтаксического анализа текстового файла путем поиска терминов в разделителях и индексации его содержимого могут быть выполнены в обычных условиях в течение 0,5–1,5 секунд. Предполагая среднее время обработки в одну секунду, один компьютерный процессор, работающий, например, с 25 роботами для обработки текста, который может быть консервативным, может получать и индексировать текст из 25 веб-страниц в секунду каждую секунду. Работая непрерывно, такой сканер может обрабатывать более 15 миллионов веб-страниц в неделю. Некоторые факторы ограничивают скорость обработки страниц. Перегрузка в Интернете, длинные файлы, длинные последовательности передачи, соединения с сервером с низкой пропускной способностью и другие факторы, которые варьируются от одного сайта к другому и от одного времени дня к другому, могут ограничивать скорость обработки. Тем не менее, портал поисковой системы, на котором есть несколько компьютеров с несколькими роботами, предназначенными для сканирования в Интернете, может завершить всю последовательность сканирования через разумный набор избранных веб-страниц в течение трех или четырех недель.

Для сравнения, полная и тотальная обработка веб-страниц, включая рендеринг всей графики, требует значительного увеличения ресурсов. Если типовой веб-сайт имеет текстовое содержимое размером около 5 Кбайт, этот же текстовый файл может иметь любое количество связанных графических файлов, каждый из которых в несколько раз превышает размер всего текстового файла. Все данные веб-страницы должны быть полностью загружены и обработаны перед точной визуализацией веб-страницы, поскольку данные могут повлиять на рендеринг, даже если сами данные не будут отображаться на экране.

Сервер веб-сайта обычно запрашивает отправку коротких файлов, таких как запрошенный текст конкретной страницы, и передача коротких файлов происходит чаще, чем более длинные, из-за дополнительной обработки пакетов для повторной сборки файла и повышенной вероятности ошибок передачи требующий повторной передачи. Браузер, получающий и обрабатывающий графический файл, кажется, приостанавливает работу или останавливает представление определенного графического раздела во время результирующей задержки. Передача может быть приостановлена в любой точке, даже на последнем пакете из ряда последовательно переданных файлов. Принимающий браузер или другой процессор не может завершить полное и тотальное отображение веб-страницы для показа или иным образом, пока не истечет задержка. Получающий компьютер просто ждет, прежде чем завершить отображение страницы.

Для рендеринга макета страницы, включая графику, браузеру или роботу рендеринга страницы обычно требуется в среднем 30-45 секунд на страницу для получения и обработки веб-страницы в графически визуальном макете (приблизительная цифра, которая включает в себя множество факторов, в том числе изменения пропускной способности). , отставание сервера и потеря пакетов, что может привести к задержке веб-страниц).

Графический макет страницы обычно состоит из серии файлов изображений. Каждый файл состоит из:

  • или распакован в массив слов цифровых данных, представляющих насыщенность, яркость и оттенок
  • или соответствующие уровни RGB каждого пикселя в поле X-Y, соответствующем области экрана дисплея.

На компьютере с браузером файл изображения загружается в серию областей памяти, к которым драйвер дисплея обращается к драйверу монитора, либо в оперативную память процессора, либо в память карты драйвера видеоадаптера (или обоих). Процесс рендеринга страницы в визуально графический макет обычно требует выделения этой функции полного поля памяти дисплея, а конкретные аспекты процессоров часто посвящены обработке ограниченного числа отображаемых изображений. В результате, только одно приложение для обработки изображений или графический робот может визуально создавать на экране предполагаемый макет веб-страницы в любой момент времени. Другими словами, рендеринг макета страницы веб-сайта по его предполагаемым размерам (отображение в полно-экранном режиме) может быть выполнен только с помощью одного графического приложения или веб-браузера одновременно.

Создатели веб-страниц предназначены для просмотра в формате, отображаемом в полноэкранном режиме или около него. Очевидно, что в любой момент времени на одном экране может отображаться только одна полноэкранная веб-страница, и в результате только один графический робот и связанное с ним оборудование могут быть активными для визуализации этого отображения в любой момент времени. Таким образом, эта ситуация отличается от способа обработки текста традиционными веб-сканерами, когда один компьютерный процессор способен одновременно запускать десятки текстовых веб-сканеров «в фоновом режиме». Это связано с запросом, извлечением и индексацией текста с веб-страницы. не фиксирует визуальные или отображающие генерирующие ресурсы. Без необходимости совместно использовать этот тип ресурса может одновременно запускаться любое количество типов веб-искателей текстовой индексации.

Из-за ограничений, скованности и ресурсов, используемых для рендеринга и отображения, обход всего веб-сайта с целью последовательного рендеринга веб-страниц для отображения может быть непрактичным. Если обычный робот извлечения текста способен индексировать 1 страницу в секунду, робот графического рендеринга способен обрабатывать отображение 1 страницы каждые 45 секунд. В результате компьютер, на котором запущено 25 роботов для одновременного извлечения текста, может индексировать приблизительно 15 миллионов (15 000 000) веб-страниц в неделю, но тот же компьютер, на котором запущен 1 робот рендеринга графики, будет обрабатывать и оценивать в 15 000 (15 000) веб-страниц в неделю. Если в желаемой вселенной имеется 100 миллионов веб-страниц, для графической визуализации всей вселенной доступных для поиска веб-сайтов на одном процессоре компьютера потребуется приблизительно 6 600 недель или почти 127 лет. Даже при использовании 25 различных компьютерных систем потребуется более 5 лет для графической визуализации желаемых 100 миллионов веб-страниц.

В соответствии с аспектом настоящего изобретения, по меньшей мере, два независимых типа интеллектуальных веб-агентов совместно работают для обработки различных аспектов работы по поиску, визуализации и обработке веб-сайтов таким образом, который позволяет создавать графические данные в форму сжатого или уменьшенного графического файла, представляющего внешний вид визуализированного веб-сайта, и сделать это с приемлемой скоростью. Интеллектуальный веб-агент первого типа (теперь именуемый «Веб-агент А») запрашивает, извлекает и загружает каждый файл, связанный с конкретным веб-сайтом, включая, помимо прочего, текстовый файл исходного кода, графические файлы (например, GIF, JPG и другие), файлы сценариев, исполняемые файлы Java, файлы технологии Flash, файлы Shockwave, анимации и так далее. Веб-агент А выполнен с возможностью передачи или передачи данных в один или несколько буферов памяти или очередей, доступных для интеллектуального веб-агента второго типа (теперь его называют «Веб-агент Б»), который откачивает файлы веб-сайта по мере необходимости для создавать и отображать полные графические изображения веб-страницы.

Пользовательский процесс рендеринга веб-агентом B включает обработку текста и данных HTML-тегов для подготовки визуального представления. Все файлы, необходимые для визуализации изображения, предпочтительно были получены веб-агентом А до этого, и такие файлы хранятся в буфере. Веб-агент B создает полное визуальное представление, такое как файл растрового изображения, содержащий массив данных пикселей, который, если он связан с драйвером дисплея, может использоваться для отображения макета веб-страницы на видеомониторе в полноэкранном режиме. Короче говоря, веб-агент B готовит визуальное изображение, которое может быть предоставлено браузером.

Визуальное отображение веб-страницы затем сжимается веб-агентом B или процессом, связанным с ним, до предварительно определенного и предпочтительно небольшого размера изображения, например изображения размером 2 дюйма × 2 дюйма, на экране дисплея с диагональю 17 дюймов. Этот процесс может включать выборки или методы усреднения локальной области, известные в данной области техники. Затем растровое изображение уменьшенного размера подвергается цифровому сжатию и / или кодированию, чтобы минимизировать требования к хранению и обеспечить быструю передачу по каналу данных только для ASCII. Растровое изображение уменьшенного размера может быть преобразовано в формат JPG, GIF или аналогичный для файла изображения, подходящего для веб-передачи. Файл изображения JTiat, который представляет визуализированный вид связанной веб-страницы в определенный момент времени, сохраняется в массовой памяти, доступной для поисковой системы. Массовая память может находиться в одном или нескольких жестких дисках, кэшах оперативной памяти, записываемых компакт-дисках или других носителях, которые полезны в качестве ОЗУ большой емкости. Массовая память может быть периферийным устройством в поисковой системе или может быть доступной для поисковой системы, например, с использованием связи по локальной сети, при условии, что файлы изображений очень быстро вызываются с использованием минимума передачи данных и / или обмена данными, которые являются прямыми, а не через Интернет.

Массовая память может иметь систему имен подкаталогов и систему имен файлов на основе сетевых адресов или URF веб-страниц, из которых были сгенерированы графические файлы, или, альтернативно, файлы могут быть произвольно названы или сохранены и могут быть найдены с использованием перекрестной ссылки таблицы в поисковой системе, в которой адрес или URF веб-страницы и связанный с ней файл изображения имеют перекрестные ссылки.

Память поисковой машины также содержит данные текстовой индексации или данные каталога категоризации человека (или обе), которые получены обычным способом поискового робота и включают в себя связь между текстовыми данными, найденными на каждой веб-странице, и веб-адресом или URF отправителя оригинальной страницы интернета. Таким образом, текстовые индексированные или категоризированные данные, а также местоположение графического файла, оба индексируются в URF. Выбрав URF, поисковая система может вызвать графический файл, представляющий его внешний вид, когда он отображается в некоторый момент в прошлом.

После получения выбора, содержащего одну или несколько текстовых строк, логические комбинации, типы расширений файлов или другие критерии, поисковая система может определить соответствующие веб-страницы, сообщить их URF и предоставить графический файл, показывающий версию миниатюрного окна того, как они выглядели если бы были загружены браузером в то время, когда их данные были загружены и проиндексированы.

Веб-агент B предпочтительно имеет дополнительные функции, в том числе хранение информации о состоянии, такой как хранение файлов журналов, содержащих адреса и / или связанные имена файлов, которые были предприняты и получены, при желании включает в себя очередь файлов, которые представляют проблемы при первой попытке и должны быть повторены. или по истечении некоторого времени будут отображаться пропуски с отсутствующими графическими изображениями, веб-адреса, которые были полностью отображены, и т. д.. Предпочтительно, чтобы журналы и индикаторы состояния были достаточными для того, чтобы оператор мог отслеживать работу, обращаясь к показаниям или отображая сохраненные данные. Веб-агент B также предпочтительно генерирует сообщения об ошибках и / или аварийные сигналы в случае любых критических ошибок. Доступные показания состояния могут включать элементарные данные, такие как текущий обрабатываемый URF, состояние рендеринга текущего URF, номер URI ^, обработанный с момента создания или последнего сброса, любые сообщения об ошибках и так далее.

Поисковая система может содержать один или несколько процессоров, и процессоры могут быть в прямой связи или связаны с локальной сетью или другими устройствами, ключом является быстрый доступ к хранимой базе данных, представляющей совокупность обработанных веб-страниц, доступных для поиска. Поисковая система принимает пользовательские критерии поиска обычным способом, таким как использование полей формы CGI для ввода текстовых строк в связанную HTML-страницу входа поисковой системы, которая адресуется браузером. Поисковая система позволяет делать выборки по меньшей мере по одному критерию поиска и предпочтительно принимает множество различных типов критериев и комбинаций. Эти аспекты поисковой системы могут относиться к типу, обычно используемому современными поисковыми системами, такими как Hotbot, Yahoo, AltaVista, Northern Light и т. д.. Поисковая система работает для выбора посещений веб-страниц в зависимости от предоставленных пользователем критериев поиска и для определения URL-адреса веб-страниц (хитов), которые полностью или частично соответствуют критериям. В дополнение к определению URL-адресов совпадений поисковая система может сохранять и извлекать краткую примерную текстовую строку, такую как начальные несколько строк текста в обращении к веб-странице.

Поисковая система сообщает о результатах поиска пользователю, который ввел критерии поиска, путем создания исходной страницы html и передачи ее пользователю. Эта страница отчета html может не содержать совпадений или длинного списка совпадений, в зависимости от результатов поиска. При составлении страницы отчета поисковая система обычно показывает используемые критерии поиска и отображает признаки, обобщающие или аналогичным образом идентифицирующие каждое посещение веб-страницы. Например, отчет о поиске может идентифицировать хиты по URL исходной веб-страницы. Предпочтительно показан короткий текстовый выбор, такой как первые несколько строк текста. HTML-страница отчета, подготовленная поисковой системой, содержит связанную гиперссылку на URL каждого хита. URL может быть показан в виде простого текста и снабжен соответствующей гипертекстовой ссылкой (href = [URL]). Пользователь просматривает URL-адреса, образец текста или другую информацию и активирует гиперссылку выбранной веб-страницы, идентифицированной в результатах, тем самым загружая веб-страницу, находящуюся в настоящее время по адресу исходной страницы, при обработке ползающими роботами.

Согласно изобретению составленная страница отчета о поиске, подготовленная поисковой системой, включает в себя, но не ограничивается этим, URL-адрес каждой веб-страницы, заголовок каждой веб-страницы, описание каждой веб-страницы и графическое изображение каждой веб-страницы. Браузер пользователя немедленно загружает исходный код, который содержит текстовую часть отчета о поиске. При обработке источника браузер пользователя обнаруживает ссылки на файлы изображений, которые были включены поисковой системой при составлении страницы отчета о поиске, и получает файл изображения. Предпочтительно страница отчета, составленная поисковой системой, размещает графику для посещений веб-страницы непосредственно рядом со связанным текстом и гиперссылкой. Графическое изображение было отображено при определенных предположениях относительно конфигурации дисплея и представляет собой снимок веб-страницы, замороженной во времени. Снимок представляет собой, по крайней мере, приблизительное представление о том, как будет выглядеть веб-страница, если ссылка активирована и страница загружена пользователем (т. е. если страница не изменилась и конфигурация дисплея пользователя равна конфигурации по умолчанию, принятой Агентом B, в соответствии с изобретением). Если страница не была существенно изменена ее владельцем, графическое изображение существенно поможет пользователю отсеивать страницы, которые действительно интересны и, возможно, интересны, нейтральны, вряд ли содержат соответствующий материал или определенно не имеют значения.

Одним аспектом изобретения является то, что активы и вычислительная мощность системы поисковой машины пропорциональны для координации работы агента A (для выборки) и агента B (для обработки содержимого изображения), при этом ни один из них существенно не отстает от другого. Агент А подвержен задержкам связи, связанным с запросом, получением и хранением необходимых файлов из Интернета, что может задержать одного робота, но на самом деле это улучшается при запуске нескольких копий Агента А в фоновом режиме. Агент B имеет больше данных для обработки, но благодаря предварительной загрузке многочисленными агентами A в фоновом режиме данные могут быстро обрабатываться из локальных копий. Агент B может монополизировать отображение на переднем плане, в то время как несколько агентов A на заднем плане получают необходимые файлы из Интернета и подают их во временный буфер данных.

Ввиду задержек в связи и поддержания темпа, в настоящее время предпочтительно, чтобы 32 веб-агента типа A работали в связке с каждым веб-агентом типа B. Таким образом, множество веб-агентов типа A непрерывно выбирают и подают в буфер или поставляют в очередь все файлы веб-страниц целевых веб-страниц, включая их исходный код и графические изображения, такие как JPG, GIF, Java, Flash и т. д., все они хранятся локально. Один или несколько веб-агентов типа B, предпочтительно один для нескольких агентов A (например, 32), непрерывно обрабатывают и удаляют файлы из этого буфера для создания и визуализации одного снимка веб-страницы за другим. Одновременно с этим процессом текстовая часть данных веб-страницы индексируется или классифицируется.

Отношение агентов A к агентам B может быть определено из опыта так, что содержимое буфера или очереди остается по существу стабильным для конкретной поисковой системы. В качестве альтернативы, соотношение может быть изменено на лету, чтобы агент B постоянно работал и чтобы размер буфера или очереди оставался стабильным. Если очередь продолжает расти, отношение агентов A к агентам B можно уменьшить, выделив таким образом больше доступного процессорного времени агенту B, что должно привести к сокращению буфера. Нельзя допускать сокращения буфера до бесконечности, иначе агент B станет бездействующим или потеряет эффективность или даже остановится, ожидая, когда станут доступны полные наборы веб-файлов. Предпочтительно назначается оптимальный размер буфера, например, несколько сотен мегабайт. Кроме того, этот буфер поддерживается относительно статичным за счет удаления данных после того, как он используется Агентом B. После запуска предполагаемого оптимального соотношения Агентов A и Агентов B дополнительные процессы Агента A могут быть добавлены до значительной части доступных коммуникаций пока время заполнено сообщениями активного агента А. Если буфер растет непрерывно, количество процессов в агенте A уменьшается по сравнению с количеством агентов B, и наоборот. Поскольку оптимальное соотношение частично обусловлено задержками в связи из-за перегрузки в сети, соотношение агентов A и B может варьироваться в течение дня обработки.

Веб-агент B непрерывно отображает и обрабатывает веб-страницы одну за другой в соответствии с указанной очередью. Веб-агент B не страдает от ограничений и накладных расходов при запросе и передаче файлов через Интернет, потому что эти проблемы решаются командой веб-агентов типа A, например, тридцать два из которых могут быть заняты адресацией и загрузкой файлов из разных источников.

В одном из протестированных вариантов осуществления один веб-агент B использовался в компьютере, который был включен, как описано выше. Обычные процедуры браузера и драйвера дисплея использовались для визуализации растровых файлов отображения с html-страниц, которые были пересмотрены так, что все включенные ссылки на изображения указывали на графические файлы, которые ранее были загружены одним из множества действующих процессов Агента A и сохранены в очередь или буфер, а именно на системном жестком диске. Затем утилита преобразования изображений преобразует растровые изображения в файлы изображений GIF с именами файлов, на которые ссылается соответствующий URL исходной веб-страницы. Такое расположение оказалось эффективным и быстрым методом получения снимков веб-страниц. Веб-агент B в таком расположении контролирует и обрабатывает все ресурсы обработки и системы для графического отображения, но не сдерживается задержкой извлечения и хранения необходимых файлов, которая в совокупности выполняется всеми веб-агентами типа A, работающими как параллельные процессы в фоновом режиме и, таким образом, не требующие много системных ресурсов, включая буферы отображения и драйверы. Система доказала свою эффективность в отображении по крайней мере одной веб-страницы в секунду, и при непрерывной работе она будет отображать 86 400 страниц в день, 604 800 в неделю. Это может показаться приемлемым показателем, но при условии желаемой вселенной в 100 миллионов страниц одной компьютерной системе, сканирующей с такой скоростью, все равно потребуется около 3 лет для завершения цикла сканирования. За это время содержание большинства веб-страниц изменилось бы. Следовательно, изобретение предпочтительно применяют на нескольких компьютерах, работающих одновременно. Подключение к общей базе данных и одновременный запуск 18 компьютеров позволили бы полностью отобразить требуемые 100 миллионов веб-сайтов каждые 2 месяца. Желательно, чтобы такой двухмесячный цикл использовался для поддержания свежей и обновленной базы данных графических снимков.

Во время первоначальной попытки извлечь веб-страницу с помощью браузера, включая извлечение включенных в нее или ссылочных графических файлов, весьма обычно, что по крайней мере один из файлов не был успешно передан. Это может быть связано, например, с перегрузкой или другими факторами, которые приводят к тому, что сервер веб-сайта истекает и выдает сообщение об ошибке. Иногда файл искажается при передаче, и это обнаруживается принимающим браузером, который визуально отмечает отображаемую страницу, чтобы показать, что отсутствует файл (например, прямоугольник помещается в положение изображения с красным «X», указывающим, что передача была неудачной или полученный файл был неисправен и не мог быть декодирован и / или отображен как изображение). В этой ситуации функцию «обновить» в браузере часто можно вызвать, чтобы выполнить одну или несколько дополнительных попыток получить оставшуюся часть веб-страницы по команде пользователя «нажать / щелкнуть».

Согласно изобретению в такой ситуации встроенная избыточность имеет дело с поврежденными или отсутствующими файлами. Веб-агент A отвечает за получение и хранение графических файлов и всех связанных файлов определенной веб-страницы. При этом исходный сервер или промежуточный маршрутизатор может иметь тайм-аут или передать поврежденную версию файла. Если файл не получен или полученный файл имеет дефекты, что нередко при просмотре, веб-агент B по изобретению обнаруживает, что файл отсутствует или неисправен (другими словами, веб-агент B замечает, что необходимый файл действительно не в буфере, как положено). Веб-агент B может быть выполнен с возможностью попытки одного или нескольких раз извлечь отсутствующие файлы по адресу, указанному в исходном коде html (то есть получить графический файл снова «вживую», прямо из Интернета). Однако предпочтительно, если веб-агент B готов к визуализации файла, и один или несколько графических файлов не найдены, тогда веб-агент B может сигнализировать одному из процессов веб-агента A о необходимости получения файла и во время задержки веб-агента B продолжает отображать другой файл, все файлы компонентов которого доступны. С возможностью резервирования или повторной попытки система, вероятно, будет успешно отображать всю веб-страницу со всей ее графикой и всеми связанными файлами более надежно, чем браузер, реагирующий на загрузку файлов в реальном времени. Фактически, эта избыточность доводит вероятность успеха почти до 100%.

Соответствующие функции программы сканирования, связи, индексирования и рендеринга могут быть написаны на любом из множества доступных языков программирования и могут работать на любой из множества различных платформ. Было обнаружено, что программа легко воплощена в C ++, работающем в операционной системе Windows NT.

Одним аспектом изобретения является то, что доступная полоса пропускания связи используется эффективно. Несколько процессов агента A, работающих одновременно, таковы, что обычная причина траты времени на обмен данными, а именно ожидание ответа от удаленного сервера веб-страниц, сведена к минимуму, поскольку задержка, испытываемая одним из процессов агента A, используется другим агентом A процессы, которые работают одновременно. Изобретение может выполняться на любой пропускной способности соединения, включая 28 Кбит / с. Разумеется, соединение с высокой пропускной способностью является предпочтительным, например, одно или несколько состояний T1 или T3 (если не выше).

Помимо примера Windows NT, платформа Unix является альтернативно полезной в соответствии с изобретением из-за ее способности обрабатывать несколько одновременных процессов. Соответствующие программные роботы могут работать на платформе Unix как приложения, запрограммированные, например, на C, C ++, Perl или одном из других языков. Чтобы завершить циклы сканирования достаточно быстро, в предпочтительной конфигурации одновременно используется множество компьютеров, каждый из которых имеет свое собственное соединение с Интернетом, и каждый использует свой собственный вариант осуществления настоящего изобретения. Компьютеры могут находиться в сети, получать питание и одновременно вносить вклад в общую базу данных, поддерживаемую одним из компьютеров в сети.

Две основные функции, связанные с подготовкой базы данных информации, которая затем подлежит поиску и составлению отчетов, представляют собой функции извлечения всех данных веб-страницы (выполняемых веб-агентом A) и создания файла «снимка» из данных (выполняемого веб-агентом Б). Обнаружено, что эти функции могут работать одновременно с процессором или процессорами поисковой машины или отдельно от них, которые осуществляют поиск в базе данных информации и возвращают результаты запрашивающему пользователю. Однако предпочтительный вариант осуществления состоит в том, чтобы выполнять всю обработку в отношении визуализации, изменения размера и сжатия снимка до того, как он станет доступным для пользователей в Интернете. Цикл обработки (сканирование, индексирование, рендеринг) предпочтительно завершается, и файлы индекса и моментального снимка, которые в результате получаются, загружаются в базу данных или используются для обновления базы данных, которая поддерживается на сервере, который принимает критерии поиска пользователя, а также создает и отправляет Пользователь результаты поиска.

 

Веб-агент А пытается последовательно (или случайным образом, или иным образом) загрузить все веб-страницы, перечисленные в большой базе URL-адресов, которые были скомпилированы ранее из различных источников. Компиляция URL-адресов может быть создана путем попытки загрузки составных URL-адресов на основе слов словаря (например, http://www.aardvark.com…) или названий компаний из каталога имен (например, http: // www .acme.com..) или известные URL-адреса из службы доменных имен, или даже все последовательные комбинации строк одна за другой. Испытанный и верный способ составить список адресов для веб-сканирования — начать с URL-адресов из существующей компиляции адресов веб-страниц, такой как список доменных имен; загружать каждый из них последовательно; и сканировать источник загруженных страниц на наличие всех гипертекстовых ссылок на другие доменные имена URL и / или адреса веб-страниц URL. Эти последние связанные веб-страницы затем добавляются в компиляцию URL-адресов и сканируются (загружаются, а также сканируются ссылки) в более позднее время.

Поисковая система по изобретению предпочтительно позволяет любому предлагать добавить веб-страницу во вселенную поисковых страниц. Предлагаемая веб-страница добавляется в компиляцию, и роботы поисковой системы сканируют сеть, загружая предлагаемую страницу, отмечая и загружая страницы, связанные с предлагаемой страницей, и переходя на страницы, связанные со ссылками на страницы и т. д.. Дубликаты удаляются. Недавно посещенные URL можно пометить для отложенной перезагрузки или удалить.

Другой предпочтительный метод включает использование проверенной и скомпилированной базы данных. «Человек-серфер» или рецензент веб-страницы может быть более надежным, чем робот-агент, при классификации контента веб-сайтов (например, «Электрическая фабрика» является идентификатором концертного промоутера и поставщика билетов на развлекательные мероприятия). Оба метода могут быть использованы для составления базы данных веб-сайтов. Команда серферов-людей может быть нанята для выполнения этой задачи, каждый из которых посещает последовательные веб-сайты и принимает решения, например, относительно соответствующего названия, описания, категории или тому подобного. Настоящее изобретение обеспечивает дополнительное улучшение скомпилированной базы данных человека в том, что содержание веб-сайта становится еще более быстрым, если любые описательные термины или заголовки рассматриваются вместе со снимком содержимого, даже если миниатюризированы до такой степени, что большинство или все текст, показанный на снимке, может быть слишком маленьким, чтобы его можно было легко различить.

В предпочтительном варианте осуществления изобретения обработка выполняется в сети запрограммированных процессоров, которые обмениваются данными друг с другом и каждый из которых имеет канал связи TCP / IP с сетью. База данных, содержащая целую совокупность просканированных или подлежащих обходу целевых веб-сайтов, которые могут исчисляться миллионами, может храниться в управляющем процессоре или может быть частью общего хранилища данных, используемого для выделения отдельных URL-адресов клиентским компьютерам на сеть поисковой системы, например, разрешив веб-агенту A получить следующий URL из списка и пометить URL как используемый. Не обязательно использовать сетевую парадигму. Вместо этого каждый веб-агент A или каждый клиентский компьютер, на котором запущено несколько веб-агентов типа A, может содержать свою собственную базу данных с подмножеством URL-адресов вселенной, и базы данных нескольких роботов или клиентов могут периодически синхронизироваться для устранения дубликатов, помечать URL-адреса после их сканирования и аналогичного обновления. В типичном приложении база данных выдает URL-адрес следующему веб-агенту A в очереди и перемещает индекс или «указатель» для ссылки на следующий URL-адрес, который будет выдан.

Веб-агент A получает URL-адрес, делает запрос TCP / IP для веб-страницы через Интернет и пытается загрузить исходный код, а также все необходимые графические файлы и данные, необходимые для визуализации этого веб-сайта. Веб-агенты типа A предпочтительно запрограммированы на «терпеливый» запрос и ожидают загрузки файлов, но они также понимают, какие из файлов игнорировать (например, аудиофайлы игнорируются), и следует ли продолжать попытки загрузки, если были предприняты последовательные попытки безуспешными. Целостность, количество байтов, четность и подобные проверки могут быть выполнены, чтобы гарантировать, что загрузка завершена и правильна.

При работе с веб-сайтами, содержащими «фреймы (кадры)», которые на самом деле представляют собой несколько документов, которые загружаются и отображаются в тандеме в определенной и потенциально переменной части экрана дисплея браузера, каждый документ обычно имеет код конца файла и выдает сообщение о завершенной загрузке для операционной системы.

Часто веб-страница в рамке может принимать и отображать любые другие веб-страницы в виде врезного кадра. Это усложняет ситуацию из-за того, что конец файла, который на самом деле касается только части страницы в рамке, может ошибочно заставить веб-агента перейти на следующий веб-сайт и обработать фрейм, но не содержимое в рамке.

Фреймы также представляют проблему для робота-обходчика в отношении встроенных HTML-ссылок на другие веб-страницы. Владелец веб-страницы фреймов может включать HTML-ссылки на веб-страницы других пользователей. Если браузер для серфинга попытается загрузить связанную страницу, выбрав (щелкнув) ссылку на веб-странице фреймов, браузер загрузит связанную страницу, но она будет в рамке первого владельца веб-страницы. В этом случае браузер не связан независимо и вместо этого связан через страницу фреймов. Таким образом, целевой HTML-адрес, который появляется на панели инструментов браузера и записывается в список истории браузера, не является ссылкой на выбранный сайт. Вместо этого эта ссылка на страницу фреймов с модификатором, который идентифицирует выбранный сайт. Когда этот целевой адрес вызывается, фрейм загружается и связанная веб-страница вставляется в фрейм.

В очереди встроенных ссылок, найденных на страницах для обработки, веб-агент А отличает рамочные ссылки от прямых ссылок. При обработке страницы в рамке, предпочтительно, сканер вызывает внутренние ссылки страницы в рамке, чтобы найти и поставить в очередь дополнительные ссылки, но не обрабатывает каждую ссылку в рамке как новую веб-страницу. Поскольку веб-агент А встречает веб-сайты с фреймами, он обрабатывает данные, локальные для этого веб-сайта, и проверяет наличие веб-сайта с фреймами. Когда страница фрейма обнаружена, веб-агент A проверяет сообщение о завершении загрузки (конец файла) для каждого элемента в рамке и обрабатывает текст и графику фрейма и его содержимое.

Веб-агент А предпочтительно обнаруживает динамические вхождения, которые запрограммированы в веб-сайты, из исходного HTML-кода, который получен. Агент A может хранить только часть содержимого определенного файла, например, первый кадр анимированного GIF, или может полностью игнорировать файл, такой как аудиофайл, сценарий формы ввода данных или видеоклип и т. д.. Существуют различные ситуации, в которых веб-сайт может быть выполнен с возможностью последовательного или условного отображения текста или графики или для привязки пользователя к различным файлам. К ним относятся автоматическое перенаправление на дальнейшую ссылку после задержки или после пользовательского ввода, такого как щелчок мыши, всплывающие окна для временного отображения графики поверх фона, окна подсказок CGI для ввода данных, данные, которые по своей природе различаются такие как видео окна, звуковые файлы, анимированные изображения GIF и другие подобные случаи.

В соответствии с аспектом изобретения веб-агент А по изобретению имеет дело с изменением данных путем загрузки столько текстовых и графических данных, сколько будет предоставлено целевой веб-страницей, и хранения достаточного набора графических и связанных файлов для подготовки статической версии. целевой страницы при начальном доступе. Для этого требуется, чтобы веб-агент A выполнял поиск исходного кода, полученного с сайта, на наличие признаков динамического содержимого и подавлял динамический аспект содержимого. Однако динамический аспект предпочтительно не опускается полностью, а вместо этого ограничивается статическим отображением обнаруженного исходного содержимого.

Соответственно, звуковые файлы (WAV, MID, MP3 и т. д.) Подавляются и игнорируются. Например, при загрузке html-источника Агент A удаляет ссылки в зависимости от их расширений перед сохранением файла и, конечно, не пытается загрузить сами файлы. Анимированная графика предпочтительно загружается частично (например, только первый кадр анимированного GIF) или графические файлы полностью загружаются веб-агентом А, но только частично обрабатываются веб-агентом В. Видеоконтент может быть обработан для получения начального кадра, но предпочтительно видео игнорируется и заменяется ссылкой на статическую графику, которая отмечает видео и тип файла. Например, видеофайлы MOV могут быть помечены статическим значком Apple Quicktime или ASF-файлы помечены статическим значком Windows MediaPlayer и т. д.. Статические маркеры предпочтительно выбираются по расширению файла (например, для видео, RAM = RealPlayer, ASF = Windows MediaPlayer, MOV = Quicktime) или общий маркер используется для всех этих форматов или, возможно, только для общих форматов, которые могут обрабатывать все проигрыватели (например, MPG). Веб-агент A или веб-агент B могут обработать целевой сайт для связи или представления маркера статического отображения для таких файлов.

Аналогичные маркеры могут использоваться для указания наличия носителя, который не отображается. Например, значок или символ (например, «__») может указывать, когда обнаружена ссылка на аудиофайл. Как и в предыдущем обсуждении видео, значок также может быть выбран в зависимости от расширения файла, чтобы указать тип найденного аудиофайла, например WAV, MID, MP3 и т. д..

Согласно другим аспектам изобретения всплывающие окна игнорируются или подавляются. Диалоговые окна, в отличие от всплывающих окон, несколько сложнее и могут препятствовать отображению фоновых функций страницы при отображении. Диалоговое окно или окно CGI для ввода данных может приостановить обработку страницы до тех пор, пока диалоговое окно не будет обработано. Вместо того, чтобы разрешать диалоговое окно, такое как поле имени или пароля, приостанавливать работу веб-агента A, обнаруживаются диалоговые окна и запускается процедура «отмены» в ответ на диалоговое окно. Предполагая, что на сайте работает управление паролем или подобный процесс, этот процесс прекращается из-за невозможности ввода пароля или чего-либо подобного, но веб-агент А может продолжить работу и может получить дополнительные данные графического файла или текст после диалогового окна или аналогичного приглашение прошло.

Анимированные GIF-файлы и другие изменяющиеся функции также можно определить по значку, указывающему на наличие этой функции. Предпочтительно эти анимированные элементы выборочно обрабатываются для получения статического изображения. Анимированные GIF-файлы и некоторые другие технологии, такие как Macromedia Flash, предоставляют последовательность действий в виде множества изображений, которые отображаются в быстрой последовательности, обычно в цикле. Это проблема с анимациями, особенно теми, которые относятся к технологии Macromedia Flash, чтобы выбрать, какой кадр будет захвачен или выбран в качестве представителя анимации. Анимированные GIF начинаются с графики, и последующие «кадры» могут быть ограничены только теми пикселями, которые изменили цвет от одного кадра к другому. Технология Flash обычно начинается с пустого экрана или пустого квадрата. Выбор первого кадра Flash-фильма в качестве назначенного кадра для обработки и рендеринга, безусловно, будет недопустимым. В соответствии с альтернативными решениями, веб-агент B может использовать таймер для ожидания заданного времени, прежде чем захватывать визуализированное изображение в файл того типа, который начинается как пустой или исчезает. Это может быть вопросом удачи, что конкретно будет присутствующие в данный момент запечатлены в изменяющейся части дисплея. Альтернативой является создание статического изображения в виде суммы или среднего значения двух или более изменяющихся кадров, что может привести к размазанному статическому изображению. Другой альтернативой является отключение подключаемого модуля Flash с помощью соответствующего сообщения целевому сайту при загрузке страницы. Отключение Flash-плагина может исключить любые графические данные, а именно, если операторы веб-сайта не предоставили статическую страницу FITML в качестве альтернативы для пользователей, которые не оснащены Flash. Часто пользователю без Flash предоставляется пустой экран с крошечной надписью внизу с надписью «Если у вас нет Flash, нажмите здесь». Рендеринг и последующий снимок экрана, подобного этому, может вводить пользователя в заблуждение, если просматриваются в результатах поиска поисковой системы, поэтому предпочтение отдается временному захвату.

Одним из аспектов настоящего изобретения является предоставление значка или аналогичного указания в результатах поиска относительно того, содержит ли конкретный веб-сайт технологию Flash. Это устраняет возможные несоответствия при обработке и рендеринге фильма Flash и последующей интерпретации пользователем поисковой системы, который может просматривать моментальные снимки. Более того, для Flash и аналогичных технологий, которые являются необязательными для пользователей, добавление указания об их присутствии приносит пользу пользователям результатов поиска. В частности, в случае с Flash пользователь, который загрузил плагин Flash или иным образом имеет возможность обрабатывать контент, предпочтет получить доступ к страницам, содержащим контент Flash, если другие факторы равны. Пользователи с браузерами, неспособными обрабатывать технологию Flash, могут быть предупреждены о том, что их браузер может плохо отображать этот конкретный веб-сайт или, по крайней мере, будет нейтрален в отношении этого аспекта веб-сайта. Использование Flash, RealAudio и других технологий с добавленной стоимостью часто свидетельствует о том, что конкретный веб-сайт имеет превосходное содержание.

Следовательно, в предпочтительном варианте осуществления обнаруживается наличие содержимого Flash. Статическая страница захватывается в соответствии с одной или несколькими вышеупомянутыми альтернативами, предпочтительно путем отключения подключаемого модуля Flash. Обычная статическая графика отображается на снимке, и рядом со статической графикой вставляется значок, показывающий, что сайт является Flash-сайтом. Тот же метод может использоваться для идентификации других динамических дисплеев, таких как Shockwave Movies и т.п., предпочтительно с использованием различных значков для каждого типа.

В предпочтительном расположении, показанном на рисунке 1-3, каждый компьютер, используемый поисковой системой, имеет одну базу данных, множество веб-агентов A и одного веб-агента типа B. В то время как веб-агенты A заняты загрузкой необходимых текстовых данных и графических файлов в фоновом режиме, единственный веб-агент B занят на переднем плане рендеринга страниц и выполнения снимков экрана на основе координат. Чаще всего снимки экрана выполняются с битовой глубиной или разрешением 24 бита и, таким образом, содержат 16,7 миллиона возможных цветов в захваченном изображении. Чтобы минимизировать издержки на данные и максимизировать эффективность, для выполнения желаемого захвата изображения используется система на основе координат.

Используя веб-агент B на переднем плане, изобретение может использовать преимущества определенных средств отображения без соответствующих накладных расходов на обработку. Такие средства могут включать в себя, при наличии, аппаратное обеспечение для обработки отображения, программное обеспечение, встроенное программное обеспечение, сопроцессоры, кэш-память и, возможно, периферийные устройства, такие как карты драйверов дисплея, которые обычно могут использоваться для обеспечения быстрого обновления дисплея во время работы программы на переднем плане.

Согласно аспекту изобретения описанная система может быть сконфигурирована для работы с использованием множества независимых компьютеров, которые находятся в обмене данными (например, в общей сети, или имеют доступ к конкретному хранилищу памяти либо одновременно, либо в силу подготовки носители массовой памяти, такие как компакт-диски, содержащие базу данных носителей, использующую один или несколько компьютеров, и затем обрабатывающую базу данных для поиска с использованием одного или нескольких дополнительных компьютеров. В одном конкретном случае один компьютер (или подмножество группы компьютеров) исключительно запускает процессы веб-агента А для загрузки данных, файлов, мультимедиа, графики и т. д. Это большое количество веб-агентов типа А или процессов, имеющих аналогичные возможности, помещает загруженные файлы в хранилище данных, например, на жесткий диск, съемный диск, или тому подобное. Затем депонированные данные могут быть переданы по сети или на подвижном носителе на другой компьютер, на котором работает веб-агент типа B.

Веб-агент B обрабатывает данные для предоставления уменьшенных / сжатых изображений или снимков веб-страниц в графических файлах данных. Этот второй компьютер, на котором работает веб-агент B, обращается к хранилищу данных для визуализации и обработки веб-сайтов в соответствии с указанной очередью. Дело в том, что нет необходимости иметь оба типа веб-агентов на одном компьютере, чтобы обеспечить надлежащее выполнение системы, и может быть эффективно разделить эти функции, как описано. Разделение функции подготовки индекса, в которой база данных хранилища обрабатывается для подготовки к поиску, и функции поиска и составления отчетов, в которых принимаются запросы пользователей, база данных хранилища ищется, а отчет составляется и сообщается, также может быть разделен на дополнительные компьютеры, каждый из которых выполняет определенные функции. Таким образом, работая совместно и предпочтительно включая выделение дополнительных ресурсов при любых узких местах обработки и связи, система может получать данные, подготавливать данные для поиска путем предварительной обработки данных, включая создание файлов графических изображений, а также проводить и составлять отчеты о поисках посредством взаимодействия с удаленными пользователями.

В предпочтительном варианте осуществления изобретения оба типа веб-агентов работают на одном компьютере. Когда один из веб-агентов типа A загружает веб-страницу, он сохраняет все элементы страницы, как текстовые, так и графические, включая файлы, которые могут быть связаны с каждой страницей темы, но хранятся по другому адресу сервера, и сохраняет URL-адрес. и связанные имена файлов. URL добавляется во входную очередь веб-агента B. Все веб-агенты типа A выполняют этот же процесс, а именно, пытаются загрузить и, когда загрузка завершена, помещают этот URL-адрес в очередь веб-агента B. Таким образом, веб-агент Б обычно не может опередить веб-агента А, даже если последний в некоторой степени занят ожиданием отправки переданных данных удаленным сервером веб-сайта.

Веб-агент B выполняет обработку после того, как все файлы, необходимые для завершения обработки, были загружены и доступны для хранения. Например, веб-агент A или веб-агент B (или другой процесс, такой как процесс, который анализирует полученный исходный код для индексации текста) сканирует исходный код и таким образом определяет файлы, которые необходимы для обработки, а именно файлы или адреса для какие гиперссылки находятся в исходном коде. В варианте осуществления, в котором веб-агент А обрабатывает этот процесс, веб-страница может ожидать, пока веб-агент Б не будет в очереди, пока веб-агент А не загрузит и не сохранит все файлы. В качестве альтернативы, список связанных файлов может быть подготовлен веб-агентом B или другим процессом с доступом к исходному коду, и веб-агент B может проверить список перед попыткой обработки данных для веб-страницы. В любом случае, предпочтительно, чтобы вычислительная мощность веб-агента B была в основном посвящена обработке страниц, которые завершаются, когда начинается их обработка.

Веб-агент А или другой процесс может быть настроен на продолжение попытки загрузки любых необходимых файлов, которые не были загружены. В качестве альтернативы, веб-агент B может предпринять новое общение в Интернете, пытаясь найти отсутствующий файл, или может поставить в очередь одного из веб-агентов типа A или другой процесс, чтобы получить файл или перезагрузить отсутствующий файл (-ы) или, возможно, всю веб-страницу и связанные файлы. Перезагрузка всей веб-страницы связана с возможностью того, что файл, который будет найден отсутствующим или недоступным, может больше не быть связан с исходным кодом веб-страницы и, следовательно, не нужен. Прекращение ссылки также может быть причиной того, что файл не был найден (т.е. он был перемещён и удален).

Выполняя локально сохраненные текстовые файлы и файлы данных, веб-агент B может визуализировать и захватывать графические файлы изображений или снимки с улучшенной скоростью. В варианте осуществления, в котором один агент B и несколько процессов агента A работали на одном компьютере, чтобы локально накапливать сохраненные файлы и ставить в очередь агента B, было обнаружено, что агент B способен создавать графические файлы моментальных снимков со скоростью примерно одна веб-страница в секунду. Это намного быстрее, чем загрузка и рендеринг по одной странице за раз, как это было бы в случае с обычным браузером, в котором время ожидания передачи составляет типичную скорость одной веб-страницы за 45 секунд.

Файл визуализированного изображения захватывается из буферной памяти дисплея операционной системы, а затем изменяется, обрабатывается для повышения качества изображения и сжимается. Затем он сохраняется на диске в стандартном формате под именем файла, связанного с URL исходной веб-страницы.

По завершении полного обхода, рендеринга каждого желаемого веб-сайта и полного хранения данных полученных графических моментальных снимков база данных поисковой системы готова принимать запросы пользователей. Пользователь представляет комбинации текстовых строковых выражений известным способом. В соответствии с такими же критериями поиска, которые известны в других приложениях для поисковых систем (например, FlotBot, AltaVista, Yahoo и т. д.), Критерии сравниваются с индексированной текстовой информацией. Каким бы ни использовались средства (например, все слова, любое слово, точная фраза, логические комбинации, с ранжированием или категоризацией результатов или без них и т. д.), Поисковая система выбирает и подготавливает список обнаруженных посещений веб-страницы, сравнивая критерии поиска с содержимое проиндексированной базы данных.

Список отчетов готовится путем создания веб-страницы отчетов в формате HTML, которая затем отправляется пользователю. Отчетная веб-страница включает в себя список посещений, где каждая запись в списке содержит HTML-ссылку на URL-адрес, с которого была загружена соответствующая веб-страница. Предпочтительно, и, как уже было сделано с большинством поисковых систем, записи также включают в себя по меньшей мере одну или две строки текста с веб-страницы, такие как первые три строки. Кроме того, согласно изобретению запись также имеет HTML-ссылку на графический файл на компьютере поисковой машины, где хранится снимок отрисованной веб-страницы. Эта ссылка может быть командой IMG SRC = [путь] [имя файла].

Когда пользователь просматривает отчет о поиске с помощью браузера, браузер вставляет изображение графического снимка рядом со списком URL-ссылки на веб-страницу субъекта. Таким образом, пользователь может определить, представляет ли интерес запись страницы в результатах поиска, не только по текстовой информации, включенной в URL-ссылку, такой как описание и заголовок, но также и из небольшого представления того, как веб-страница выглядела, когда это было проиндексировано.

Если пользователь заинтересован в просмотре веб-страницы, на которую направлена запись отчета о поиске, он может щелкнуть гипертекстовую ссылку на URL-адрес веб-страницы, где браузер пользователя загружает веб-страницу непосредственно со своей исходной веб-страницы. сервера. Изображение моментального снимка предпочтительно избыточно связано с гипертекстовой ссылкой, чтобы пользователь мог щелкнуть либо по гиперссылке, либо по изображению моментального снимка, и в любом случае он будет связан URL-адресом с исходной веб-страницей.

Есть некоторые временные проблемы. Между моментом загрузки веб-страницы и моментом, когда пользователь нажимает на запись результатов поиска, чтобы просмотреть страницу, содержимое страницы могло измениться. Если оператор веб-сайта обновил или изменил макет этого веб-сайта с момента его обработки и обработки программным обеспечением для моментальных снимков (веб-агент A и веб-агент B), возможно, визуальный аспект, видимый через браузер пользователя, больше не совпадает с снимок изображения в результатах поиска. Тем не менее, снимок обычно показывает наиболее согласованное визуальное представление текущего содержимого веб-страницы.

Многочисленные алгоритмы были протестированы для создания идеального снимка из необработанных данных изображения (фактически для преобразования растрового изображения в памяти дисплея компьютера в файл GIF или JPG для хранения на диске компьютера поисковой машины). Для производительности системы крайне важно получить высокое качество изображения и небольшой размер файла. Однако фактом информатики является то, что эти две цели противоречат друг другу. При нормальных обстоятельствах вы можете иметь одно или другое, но не оба. Чем выше качество изображения, тем больше размер файла и, следовательно, тем дольше пользователь поисковой системы должен ждать загрузки снимка. С другой стороны, создание небольшого файла с меньшим количеством данных приведет к более быстрой загрузке для пользователя, но также приведет к низкому, неприемлемому качеству изображения, так как оно относится к снимку. Не все алгоритмы запрограммированы одинаково, и фактически некоторые из них превосходят другие.

Алгоритмы, необходимые для управления изменением размера, качеством изображения и сжатием, управляются программно для создания результирующих графических снимков. Чтобы обеспечить постоянное, бесконечное сканирование и графическое отображение веб-сайтов в Интернете, необходимо автоматизировать все функции, включая функции, имеющиеся в коммерческом программном обеспечении, чтобы они могли выполняться без вмешательства человека. Веб-агент B после завершения рендеринга веб-страницы программно управляет вышеупомянутыми алгоритмами и впоследствии обеспечивает надлежащее хранение полученного графического снимка на диск. Кроме того, веб-агент B выполняет тест, чтобы определить, является ли графический снимок более высокого качества в формате GIF или JPG. Следует отметить, что новые алгоритмы или другие существующие алгоритмы могут быть работоспособными и могут быть предпочтительными в других рабочих ситуациях.

Очевидно, что индивидуальное изменение размера, повышение резкости, сжатие и преобразование каждого снимка экрана с растровым изображением для получения желаемого репрезентативного снимка будет непозволительным. Способ, которым автоматизация и скорость выполнения этого процесса гарантированы. Элементом системы программного обеспечения моментальных снимков является программное управление программным обеспечением для выполнения этих действий, например, путем манипулирования подпрограммами из коммерческого программного обеспечения. Это может быть достигнуто с помощью программирования на C ++ для доступа к определенным файлам и процессам, которые обычно рассматриваются как внутренние для операционной системы компьютера. В частности, области памяти, содержащие растровое изображение, предназначенное для отображения в браузере, сгенерированное операционной системой (например, браузер, драйверы дисплея и т. д.), Совместно кооперируются и используются в качестве исходного файла для создания сжатого файла графического изображения в эффективном формате для хранения и передачи данных. В частности, преобразование растрового изображения в GIF или растровое изображение в JPG выполняется для содержимого буфера отображения, хранящегося в RAM. Какое именно преобразование определяется веб-агентом Б.

По завершении обработки исходного снимка экрана растрового изображения в моментальный снимок все файлы необработанных данных, используемые для визуализации захваченного изображения, удаляются, чтобы предотвратить переполнение хранилища данных. Таким образом, исходный HTML-исходный код может быть удален вместе с графическими файлами, адресованными в исходном коде, и загружен для включения в рендеринг, оставляя в хранилище только представление веб-сайта в базе данных по его URL-адресу, его текстовую индексацию и / или категоризация и окончательный графический снимок в файле изображения с перекрестными ссылками на сохраненный адрес. Размер файла графического снимка в битах приблизительно равен V200 от размера исходных данных. Благодаря автоматическому и постоянному удалению необработанных файлов из хранилища данных после обработки необходимые данные для поиска и составления отчетов с отображаемым изображением остаются доступными (хотя и с небольшим изображением), а требования к емкости хранилища остаются управляемыми.

Популярная поисковая система или портал веб-сайта могут получать многочисленные запросы от сервера в день. Начальная страница поисковой системы может иметь множество включенных текстовых, графических и интерактивных элементов, каждый элемент требует запроса связи для передачи файла данных. Лучшие поисковые системы посещают миллионы пользователей каждый день, и каждый поиск может генерировать многочисленные «хиты». Некоторые из поисковых порталов персонализируют презентацию для пользователей. Если поисковую систему посещают миллионы пользователей в день, она должна обслуживать несколько миллионов операций и передач данных. Согласно настоящему изобретению поисковая система может сообщать улучшенную информацию без соответствующих служебных данных.

Посетители поисковых систем очень нетерпеливы, и тесты показывают, что они не готовы очень долго ждать результатов. Изобретение ускоряет процесс поиска и составления отчетов о поиске, одновременно улучшая содержание результатов, и побуждает пользователей оставаться лояльными к их предпочтительной поисковой системе.

Обычные поисковые системы сообщают о результатах в формате, который помимо рекламы и предустановленной информации ограничивается текстом и текст отформатирован как ссылки на URL-адреса страниц в списке совпадений. Эта текстовая форма может быть сообщена в очень маленьком размере файла по сравнению с количеством зарегистрированных обращений, тем самым ограничивая нагрузку на сервер и уменьшая время загрузки через Интернет. Если бы браузер был настроен на попытку загрузки и визуализации снимков во время получения и отображения отчета о поиске, это привело бы к серьезным техническим трудностям и коммуникационной нагрузке.

В соответствии с дополнительным аспектом настоящего изобретения, функция визуализации моментального снимка предпочтительно включена и отключена с помощью пользовательской опции, которая может быть точкой, в которой пользователь персонализирует свой доступ к веб-порталу, содержащему поисковую систему по изобретению. Для этой цели пользователю может быть назначен код, который сохраняется в файле cookie, который отправляется или становится доступным порталу, или файл cookie, содержащий битовые флаги, в которых пользователь может устанавливать и отменять параметры, такие как создание отчетов о снимках.

Еще одним аспектом изобретения является использование системы, содержащей множество оптимизированных «серверов моментальных снимков». Серверы моментальных снимков обращаются к графическим снимкам и доставляют их из хранилища по сетевому адресу пользователя, которому сообщается о поиске. Серверы моментальных снимков могут осуществлять передачу пакетных данных, обслуживать запросы на повторную отправку и т. д.. Серверы моментальных снимков устраняют издержки, связанные с отчетами о графических файлах, из процессов поиска и, таким образом, обеспечивают максимально быстрое выполнение отчетов о поиске. Процесс поиска передает имена графических файлов и сетевой адрес пользователя на серверы моментальных снимков. Серверы моментальных снимков передают графические файлы моментальных снимков, соответствующие каждому отчету о поиске, вскоре после текста отчета о поиске.

 

В предпочтительном варианте осуществления серверы моментальных снимков используют кэш ОЗУ для хранения некоторых или всех изображений моментальных снимков, которые должны сообщаться пользователям. Это дополнительно увеличивает скорость создания отчетов, поскольку нет необходимости ожидать адресации и загрузки файлов снимков изображений с системного жесткого диска, и жесткий диск не становится ненужным узким местом. После запуска системы библиотека моментальных снимков быстрого доступа может быть скопирована с жесткого диска в кэш-память ОЗУ. Кэшированные файлы могут быть всеми графическими файлами моментальных снимков или только теми, которые найдены после опыта, к которым чаще всего обращаются. Серверы моментальных снимков предпочтительно совместно расшарены или используют большой кэш, например, по меньшей мере 1 гигабайт и предпочтительно 10 гигабайт или более.

Для определения частоты адресации серверы моментальных снимков предпочтительно содержат программу или процесс, который считает или вычисляет два миллиона наиболее запрашиваемых моментальных снимков. Это может обновляться еженедельно. Хотя в быстром доступе к базе данных поисковой системы может быть сохранено любое количество снимков, заранее определенное число наиболее востребованных, таких как два миллиона, хранятся непосредственно в кеше памяти (следовательно, размер кеша составляет 10 гигабайт, или приблизительно 5 КБайт на изображение). Состояние заданной страницы как заданного числа (например, двух миллионов), которое чаще всего запрашивается или, по крайней мере, чаще всего сообщается в результатах поиска, может быть указано в графических результатах, например, путем добавления кадра к снимку, который сообщается путем передачи дополнительного кадра изображения.

В предпочтительном варианте осуществления текстовая часть результатов поиска всегда отправляется и появляется первой, перед моментальными снимками, соответствующими этим результатам. В результате, независимо от того, включил ли пользователь возможность снимков «ВКЛ» или «ВЫКЛ», текстовая часть появляется первой. Если пользователь желает этого, он может прервать передачу результатов на основе просмотра первоначально полученной части. Это достигается путем программирования в системе сервера моментальных снимков, которая ставит в очередь текстовую часть результатов поиска, которая должна быть «выпущена» или передана первой, предпочтительно даже до адресации (или, возможно, даже проверяя наличие на соответствующих снимках.

Возможен ряд добавленных вариантов и дополнительных вариантов осуществления, которые станут очевидными для специалистов в данной области техники с учетом этого раскрытия. Изобретение не предназначено как ограниченное точными компоновками, раскрытыми в качестве примеров. Соответственно, следует сделать ссылку на прилагаемую формулу для оценки объема заявленных исключительных прав.

Я утверждаю:

Утверждение № 1

Способ обработки файлов данных, хранящихся по распределенным адресам в сети обработки данных, по меньшей мере, некоторые из файлов данных имеют текстовое и графическое содержимое, причем способ содержит:

  • анализируют, по меньшей мере, подмножество файлов данных, чтобы создать базу данных информации, характеризующей аспекты файлов данных, которые имеют тенденцию отличать файлы данных друг от друга, и осуществлять перекрестную ссылку на указанную информацию по адресам файлов данных;
  • генерируют изображение по меньшей мере части подмножества файлов данных и сохраняют графический файл упомянутого изображения способом, перекрестно ссылающимся на адреса файлов данных, посредством чего графический файл представляет изображение файлов данных за один раз поколения;
  • прием поисковых запросов и применение поисковых запросов к базе данных для выбора списка совпадений из файлов данных;
    сообщение списка совпадений в отчете о поиске, включающем адреса каждого из выбранных файлов данных и изображение, соответствующее файлам данных в списке совпадений, в соответствующее время генерации.

Утверждение № 2

Метод в утверждении №1, в котором файлы данных содержат текст на языке гипертекстовой разметки и файлы связанных графических форматов, и в котором указанный анализ включает в себя, по меньшей мере, одно из индексации текста и просмотра, по меньшей мере, части файлов данных для назначения произвольной категоризации.

Утверждение № 3

Метод в утверждении 2, в котором файлы данных содержат текст на языке гипертекстовой разметки и файлы связанных графических форматов в одной из интрасети и Всемирной паутины, и в котором упомянутое генерирование содержит отображение изображения, соответствующего файлам данных, в соответствии с заранее определенной конфигурацией отображения. определение выбора по умолчанию, по крайней мере, одного из размера отображения в пикселях, типа шрифта, цветовой палитры, цветового разрешения и использования цветов.

Утверждение № 4

Метод в утверждении 2, в котором упомянутый анализ и упомянутое генерирование выполняются с использованием по меньшей мере двух процессов, причем один из упомянутых процессов собирает текст на языке гипертекстовой разметки и файлы связанных графических форматов, а другой из упомянутых процессов визуализирует графические файлы в виде представления соответствующих им. указанные файлы данных.

Утверждение № 5

Метод в утверждении 4, содержит большее количество упомянутых процессов, собирающих файлы, чем количество упомянутых процессов, визуализирующих представление.

Утверждение № 6

Метод в утверждении 4, включает сохранение в буфере каждого из файлов, собранных упомянутыми процессами, собирающих файлы, постановку в очередь процесса генерации изображения и удаление файлов в буфере после генерации изображения.

Утверждение № 7

Метод утверждения 4, содержащий управление упомянутым процессом, визуализирующим файл презентации с использованием, по меньшей мере, части средства отображения компьютера для создания битовой карты, и преобразование битовой карты в файл графического формата.

Утверждение № 8

Метод утверждения 4, содержащий управление упомянутым процессом, визуализирующим файл презентации путем уменьшения размера отображения битовой карты и преобразования битовой карты в файл графического формата.

Утверждение № 9

Метод утверждения 2, в котором упомянутое сообщение о списке совпадений содержит составление страницы отчета с гипертекстом, содержащей выбираемые ссылки для адресации соответствующих файлов указанных данных, и передачу страницы отчета с гипертекстом пользователю, отправляющему запрос, и при этом страница отчета дополнительно включает в себя: ссылка на изображение, обращающаяся к графическому файлу по крайней мере для части попаданий.

Утверждение № 10

Метод утверждения 1, дополнительно содержащий этап, на котором отбирают, по меньшей мере, один переменный аспект файлов данных, причем указанный аспект содержит, по меньшей мере, один из признака изменения времени, пользовательского интерактивного признака и невизуального мультимедийного признака.

Утверждение № 11

Механизм поиска в сети для управления выбором пользователем информации, содержащейся в файлах данных, хранящихся по адресам распределенной сети в глобальной сети обработки информации, в которой распределенные пользователи имеют контроль над связанными файлами данных, доступными для других пользователей, причем каждый из упомянутых файлов данных имеет по меньшей мере некоторый связанный текст и каждый из файлов данных имеет по меньшей мере один режим графического представления, содержащий:

  • сканер, имеющий, по меньшей мере, один процессор, выполненный с возможностью адресации и загрузки последовательных файлов данных, содержащих, по меньшей мере, поднабор упомянутых файлов данных, сохраненных по упомянутым распределенным сетевым адресам, причем сканер выполнен с возможностью создавать и хранить базу данных информации, характеризующей аспекты файлов данных, которые имеют тенденцию отличать файлы данных друг от друга, перекрестно ссылаясь на адреса файлов данных; а также,
  • при этом сканер дополнительно выполнен с возможностью создания файлов графических изображений, представляющих, по меньшей мере, некоторые из файлов данных, причем файлы графических изображений каждый соответствует содержимому соответствующих упомянутых файлов данных в определенный момент времени, и при этом сканер выполнен с возможностью сохранения графического изображения файл для перекрестной ссылки на файл графического изображения с файлами данных в базе данных.

Утверждение № 12

Метод в пункте 11, дополнительно содержащая запрограммированные процессы, работающие для приема поисковых запросов от пользователей сети, для применения поисковых запросов к базе данных для выбора списка совпадений из файлов данных и для сообщения списка совпадений в отчете о поиске, включающем в себя: адреса каждого из выбранных файлов данных и изображения, соответствующего файлам данных в списке совпадений в соответствующее время генерации.

Утверждение № 13

Механизм сетевого поиска в пункте 11, в котором файлы данных содержат текст на языке гипертекстовой разметки и файлы связанных графических форматов, и при этом упомянутый анализ включает в себя, по меньшей мере, одно из следующего: индексирование текста для хранения текстового индекса, перекрестно ссылающегося на сетевые адреса файлов данных. ; и просмотр, по меньшей мере, части файлов данных для назначения произвольной категоризации и для хранения перекрестной категоризации, связанной с сетевыми адресами файлов данных.

Утверждение № 14

Механизм сетевого поиска по п.11, в котором сканер выполняет, по меньшей мере, два дискретных процесса для сбора файлов данных и связанных с ними файлов и для создания файлов графических изображений.

Утверждение № 15

Механизм сетевого поиска пукта 14, в котором дискретные процессы работают вместе, по меньшей мере, на одном процессоре, и где процессы для сбора данных являются более многочисленными, чем, по меньшей мере, один указанный процесс для создания файлов графических изображений.

Утверждение № 16

Механизм сетевого поиска по п.15, в котором процесс создания файла графического изображения воспроизводит изображение файлов данных из загруженных копий текста на языке гипертекстовой разметки и связанных файлов графического формата и преобразует результирующий файл изображения дисплея в графический формат файла.

Утверждение № 17

Механизм сетевого поиска по п.16, в котором процесс создания файла графического изображения отображает изображение файлов данных в соответствии с конфигурацией, выбранной в качестве конфигурации по умолчанию, по меньшей мере, с одним из использования изменяющихся визуальных признаков, представления интерактивного пользователя. функции, представление невизуальных медиа, разрешение пикселей на экране, цветовая палитра, цветовое разрешение и использование цветов.

Утверждение № 18

Механизм сетевого поиска по п.17, дополнительно содержащий запрограммированный процесс для создания файла графического изображения, который использует битовую карту отображения из процессора, запрограммированного для представления файлов данных, и преобразует битовую карту в файл сжатого графического формата, хранящийся в поисковый движок.

Утверждение № 19

Усовершенствованная система поиска в Интернете для управления поиском пользователей и выбора веб-страниц, хранящихся в распределенных системах, связанных по сетевым адресам с Интернетом, причем поисковая система имеет связанный веб-сканер, способный адресовать и загружать последовательные веб-страницы, а также индексировать текстовые данные, связанные с упомянутые последовательные веб-страницы для получения информации о параметрах, которая отличает по меньшей мере группы веб-страниц друг от друга, сканер, хранящий информацию о параметрах и связанные адреса веб-страниц, и поисковую систему, работающую в соответствии с представленными пользователем критериями поиска для осуществлять поиск информации о параметрах и сообщать, по меньшей мере, соответствующие адреса веб-страниц, которые удовлетворяли критериям поиска при индексации, причем улучшение включает в себя:

  • указанный сканер работает совместно с получением информации о параметрах, по меньшей мере, для поднабора упомянутых последовательных веб-страниц для генерации файла графического изображения, содержащего визуальное изображение, которое по существу идентично внешнему виду упомянутых веб-страниц, для отображения в размере, пропорционально меньшем чем упомянутые веб-страницы; а также
  • при этом поисковая машина работает, когда сообщает о связанных адресах веб-страниц, которые удовлетворяют критериям поиска, для включения представления файла графического изображения в указанном пропорционально меньшем размере.

Утверждение № 20

Усовершенствованная система поиска в Интернете по п.19, в которой сканер генерирует файл графического изображения с внешним видом веб-страниц в соответствии с заранее определенной конфигурацией отображения по умолчанию браузера.

Утверждение № 21

Улучшенная система поиска в Интернете по п.20, в которой заданная конфигурация отображения по умолчанию определяет выбор по меньшей мере одного из относительного размера и типа шрифта, цветов и пропорций пикселя.

Утверждение № 22

Усовершенствованная поисковая система по п.21, в которой поисковая система сообщает пользователю ассоциированные адреса веб-страниц, которые удовлетворяют критериям поиска, в форме гипертекстовых исходных данных, содержащих URL-ссылки на указанные веб-страницы, и в которых графическое изображение файл отображается вместе с URL-ссылкой на веб-страницу, представленную графическим файлом изображения.

Утверждение № 23

Усовершенствованная система поиска в Интернете по п.21, в которой файл графического изображения содержит сжатое пиксельное изображение растрового изображения, соответствующего указанным веб-страницам.

Утверждение № 24

Усовершенствованная система поиска в Интернете по п.22, в которой файл графического изображения передается в виде ссылки на изображение в исходных данных гипертекста на файл, сжатый по меньшей мере одним из MIME, Binhex и Base64.