Поисковая система


Поисковая система (поисковик) - это комплексный программный продукт, предназначенный для поиска информации в глобальной сети (Internet). Современные поисковые системы имеют ряд интерфейсов для взаимодействия с данными и распределен ряд компонентов для выполнения отдельного набора операций. Пользователь поисковой системы взаимодействует в основном с web-интерфейсом (сайтом) поисковой системы, где есть специальная форма, в которой вводятся поисковые фразы. Результат поиска выводится пользователю, в основном, в тот же интерфейс в виде ссылок на страницы различных сайтов, содержащих искомую информацию. Проще говоря, пользователь спрашивает у поисковика: "Где упоминается информация", а поисковая система отвечает: "Где именно, на каких страницах".

Компоненты классической поисковой системы

  • Spider (паук) - распределенная система сбора информации со страниц сайтов;
  • Crawler (собиратель) - система обнаружения ссылок на собранных страницах для передачи их новым паукам;
  • Analyser (анализатор) - анализ и сбор данных со страниц (заголовки, описание, текст контента, изображения, файлы и т.д.);
  • Indexer (индексатор) - система добавления собранных данных в Индекс;
  • DB (базы данных) - распределены цифровые хранилища для хранения и обработки различных типов данных;
  • Search Engine (поисковый движок / двигатель) - система с отдельным интерфейсом, которая осуществляет поиск в Индексе;
  • Web-interface (сайт, или RESTful API) - показывает пользователю поисковую форму и другую дополнительную информацию, принимает запрос от пользователя, передает его в Search Engine и интерпретирует результаты, полученные от него.
Отдельно отметим, что в поисковых системах используются сразу несколько различных видов DB для работы с различными видами данных. Суммарные объемы децентрализованных хранилищ (кластеров) крупнейших поисковых систем мира достигают сотен петабайт!

С какими данными работают поисковые системы?

Прежде всего - это текст. Самые популярные поисковые системы начинали с поиска страниц сайтов по содержанию их заголовков, описаний и (или) всего текстового содержимого страниц. Текстовые индексаторы должны учитывать семантику языка, на котором написан текст страницы и учитывать синонимичные ряды согласно определенной языка, чтобы поиск в Индексе давал максимально релевантные схожие результаты, а не только строгую фразовую соответствие.

Также, поисковые системы умеют хорошо работать с изображениями и предоставляют поиск по ним на основе альтернативного текста или заголовков в тегах на странице. Именно поэтому эти атрибуты являются важными для поисковых систем. Большинство глобальных поисковых систем умеет находить аналогичные и похожие изображения на основе их хеш-данных. А только самые мощные поисковые системы благодаря AI и ML могут с высокой точностью угадывать что именно изображено на фото или находить лица на них.

Более сложным является поиск по видео. Имеется в виду - покадровый поиск и понимание о чем идет речь в видео путем использования AI. Далеко не каждая поисковая система может похвастаться такими достижениями.

В мире есть поисковые системы, которые, опять же не без AI и ML, умеют анализировать звуки и находить аудио-файлы с поисковым запросом, коротким звуковым фрагментом.

Особого внимания заслуживает дополнительный интерфейс поисковых систем, связанный с распознаванием и синтезом речи. Многим пользователям удобно ввести поисковый запрос через микрофон своего смартфона и получить голосовую ответ, или классические результаты в поисковой выдаче.

Также, существуют особые поисковики, которые предоставляют информацию о научных статьи, публикации и другую узкоспециализированную информацию.

Поисковая система - это концентрация инноваций

Поисковики идут в ногу со временем. Они используют максимум современных технологий обработки и хранения информации, чтобы их пользователи находили максимально релевантную информацию и максимально быстро. Каждая поисковая система пытается привлечь целевую аудиторию своими особенностями: вездесущностью, дизайнерскими интерфейсами, локализациями и региональным направлениям, анонимностью и тому подобное.

Украинская поисковая система

Мы стараемся создать украинскую поисковую систему, используя передовой опыт и современные технические возможности. Все для того, чтобы информации об Украине и украинцах было как можно больше в Internet. Так что, ищите на украинском и находите украинское: https://search.com.ua/