Пошукова система


Пошукова система (пошуковик) - це комплексний програмний продукт, призначений для пошуку інформації в глобальній мережі (Internet). Сучасні пошукові системи мають ряд інтерфейсів для взаємодії з даними та розподілений ряд компонентів для виконання окремого набору операцій. Користувач пошукової системи взаємодіє в основному з web-інтерфейсом (сайтом) пошукової системи, де є спеціальна форма, в якій вводяться пошукові фрази. Результат пошуку виводиться користувачу, в основному, в той самий інтерфейс у вигляді посилань на сторінки різних сайтів, що містять шукану інформацію. Простіше кажучи, користувач запитує в пошуковика: "Де згадується інформація", а пошукова система відповідає: "Де саме, на яких сторінках".

Компоненти класичної пошукової системи

  • Spider (павук) - розподілена система збору інформації зі сторінок сайтів;
  • Crawler (збирач) - система виявлення посилань на зібраних сторінках для передачі їх новим павукам;
  • Analyser (аналізатор) - аналіз та збір даних зі сторінок (заголовки, опис, текст контенту, зображення, файли, тощо);
  • Indexer (індексатор) - система додавання зібраних даних в Індекс;
  • DB (бази даних) - розподілені цифрові сховища для збереження і обробки різних типів даних;
  • Search Engine (пошуковий рушій/двигун) - система з окремим інтерфейсом, яка здійснює пошук в Індексі;
  • Web-interface (сайт, або RESTful API) - показує користувачеві пошукову форму та іншу додаткову інформацію, приймає запит від користувача, передає його до Search Engine та інтерпретує результати, отримані від нього.
Окремо зазначимо, що в пошукових системах використовуються одразу кілька різних видів DB для роботи з різними видами даних. Сумарні об'єми децентралізованих сховищ (кластерів) найбільших пошукових систем світу сягають сотень петабайт!

З якими даними працюють пошукові системи?

Перш за все - це текст. Найпопулярніші пошукові системи починали з пошуку сторінок сайтів за вмістом їх заголовків, описів та(або) всього текстового вмісту сторінок. Текстові індексатори мають враховувати семантику мови, на якій написано текст сторінки та враховувати синонімічні ряди згідно визначеної мови, щоб пошук в Індексі давав максимально релевантні схожі результати, а не лише строгу фразову відповідність.

Також, пошукові системи вміють добре працювати з зображеннями і надають пошук по ним на основі альтернативного тексту чи заголовків в тегах на сторінці. Саме тому ці атрибути є важливими для пошукових систем. Більшість глобальних пошукових систем вміє знаходити аналогічні та схожі зображення на основі їх хеш-даних. А лише найпотужніші пошукові системи завдяки AI та ML можуть з високою точністю вгадувати що саме зображено на фото чи знаходити обличчя на них.

Більш складнішим є пошук по відео. Мається на увазі - покадровий пошук і розуміння про що йде мова у відео шляхом використання AI. Далеко не кожна пошукова система може похвалитись такими досягненнями.

В світі є пошукові системи, які, знову ж не без AI та ML, вміють аналізувати звуки та знаходити аудіо-файли за пошуковим запитом, чи коротким звуковим фрагментом.

Особливої уваги заслуговує додатковий інтерфейс пошукових систем, пов'язаний з розпізнаванням та синтезом мовлення. Багатьом користувачам зручно ввести пошуковий запит через мікрофон свого смартфону і отримати голосову відповідь, або класичні результати в пошуковій видачі.

Також, існують особливі пошуковики, які надають інформацію про наукові статті, публікації та іншу вузькоспеціалізовану інформацію.

Пошукова система - це концентрація інновацій

Пошуковики йдуть в ногу з часом. Вони використовують максимум найсучасніших технологій обробки і зберігання інформації, щоб їх користувачі знаходили максимально релевантну інформацію і максимально швидко. Кожна пошукова система намагається привабити цільову аудиторію своїми особливостями: всюдисущістю, дизайнерськими інтерфейсами, локалізаціями та регіональним спрямуванням, анонімністю, тощо.

Українська пошукова система

Ми намагаємось створити вітчизняну пошукову систему, використовуючи передовий досвід та сучасні технічні можливості. Все для того, щоб інформації про Україну та українців було якомога більше в Internet. То ж, шукайте українською та знаходьте українське: https://search.com.ua/