Українська пошукова система search.com.ua


Даний проект з'явився на теренах вітчизняного сегменту Internet спочатку у вигляді експерименту. Та все ж, ми продовжили роботу над покращенням пошукових алгоритмів та розгорнули масштабовану систему збору інформації зі сторінок українських сайтів. Поки що, це піддомени зони .UA та .УКР. Далі, звісно ж, хотілось би проіндексувати інші популярні web-сайти в зонах .ORG та .COM, якими володіють громадяни України.

Та не все робиться одразу. В нас ще дуже багато роботи над покращенням індексації та пошуку. Вважаємо, що краще відточити індексацію на малому об'ємі даних і потім масштабувати успіх.

Якщо коротко про нас і наш проект

Ми - група ентузіастів-програмістів зі значним досвідом роботи з Big Data, з розробки високо-навантажених сайтів та зі збору різнопланових даних в Internet. Ми вирішили застосувати сучасні технології обробки та зберігання великих об'ємів текстових даних і спробувати проіндексувати "живі" сайти в українському сегменті. Забігаючи на перед, зазначимо, що ми не ставили за мету збереження абсолютно всіх сторінок та реалізацію повнотекстового пошуку по ним. Ми вирішили для початку обмежитись збиранням та індексацією ключових слів зі сторінок, так би мовити, "навчити" нашого пошукового робота розуміти про що йде мова на цих сторінках і на певних сайтах.

Ми виділили товари в окремий розділ пошуку

В ході наших експериментів ми дійшли до висновку: якщо на сайті розміщено понад 500 сторінок, то скоріш за все, повторювані однотипні дані будуть або товарами, або статтями новин. Якщо виділення новин в окремий розділ пошуку залишається в перспективних планах, то з товарами ми визначились одразу ще на початку створення проекту: окремому пошуку по товарам обов'язково бути. Поки що фільтр досить небагатий, оскільки ми опираємось лише на структуровані дані, що є на сторінках з товарами, проте вибірка та інтеграція даних "на льоту" видалась досить дружньою для користувача. В планах - опрацювання JSON-фідів товарів з сайтів всіх Internet-крамниць України, оскільки процес збору даних зі сторінок роботом більш складний і довготривалий, в порівнянні з розбором наперед підготованого файлу.

Ми не женемось за світовими лідерами пошуку

Ніхто не ставить за мету намагатись зробити пошук краще, ніж це вдалося іменитим і дуже заможним компаніям. Є окремі моменти, які хотілось би врахувати і дати українцям дійсно український пошук, ставлячи в ТОП-позицій саме вітчизняні сайти, вітчизняні товари, місцеві новини чи послуги співгромадян. Ми прагнемо зробити простий пошук за зрозумілими і прозорими правилами ранжування в пошуковій видачі. Ми хочемо зробити пошук без засилля реклами, чи посилань на заборонені сайти.

Прагнень і мрій багато, значно більше, ніж наших можливостей, та ми не здаємось!

В нас також буде реклама

Реклама вгорі та внизу пошукової видачі - чи не єдиний спосіб монетизації наших зусиль. Ще зарано говорити про ціни розміщення в рекламних місцях видачі. Слід ретельно дослідити пошуковий трафік, переходи за посиланнями та повернення до пошуку. Ще дуже багато роботи по нормалізації ранжування та упорядкуванню індексації. Та, однозначно, ціни мають бути демократичними і доступними, щоб українські власники сайтів могли рекламувати свої товари та послуги якомога доступніше. 

Простота - наш пріоритет

Ми не будемо давати голослівні обіцянки змінити Світ, чи подолати глобальні проблеми людства. Ми обіцяємо не ускладнювати життя розробників та власників сайтів, яким потрібні конверсії та якісний і відверто зрозумілий пошук. Ми працюємо над створенням максимально простого та зрозумілого інтерфейсу для обробки розміщених даних: додавання сайтів, додавання їх xml-карт чи окремих сторінок, аналіз сторінок і сайтів та ключових факторів їх ранжування. Не за горами базова аналітика про переходи та пошукові фрази з графіками та іншими цікавими речами.

Домен search.com.ua вже був пошуковою системою

Ми починали з домену в зоні .NET.UA, пізніше стали використовувати домен search.com.ua. Попередні власники домену також займались пошуковою системою. Довелось дізнатись про історію доменного імені та про діяльність їх дочірнього продукту Sova ще в далекому 2004 році.

Запевнимо одразу: ми не маємо жодного стосунку до попередніх власників даного доменного імені, чи до їх досвіду у вітчизняному пошуковику.

Ми почали з нуля, використали трохи сучасніші технології і масштабували пошукового робота на кілька (десятків) різних серверів.

Наші попередники оперували числом 70 тисяч сайтів ще в далекому 2004 році. З того часу збігло багато води, вітчизняний сегмент web-доменів значно виріс. Поки що, нам складно прогнозувати точну кількість "живих" web-сайтів, та сподіваємось подолати рубіж в 200 тис. сайтів і понад мільярд сторінок.

Сподіватись мрійники можуть багато, чи не так?

Поки що, ліміт в 1000 сторінок

Є наступна ідея: якщо Ваш сайт має понад 1000 різних сторінок, скоріш за все, у Вас є каталог товарів, або  безмежний розділ новин. Для обох випадків ми пропонуємо сформувати JSON-фіди на основі структурованих даних Schema.org та дати можливість нашому пошуковику забирати їх з певною періодичністю.

Звичайно ж, ми любимо структуровані дані та можемо зібрати інформацію про товари та новини звичайним пошуковим роботом, але ж час, витрачений на такий довготривалий збір та обробку інформації буде часом, коли ваші конкуренти вже продають свої товари, або показують свої новини першими.

Обмеження можна буде обійти в окремих випадках за спільною домовленістю, та все ж, для більшості власників сайтів ліміт в 1000 сторінок залишатиметься, поки ми не досягнемо необхідної апаратної потужності.


Для запитань, побажань та пропозицій: info@search.com.ua.