Пошукова система (ПС) – це набір алгоритмів, які дозволяють проводити пошук в Інтернеті. Характерна риса ПС — миттєве знаходження інформації з конкретної фрази чи певного слова. Завдяки процесу індексування вона здатна сканувати і витягувати дані з мільйонів документів. І все це за лічені мілісекунди.
Історія пошукових систем
Першою ПС прийнято вважати W3Catalog – вона з’явилася 1993 року. W3Catalog являв собою не класичну пошукову машину (ПМ), а скоріше звичайний каталог, що містить списки сайтів/адрес. Повноцінна ПМ в інтернеті з’явилася 1994 року: і це була зовсім не Google, а Aliweb.
Aliweb першою у світі почала обробляти контент сайтів : сканувати, індексувати його, переміщуючи у власний індекс. Так виглядав Aliweb у 1995 році:
Але навіть Aliweb ще не було краулерів у звичному для нас розумінні, тобто для автоматичного сканування всіх нових сторінок. Інформацію про нові сайти додавали самі вебмайстри : вони вказували назви та ключові слова для кожної сторінки в загальну базу даних (БД), яку пізніше сканував Aliweb.
За кілька десятиліть було створено понад тисячу різноманітних ПС. Лише десятки з них зуміли дійти до наших днів та залишаються працездатними сьогодні. Найпопулярнішою пошуковою системою в Україні вже довгі роки залишається Google.
Як влаштовані пошукові системи
Якщо проводити аналогію з нецифровим світом, ПС — це картотека в бібліотеці, де кожна книга має свій унікальний номер. За цим номером її можна знайти у каталозі.
Спрощений алгоритм роботи такий:
- Користувач вказує пошуковий запит.
- ПС аналізує весь раніше зібраний індекс та знаходить документи, які йому максимально релевантні.
- Найбільш релевантні документи сортуються: від найближчих пошукового запиту до найменш.
- Результати відображаються на сторінці пошукової видачі .
Що таке краулер пошукової системи
Краулер – це спеціальна програма, яка використовується ПС для переходу по URL , які він виявляє на веб-сторінці. Потім краулер позначає такі посилання спеціальним чином.

Завдяки знайденим URL пошуковий робот знаходить все нові та нові сторінки (про які ПС не знала раніше)
Послідовність роботи ПС: етапи обробки документа
Пошукова система складається з трьох компонентів:
-
- Краулер (про нього написано у розділі вище.
- Програма-веб-індексатор . Потрібно для аналізу контенту. Індексатор ділить веб-сторінку на фрагменти, кожна ПС задіяє власні алгоритми (наприклад, мовні: семантичні, орфографічні, морфологічні). Після такого поділу відбувається аналіз контенту сторінки.
Важливий момент: веб-індексатор аналізує всі елементи сторінки, включаючи контент окремо.
- Пошуковий модуль (алгоритми та відповідна програма).
Далі поговоримо, як індексування документів допомагає функціонувати пошуковим системам.
Навіщо пошуковій системі потрібен індекс
Індекс за своєю суттю – це просто база даних, необхідна для прискорення пошукового процесу: отримання даних про документи, обробки та подання результатів пошуку користувачеві. Будь-які дані з індексної БД «виймаються» за мілісекунди, адже в індексі ПС вже зберігається інформація про всі сторінки в інтернеті.
Індексація – вилучення важливих для ПС даних та подальша їх конвертація у зрозумілі пошуковій системі формати
Кеш пошукової системи потрібен для прискорення екстракції даних (за аналогією, наприклад, з розархівуванням архіву WinRar) з раніше відвіданих веб-сторінок.
ПС зберігають індекс не так: вони звертаються до нього надалі, під час роботи із запитами. Так що зберігати цю базу даних десь у будь-якому випадку потрібно.
Як пошукова система Google зберігає індекс на своїй стороні
Google зберігає документи фрагментарно або повністю на серверах. Саме зберігання відбувається в кеші (це окрема пам’ять, що має високу швидкість доступу). Інші пошукові системи зберігають лише певні фрази чи кожне слово та пов’язують його з документом надалі.
Найважливішими факторами є сумарна релевантність ключової фрази та підібраного документа, опрацьованість індексу та особливості морфологічних параметрів мови користувача.
Що потрібно знати про пошукові системи вебмайстру та користувачу
Пошукова система – це складний набір алгоритмів, які працюють усередині єдиної комп’ютерної програми. Щоб нова сторінка сайту відображалася в результатах пошуку, вона має потрапити до індексу. Краулери ПС автоматично обходять усі сторінки в інтернеті, додаючи їх у спеціальну базу даних. Обробляється також вміст сторінок.
Пошукова видача залежить від сумарної релевантності документа стосовно запиту. У кожної ПС свої методи визначення релевантності і докладно про них дізнатися не можна. Відомо лише про загальні принципи оцінки:
- Семантичний аналіз слів у запиті, включаючи слова у пошукових фразах разом та окремо.
- Ідентифікація типу запиту.
- Інтерпретація орфографічних помилок.
- Визначення синонімічності запиту.
- Зіставлення пошукової фрази з особливостями мовної моделі.
- Визначення актуальності інформації.
- Визначення регіональності запиту.