Пошукова система (ПС) – це набір алгоритмів, які дозволяють проводити пошук в Інтернеті. Характерна риса ПС — миттєве знаходження інформації з конкретної фрази чи певного слова. Завдяки процесу індексування вона здатна сканувати і витягувати дані з мільйонів документів. І все це за лічені мілісекунди.

Історія пошукових систем

Першою ПС прийнято вважати W3Catalog – вона з’явилася 1993 року. W3Catalog являв собою не класичну пошукову машину (ПМ), а скоріше звичайний каталог, що містить списки сайтів/адрес. Повноцінна ПМ в інтернеті з’явилася 1994 року: і це була зовсім не Google, а Aliweb. W3Catalog доступний і у 2022 році. Приклад сайтів — у розділі Media and Entertainment

W3Catalog доступний і у 2022 році. Приклад сайтів — у розділі Media and Entertainment

Aliweb першою у світі почала обробляти контент сайтів : сканувати, індексувати його, переміщуючи у власний індекс. Так виглядав Aliweb у 1995 році:Так виглядав Aliweb у 1995 році

Але навіть Aliweb ще не було краулерів у звичному для нас розумінні, тобто для автоматичного сканування всіх нових сторінок. Інформацію про нові сайти додавали самі вебмайстри : вони вказували назви та ключові слова для кожної сторінки в загальну базу даних (БД), яку пізніше сканував Aliweb.

За кілька десятиліть було створено понад тисячу різноманітних ПС. Лише десятки з них зуміли дійти до наших днів та залишаються працездатними сьогодні. Найпопулярнішою пошуковою системою в Україні вже довгі роки залишається Google.

Як влаштовані пошукові системи

Якщо проводити аналогію з нецифровим світом, ПС — це картотека в бібліотеці, де кожна книга має свій унікальний номер. За цим номером її можна знайти у каталозі.

Спрощений алгоритм роботи такий:

  1. Користувач вказує пошуковий запит.
  2. ПС аналізує весь раніше зібраний індекс та знаходить документи, які йому максимально релевантні.
  3. Найбільш релевантні документи сортуються: від найближчих пошукового запиту до найменш.
  4. Результати відображаються на сторінці пошукової видачі .

Що таке краулер пошукової системи

Краулер – це спеціальна програма, яка використовується ПС для переходу по URL , які він виявляє на веб-сторінці. Потім краулер позначає такі посилання спеціальним чином.

Пошукова система: як працює і що потрібно знати - 2-
Завдяки знайденим URL пошуковий робот знаходить все нові та нові сторінки (про які ПС не знала раніше)

Послідовність роботи ПС: етапи обробки документа

Пошукова система складається з трьох компонентів:

    • Краулер (про нього написано у розділі вище.
    • Програма-веб-індексатор . Потрібно для аналізу контенту. Індексатор ділить веб-сторінку на фрагменти, кожна ПС задіяє власні алгоритми (наприклад, мовні: семантичні, орфографічні, морфологічні). Після такого поділу відбувається аналіз контенту сторінки.

Важливий момент: веб-індексатор аналізує всі елементи сторінки, включаючи контент окремо.

  • Пошуковий модуль (алгоритми та відповідна програма).

Далі поговоримо, як індексування документів допомагає функціонувати пошуковим системам.

Навіщо пошуковій системі потрібен індекс

Індекс за своєю суттю – це просто база даних, необхідна для прискорення пошукового процесу: отримання даних про документи, обробки та подання результатів пошуку користувачеві. Будь-які дані з індексної БД «виймаються» за мілісекунди, адже в індексі ПС вже зберігається інформація про всі сторінки в інтернеті.

Індексація – вилучення важливих для ПС даних та подальша їх конвертація у зрозумілі пошуковій системі формати

Кеш пошукової системи потрібен для прискорення екстракції даних (за аналогією, наприклад, з розархівуванням архіву WinRar) з раніше відвіданих веб-сторінок.

ПС зберігають індекс не так: вони звертаються до нього надалі, під час роботи із запитами. Так що зберігати цю базу даних десь у будь-якому випадку потрібно.

Як пошукова система Google зберігає індекс на своїй стороні

Google зберігає документи фрагментарно або повністю на серверах. Саме зберігання відбувається в кеші (це окрема пам’ять, що має високу швидкість доступу). Інші пошукові системи зберігають лише певні фрази чи кожне слово та пов’язують його з документом надалі.

Найважливішими факторами є сумарна релевантність ключової фрази та підібраного документа, опрацьованість індексу та особливості морфологічних параметрів мови користувача.

Що потрібно знати про пошукові системи вебмайстру та користувачу

Пошукова система – це складний набір алгоритмів, які працюють усередині єдиної комп’ютерної програми. Щоб нова сторінка сайту відображалася в результатах пошуку, вона має потрапити до індексу. Краулери ПС автоматично обходять усі сторінки в інтернеті, додаючи їх у спеціальну базу даних. Обробляється також вміст сторінок.

Пошукова видача залежить від сумарної релевантності документа стосовно запиту. У кожної ПС свої методи визначення релевантності і докладно про них дізнатися не можна. Відомо лише про загальні принципи оцінки:

  1. Семантичний аналіз слів у запиті, включаючи слова у пошукових фразах разом та окремо.
  2. Ідентифікація типу запиту.
  3. Інтерпретація орфографічних помилок.
  4. Визначення синонімічності запиту.
  5. Зіставлення пошукової фрази з особливостями мовної моделі.
  6. Визначення актуальності інформації.
  7. Визначення регіональності запиту.