Мрежови приложения

© Христо Тужаров, 2012

 

Търсещи системи

 

Home | Съдържание | Облачен компютинг | Консултации | Асеневци

Търсещи системи

 

История на търсещите системи

 

Структура на търсеща система

 

Google

 

 

Начини да търсене в компютърните мрежи

Съществуват три обобщени класа търсене в мрежите:

 

            Информационно търсене

Осъществява се от потребители, които действително търсят необходимата им информация в мрежата. Те формулират запитване във  вид на термин от съответната предметна област, например „комуникационна мрежа”.  Този начин на търсене е много близък до класическото информационно търсене.

 

            Навигационно търсене

Използва се когато потребителя желае да попадне на определен  Web сайт. При това той формулира търсене, съответстващо на името на организацията или на човека, например „Христо Тужаров”. Този начин на търсене съставлява около 20% от всички запитвания.

 

             Делово търсене

Използва се, когато потребителят иска да направи нещо с помощта на мрежата, например да закупят някаква стока от магазин или за обявят нещо.

 

Определение за търсеща система (за по кратко търсачка)

 

Търсачка (Web search engine) е система, предназначена да намира информация, съхранена в компютърна система или мрежа.  В тази книга под  търсачка ще се разбира Web  търсачка която търси информация в Интернет.

 

            Действие – потребителят прави прави запитване за информация, отговаряща на определен критерий (обикновено такъв, който съдържа определени думи и фрази). Като резултат се получават списък от URL адреси, които отговарят, пълно или частично, на този критерий.

 

Търсачките не са хора. За да се справят с милионите Web страници съставляващи World Wide Web, те почти напълно са автоматизирали своя процес на работа.

 

За разлика от Web директориите, които се поддържат от хора редактори, търсачките оперират чрез използване на конкретни алгоритми.

 

Изпълнявани задачи от търсачката

 

Изпълнявани задачи от търсачката

 

           Сканиране

Процес, по време на който търсачката открива нови и обновени страници за добавяне в индекса.

 

Програмата, изпълняваща сканирането използва алгоритъм, който указва кои страници трябва да се сканират, колко често , както и какво е количеството страници избрано за всеки сайт.

 

Процесът на сканиране започва от списък с URL-адреси на  веб-страници, създаден на база предходни сеанси на сканиране. Списъкът се допълва с данни от файловете Sitemap, предоставени от веб-администраторите.

 

Преглеждайки всеки от тези сайтове търсачката намира на всяка страница хипервръзки и ги добавя в списъка със страници подлежащи на сканиране.

 

Търсачката отбелязва всички нови и обновени сайтове, както и неработещите хипервръзки, като получената информация се използва за обновяване на индекса.

 

            Индексиране

Търсачката обработва всяка сканирана страница, за да състави пълен индекс на всички намерени думи, както и да отбележи къде те се намират на страницата.

 

Търсачката обработва данните от основните тагове и атрибути, например тага Title и атрибута ALT.

 

Търсачката е способен да обработва много, но не всички типове съдържание. На обработка не се поддават някои мултимедийни файлове и динамично създавани страници.

 

           Показване на резултата

Когато потребителя въвежда търсещото запитване, търсачката намира в индекса подходящите страници и извежда най релевантните резултати във вид на списък с включени имената на стряаниците (Title) и краткото им съдържание.

 

Релевантността се определя на база различни фактори , които са различни за различните търсачки.