Информационни ресурси

© Христо Тужаров, 2012        

АРХИТЕКТУРА НА WEB-ПРОСТРАНСТВОТО

 

• Home • Съдържание • Консултации • Асеневци •

 

ИНТЕРНЕТ ИНФОРМАЦИОННИ  РЕСУРСИ

 

Търсене на информация в Интернет

 

7 стъпки за намиране информация в Интернет

АРХИТЕКТУРА НА WEB-ПРОСТРАНСТВОТО

ИНСТРУМЕНТИ ЗА ТЪРСЕНЕ В ИНТЕРНЕТ

СКРИТ ИЛИ НЕВИДИМ WEB

ИНДЕКСИРАНЕ НА ИНФОРМАЦИОННИ РЕСУРСИ

 

ОЦЕНКА НА ИНТЕРНЕТ РЕСУРСИ

Оценка  на  Web  сайт

Необходимост от изясняване на архитектурата Web

Разработка на архитектурата Web

През 2000 година компаниите AltaVista, IBM и Compaq, разработват математически модел на „карта” на Web пространството.

 

архитектурата Web

 

 

За разработка на модела са изследвани с помощта на търсачката AltaVista над 600 млн. Web-страници и 1,5 млрд. връзки, поместени в тези страници. Като резултат е определено, че топологията на Web-пространството съответства на модела „ папионка”  (Bow Tie), състоящ се от  следните компоненти:

 

  1. Централно ядро, или възел на папионката - съставлява Web-страници, взаимосвързани, така тясно, че следвайки хипервръзките на всяка от тях в крайна сметка можеш да попаднеш на на всяка от тях (27%);

  2. Начални Web-страници ( 22%), съдържащи хипервръзки, които водят към ядрото, но нямат обратна връзка от ядрото към тях.

  3. Крайни Web-страници (22%) -  до които може да се достигне с връзки от ядрото, но е невъзможно връщането назад;

  4. Изолирани Web-страници ( 22%) от централното ядро. Това са свързани с хипервръзки  страници от други категории или съединени страници не влизащи в ядрото;

  5. Изолирани острови Web-страници ( 7%), които не се пресичат с останалите ресурси на Интернет. Единствения начин да се стигне до тях е, ако е известен адресът им.

 

Характерни черти на модела на архитектурата Web

  • Топологията и характеристиките на модела се оказват еднакви за различни подмножества на web-пространството;

  • Алгоритмите използващи информацията за структурата на web-пространството ще работят и за отделни негови подмножества;

  • Топология Bow изяснява динамичния характер на мрежата и позволява да се изяснят някои особености в организацията на WWW.

  • Тази архитектура води до идеята за създаване на средства за „обратна навигация” в  мрежата. Такава технология би позволила да се намира нова информация на база  крайните страници на модела ( обикновено това са научни статии, реферати, и отчети за разработки).

Архитектура на Web и търсещите системи 

Търсачката  прави запитване към вътрешния си каталог (база данни) по ключова дума, която потребителят въвежда във вид на заявка, и извежда списък от връзки, аранжирани по релевантност.

 

Базата данни с индексирани страници се попълва от робот, който обхожда сървърите на мрежата по заложените в Web страниците хипервръзки и  частично от собственици на сайтове, които сами ги регистрират.

 

Търсещата система работи само с индексираните от нея Web страници, както е видно от фигурата по-долу.

 

Архитектура на Web и търсещите системи 

 

 

Проблеми на недостатъчна пълнота на търсенето

  • Ограничени вътрешни ресурси на търсачката;

  • Ограничена скорост на работа на търсачката;

В търсачката не се съдържа копие на изходния ресурс, а само  негова малка част – така наречен индексиран списък, или индекс, който е по компактен от текста на документа и позволява по-бързо да се отговаря на търсещите заявки.

 

Индексът има книжен аналог – конкорданс, т.е. речник в който по алфавитен ред са изброени думите използвани от конкретен писател, като са указани и връзките към тях, както и честотата на използването им в даденото произведение.

 

Очевидно е че този подход гарантира компактност и бързина на търсене.