• Home
  • /semantic search
  • /Семантичната мрежа – от идеята към технологиите
Семантичната мрежа – от идеята към технологиите

Семантичната мрежа – от идеята към технологиите

За човек е лесно да определи смисъла на понятието в зависимост от контекста. За компютърните алгоритми това не е толкова лека задача. Те трябва да анализират взаимоотношенията между двата термина, да приоритизират един от тях и да извлекат смисъл.

 

За малко повече от 20 години съществуване интернет се разви до състояние на “преливане”, колкото и парадоксално да звучи това. Главните причини, поради които се стигна до такъв етап от развитието на Мрежата са две:

  • Огромният ръст на генерираното съдържанието, следствие от популярността на мрежата  и сравнително ниската цена за публикуване;
  • Формата на представяне, която се фокусира главно върху представянето пред хората и само в редки случаи върху възможността за автоматична компютърна обработка, т.е. върху разбирането от страна на търсачките.

Обхождане и подреждане без разбиране

Да вземем за пример текущия лидер в търсенето Google. Компанията практически прави архив на всички страници, които обхожда и подрежда резултатите въз основа на вътрешно дефинирани критерии. Но за Google, така както и за останалите агрегатори на информация, основният проблем остава на дневен ред, а именно машините НЕ РАЗБИРАТ съдържанието.

Ако трябва да направя аналогия, бих дал пример с любимото ви куче. С много тренировки може да го научите да разгръща вестника ви на страницата, където е кръстословицата, но това в никакъв случай не означава, че ако го попитате коя е думата с четири букви, започваща с „К“ и завършваща на „Е“, кучето ще може да ви даде адекватен отговор.

Обемът на Web-пространството вече не позволява бързо и лесно актуализиране и извличане на информация (да не говорим за невъзможността за постигане на 100 процента покритие) и на второ място алгоритмично е почти невъзможно да се разграничи смисъла на появяващите се информационните съобщения.

От индексиране към разбиране

Следващият етап в развитието на интернет много учени свързват с концепцията за Семантична мрежа (Semantic Web), наричана още Web 3.0, в която с унифициране на представянето на данните да се даде възможност да се интегрират включително и обекти от реалния свят.

semantic-web

Проектът за Semantic Web е предложен от Тим ​​Бърнърс-Лий, един от основателите на World-Wide Web и директор на консорциума W3C (World Wide Web Consortium), на международната конференция XML-2000, проведена през 2000 година във Вашингтон.

Основната идея на този проект е да се организира такова представяне на информация в мрежата, което да позволи не само визуализация в потребителските браузъри, но също така ефективната им компютърна обработка. С помощта на тази радикална идея се предлага трансформация на традиционния интернет в система от ново, семантично ниво, РАЗБИРАЕМА и за компютри.

Автоматизираната обработка на информация в рамките на Semantic Web е базирана на анализа на семантичните връзки между обекти и понятия, които се съхраняват в мрежата с помощта на интегриране на различните видове информация в единна йерархична структура, в която на всеки семантичен елемент данни ще отговаря специален синтактичен блок (таг).

Организирането на тази йерархична структура довежда и до развитието на две направления в разбирането за семантичната мрежа: онтологичен  и XML подход.

Няма да разглеждам в детайли XML подхода, на който в началото са възлагали по-големи надежди, но не е успял да получи необходимата подкрепа поради множество причини. Ще се спра по-разширено на онтологичното направление.

Онтология

Документ или файл, който се явява речник на понятията и отношенията между тях, позволяващ чрез отношенията да се определи смисъла.

Във философията онтологията  е разбиране на съществуващото, реалността и битието като цяло. Онтологията има за предмет, както началата на всичко съществуващо, така и основните му принципи и категорийното им изразяване.

В компютърната терминология онтологията има определение, което редакторът Теодора Петкова забранява да напиша, но тайно от нея то е: „спецификация на концептуализацията на предметната област“ (Страшничко звучи нали? Не казвайте на Теодора.) или с по-достъпни думи документ или файл, който се явява речник на понятията и отношенията между тях, позволяващ чрез отношенията да се определи смисъла.

Защо въобще се нуждаем от такъв речник?

 

За човек е лесно да определи смисъла на понятието в зависимост от контекста. Например ако ви кажа „Информационен океан“, вие лесно ще определите какво имам предвид – голямо количество информация, а не информация за вода и това става без да полагаме усилие. Ние, хората, лесно правим връзките между понятията.

За компютърните алгоритми това не е толкова лека задача. Те трябва да анализират взаимоотношенията между двата термина, да приоритизират един от тях и да извлекат смисъл. Тук на помощ идва въпросният речник. Той помага и за нещо друго. Ние знаем, че една концепция може да бъде изразена чрез различни термини.

„Това момиче е много красиво“, „Виж я колко е готина“, „Я, каква яка кака“ изразяват една и съща концепция, а именно: „Според мен момичето е красиво“, със съвсем различни термини. За да направи връзката между термините и да извлече значение семантичната мрежа се нуждае от този речник.

За да решат горепосочените проблеми учените се заемат с разработката на Средства за описване на ресурси (Resource Description Framework – RDF) и Език на уеб онтологията (Web Ontology Language – OWL)

[б.Т.П. :) – ако искате да стигнете директно до ползите и изводите от факта, че Семантичната мрежа набира скорост, можете да си спестите, иначе брилянтното, но доста специализирано описание на Димо Белов в следващите две секции, да прескочите няколко десетки години разработки и да се приземите на: Практическо приложение]

Средства за описване на ресурси – RDF

Важна съставна част на семантичната мрежа е моделът на описване на отношенията между ресурсите и тяхното привързване  към семантичното им съдържание.

RDF е технологията, даваща възможност да се изрази смисълът на термините и понятията във форма, достъпна за компютърна обработка.

Принципът на изграждане на взаимоотношенията между мрежовите ресурси предвижда три компонента – обект, атрибут и значение (аналогични на класическата схема „подлог – сказуемо – допълнение“), като всеки от тези компоненти позволява да се възстанови отношението между тях в цялост.

Стандартният начин на записване на базовия строителен блок в RDF е A(O,З), където А е атрибут, О-обект, З-значение. В това записваме е важно да се отбележи възможността обектът и значението да си променят мястото или всеки израз може да бъде както обект, така и значение.

В последно време най-голяма популярност доби RDF базираният речник Shema.org. Да вземем стандартното описание на книга:

<div itemscope itemtype=”http://schema.org/Book”> – обектът е книга;

<span itemprop=”name”>Марсианецът</span> – атрибутът име е със значение „Марсианецът“;

<a itemprop=”author” href=””> Анди Уеър</a> – атрибутът автор е със значение „Анди Уеър“.

Сега, ако разменим мястото на значението и обектът ще знаем, че Анди Уеър пише книги и една от книгите му е Марсианецът. Нещата се опростиха донякъде, нали?

В структурата на семантичната мрежа е предвидено съществуване на универсални речници, попълнени от достоверни източници, които да позволят отъждествяване на нови понятия с вече известни такива или привързване на използваните термини към една или друга предметна област. Те служат и за смислово валидиране на въведени понятия. Такъв речник е FreeBase , в който са описани също триплети обект-атрибут-значение.

Онтологичен Web език – OWL

На OWL ще се спра по-кратко, тъй като представлява интерес само за обработващите семантичната информация в мрежата. В смисъла на OWL онтологията е набор от правила, задаващи отношенията между понятията и описващи логиката на разсъждение за тях. Компютрите могат да „разберат“ смисъла като следват описанията на ресурсите, описани с помощта на RDF.

OWL дава възможност да се направят логически изводи въз основа на онтологията или да се получат факти, които не са представени буквално, а следват от семантичното представяне. Тези изводи могат да се базират на анализа на един документ или множество документи, разпределени в мрежата. Последното се обезпечава чрез свързване на онтологиите, като при интерпретация на една от тях е необходимо да е възможно ползването на данните от другите.

На практика създаването на онтология започва със задаване на йерархия на класовете понятия, съставящи предметната област.

Фундаменталният конструктор на класовете се явява rdfs:subClassOf. Той свързва по-частните класове с по-общите такива и е транзитивен. Ако X е подклас на Y и Y e подклас на Z, то X е подклас на Z. Транзитивността позволява привързване на множество онтологии и в крайна сметка достигане до смисъла на дори недефинирано понятие.

Тук следваше едно описание на класовете от винопроизводството, но като се сетих за редактора ТП реших да ги махна. Който иска да се запознае по-задълбочено с обработката на семантичната информация може да ползва връзките, дадени от W3C – OWL.

Практическо приложение

 

Семантичната мрежа вече е реалност. Всички виждаме звездички в Google от потребителските гласувания, получаваме директни отговори на някои запитвания, знаем как да си сготвим пилешко с ориз и т.н. В телефоните си имаме персонални помощници – Siri, Cortana, Google now. Всички тези нововъведения се захранват от семантичната мрежа.

Струва ли си да маркираме семантично web страниците си?

Определено да. Много хора хвърлят усилия и средства да привлекат потребители в сайтовете си с различни маркетингови трикове.

Търсачките обичат да виждат в кода на страниците имплементирани новите тенденции и съм убеден, че дават предимство на тези, в които ги има.

Една от новостите е семантичното маркиране. Всички големи търсещи машини имат инструменти за проверка и валидиране на семантични маркировки: Google, Bing, Yandex.

Според вас биха ли отделили толкова ресурси за разработката, ако маркировката не е важна за тях?

Според проучване на Yandex към септември 2013година 24% от големите сайтове вече имат семантична маркировка.

 markup-penetration

Семантичната маркировка е много лесна за добавяне. Използвайте я. Ще помогнете както на себе си, така и за развитието на тази брилянтна концепция.


 

Автор: Димо Белов

Идея генератор, редакция и графично оформление: Теодора Петкова

Google+ коментари

Коментари