Как работи семантичното търсене?

Как работи семантичното търсене?

Как работи семантичното търсене? Превод на How Semantic Search Works от Google™ Semantic Search, David Amerland, – Семантичното търсене на Google™, Дейвид Амерланд

Точно като и обикновеното търсене, сементичното търсене може да бъде деконструирано на съставните си части, за да се види как работи, с какво е различно от търсенето, с което сме свикнали в миналото, и най-важното, как точно се появява тази разлика.

Преди да стигнем до практически важните части, за начало ще ни бъде от полза да разгледаме Фигура 1.1, която показва елементите, които помагат за изграждането на семантично търсене.

semantic search

Фигура 1.1 Трите основни елемента на семантично търсене са:
Единен ресурсен идентификатор [Universal Resource Identifier (URI)]
Система за описание на ресурси [Resource Description Framework (RDF)]
Библиотека, основана на онтология [Ontology library]

Google Semantic Search: Search Engine Optimization (SEO) Techniques That Get Your Company More Traffic, Increase Brand Impact, and Amplify Your Online Presence Три са елементите, които трябва да бъдат обединени, за да бъде създадено семантично търсене, което разбира думите по начина, по който аз и вие ги разбираме. Първият е Единен ресурсен идентификатор [Universal Resource Identifier (URI)]. Това може да бъде URL от типа, който всички познаваме в Мрежата, или може да бъде Универсално име на ресурс [Universal Resource Name (URN)], което е по-сложен начин да се каже, че това е име като това на някаква личност, например. URI е необходим, защото от него идва първоначалния набор от данни. И, да, в процеса все още участва и паяк. Първоначалният набор от данни не е достатъчен обаче. За по-лесно, може да се мисли за него като за значителни количества сурова информация, която на този етап все още е непотребна и предстои да бъде класифицирана и прецизирана.

Точно както захарната тръстика преминава през процес на рафиниране, който я превръща от нещо, което прилича на бамбукови стъбла, във онези фини бели зрънца захар, които могат да подсладят напитките и десертите ни, така и URI трябва да бъде допълнително прецизиран, преди да може да се консумира. Това прецизиране се постига с помощта на Системата за описание на ресурси [Resource Description Framework (RDF)]. За по-лесно, може да се мисли за RDF като за набор от правила, които позволяват пренасянето (или превода) на данни от една база данни, в която се съхраняват URI адресите, към друга, без това да води до загуба на значения или до объркване и смесване на стойности.

За да илюстрираме това, нека разгледаме простия пример с моя домашен адрес в Обединеното кралство. Мястото, където живея, може да бъде описано подробно с името ми, номера на къщата ми, адреса на улицата, града, графството, пощенския код и после страната. В английската база данни пощенският код се състои от букви и цифри. Нека сега предположим, че данните ми се пренасят към американска база данни, за да получа абонамент за издание, отпечатано в Съединените щати. Веднага, по стария начин за правене на нещата, това ще породи няколко проблема.

Първо, в Съединените щати графствата са заменени от щати, второ, пощенските кодове обикновено се наричат ZIP кодове и трето, те имат различни формати, които обикновено са изцяло с цифри.

Ако не съществува начин, по който да се съобщи на американската база данни какъв вид информация е получена, то тази бази данни няма да е в състояние да използва полученото по никакъв смислен начин. И така, аз нямаше да мога да се абонирам за нито едно американско списание, освен ако не решах да емигрирам в САЩ и да си купя къща там.

За мой късмет, RDF превежда моята информация от английската база данни в полета, които имат смисъл за американската база данни. Така аз мога да получа американските си списания доставени на домашния ми адрес в Манчестър. Нещо повече от това, RDF позволява американската база данни да поддържа форма̀та на английския ми пощенски код, без да пропуска факта, че това е ZIP код.

И така, това, което RDF прави, в този контекст, е да придава значение на суровата информация, която е била индексирана от обхождащ бот или паяк, по начини, които позволяват тази информация да бъде смислена почти навсякъде. Казвам почти навсякъде, защото докато данните, които са предназначени да бъдат четени от машини, могат да са доста буквални, думите, които хората използват, не са. Една и съща дума може да има различни значения и дори различни употреби. Проблемът с тази нееднозначност се разрешава чрез онтологиите, които не са нищо повече от колекции от значения.

Една онтология, например, би могла да определя, че даден адрес се определя от града, че градът се определя от графство и графството се определя от държавата, в която той се намира. Вие и аз разбираме това интуитивно в момента, в който някой ни попита за адреса ни, но машините не могат. И без онтология, която да ги напътства, никога не биха могли.

Онтологиите лесно се структурират чрез класове и подгрупи на тези класове и след това към тях лесно се добавя правилото на извода (inference rule). Едно такова правило, например, би могло да гласи, че ако един адрес е в определен град и градът е в определено графство, то този адрес се свързва с това графство, дори и самият адрес да не е уточнен.

И така, уточнявайки подробности за моя адрес, както и факта, че живея в Манчестър, семантичното търсене може лесно за заключи, че аз живея в графство Чешир, дори и ако не кажа изрично, че живея там, точно както един истински човек би заключил.

Реално, компютърът не разбира, че съм британски поданик, че домът ми е в Обединеното кралство, и че Великобритания се дели на графства, които имат пощенски кодове вместо ZIP кодове. Но чрез комбиниране на трите елемента на семантично търсене, компютърът се научава да превежда информация и да я свързва с конкретни значения, по начин който изглежда интелигентен.

В известен смисъл, ако моето име е свързано с този адрес, компютърът ще “знае”, че аз съм британски поданик, без изобщо някога да е бил споменаван факта в никой онлайн документ или в някакви данни. Семантичното търсене ще е направило заключението.

И нещо повече, асоциирайки адреса ми с начините за осъществяване на контакт с мен, семантичното търсенето би могло да извлече и телефонния ми номер, както и имейла ми и да го представи точно там в търсенето, без да трябва да преглежда десетки страници, за да открие най-добрите начини за контакт с мен.

Онтологиите, които се изглеждат затормозяващи за хората работят чудесно в мрежата. Докато обхождащите ботове преминават през даден сайт, те могат да събират огромни количества информация, без да се разфокусират или изморяват, по начин, по който един човек не би могъл да го направи. Това, което не можеха да правят в миналото, бе да разбират смисъла на данните по начина, по който един човек го разбира.

Сега, обаче, с въвеждането на програмиране, което използва URI и го парсира (разделя на части) едновременно чрез RDF и онтология, данните придобиват много по-точна стойност, която позволява на търсенето на Google реално да извежда (infer, срвн. infer rule) смисъл от асоциациите на данните, които индексира, и да изглежда интелигентно, по начини, които можем да разпознаем.

На фигура 1.2 можем да видим силата на свързването на данните със значение, като потърсим “произведения на да винчи.” В миналото това би върнало съвсем различен набор от резултати, вероятно достатъчно неточни, за да се наложи връщане обратно и да прецизиране на търсенето чрез заявката: “произведения на Леонардо да Винчи.”

google search

Фигура 1.2
Страницата с резултати ни дава готови отговори с помощта на Knowledge Carousel (Въртележка със знания) в горната част, на Knowledge Graph (Граф на знанието) отдясно, и на познатите 10 връзки, които вече навлизат по-дълбоко в темата, в средата.

Гледайки изображението с резултатите от търсенето от Фигура 1.2, можем да видим, че алгоритъмът за търсене тук е достатъчно умен, за да разбере, че “да винчи” е Леонардо да Винчи и че търся негови творби. Търсенето ми е дало малко допълнителна биографична
информация от дясната страна и дори е направило няколко предложения за допълнителни, сродни търсения.

Въпреки че това е функция, която не е пряко свързана с ядрото на семантичното търсене, тя е ценна добавка към страницата с резултатите от търсенето. Тя, малко по-официално, се нарича откриване, основано на случайност [англ.serendipitу - намиране, основано на случайността, откривателството, авантюристичния дух и още нещо :) Повече за етимологията тук: http://www.etymonline.com/index.php?search=serendipity].

Има цяла област на технологията на търсене, която се занимава с извличането на информация по споменатия начин, както и с динамиката, която управлява едно такова намиране. За нас е достатъчно да знаем, че този принцип ще има огромен ефект върху маркетинга на бизнеса ви и начина, по който ще можете да намирате клиенти в бъдеще. Тези ефекти изследваме в книгата и ги оформяме като набор от практики, който може да ви помогне да извлечете полза от споменатия тип откриване.

Следва : Без повече игри

Превод : Теодора Петкова

Още по темата : Графа на знанието

Още от книгата :

Какво е семантично търсене?

Семантичното търсене на Google

Подготовка за новото SEO

Бизнесът ви в света на семантичното търсене

Как работи търсенето?

Content Protection by DMCA.com

Google+ коментари

Коментари