Семантичното търсене никога не спи

Семантичното търсене никога не спи

Какво е Knowledge Vault и какво означава използването му за бъдещето на търсенето?

 

“Придобиването на знаниe е винаги от полза за интелекта, защото така той може да прогони ненужните неща и да задържи добрите. Защото нищо не би могло да бъде обичано или мразено, освен ако първо не е познато.”

С тези думи на Леонардо Да Винчи започват изложението си изследователите от Google в своя документ: Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion. В изследването подробно се описват структурата и механизмът на нов вид база на знанието, наречена Knowledge Vault (Трезор на знанието).

supercomputers-google-servers-knowledge-vault-semantic

Източник: www.brafton.com

Каква е целта на Knowledge Vault?

Трезорът има за цел автоматично да конструира пробабилистична база от факти, която ще съхранява информацията под формата на троични RDF елементи (т.нар. SPO – субект, предикат, обект). Към всяка троична структура ще има и степен на сигурност, която представя вероятността, с която базата “вярва”, че структурата е точна. Накратко, споменатите RDF работят на принципа на граматиката и категориалните схеми, които повечето западни езици ползват, когато структурират съждение: Петър познава Димо. За неспециалисти  RDF са обяснени много достъпно в това видео.

На човешки език всичко казано по-горе означава, че Google работят върху огромна база от данни, която е в състояние да предостави достъп до световната информация (факти) по безпрецедентен начин. Нещо повече, тази база е замислена да се развива без човешка помощ.

Оттук следва, че предстои изграждането на Семантичната мрежа да става още по-бързо и още по-точно, благодарение на способността на ботовете не само да обхождат, но и да разбират информацията в уеб пространството по-бързо от всякога (24 часа в денонощието, 7 дни в седмицата). Един такъв автоматизиран подход към натрупването и представянето на знания, който Knowledge Vault предполага, ще даде още по-големи възможности на търсенето и потребителите му.

Какво е различното при Knowledge Vault?*

Различията между Knowledge Vault (KV) и досегашните бази от данни могат да бъдат сведени до няколко основни.

На първо място, за разлика от съществуващите вече бази, като Wikipedia, Freebase, Satori и дори Google’s Knowledge Graph, Knowledge Vault разчита на машинно извличане на факти.

Не само това, но и KV се различава по факта, че съдържа в себе си механизми за премахване на неясна информация (шум) от извлечените данни.

За разлика от подобните си бази, Knowledge Vault ще разграничава фактите за света от тяхното лексикално представяне. Отворените системи за извличане на информация (т.нар. Open IE) работят на лексикално ниво и обикновено съдържат множество излишни факти, изразени с различни думи, като например <Барак Обама, е роден, в Хонолулу> и <Барак Обама, място на раждане, Хонолулу>.

И не на последно място, Knowledge Vault е значително по-голям от останалите сравними бази от данни:

Knowledge Vault is bigger

*по  Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

Как на практика функционира Knowledge Vault?**

what is knowledge vault

Колкото и странно да изглeжда, новият  Knowledge Vault няма толкова информация, колкото базата от данни на Google – Freebase.

Freebase съдържа 637M факти, а Knowledge Vault  едва 302M “сигурни” факти. От тях само 223M са във Freebase. Във Freebase има доста липсващи данни за факти, като 71% от хората там нямат място на раждане, а 75% са с неизвестна националност.

Вписването във Freebase понякога обаче е наистина трудно. Затова Google влагат ресурси в работата по изграждане на Knowledge Vault, който ще позволи по-голяма сигурност в извлечените факти, с помощта на методи като:

  • Извличане на информация Google Knowledge Graph (не просто повторно използване, а преглеждане на информацията, преди повторна употреба.)
  • Използване на подход, наречен Open Information Extraction approach, подобен на този създаден от Wavii, в Мрежата и от източници, като например новинарски потоци
  • Анкета (тип crowdsourcing), с която се откриват знаещи хора, които биха могли да отговорят на въпроси и да допълнят Knowledge Vault (Quizz: Targeted Crowdsourcing with a Billion (Potential) Users.)

Всички, които се интересуват от задълбочено изследване по темата, могат да прочетат повече в: Constructing and Mining Web-scale Knowledge Graphs

*по Good Bye Knowledge Graph, Hello Google Knowledge Vault? от Бил Славски

Какво означава това за търсенето и бизнеса?

Авторът на книгата Google Semantic Search нарича Knowledge Vault – семантично търсене на стероиди (Google’s Knowledge Vault is Semantic Search on Steroids)

Според Амерланд, Knowledge Vault ще увеличи в пъти скоростта, с която Google се доближава все повече до семантичното търсене. Смесвайки съществуващи бази от данни и изграждайки връзки помежду им, Трезорът на знанието ще направи класифицирането и откриването на информация много по-лесни.

По отношение на бъдещето на маркетинга, това означава, че бизнесите трябва да съобразят няколко неща:

• Подробни и ясни описания на дейността си, представени и взаимосвързани в отделните социални мрежи.

• Последователност в дигиталното присъствие: реални разговори в мрежите, реални последователи, добавяне на стойност чрез съдържанието, което компанията произвежда.

• Изграждане на добре поддържани връзки с клиенти и партньори. Това ще даде на бизнеса цитирания, споменавания и ангажираност, което от своя страна ще помогне при извличането на факти и информация за него.

• Реална активност в Мрежата: социални мрежи, блогове, партньорски сайтове.

• Уебсайтът на една компания трябва да бъде и основната точка, до която водят всички онлайн дейности.

И не на последно място, какво означава това за бъдещето?

Като след всяка новина, свързана с разработки на Google, и след тази за Knowledge Vault (Google “Knowledge Vault” To Power Future Of Search), бъдещето изглежда по-близо от всякога.

Ако досега основите и източниците на т.нар “знание” бяха изцяло в човешки ръце, то предстои машинното извличане на информация да премине на ново ниво. Ниво, на което хората ще разчитат на машините не просто да превръщат данни в информация, но и да извличат “знания” от съществуващата информация. С други думи, да превръщат “мълчаливото” знание в експлицитно.

Мълчаливото знание (т.нар. tacit knowledge) е личното знание, което държим в съзнанието си, то е знанието, което изгражда уменията, експертните ни познания и опита ни. Експлицитното знание, за разлика от мълчаливото, е онова знание, което е систематизирано, предава се чрез формален език и може да бъде лесно открито и споделено.

Според Gideon Rosenblatt (When Machines Know: The Evolution of Knowledge and Artificial Intelligence) именно на Google  предстои тепърва да усъвършенства и намира начини да използва в голям мащаб техниките, с които ще превръща мълчаливото знание в експлицитно, което е наистина огромна стъпка напред към семантичната мрежа.

Предстои търсенето да започне да разбира не само онлайн, но и офлайн света все по-добре, а Мрежата да се превърне в място, все по-свързано и пълно със смисъл, където става все по-лесно хората (и бизнесите) да откриват релевантни взаимоотношения и взаимодействия.

Препоръчани източници за по-нататъшно четене:

Google’s Knowledge Vault is Semantic Search on Steroids

Good Bye Knowledge Graph, Hello Google Knowledge Vault?

From Big Data to Big Knowledge

Move Over Google Knowledge Graph, Here Comes Knowledge Vault

Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

 

Google+ коментари

Коментари