Four Dots
Four Dots Blog

NAJNOVIJE
sa bloga

Snažni zamah koji je svojim krilima zahvatio update Google algoritma, Kolibri (Hummingbird), kao da naglašava početak novog doba u kom će se u potpunosti promeniti način na koji komuniciramo sa pretraživačima.

Iako se o semantičkom webu priča duže nego što mnogi za njega znaju, iz godine u godinu nastaje novi patent ili pristup koji omogućava bolje razumevanje pretraživača i pojmova sa kojima se suočavaju. Upravo je Hummingbird algoritam stvorio uslove u kojima ti patenti i pristupi mogu da iskažu svoj pun potencijal. Semantički web i principi koji stoje iza njega nisu više samo ezoterični pojmovi koje možemo lako zanemariti, posebno ako uporno tvrdimo da razumemo kako tačno funkcioniše pretraživač.

Pa ipak, neke od ideja koje stoje iza semantičkog web-a su se vešto krile iza ključnih reči, masovno proizvedenog sadžaja, gostujućih članaka i drugih idola prošlosti, toliko dugo da je njihova tajnovitost postala više karakterna osobina nego privremeno stanje. Postepeno su se razmnožavali, odgajani zahvaljujući entuzijazmu i upornošću ljudi koji su imali moć da predvide i pronađu načine da unaprede postojeći pristup pretraživanju, te ako ste u poslednje vreme ignorisali njihov razvoj, verovatno ćete biti iznenađeni koliko su se samo u međuvremenu unapredili.

 

Semantički Web

Ono što jednog dana želimo da postignemo semantičkim web-om  je da prestanemo samo da indeksiramo podatke, već da dozvolimo pretraživačima da te podatke što bolje razumeju. Pristup je objašnjen jednostavnim sloganom stvari, ne veze, gde „stvari“ predstavljaju entitete pretraživanja (više o njima u daljem tekstu), dok se „veze“ odnose na tradicionalni način povezivanja podataka, kroz veze između linkova.

semantic web

Dok je omogućavanje pretraživačima da bolje razumeju pojmove koje izbacuju kao rezultate postajalo sve hitnije zbog sve veće popularnosti glasovne pretrage na mobilnim uređajima i tipova upita koji su postavljani u tim situacijama (koji su više podsećali na pitanja koja bi postavilo ljudsko biće, nego na staromodan upit sa nekoliko ključnih reči, modifikovan za lokaciju i druge faktore), ovaj problem je samo jedna kap u moru kada se radi o semantičkom webu. Ovaj pristup strukturiranju i dobijanju podataka doprinosi boljem i jasnijem pretraživanju i podrazumeva mnogo više od jednostavne potrage za odgovarajućom ključnom reči u indeksu.

Kako bi bolje razumeli kako sve ovo funkcioniše, moramo da usvojimo razliku između eksplicitnih i implicitnih signala. To su signali koje pretraživač analizira kada pokušava da da odgovor na naš upit. Ključne reči i drugi direktni unosi onoga koji pretražuje su eksplicitni signali, dok se termin implicitni signali odnosi na kontekst pretrage. On podrazumeva sve od momenta kada se započne pretraga, naše lokacije i naših prethodnih pretraživanja, do svega ostalog što pretraživači mogu da nauče o našim navikama pretraživanja i situaciji u kojoj se nalazimo u trenutku pretraživanja.

Kako je vreme proticalo, pretraživači su postepeno dobijali pristup ovom rastućem broju implicitnih signala, što je dovelo do toga da su rezultati koje su pretraživači nudili postajali relevantniji za upite koje postavljamo. Želja da ih obezbedimo sa što više ovakvih signala je dovela do razvoja u strukturiranju podataka i semantičkih oznaka. Ali pre nego što se udubimo u tu tematiku, hajde da se upoznamo sa osnovnom jedinicom semantičkog web-a, entitetima pretraživanja.

Entitet pretraživanja

Nekada davno imali smo ključne reči i domene gde smo ih mogli pronaći. Što je domen bio autoritativniji i cenjeniji, to su veće bile šanse da će se pojaviti kao rezultat za određen upit. Dok je ovaj sistem u tom trenutku bio najbolji mogući, svako ko se i malo interesovao za SEO je shvatao da je bio prepun mana. Semantički web pokušava da umesto ključnih reči, kao osnovne jedinice pretrage, postavi entitete pretraživanja.

semantic search cricket

Entitet pretraživanja može biti lokacija, osoba, ili bilo šta drugo. Hummingbird, knowledge graph pre njega, kao i mnogi drugi internet faktori, oslanjaju se na grupisanje i strukturiranje znanja o ovim entitetima, sagledavajući ih kao celine, a ne samo kao nešto što bi moglo da ima veze sa ključnim rečima koje smo uneli u polje za pretragu. Ova baza entiteta pretraživanja se konstantno proširuje individualnim entitetima, gde svaki predstavlja jedinstveni semantički objekat.

Ovo omogućava pretraživačima bolje razumevanje konteksta naše pretrage i pomaže im da prikazuju bolje i relevantnije rezultate. Stoga, ukoliko želite da poboljšate vidljivost po novom sistemu, moraćete da se reorganizujete kao entitet. Zaboravite na pominjanje ključnih reči ili sinonima u nadi da će vas samo to učiniti relevantnijima – morate da proširite svoje vidike.

Postoje mnogobrojni načini na koje možete uspostaviti sebe kao entitet, a najbolji od svih je da budete dobri u tome što radite, tj. da ljudi znaju za vas pre nego što postanete priznati od strane pretraživača. Uz sve signale koje njihovi algoritmi uzimaju u obzir, mogu lako dobiti jasnu sliku o tome ko ste vi, na primer, prateći vaše aktivnosti na društvenim mrežama, koje su jednako jasan indikator kao i ključne reči na vašoj početnoj stranici. Pa ipak, umesto da pokušate da izmanipulišete pretraživačima kako bi vas sagledali iz određenog ugla, možete jednostavno da im kažete šta vi to tačno radite, tako što ćete strukturirati svoje podatke kroz semantičke oznake.

Strukturirani podaci

U mračno doba interneta, komadići nestrukturiranih podataka kovitlali su se u bezdanu ravnodušnosti, a tek ponekad bi ih neko povukao iz tog haosa i ukucao ih u polje za pretraživanje. Nakon što bi bili pregledani, vratili bi se u stanje nepostojanja gde besmisleno lutaju dok ih neko ponovo ne pozove. Potom je uveden novi sistem, po kom su ključne reči postale entiteti, a umesto samo gomile slova, postali su pojmovi i ideje, gde je svaki razvio karakter i lične osobine koje su ih učinile posebnim. Podaci su se klasifikovali, dublje razmatrali i dobili suštinu.

Strukturiranje podataka omogućilo je pretraživačima da razumeju da ne treba da izbace iste rezultate za reč „mačke“ onima koji u istoriji pretrage pokazuju interesovanje za pozorište, i onima koji često traže “najjeftiniju hranu za mačke“. Strukturiranje podataka nam omogućava da dodajemo detalje ulozi i tipu podataka kako bi ih pretraživači lakše sortirali i izbacili kao rezultate, onda kada su oni relevantni. Ovo se postiže pomoću semantičkih oznaka.

Semantičke oznake

Najjednostavnije rečeno, semantičke oznake nam omogućavaju da modifikujemo podatke meta podacima (informacije o informacijama) tako da osobine i značenja koja stoje iza njih budu vidljive pretraživačima. Jezik koji se koristi je lako razumljiv mašinama i omogućava web developerima da ih lako iskoriste ukoliko žele da strukturiraju svoje podatke.

Ovakav tip strukturiranja se oslanja na veliki broj činilaca– vokabular, format oznaka ili sintaksu, i triplete, koje ćemo pokušati da objasnimo u daljem tekstu.

Tripleti

Tripleti su setovi podataka organizovani u odnosu na njihovu ulogu u određenom trenutku. Bazirani su na sematičkom pojmu subjekta, predikata i objekta. Subjekat i objekat su drugačiji entiteti pretraživanja od predikata, koji je veza između njih i objašnjava njihov odnos. Veliki broj tripleta se može pronaći u Tripletstores i mogu se lako iskoristiti za određeni upit.

rdf triples

Slika preuzeta sa seoskeptic.com

Tripleti su značajni jer omogućavaju pretraživačima da sakupe informacije o kontekstu naše pretrage, povežu već formirane entitete pretraživanja na razumljiv način, razumeju odnos između njih i prikažu relevantne rezultate.

Vokabular

Kao i u jeziku, vokabular je u semantičkoj pretrazi set proizvoljnih simbola koji predstavljaju određene pojmove. Sajt Schema.org nudi bogat vokabular za strukturiranje podataka, a kako je prihvaćen od strane svih velikih pretraživača, postao je uobičajena praksa za strukturiranje podataka.

Dok nas je ova adaptacija isključivo jedne sintakse delimično ograničila, takođe je omogućila i standardizaciju strukturiranja podataka, što je važan korak u radu na semantičkom web-u. Svakako da još uvek postoje drugi, specifičniji vokabulari koji se koriste za strukturiranje različitih tipova podataka, ali, ukoliko ju je moguće upotrebiti, Schema je trenutno najsigurnija opcija.

Sintaksa

Sintaksa je jezik koji se koristi za označavanje podataka. Podrazumeva mikro podatke, mikroformate i RDF. Svaki od ovih pristupa ima svoje prednosti i mane. Dok je RDF najsveobuhvatniji i oslanja se na atribute kako bi objasnio entitet; mikroformati se koriste za tematsko određivanje HTML/XHTML-a, a mikro podaci predstavljaju set specifikacija koji omogućava dodavanje semantičkih modifikatora kodu jedne stranice.

Kada je u pitanju Schema, fokus je stavljen na mikro podatke, zbog činjenice da dozvoljavaju pristojnu širinu i sveobuhvatnost, i zato što se, za razliku od mikroformata, ne mešaju sa CSS atributima na stranici. Naravno, ova standardizacija i fokus na jedan jezik nisu odgovarali onima koji su koristili drugačiju sintaksu za obeležavanje svojih podataka, ali srećom, ti drugi jezici su i dalje podržani, iako se ubuduće toplo preporučuje upotreba isključivo meta podataka. Čak i ako određen broj stranica već sadrži neke od drugih jezika, dokle god ne upotrebljavamo dva ili više tipa sintakse na jednoj stranici, lako je izbeći potencijalne konflikte.

Proces

Sada kada ste se malo bolje upoznali sa osnovnom terminologijom, hajde da vidimo kako sve to funkcioniše u praksi.

Kada pravite web stranicu, pokušavate da prikažete što više o svojim podacima upotrebom mikro podataka i alternativnom sintaksom. Ako objavljujete recept, označićete ga kao takvog, da biste dobili jasno objašnjenje u snipetima; ako pišete o muzici, pogledaćete vokabular koji se nalazi na Schema.org kako biste pronašli odgovarajuće denominatore i iskoristili ih, i tako dalje. Na ovaj način obezbeđujete pretraživačima dodatan kontekst koji mogu da iskoriste kako bi bolje razumeli o čemu su vaši podaci i čime se bavite.

Kada neko unese upit, osim što tragaju za drugim kontekstualnim tragovima, pretraživači uzimaju u obzir i triplete i meta podatke koje ste naveli, i na osnovu tog unosa uspevaju da suze obim entiteta koji je potrebno prikazati kao rezultat, da bi on bio što relevantniji. Ovo nije samo pitanje pogodnosti, nego i pristup koji omogućava mnogo jasnije i efikasnije prikupljanje i čuvanje podataka.

Budućnost

Naravno, kako sve više govorimo o razvoju semantičkog web-a, shvatamo da su pred nama mnogi izazovi.

Na primer, dok definisanje entiteta kao takvih čini same entitete univerzalnijim nego što su obične ključne reči ikada bile, proširivanje određenog vokabulara na druge jezike (govorne, ne sintaksu na web-u) je jedan od problema sa kojim se susrećemo. Dok je određeni entitet u jednom jeziku isto što i u drugom, pružiti pomoć pretraživačima da ih prepoznaju i nije tako jednostavno. Ovaj problem je značajno izražen na najosnovnijem, leksičkom nivou, kada se uzme u obzir činjenica da jedna reč nekog jezika može u drugim jezicima biti prevedena na više načina, u zavisnosti od konteksta, stila, formata i mnogih drugih faktora. Kada tome dodamo i idiome i ustaljene fraze, ponovo nastaje haos.

Čak iako se suočavamo sa nekim preprekama koje se čine nepremostivim (na primer objašnjavanje kompleksnosti stila mašinama), treba da nas ohrabri činjenica da smo već došli dalje nego što je iko pre samo par godina mogao da očekuje, i da je istraživanje o semantičkom web-u tek počelo da uzima maha. Kako se sve više podataka prikuplja, istražuju se novi načini strukturiranja podataka, naše znanje se obogaćuje i ovo polje istraživanja obećava potpuno drugačije iskustvo – i nove načine na koje istražujemo i rezultate koje dobijamo.

 

Izvori

Semantički Web

 

Semantičke oznake

 

Schema, Markup Formati

 

Entitet pretraživanja