Prokletí sémantického webu

Kdykoliv se utká dobro se zlem, dochází ke zrychlení pokroku. Střetávají-li se good guys a bad guys, zbrojí se nutně na obou stranách a vedlejším produktem tohoto úsilí ("arms races") jsou dokonalejší zbraně, čili technologie. To platí ve světě IT dvakrát -- kdybychom neměli autory virů, neprosperoval by trh s antivirovými programy, například.

Jedním z buzzwordů poslední doby je tzv. Sémantický web, neboli Web 3.0. Jde o... hnutí... (znáte snad výstižnější slovo?) hodných hochů s chvályhodnou motivací -- zlepšit užitnou hodnotu webu. Stručně řečeno: Vytvořit sémantické standardy a technologie umožňující vznik nových aplikací, které by chápaly význam skutečností na webových stránkách uváděných a dovolily tak nám, lidem, pracovat nejen s texty a obrázky, ale i s informacemi na webu.
Sémantický přístup slibuje i nové formy útoku na zatím neotřesitelnou vyhledávací pozici, kótu č. 1, na níž je v současnosti Google dobře opevněn. Pokud příslušníci sémantického hejna uspějí, zvedne se laťka doposud spíše statisticky zpracovávaného webového obsahu o trochu výš. Prakticky to bude znamenat alespoň to, že chovatelé koček a unixoví administrátoři nebudou dostávat na dotaz "cat" stejné výsledky.

Chvályhodnou snahu sémantiků zatím maří pár maličkostí:
1/ předpokládá se spolupráce autorů webového obsahu a webových aplikací. Ti jsou zatím zaneprázdněni spíše sledováním nových prohlížečů a obcházením jejich nekompatibilit, než aby doplňovali své stránky o nějaké RDFa a mikroformáty a tak nemají čas sledovat...
2/ ...poněkud chaotický vývoj v oblasti.

Protože má sémantický web -- ve fázi zrodu -- problémy sám se sebou, nepřekvapí, že se do něj oškliví hoši ještě ani pořádně neobuli. Ti se samozřejmě chopí svých příležitostí v okamžiku, kdy začne být zřejmé, že se z rance nápadů a standardizačních draftů začíná klubat něco úspěšného (čti: začnou z toho koukat prachy).

Co se stane pak?
Předně si řekněmě, kdo jsou ti zlí. Bystří už tuší, že zlí jsou: spammeři, skriptéři splogů, SEO černokněžníci, doménoví spekulanti, zkrátka všichni weboví příživníci, kteří automaticky generují obsah a zvyšují šum, aniž by přidávali hodnotu. (Aby bylo jasno, existuje jemný, ale podstatný rozdíl mezi obsahem generovaným a obsahem agregovaným.) Tito chlapci se s podrobnostmi sémantického webu doposud neseznámili, ale učiní tak v okamžiku, kdy Joe The Internet User začne místo google.com do adresní řádky prohlížeče psát hakia.com, powerset.com nebo třeba trueknowledge.com.

K čemu tedy dojde, až se objeví opravdu smysluplné sémantické technologie? K ničemu jinému než k pozvolné devalvaci smyslu, k inflaci významu, ke ztrátě sémantiky: Je třeba zařídit, aby se produkt mého klienta dobře rankoval ve výsledcích? Ale prosím, upravíme... jak se to sakra... ontologii, napíšeme plugin do prohlížeče, doplníme standard, rozšíříme vliv, ovládneme trh... však to znáte.
Po jisté době, kdy se věci zdánlivě začnou vyvíjet k lepšímu, dojde -- jakmile se spammeři naučí generovat nebo kupovat význam -- ke kolapsu zbytků použitelného webu. Finito.

A možná také ne.

Možná se zlí chlapci, aniž by o to stáli, dopustí vedlejšího efektu, který by nikdo nečekal. Začnou nevědomky, mimoděk... přidávat hodnotu (no fuj). V honbě za věrnějším a významuplnějším, avšak falešným, obsahem, jenž by úspěšněji mátl budoucí sémantické vyhledávače, dopustí se nechtěně jeho postmoderní tvorby. Na základě existujících textů začnou vystřihováním a opětovným lepením automaticky vytvářet informace, které nám -- světe, div se -- budou k užitku. Nejprve ve stylu tohoto fousatého vtipu, později lépe a stále dokonaleji. Zlé se sémanticky zlepší, zlí si sémanticky polepší.

K setření hranic mezi ošklivými a hodnými hochy dojde pozvolna. Možná už k němu dochází nyní, v intencích Webu 2.0 s jeho sociálně statistickými kritérii "užitečnosti".
Uvědomil jsem si to naplno dnes, kdy mi, poštou ranní, dorazil jeden nečekaný Google Alert. Pokud to ještě neznáte: to je takové diferenční automatické hledání -- zadáte hledanou frázi a ono vám to pak nepravidelně zasílá svodku s novinkami. Kdo to zná, ví, že jde o neocenitelnou službu, jež efektivně zvyšuje počet mailů, který ten den nestihnete vyřídit. A kdo Google Alert nejenom zná, ale i aktivně používá, jistě si všiml, že v alertech za poslední asi půl rok rapidně vzrostl počet splogů, na něž svodky odkazují. Spammeři zkrátka zacílili i na zcela minoritní cílovou skupinu, kterou představují nejrůznější odborníci nebo lidé jako já, tedy podivíni, co si nechávají posílat výsledky hledání nepraktických kombinací klíčových slov, jako např. "multi-objective optimization" nebo "evolutionary strategies".
Zkrátka -- při pohledu na tento spammerský blog se u mne dostavil onen slovutný AHA moment, celé to probíhalo zhruba takto: JE to nade vší pochybnost jen nosič reklamy a ne zápisník nějakého vědce hodný mé pozornosti, takže zavíráme tab... POČKAT... hmm... opravdu? Vždyť ten spammer mi může, při splnění určitých dalších předpokladů, být užitečný -- pokud ovšem bude konzistentně kopírovat seznam literatury ze sborníků, které bych si možná někdy rád prolistoval, pokud je trochu lépe zorganizuje, atd... takže... zlý nebo hodný? Zlý, jasně, že zlý, pokud hodnotíme jeho prvotní motiv. Ale pochybnost dále vzrůstá -- co když jednou bude -- samotnou honbou za významem, jedinečností, atd. svého splogu -- donucen mi opravdu přinést nějakou zajímavou informaci, kterou bych jinak nenašel?
Co když i emailový spam ruku v ruce s mailovými filtry dosáhne onoho kýženého stavu, kdy skrze obrannou bariéru do inboxu proniknou jen opravdu zajímavé, a přesto nevyžádané maily? Co když jednou úmyslně nastavím svůj sémantický spamfiltr tak, že připustím... určité, konkrétně cílené... reklamě... aby mne oslovila? (Ó, jaká ostuda se k těmto myšlenkám, mezi námi intelektuály, vůbec přiznat: no považte, on se nevyhýbá reklamě).

Co když se... tak nějak samo od sebe... vyřeší naše současné dilema, které se projevuje tím, že nestíháme sledovat a vyhledávat všechny významné novinky, zatímco jsme zahlceni naprosto nepodstatnými věcmi, jež se na nás valí ze všech stran?

Co když... Možná. A možná vůbec ne.

Ale pokud ano, kdy se tak stane? Zcela jistě až v době, kdy většinu článků z webu pro nás a za nás bude vyhledávat a předčítat autonomní softwarový agent -- robotická sekretářka -- a my zatím budeme zalezlí, někde v klidu, dokonale soustředeni na vymýšlení Webu 4.0.

---
Pozn.: rozdělení na hodné a zlé chlapce zrcadlí čistě mé osobní preference. Pokud v tomto textu zaměníte dobro za zlo, nedojde ke ztrátě jeho informační hodnoty.

puts text if text.size > 140

30. září 2008

Prokletí sémantického webu

Žádné komentáře:

twitter.com/bver

doporučená četba

archiv

tags