Disambigvacija

Iz Wikipedije, slobodne enciklopedije
»Disambigvacija« upućuje ovamo. Za ostala značenja vidi disambigvacija (disambigvacija).
Za disambigvaciju na Wikipediji vidi Wikipedia:Disambigvacija.

Leksička disambigvacija (od lat. dis-: raz-, na razne (protivne) strane + ambiguus: dvojak; dvosmislen, dvoznačan), u lingvistici, otklanjanje višestruka značenja u polisemičnih riječi, odn. definiranje pojedinačnih značenja polisemičnih riječi s obzirom na kontekst.[1] Postupak izvođenja disambigvacije naziva se disambigviranje; katkad ujednoznačivanje ili razdvosmišljavanje.[2]

U računarskoj lingvistici, za ovaj diskriminativni proces upotrebljava se još i naziv disambigvacija smisla riječi (engl. word-sense disambiguation, WSD)[1] i predstavlja otvoreni problem u obradi prirodnog jezika i ontologiji. Leksičkom disambigvacijom identificira se smisao (tj. značenje) riječi u rečenici kad riječ ima višestruka značenja. Rješenje ovog problema utječe na druga računarska pisanja, kao npr. diskurs, što poboljšava relevanciju tražilicâ, rezoluciju anafore, koherenciju, inferenciju et cetera.

Čovječji mozak je prilično vješt u leksičkoj disambigvaciji. Činjenica da je prirodni jezik oblikovan na način da ju tako puno zahtijeva odraz je te neurološke realnosti. Drugim riječima, ljudski jezik se razvio na način da reflektira (ali i pomaže oblikovati) urođenu sposobnost koju pružaju moždane neuralne mreže. U računarstvu i informacijskoj tehnologiji koja to omogućava, dugoročni izazov predstavljalo je razvijanje sposobnosti kompjutera da izvrši obradu prirodnog jezika i strojno učenje.

Do danas je istraženo mnoštvo različitih tehnika, od metoda zasnovanih na rječnicima koje upotrebljavaju znanje kodirano u leksičkim izvorima do nadziranih metoda strojnog učenja u kojima je klasifikator izvježban za svaku distinktivnu riječ na korpusu primjera ručno anotiranih smislova, do kompletno nenadziranih metoda koje klasteriraju pojave riječi, inducirajući tako njihove smislove. Među njima, nenadzirani pristupi učenju pokazali su se do danas najuspješnijim algoritmima.

Teško je utvrditi aktualnu točnost, a da se ne upotrijebi mnoštvo upozorenja. U engleskom jeziku točnost na krupnozrnastom (homografskom) nivou rutinski prelazi 90 %, pri čemu neke metode na pojedinim homografima postižu više od 96 %. Na sitnozrnastim distinkcijama smisla, vršne točnosti od 59,1 % do 69,0 % opisane su u recentnim vježbama evaluacije (SemEval-2007, Senseval-2), gdje je osnovna točnost najjednostavnijeg mogućeg algoritma koji je uvijek odabirao najčešći smisao iznosila od 51,4 % do 57 %.

Vidi još[uredi - уреди | uredi izvor]

Reference[uredi - уреди | uredi izvor]

  1. 1,0 1,1 Philip Edmonds (5. oktobra 2004.). "Disambiguation, lexical". Encyclopedia of Language & Linguistics. Elsevier. str. 1. http://www.philipedmonds.com/papers/edmonds-2006-ell2-lexical-disambiguation.pdf. pristupljeno 26. novembra 2015. 
  2. Hudeček, Lana; Mihaljević, Milica (1. lipnja 1996.). "Višeznačni odnosi u nazivlju i njihova leksikografska obradba". Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje. Institut za hrvatski jezik i jezikoslovlje. str. 52. http://hrcak.srce.hr/file/103252. pristupljeno 26. novembra 2015.