Hrvatski nacionalni korpus

Izvor: Wikipedija
(Preusmjereno sa stranice HETA)
Prijeđi na navigaciju Prijeđi na pretragu

Hrvatski nacionalni korpus (HNK) najveći je i najznačajniji korpus hrvatskoga jezika. Počeo se sastavljati u Zavodu za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu od 1998. prema zamislima Marka Tadića. Same teorijske postavke te iskaz potrebe za opsežnim, reprezentativnim, više desetaka milijuna pojavnica velikim korpusom hrvatskoga jezika počele su se pojavljivati i ranije (Tadić, 1990, 1996 Arhivirano 2006-02-10 na Wayback Machine-u, 1998 Arhivirano 2006-02-10 na Wayback Machine-u.). Hrvatski nacionalni korpus sastavlja se od odabranih tekstova na hrvatskome jeziku iz svih područja, struka, žanrova i stilova: od književnih i znanstvenih djela do udžbenika, od novinskih izdanja do mrežnih novina i pričaonica.

U početku je zamišljen u dvije temeljne sastavnice:

  1. 30-milijunskoga korpusa suvremenoga hrvatskoga jezika (30m) u koji su ulazili tekstovi ili njihovi odsječci nastali nakon 1990, isključivo od izvornih govornika, isključivo pisanoga teksta, različitih područja, žanrova i tematike. Nisu uključivani prijevodni i pjesnički tekstovi.
  2. Hrvatskoga elektroničkoga tekstovnoga arhiva (HETA) u koji su ulazili tekstovi u cjelini, a ponajprije čitavi nizovi publikacija (godišta, serije, edicije itd.) koji bi svojim uključivanjem u 30m u mnogome poremetili njegovu uravnoteženost.

Od 2004, s preuzimanjem koncepcije korpusa 3. generacije, napušta se dvosastavnost u korist višesastavnosti i većega opsega. Od 2005. HNK obasiže preko 105 milijuna pojavnica i sastoji se od niza potkorpusa koji se mogu pretraživati pojedinačno i zajedno. S napuštanjem prvotne dvosastavničke koncepcije HNK prelazi na novu poslužiteljsku platformu tako da je od tada za pretraživanje HNK (još uvijek bez ograničenja) potreban slobodno dostupan klijentski program Bonito proizveden u Laboratoriju za obradbu prirodnoga jezika Arhivirano 2005-10-28 na Wayback Machine-u Informatičkoga fakulteta Masarykovog sveučilišta u Brnu. S pomoću toga programa omogućeni su znatno razrađeniji i složeniji upiti nad korpusom, dobivanje raznih vrsta statističkih podataka, potpuni ili djelomični popisi riječi prema raznovrsnim ulaznim uvjetima (s njihovim čestotama), čestotna distribucija različnica, automatsko pronalaženje kolokacija itd.

Eksterni linkovi[uredi | uredi kod]