Hrvatski jezik u digitalnom dobu

Informacijske tehnologije mijenjaju naš svakodnevni život. Svakodnevno se služimo računalima za pisanje, uređivanje, računanje, pretragu obavijesti i sve više za čitanje, slušanje glazbe, pregledavanje fotografija i gledanje filmova. U svojim džepovima nosimo mala računala koja koristimo za obavljan...

Full description

Bibliographic Details
Main Authors: Tadić, Marko, Brozović-Rončević, Dunja, Kapetanović, Amir
Other Authors: Rehm, Georg, Uszkoreit, Hans
Format: Book
Language:Croatian
Published: Springer 2012
Subjects:
Online Access:http://darhiv.ffzg.unizg.hr/id/eprint/4107/
http://www.meta-net.eu/whitepapers/volumes/croatian
http://darhiv.ffzg.unizg.hr/id/eprint/4107/1/croatian.pdf
Description
Summary:Informacijske tehnologije mijenjaju naš svakodnevni život. Svakodnevno se služimo računalima za pisanje, uređivanje, računanje, pretragu obavijesti i sve više za čitanje, slušanje glazbe, pregledavanje fotografija i gledanje filmova. U svojim džepovima nosimo mala računala koja koristimo za obavljanje telefonskih poziva, pisanje e-pošte, prikupljanje obavijesti i za zabavu gdje god se nalazili. Kako ta masovna digitalizacija obavijesti, znanja i svakodnevnih komunikacija utječe na naš jezik? Hoće li se naš jezik promijeniti ili čak nestati? Kakve su mogućnosti hrvatskoga jezika za preživljavanje? Mnogi od šest tisuća jezika na svijetu ne će preživjeti u globaliziranom digitalnom informacijskom društvu. Procjenjuje se kako je barem dvije tisuće jezika osuđeno na izumiranje u sljedećem desetljeću. Preostali će nastaviti igrati ulogu u privatnome krugu obitelji ili susjedstva, ali ne nužno i na razini općega poslovanja ili na akademskoj razini. Status jezika ne ovisi samo o broju njegovih govornika ili broju knjiga, filmova i TV-postaja koje se njime služe, nego i o prisutnosti toga jezika u digitalnome informacijskome prostoru i u adekvatnoj programskoj podršci. U današnjem informacijski usmjerenom društvu, mogućnost dostupa obavijestima na vlastitome jeziku smatra se dosegnutom civilizacijskom razinom nezaobilaznom za prevladavaju digitalnoga jaza. Naime, jezične zajednice, koje za svoj jezik ne budu imale razvijene jezične tehnologije, ostat će s druge strane digitalne razdjelnice. Kad je riječ o hrvatskome jeziku i jezičnim tehnologijama, onda ponajprije valja imati na umu ne samo osiguranje njegova ravnopravnoga sudjelovanja s drugim jezicima u globaliziranome informacijskome društvu, nego i promjenu njegovih sociolingvističkih okolnosti koja se može očekivati u 2013. kad će postati 24. službeni jezik Europske unije. Od toga trenutka za hrvatski se jezik očekuje dostupnost čitavoga niza jezičnotehnoloških resursa, alata i usluga kakve već postoje, ali se isto tako i dalje nesmetano razvijaju za ostale službene jezike EU-a. Tražilice koje mogu pretraživati puni tekst prema svim oblicima u kojima se hrvatske riječi mogu pojavljivati, sustavi za diktiranje tj. automatsko pretvaranje govora na hrvatskome u tekst, ili, možda najvažniji, sustavi za strogo prevođenje na i sa hrvatskoga, samo su neki od primjera uporabivosti jezičnih tehnologija koje se očekuju ne samo kao istraživački prototipovi, nego i kao korisni komercijalni proizvodi. Ne možemo očekivati kako će ih za hrvatski jezik izraditi istraživači koji se bave engleskim, francuskim, njemačkim, češkim, slovenskim ili srpskim, već te jezične resurse, alate i usluge moramo razviti sami. Međutim, utoliko će nam biti lakše ako te napore uskladimo i koordiniramo sa sličnim takvim naporima za druge EU jezike, a upravo tome služi inicijativa opisana u ovoj tiskovini. Ova bijela knjiga o hrvatskome jeziku pokazuje kako u Hrvatskoj postoji temeljno okružje za istraživanje jezičnih tehnologija, međutim to do sada nije rezultiralo i razvojem jezične industrije. Unatoč tome što su za hrvatski izrađeni neki jezični resursi i tehnologije, znatno ih je manje nego za druge slavenske jezike, npr. češki, a još ih je manje razvijeno u usporedbi s većim europskim jezicima kao što su engleski, njemački ili francuski. Premda u Hrvatskoj postoji već polustoljetna tradicija istraživanja na području računalnoga jezikoslovlja, računalne obradbe teksta i korpusne lingvistike (uz nastanak tako značajnih resursa kao što su Hrvatski čestotni rječnik, Hrvatski nacionalni korpus, Hrvatsko-engleski usporedni korpus, Hrvatski morfološki leksikon, Hrvatska ovisnosna banka stabala, itd.), ne može se reći da je sadašnje stanje jezičnih tehnologija zadovoljavajuće. Uz nacionalno podupirane projekte, koji su na žalost još uvijek malobrojni, od 2008. započinje se ozbiljnija potpora kroz pet projekata Europske komisije: CLARIN, ACCURAT, LetsMT!, ATLAS, XLike; ali i oni su mahom usmjereni na rješavanje pojedinačnih problema ili pružanja tehnoloških rješenja, a rijetko na ukupnost jezičnih tehnologija za hrvatski jezik. Tu ulogu za hrvatski jezik preuzima šesti projekt – CESAR – kao i šira META-NET inicijativa, stvaranjem ove bijele knjige. Prema procjenama podrobnije iznesenim u ovome izvješću, potrebno je poduzeti niz ciljanih mjera kako bi se hrvatski jezični resursi i alati doveli na istu razinu razvijenosti glede njihove kakvoće i količine, kakva je razina već dosegnuta za druge europske jezike. Vizija META-NET-a su visokokvalitetne jezične tehnologije za sve jezike koje podupiru političko i gospodarsko jedinstvo kroz kulturnu raznolikost. Ove će tehnologije pomoći u uklanjanju prepreka i u izgradnji mostova između jezika u Europi. To, međutim, traži od svih dionika ovoga procesa – politike, istraživanja, gospodarstva i društva u cjelini – objedinjavanje svojih napora u budućnosti. Ovaj niz bijelih knjiga nadopunjuje ostale strateške aktivnosti koje poduzima META-NET. Najnovije obavijesti, kao što su trenutačna inačica vizije META-NET-a ili Strateški istraživački plan (SIP) može se pronaći na META-NET-ovim mrežnim stranicama: http://www.meta-net.eu. Information technology changes our everyday lives. We typically use computers for writing, editing, calculating, and information searching, and increasingly for reading, listening to music, viewing photos and watching movies. We carry small computers in our pockets and use them to make phone calls, write emails, get information and entertain ourselves, wherever we are. How does this massive digitisation of information, knowledge and everyday communication affect our language? Will our language change or even disappear? What are the Croatian language’s chances of survival? Many of the world’s 6,000 languages will not survive in a globalised digital information society. It is estimated that at least 2,000 languages are doomed to extinction in the decades ahead. Others will continue to play a role in families and neighbourhoods, but not in the wider business and academic world. The status of a language depends not only on the number of speakers or books, films and TV stations that use it, but also on the presence of the language in the digital information space and soware applications. In today’s information society accessibility of information in your mother tongue is considered to be the civilisational level necessary for overcoming the digital divide. The linguistic communities without developed language technologies for their language will remain on the other side of digital divide. When it comes to the Croatian language and its language technologies, it is not just the assurance that it will be able to participate on equal grounds with other languages in our globalised information society, but even more it is about the imminent change of its sociolinguistic conditions. It is projected that from mid 2013 the Croatian language will become the 24th official language of the European Union. Starting with that moment it will be expected that for Croatian the whole range of different language resources, tools and services will be accessible, similar to the ones that already exist and are being developed further for other EU languages. Search engines providing full-text search with all word forms in which Croatian words could appear, dictation systems, i. e., speech to text systems for Croatian, or – maybe the most important – machine translation systems to and from Croatian, are just some of examples of important language technologies. These systems are not expected as research prototypes only, but also as useful commercial products. We can’t expect that they will be developed for the Croatian language by researchers dealing with English, French, German, Czech, Slovenian or Serbian, but we have to develop these language resources, tools and services on our own. However, this will be easier to achieve if we harmonise and coordinate our efforts with similar efforts for other EU languages. It is exactly what the initiative described in this publication is about. This white paper for the Croatian language demonstrates that a basic language research environment exists in Croatia, although the language industry is not really developed. Despite the fact that a small number of technologies and resources for Croatian exist, there are fewer of them developed for the Croatian language than for other Slavic languages, e. g., Czech, and far fewer than for the major EU languages, like English, German or French. Although in Croatia there’s a half-century long tradition of research in computational linguistics, natural language processing and corpus linguistics (with compiling such important language resources as the Croatian Frequency Dictionary, the Croatian National Corpus, the Croatian-English Parallel Corpus, the Croatian Morphological Lexicon, the Croatian Dependency Treebank, etc.), it can’t be assumed that the current status of language technologies is satisfactory. Beside the nationally funded projects – unfortunately, still only few of them – since 2008 started more substantial funding through five EC projects: CLARIN, ACCURAT, LetsMT!, ATLAS, XLike; but they are also mainly oriented towards solving individual problems or providing technological solutions, and rarely towards advancing the overall situation of language technologies for Croatian. For the Croatian language the sixth project – CESAR – takes exactly this role within the wider META-NET initiative, by producing this white paper. According to the assessment detailed in this report, focused action must be taken in order to bring the Croatian language resources and tools at the level of quality and quantity of language resources and tools that already exist for other European languages. META-NET’s vision is high-quality language technology for all languages that supports political and economic unity through cultural diversity. This technology will help tear down existing barriers and build bridges between Europe’s languages. This requires all stakeholders – in politics, research, business, and society – to unite their efforts for the future. This white paper series complements the other strategic actions taken by META-NET. Up-to-date information such as the current version of the META-NET vision paper or the Strategic Research Agenda (SRA) can be found on the META-NET web site: http://www.meta-net.eu.