Uyghur Tilining Komputer Tetqiqati Murat Orhun Komputér Mühendislik Bölümü İstanbul Bilgi Üniversitesi İstanbul, Türkiye murat.orhun@bilgi.edu.tr Abstract: Komputér texnikiliri ve yumshaq détallarning tereqqi qilishi bilen, komputér hayatimizning ayrılmaz bir qismi bolap qaldi. Bolapmu yanfone we simsiz torgha érishish digendek imkaniyetining heryerde mümkün bolishi, komputérlerning téximi keng-kölemde ishilitilishini asan qiliwetti. Buning bilen torda xilmu-xil tillarda yézilghan höccetlering sani kündin künge köpiyip biriwatidu. Höccet yeziwatqada, kelimlerining imla xataliqini tekshürüsh, kelimlerini we cümlelerni otomatik tamamlash, awazni yéziqqa aylandurush yaki yéziqni awazgha aylandurush, hetta qoli bolmighan ademler uchun, köz ishariti bilen höccet teyyarlash ve bir terep qilish qatarliq meshghulatlarni asanla qilghili bolidighan bolap ketti. Bashqa tillarda yézilghan höccetlerden paydilinishqa ihtiyac bolghanda, o tillarni pishshiq bilish ve chüshünüsh kirek. Ama bir ademning hemme tilni pishshiq bilishi mümkün emes. Eger bir adem bir tilni bek yaxshi bilsimu, uzun bir höccetni az bir waqitt ichide tercime qilghili bolmaydu we köp waqitlarda xata bolap qalidu ximmuxil sewepler tüpeylidin. Bu munasiwet bilen, komputér bilimleride, tillarni tetqiq qilish üchün mehsus til tetqiqat gurupliri qurulghan we bu tetqiqatlar uchun nahayiti köp mebleghler silinghan. Komputér bilen bir tilini ikinici bir tilge otomatik tercime qilish üchün qilinghan tetqiqatlar 1950 yilliri bashlan'ghan ve bir-birige yiqin tillar otursida tercime qilishta yaxshi neticiler qolgha keltürülgen idi. Türk tilliri aileside, Türkiye Türkçesi bilen munasiwetlik bazi tetqiqatlar qilin'ghan bolsimu we yaxshi neticilerge irishilgen bolsimu, Azeriche, Uyghurche, Tatarche, Qazaqche ve Qirghizche digendek bashqa Türk tilliride tetqiqatlar bashlan'ghuch basquchlirida turiwatidu. Bu maqilda, Uyghur tili üchün qilinghan komputér tetqiqatliri heqqide qisqiche melumat birilidu. Key Words: Uyghurche grammatka, Türk tilliri, Uyhgur morphologiyesi, Uygurche komputér tetqiqati, Uygur cümleleri. 1. Kirish Komputér bilen qilinghan til tetqiqatlirigha, addette tebi til tetqiqati dep atilidu. Tebi til tetqiqati, sün'i eqil (artificial intelligence ) tetqiqatining öz ichige alghan bir tarmaq tema bolup, adette, tillargha munasiwetlik yumshaq detallar yézish we layheleshen terkip tapidu. Künümüzde, tebi til tetqiqatining témilirining eng köp tetqiq qilinghan qismi bolsa, komputér bilen tercime qilish témisigha merkezlishidu. Komputer bilen bir-birige oxshimighan tillar arisida tercime qilish tetqiqatliri 1950 yilida bashlan'ghan bolup, 50 Rusçe cümle pütünley toghra halda İngilizchige tercime qilinghan [1]. Bu tercime sistemining tercime ünümi nahayiti yuqiri bolghan bolap, bu sistemni layheligenler, 3-5 yil ichide mükemmel bir tercime sistemi yasighili bolidu dep perez qilishqan. Amma, bu tetqiqatni emilileştiridighan waqitta, burun perez qilghandek asan emsliki bilingen we dangliq ALPAC dokilati ilan qilinghan [2]. Bu dokilatta, komputér bilen qilinghan tercimining, tercime qilish süriti asta, ishsüpüti töwen we tenerqi, ademler qilghan tercime qarighanda köp yuqiri dep dokilat qilinghan. Bu dokilat komputér bilen tetqiq qilishqa nahayiti ighir zerbe bergen bolap bu tetqiqat 10 yildek tashlinip qalghan. İlimpen we komputer texnikisining tereqqi qilishi bilen, ishlesh süriti yuqiri, tenerqi töwen we sighimchanliqi yuqiri bolghan komputerler yasilishqa bashlidi. Buning bilen tebi til tetqiqati we komputér bilen tetqiq qilishtiki eng qong tosalghu bolghan, qattiq detallargha munasiwetlik tosalghular tügügen boldi. Buning'gha egiship, tebi til tetqiqati yingidin canlinip ketti we mehsus bir sahade ishligen we tercime ünümü yuqiri bolghan tercime sistemleri yasaldi. Mesilen, Fransizche bilen İngilizche üchün yasalghan METEO tercime sistemi [3], bu iki til arisisa, have rayi melumatlrini nahayiti muwapiqiyetlik tercime qilidu we hazirmu ishiltiliwatidu. Yene bir misal
bolsa, İn'gilizchidin Yaponchige maqale témisi tercime qilish sistimi, bu sitemning toghriliq dericisi 98% bolap hesaplanghan [4]. Ama, hemme ortamda we her-qandaq témini tercime qilidighan tercime sistemliri tixiche yasilip bolalmidi. Buning eng asasliq sewipi bolsa, bir tebi tilda, bir mena ipadilesh uchun, xilmu-xil shekillerning bolishi bilen munasiwetlik. Bir tilda bolghan bir söz, cümle, bir bashka tilda pütünley bolishi mümkün emes. Bu seweptin, tercime qilinghan höccetlerde, eslidiki höccetlerge qarighanda, yenila bir miqdar özgürüsh bolidu. Hazirghiche yasalghan tercime sistemliride, grammatikiliq cehettin bir-birige yeqin bolghan tiller arasida tercime yapqan sistemelering ünümi, grammatkiliq cehettin bir-birige bek oxshimighan tiller arisida tercime yapqan sistemlerning ünimige qarighanda yuqiri bolghan. Mesilen, til cehettin bir-birige yeqin bolghan İngilizce bilen Nimis tili arisida tercime yapqan sistemning ünimi, bir-birige bek oxshimighan, İngilizce bilen Yaponche üchün yasalghan sistemdin köp yurqiri bolghan [5-7]. Bu maqale cemi 4 bölümden terkip tapqan bolup, 1- bölümde, tebi til tetqiqati we komputér till tetqiqati bilen qisqiche tonushturush bergendin kiyin, 2- bölümde, Türk Tilliri bilen qilinghan tetqiqatlar tonushturuludu. 3- Bölümde Uyghur tili bilen munasiwetlik tetqiqatlar heqqide tonushturush birilgendin kiyin,4- bölümde Uygur tili tetqiqati bilen munasiwetlik yéngi timilar chushendirilip, teklipler birilidu. 2. Türk Tilliri Tetqiqatlari Komputér bilen qilin'ghan Türk tilliri tetqiqatlirida, tercime qilish bilen munasiwetlik tunci tetqiqat Azeriche bile Türkche arısda qilin'ghan [8]. Bu tercime sistim lüghetni asas qilip tercime qilidu. Tercime qilish prinsipi bolsa, aldi bilen sözlerning tomiri tipilghan, uningdin kiyin, qoshumchilarning Azeriche qarshiliqi tipilip tercime qilin'ghan. Türk tili bilen Azeri tilining cümlelerdiki sözlerning orni oxshash bolghanliqi uchun, buning bilen munasiwetlik tetqiqat qilinmighan. Türk tilliri bilen munasiwetlik qilinghan bir bashka tercime sistimi bolsa Qirim Tatarçesi bilen Türk tili üchun yasalghan [9]. Bu tercime sistimde 5300 dane sözlük ishlitilgen bolap, tercime peqetla, Türkchidin Tatarchigha qilinghan. Bu sistemin ishlesh prinsip bolsa Kemal Oflazer'ning teklip ettighi morphologiyelik tetqiq qilish usulunu qullanip [ 10], Tatarche uchun bir morphologiyelik tetqiq qilighuchi laygheligen [11] we sözlerning tomiri tercime qilishqa tirishqan. Bu sisteming ishlishide, kem qalghan yiri bolsa, morphologiyelik iniqsizliqni hel qilish uchun tetqiqat qilinmighan. Türk tilliri uchun, bir qeder chongqur qilingat tetqiqatlar, Cüneyt Tantugh'ning İstanbul Tekink Üniversitesi, Komputér Mühendislik bölümüde püttürgen doktora tezide qilinghan [12]. Bu tetqiqattimu, Kemal Oflazer'ning Türkche uchun qilghan tetqiqatini asas qililp turup [11], Türkmen tili üchün morphologiyelik tetqiq qilghuchi layheligen [13]. Bu sistemde, cümlerlerdeki sözlering orunliri, morphologiyelik iniqsizliq qatarliq eng qiyin mesililerni hel qilish üchün, istastikiliq hesaplash qatarliq usullarmu qullanghan we bu tercime qilish usuluning pütün Türk tilliri otursida tercime qilishqa muwapiq dep otturgha qoyghan. Bu iddiyesini isplatlash uchun, Türkmenchidin Türkchige tercime qilghan bir sistem otturgha chikarghan [14]. Resim-1'de, Türkmenchidin tercime qilghanda, ne bilen kim, insan bilen adam we konuş bilen söyle digendek sözlerdin qaysini tallash bilen munasiwetlik hesaplama körsitilgen. Resim 1: Türkçe cümlening eng chong nispete qarap tüzilishi[14]
3. Uyghur Tili Tetqiqatlari Bir tilini komputér bilen bir terep qilishta, aldi bilen u til bilen munasiwetlik élipbeni bir terep qilish kirek. Uyghur tilida, Erep élipbesi resmi ishlitilsimu, Latinchemu yenile isihiltiliwatidu. Bu sepweptin Uyghur tilining komputérde qolay bir terep qilinishi üchün, Uyghur Komputer İlmiy Jemiyiti kurulghan [15]. Bu Jemiyet pütünley xalisane xizmet xilghan tetqiqatchilar we ziyalilardan qurulghan, norghunlighan yumshaq détallarni yasap chikip heksiz tarqitiwatidu. Eng muhim detallar ichide, Uygurche Arap Yéziqi bilen Latin Yeziqini bir-birige aylandurush we Uyghurche fontlar qatarliqlar bar. Bu Jemiyet yeni Dangliq Uyghur komputer mütühesisi Warisjan Janbaz'ning yitekciligide, Uyghur herplirining xeliqaraliq unicode cediwilide yer élishi we omumlishishi uchun köp küch chikarghan [16-18]. Bugün bir yumshaq detall shirkitinig ishlep chikarghan programini bir bashka yerde xatasiz ishlitiwatqan bolsaq, tor betlerini toghra körüwatqan bolsaq, biz o xalisane ishligen fedar ziyalilirimizgha rexmet éytishimiz kirek. Uyghur tiligha munasiwetlik komputér bilen tetqiq qilish timis tunji qitim Yapoche bilen Uyghur tili arisidan qilinghan [19]. Bu sistemde Uyghurche bilen Yapanchining grammatikisining oxshashliqidek alaghidilikidin paydilinghan. Amma, menidash sözlerning heqqide iniqsizliqni hel qilish uchun tetqiq qilinmighan. Bu sistemni Uyghur tili bilen munasiwetlik komputér tercim tetqiqating bashlanghuchi dep qarighili bolidu. Bu tetqiqattin burunumu, Uyhur tili metinler ambiri (corpus) ambiri qatarliq tetqiqatlar qilinghan bolsimu [20-21], ama ammigha ichiwitilmigenliki uchun bek bilinip ketmigen. Bu seweptin istastikini asas qilghan tetqiqatlar bek az salmaqni igelleydu, qiliniwatqan bezi tetqiqatlar yenile morphologiyelik we quralliq tetqiqatlarni asas qilwatidu. Mesilen, Uyghurchidin Türkcheye tercime qilish sisitmide [22], Morpholgiyelik tetqiq qilghuchu Uyghur tili grammatiksi we lughetlerge assasen layhelengen [23-27]. Ama Uyghur tilinin söz tüzilishi jehettin bek murekkep bolghanliqi uchun [28-30], layhelen'gen morphologiyelik tetqiq qilghuchining ünümü perez qilghandek yuquri bolmighan. Bir tebi tilda, mena ipadilesh uchun nurghunlighan shekiller bolidu. Bularning hemmisni toghra tipish we bu shekillerge qarap qural yézish mumkun emes. Bu seweptin, komputer bilen tercime sistemliride istastikilik hesaplargha qarap tercime qilish asas qiliniwatidu. Mesilen Google tercime sistemi, istastikilik neticilerge asasen tercime qilinidu. Yiqinqi waqitlarda, Uyghur tilidimu istastikiliq neticilerge qarap tercime qilidighan sistem bilen munasiwetlik tetqiqatlar qiliniwatidu. Mesilen Uygurchidin-Xenzuchige tercime sitemi [31-32]. Bu sistemde bir korpusta bulunghan Uygurche jumlelerdin paydilinip, sözlerni türümlerge ayrıma, ve sözlerning normal bir cümlede orunlishish ihtimalliqi hisaplinip toghra tercime hasil qilinghan. 4. Netice Bu maqalide, Uyghur tili bilen munasiwetlik qilinwatqan komputer tetqiqatliri qisqiche tonushturldi we Türk tilliri bilen qilinghan tetqiqatlar bilen silishturuldu. Tetqiqatlar neticisi ve tetqiqat jornallirigha qarighanda, Türk tilliri bilen qilinghan tetqiqatlar ichide, Türkchige munasqiwetlik tetqiqatlar köp salmaqni igelleydu. Buning asasliq sewipi, Türkiye döliti bu tetqiqatlar uchun köplep meblegh siliwatidu, tetqiqat merkezliri ichiwatidu, akadimisyen we tetqiqatchilarni teshwiq qilwatidu. Türk tilliri bilen qiliniwatqan tetqiqatlar ichide, Türkchidin kinin, eng köp tetqiq qiliniwatqini Ughur tilidur. Ugghur tili bilen munasiwetlik tetqiqatlar, meyli til jehettin bolsun, meyli yumshaq detal bolsun, bashka Türk tillirige qarighanda köp aldıda. Amma, nurghunlighan tetqiqatlar bizni saqlap turiwatidu. Mesilen, birlikke kelghen we hemme tetqiqatchilar paydilanalaydighan Korpus tixi ishlenmidi. Bundak bir korlpus yasalmay turup, tiximu ilgirligen tetqiqatlarini qilishta qiynilip qalimiz. Bu seweptin, hazirghiche qilinghan tetqiqatlardin pexirlinimiz, buning bilen bir waqitta, qilmaqchi bolghan tetqiqatlar uchun tiximu tirshishimiz kirek. Bu jechettin, yalghuzla komputer mühendislirige emes, til shunashlirimizghimu wezipe chushidu.
Qaynaqlar [1] Hutchins, J.,: The first public demonstration of machine translation: the Georgetown-IBM system, 7th January 1954. AMTA conference, 2004. [2] Hutchins, J.,: Machine Translation: A Brief History, Concise history of the language sciences: from the Sumerians to the cognitivists. Edited by E.F.K., Koerner ve R.E.Asher, Oxford, Pergamon Press, 1995. [3] Chandioux, J.,: Météo: Un système opérationnel pour la traduction automatique des bulletins météorologiques destinés au grand public, Meta, 21, 127-133,1976. [4]. Nagao, M., Tsujii, J., Yada, K., Kakimoto, T.,: An Englısh Japanese Machıne Translatıon System Of the Titles Of Scıentıfıc And Engıneerıng Papers. International Conference On Computational Linguistics, Porceedings of the 9th conference on Computational Linguistics- Vol.1, Prague, Czechoslovakia, pp. 245-225, 1982. [5] Nagao, M.,: A Framework of a Mechanical Translation Between Japanese and English by Analogy Principle, Artificial and Human Intelligence, Elithorn, A. and Banerji, R. (eds), Elsever Science Publishers., 1984. [6] Uchida, H. ve Sugiyama, K.,: A Machıne Translatıon System From Japanese Into Englısh Based On Conceptual Structure, Proceedings of the 8th conference on Computational linguistics, Tokyo, Japan, pp. 455-462, 1980. [7] Hanneman, G., Huber, E., Agarwal, A., Ambati, V. Parlikar, A. Peterson, E. ve Lavie, A., 2008. A Statistical Transfer Systems for French English and German English Machine Translation, Proceedings of the Third Workshop on Statistical Machine Translation, Columbus, Ohio, pp. 163-166. [8] Hamzaoğlu, İ.,: Machine translation from Turkish to other Turkic languages and an implementation for the Azeri languages, in Institute for Graduate Studies in Science and Engineering. MSc Thesis İstanbul: Bogazici University, 1993. [9] Altıntaş, K.,. Turkish to Crimean Tatar Machine Translation System, in Bilgisayar Mühendisliği Bölümü. MSc Ankara: Bilkent Üniversitesi, 2000. [10] Oflazer, K.,: Two-level Description of Turkish Morphology, Literary and Linguistic Computing, Vol. 9, pp. 137-148., 1995. [11] Altıntaş, K. ve Çiçekli, İ.,: A Morphological Analyser for Crimean Tatar, in Proceedings of the 10th Turkish Symposium on Artificial Intelligence and Neural Networks, TAINN North Cyprus, pp. 180-189, 2001. [12] Tantuğ, A. C., : Akraba ve Bitişken Diller Arasında Bilgisayarlı Çeviri İçin Karma Bir Model.. Bilgisayar Mühendisliği Bölümü. Doktora Tezi. İstanbul: İstanbul Teknik Üniversitesi, 2007. [13] Tantuğ, A. C., Adalı E., ve Oflazer K.,: Computer Analysis of The Turkmen Language Morphology, FinTAL Lecture Notes in Computer Science, Vol.4139, Springer, pp. 186-193,2006. [14] Tantuğ, A. C., Adalı, E., ve Oflazer, K.,:. Machine Translation between Turkic Languages. Proceedings of the ACL 2007 Demo and Poster Sessions, Pragye, pp. 189 192., 2007. [15] http://www.ukij.org, (eng axiri 28-04-2012 ziyaret qilindi). [16] Duval, J.R, Janbaz, W.A,: Middle East & Central Asia Politics, Economics, and Society Conference Sept 7-9, University of Utah, Salt Lake City, USA, 2006. [17] Saleh.I., Janbaz, W.A,: Web Development Considerations for Unicode-based Text Processing in Uyghur Language. The 30 th Internationalization and Unicode Conference, Washington, DC USA, 2006. [18] http:// unicode.org (eng axiri 28-04-2012 ziyaret qilindi). [19] Muhtar Mahsut, Yasuhiro Ogawa, Kazeu Sugino, Katsuhiko Tuyama, and Yasuyoshi Inagaki, An Experiment on Japanese- Uighur Machine Translation and Its Evalutation AMTA 2004, LNAI 3265, pp.208-216, 2004.
[20] Yusup Abaidula, Rezwangul, Abdiryim Sali The Research and Development of Computer Aided Contemporary Uyghur Language Tagging System Volume Journal of Chinese Language and Computing pp.203-210, 2005. [21] Yusup Aibaidulla and Kim-Teng Lua, The development fo Tagged Uyghur Corpus, Proceedings of PACLIC17,1-3,Sentosa, Singapore, P228-234, October 2003. [22] Murat ORHUN, Eşref ADALI, A.Cüneyd TANTUĞ: Macine translaiton from Uyghur to Turkish, Engineering journal, Istanbul Technical Univ, Vol:10-3, Pages 3-14,2011. [23] Hamit T. Modern Uygur Grammar (Morphology). Yıldız Teknik Üniversitesi, Fen-Ed Fak. T.D.E Bölümü. Istanbul 2003.(İngilizce neshiri). [24]. Mirsultan Osmanof, Hazirqi Zaman Uyghur Edebiy Tilining İmla ve Teleppuz Lughiti. Shin Jiang Xeliq Neshiryatı. Ocak 1997. (Uygurche nesiri). [25 ] Sultan Mahmut KAŞGARLI Modern Uygur Türkçesi Grameri İstanbul 1992. Türkiye [26] Murat Orhun, A.Cüneyd Tantuğ, Esref Adalı: Rule Based Analysis of the Uyghur Nouns.Proceedings of the International Conference on Asian Language Processing (IALP) 2008.Chiang Mai, Thailand, 12-14 November 2008. [27] Murat Orhun, A.Cüneyd Tantuğ, Esref Adalı: Rule Based Tagging of the Uyghur Verbs. Fourth International Conference on Intelligent Computing and Information Systems. Faculty of Computer &Information Science,Ain Shams University Cairo,Egypt 19-22 March, 2009. [28] Belikiz: The 3253 different word forms Uygur Verb "qil".corpus Linguistics and Corpus Based Reseach.Department of Linguistics, College of Anthropology, Xinjiang Normal University.Xinjiang, China. 07.07. 2007. [29] Belikiz, Ablajan, Dilmurat: The 2107 different words forms of Uyghur verb "bol". Corpus Linguistics and Corpus Based Reseach, 01/07/2007. Dept of Linguistics, College of Anthropology Xinjiang Normal University. http://www.xjcorpus.net. [30] Gülnar Eziz: Resistance to Borrowing of Uyghur Verbs.Annual Conference, University of Washington, October18-21, 2007. [31] Batuer Aisha, Maosong Sun, A Statical Method for Uyghur Tokenization, In Proceedings of IEEE International Conference on Natural Language Processing and Knowledge Engineering, Da Lian, China,2009. [32] Batuer Aisha, Maosong Sun, Uyghur-Chinese Statistical Machine Translation by Incorporating Morphological Information, Journal of Computational Information Systems 6:10 (2010) 3137-3145