Корпус лингвистика дегеніміз не?

Мазмұны:

Корпус лингвистика дегеніміз не?
Корпус лингвистика дегеніміз не?
Anonim

Осыдан бірнеше ондаған жылдар бұрын ғалымдар лингвистикалық зерттеулерді автоматтандыруды армандайтын еді. Жұмыс қолмен орындалды, оған студенттердің көп бөлігі тартылды, «назарсыздық» қатесінің айтарлықтай ықтималдығы болды, және ең бастысы, бәрі көп, көп уақытты алды.

Компьютерлік технологияның дамуымен зерттеулерді әлдеқайда жылдам жүргізуге мүмкіндік туды, ал бүгінгі таңда тілді зерттеудің перспективті бағыттарының бірі корпус лингвистика болып табылады. Оның басты ерекшелігі - бір дерекқорға біріктірілген, арнайы жолмен белгіленген және корпус деп аталатын мәтіндік ақпараттың үлкен көлемін пайдалану.

Бүгінгі таңда миллиондаған миллионнан ондаған миллиардқа дейінгі лексикалық бірліктерді қамтитын әртүрлі тілдік материалдарға негізделген әртүрлі мақсаттар үшін жасалған көптеген корпустар бар. Бұл бағыт келешегі зор деп танылды және қолданбалы және ғылыми мақсаттарға қол жеткізуде айтарлықтай прогресті көрсетеді. Кәсіби мамандар, бір жолмен немесе басқалармен айналысадытабиғи тілде мәтіндік корпуспен кем дегенде базалық деңгейде танысу ұсынылады.

Корпус лингвистикасының тарихы

Бұл бағыттың қалыптасуы өткен ғасырдың 60-жылдарының басында АҚШ-та Браун корпусының құрылуымен байланысты. Мәтіндер жинағы небәрі 1 миллион сөз формасынан тұрды және бүгінде мұндай көлемдегі корпус бәсекеге мүлдем қабілетсіз болар еді. Бұл көбінесе компьютерлік технологиялардың даму қарқынымен, сондай-ақ жаңа ғылыми ресурстарға сұраныстың артуымен байланысты.

90-жылдары корпус лингвистикасы толыққанды және дербес пән болып қалыптасты, мәтіндер жинақтары құрастырылып, бірнеше ондаған тілдерге белгіленді. Осы кезеңде, мысалы, 100 миллион сөз қолдану үшін Британдық Ұлттық корпус құрылды.

корпус лингвистика
корпус лингвистика

Тіл білімінің бұл бағыты дамыған сайын мәтіндердің көлемі ұлғаяды (және миллиардтаған сөздік бірлікке жетеді), таңбалау барған сайын әртүрлі болады. Бүгінде интернет кеңістігінде көркем немесе академиялық әдебиетке бағытталған жазбаша және ауызша сөйлеудің, көптілді және білім берудің корпусын, сондай-ақ басқа да көптеген түрлерін таба аласыз.

Қандай жағдайлар бар

Корпус лингвистикасындағы корпус түрлерін бірнеше жолмен көрсетуге болады. Жіктеу үшін мәтіндердің тілі (орыс, неміс), қолжетімділік режимі (ашық бастапқы, жабық дереккөз, коммерциялық), бастапқы материалдың жанры (көркем әдебиет) негіз бола алатыны интуитивті түрде түсінікті.әдебиет, деректі фильм, академиялық, журналистика).

корпус лингвистикасының әдістері
корпус лингвистикасының әдістері

Қызықты түрде ауызша сөйлеуді бейнелейтін материалдарды генерациялау жүзеге асырылады. Мұндай сөзді әдейі жазып алу респонденттерге жасанды жағдай туғызып, нәтижесінде алынған материалды «стихиялы» деп атауға болмайтындықтан, қазіргі корпус лингвистикасы басқа жолмен жүрді. Волонтер микрофонмен жабдықталған, күндіз ол қатысқан барлық әңгімелер жазылады. Айналадағы адамдар, әрине, күнделікті әңгіме барысында ғылымның дамуына үлес қосып жатқанын біле алмайды.

Кейінірек алынған аудиожазбалар деректер банкінде сақталады және транскрипт сияқты басып шығарылған мәтінмен бірге жүреді. Осылайша күнделікті ауызекі сөйлеу корпусын жасау үшін қажетті белгілеу мүмкін болады.

Қолданба

Тілді пайдалану мүмкіндігі бар жерде мәтіндік корпусты да пайдалануға болады. Тіл білімінде корпус әдістерін қолданудың мақсаты мыналар болуы мүмкін:

  • Сайлаушылар мен тұтынушылардың оң және теріс пікірлерін қадағалау үшін саясат пен бизнесте кеңінен қолданылатын көңіл-күй бағдарламаларын жасау.
  • Сөздіктер мен аудармашылардың жұмысын жақсарту үшін ақпараттық жүйені қосу.
  • Тілдің құрылымын, даму тарихын түсінуге және оның жақын болашақтағы өзгеруін болжауға ықпал ететін әртүрлі зерттеу тапсырмалары.
  • Морфологиялық,синтаксистік, семантикалық және басқа мүмкіндіктер.
  • Әртүрлі лингвистикалық жүйелер жұмысын оңтайландыру және т.б.

Қабықтарды пайдалану

Ресурс интерфейсі әдеттегі іздеу жүйесіне ұқсайды және пайдаланушыдан ақпарат базасын іздеу үшін кейбір сөзді немесе сөздер тіркесін енгізуді ұсынады. Нақты сұрау пішініне қоса, мәтіндік ақпаратты кез келген дерлік лингвистикалық критерийлер бойынша табуға мүмкіндік беретін кеңейтілген нұсқаны пайдалануға болады.

компьютерлік және корпустық лингвистика
компьютерлік және корпустық лингвистика

Іздеуге негіз болуы мүмкін:

  • сөйлем мүшелерінің белгілі бір тобына жататын;
  • грамматикалық мүмкіндіктер;
  • семантика;
  • стилистикалық және эмоционалды бояу.

Сонымен қатар, сөздер тізбегі үшін іздеу критерийлерін біріктіруге болады: мысалы, етістіктің осы шақта, бірінші жақтағы, жекешеден кейін "in" предлогы мен айып септіктегі зат есімнен кейінгі барлық кездесулерін табыңыз.. Осындай қарапайым тапсырманы шешу пайдаланушыға бірнеше секундты алады және берілген өрістерде тінтуірдің бірнеше рет басуын қажет етеді.

Жасау процесі

Іздеудің өзі барлық қосалқы құрамдарда да, нақты мақсатқа жету кезіндегі қажеттіліктерге байланысты арнайы таңдалған біреуде де жүргізілуі мүмкін:

  1. Ең алдымен корпустың негізін қандай мәтіндер құрайтыны анықталады. Практикалық мақсатта журналистік, газет материалдары, интернеттегі пікірлер жиі пайдаланылады. Ғылыми жобаларда ең көпәртүрлі корпус түрлері, бірақ мәтіндер кейбір жалпы негізде таңдалуы керек.
  2. Алынған мәтіндер жинағы алдын ала өңделеді, қателер түзетіледі, егер бар болса, мәтіннің библиографиялық және экстралингвистикалық сипаттамасы дайындалады.
  3. Барлық мәтіндік емес ақпарат сүзіледі: графика, суреттер, кестелер жойылады.
  4. Токендер, әдетте сөздер, одан әрі өңдеу үшін бөлінеді.
  5. Соңында элементтер жиынтығының морфологиялық, синтаксистік және басқа белгілеулері жүзеге асырылады.

Барлық орындалған операциялардың нәтижесі - оның үстіне таратылған элементтер жиынтығы бар синтаксистік құрылым, олардың әрқайсысы үшін сөйлеу бөлігі, грамматикалық және кейбір жағдайларда семантикалық ерекшеліктері анықталады.

Істерді құрудағы қиындықтар

Корпус алу үшін көп сөздерді немесе сөйлемдерді біріктіру жеткіліксіз екенін түсіну маңызды. Бір жағынан, мәтіндер жинағы теңгерімді болуы керек, яғни мәтіндердің әртүрлі түрлерін белгілі бір пропорцияда ұсыну керек. Екінші жағынан, істің мазмұны ерекше түрде белгіленуі керек.

Захаров корпус лингвистика
Захаров корпус лингвистика

Бірінші мәселе келісім бойынша шешіледі: мысалы, жинаққа көркем әдебиет мәтіндерінің 60%, деректі фильмдердің 20% кіреді, белгілі бір үлес ауызша сөйлеудің жазбаша баяндалуына, заңнамалық актілерге, ғылыми еңбектерге және т.б.. Теңгерімді корпусқа арналған тамаша рецепт бүгін жоқ.

Мазмұнды белгілеуге қатысты екінші сұрақты шешу қиынырақ. Мәтіндерді автоматты түрде белгілеу үшін қолданылатын арнайы бағдарламалар мен алгоритмдер бар, бірақ олар 100% нәтиже бермейді, сәтсіздіктерді тудыруы мүмкін және қолмен нақтылауды қажет етеді. Бұл мәселені шешудің мүмкіндіктері мен проблемалары В. П. Захаровтың корпус лингвистикасына арналған еңбегінде егжей-тегжейлі сипатталған.

Мәтінді белгілеу бірнеше деңгейде жүзеге асырылады, біз оларды төменде келтіреміз.

Морфологиялық белгілеу

Мектеп скамейкасынан орыс тілінде сөйлеудің әр түрлі бөліктері болатынын және олардың әрқайсысының өзіндік ерекшеліктері бар екенін есте ұстаймыз. Мысалы, етістікте зат есімде жоқ рай және шақ категориялары бар. Ана тілінде сөйлейтін адам еш ойланбастан зат есімдерді қабылдамайды және етістіктерді біріктіреді, бірақ қол еңбегі 100 миллион сөзді пайдалану корпусын белгілеуге жарамайды. Барлық қажетті операцияларды компьютер орындай алады, бірақ ол үшін оны үйрету керек.

Морфологиялық белгілеу компьютер үшін әрбір сөзді белгілі бір грамматикалық ерекшеліктері бар сөйлеудің қандай да бір бөлігі ретінде «түсіну» үшін қажет. Орыс тілінде (кез келген басқа тілдегі сияқты) бірқатар тұрақты ережелер жұмыс істейтіндіктен, машинаға бірқатар алгоритмдерді енгізу арқылы морфологиялық талдаудың автоматты процедурасын құруға болады. Дегенмен, ережеден ерекшеліктер, сондай-ақ әртүрлі қиындататын факторлар бар. Нәтижесінде бүгінгі күні таза компьютерлік талдау идеалдан алыс, тіпті 4% қателер 100 миллион бірлік корпуста 4 миллион сөздің мәнін береді, бұл қолмен нақтылауды қажет етеді.

Бұл мәселе В. П. Захаровтың «Корпус лингвистика» кітабында толық сипатталған.

Синтаксистік белгілеу

Синтаксистік талдау немесе талдау – сөйлемдегі сөздердің байланысын анықтайтын процедура. Алгоритмдер жиынтығының көмегімен мәтіндегі тақырыпты, предикатты, толықтыруларды, сөйлеудің әртүрлі бұрылыстарын анықтауға болады. Тізбектегі сөздердің қайсысы негізгі және қайсысы тәуелді екенін анықтау арқылы біз мәтіннен ақпаратты тиімді түрде шығарып, машинаны іздеу сұрауына жауап ретінде тек бізді қызықтыратын ақпаратты қайтаруға үйрете аламыз.

Ресей университеттеріндегі корпустық лингвистика зертханалары
Ресей университеттеріндегі корпустық лингвистика зертханалары

Айтпақшы, заманауи іздеу жүйелері мұны «алмада қанша калория бар» немесе «Мәскеуден Санкт-Петербургке дейінгі қашықтық» сияқты тиісті сұрауларға жауап ретінде ұзақ мәтіндердің орнына нақты сандарды беру үшін пайдаланады. Дегенмен, сипатталған процестің ең негіздерін түсіну үшін сізге "Корпус лингвистикасына кіріспе" немесе басқа негізгі оқулықпен танысу керек.

Семантикалық белгілеу

Сөздің семантикасы қарапайым тілмен айтқанда оның мағынасы. Семантикалық талдауда кеңінен қолданылатын тәсіл – сөзге оның семантикалық категориялар мен ішкі категориялар жиынтығына тиесілігін көрсететін тегтердің атрибуты. Мұндай ақпарат мәтіндік сезімді талдау алгоритмдерін оңтайландыру, автоматты сілтеме жасау және корпус лингвистика әдістерін пайдаланып басқа тапсырмаларды орындау үшін құнды.

Ағаштың бірнеше «тамырлары» бар, оларда абстрактілі сөздер бар.семантикасы өте кең. Бұл ағаш бұтақтары болған сайын құрамында көбірек нақты лексикалық элементтер бар түйіндер қалыптасады. Мысалы, жаратылыс сөзін «адам», «жануар» сияқты ұғымдармен байланыстыруға болады. Бірінші сөз әр түрлі кәсіптерге, туыстық, ұлтқа қатысты терминдерге, ал екіншісі - жануарлардың таптары мен түрлеріне тармақталады.

Ақпаратты іздеу жүйелерін пайдалану

Корпус лингвистикасының қолдану салалары қызметтің алуан түрлі салаларын қамтиды. Корпоралар сөздіктерді құрастыру және түзету, автоматты аударма жүйелерін жасау, қорытындылау, фактілерді алу, көңіл-күйді анықтау және басқа мәтінді өңдеу үшін пайдаланылады.

корпус лингвистика корпус түрлері
корпус лингвистика корпус түрлері

Сонымен қатар, мұндай ресурстар әлем тілдерін және жалпы тілдің қызмет ету механизмдерін зерттеуде белсенді түрде қолданылады. Алдын ала дайындалған ақпараттың үлкен көлеміне қол жеткізу тілдердің даму тенденцияларын жылдам және жан-жақты зерттеуге, неологизмдер мен тұрақты сөйлеу бұрылыстарының қалыптасуына, лексикалық бірліктердің мағыналарының өзгеруіне және т.б. ықпал етеді.

Осындай үлкен көлемдегі деректермен жұмыс істеу автоматтандыруды қажет ететіндіктен, бүгінде компьютерлік және корпустық лингвистика арасында тығыз байланыс бар.

Орыс тілінің ұлттық корпусы

Бұл корпус (ҰҚКК деп қысқартылған) әртүрлі тапсырмаларды шешу үшін ресурсты пайдалануға мүмкіндік беретін бірқатар қосалқы корпустарды қамтиды.

NCRA дерекқорындағы материалдар келесіге бөлінеді:

  • 90 және 2000 жылдардағы БАҚ-тағы жарияланымдардаотандық және шетелдік жылдар;
  • ауызша сөйлеу жазбалары;
  • акцентологиялық белгіленген мәтіндер (яғни екпін белгілері бар);
  • диалекті сөйлеу;
  • поэтикалық шығармалар;
  • синтаксистік белгісі бар материалдар, т.б.

Ақпараттық жүйе сонымен қатар шығармалардың орыс тілінен ағылшын, неміс, француз және көптеген басқа тілдерге (және керісінше) параллель аудармалары бар қосалқы корпустарды қамтиды.

Сонымен қатар дерекқорда өзінің дамуының әртүрлі кезеңдеріндегі орыс тіліндегі жазбаша сөйлеуді білдіретін тарихи мәтіндер бөлімі бар. Сондай-ақ шетел азаматтарына орыс тілін меңгеруде пайдалы болатын оқу корпусы бар.

Орыс тілінің ұлттық корпусы 400 миллион лексикалық бірліктерді қамтиды және көп жағынан еуропалық тілдер корпусының едәуір бөлігінен алда келеді.

Болашақтар

Бұл саланы келешегі зор деп тануға көмектесетін факт - Ресей университеттерінде, сондай-ақ шетелдік университеттерде корпус лингвистика зертханаларының болуы. Қарастырылып отырған ақпараттық-іздестіру ресурстары аясында пайдалану және зерттеу жоғары технологиялар, сұрақ-жауап жүйелері саласындағы кейбір бағыттардың дамуымен байланысты, бірақ бұл туралы жоғарыда айтылды.

корпус лингвистикасының тарихы
корпус лингвистикасының тарихы

Корпус лингвистикасының одан әрі дамуы барлық деңгейде, техникалық деңгейден бастап, ақпаратты іздеу және өңдеу процестерін оңтайландыратын жаңа алгоритмдерді енгізу, компьютерлердің мүмкіндіктерін кеңейту, операциялық мүмкіндіктерін арттыру тұрғысынан болжануда.пайдаланушылар күнделікті өмірде және жұмыста ресурстың осы түрін пайдаланудың көбірек жолдарын тапқан сайын жады және үй шаруашылығымен аяқталады.

Қорытынды

Өткен ғасырдың ортасында 2017 жыл ғарыш аппараттары Ғарыш кеңістігін шарлап, роботтар адамдар үшін барлық жұмысты атқаратын алыс болашақ сияқты көрінді. Шындығында, ғылым «ақтаңдақтарға» толы және ғасырлар бойы адамзатты мазалаған сұрақтарға жауап беруге тырысуда. Бұл жерде тілдің жұмысына қатысты сұрақтар мақтан тұтады және оларға жауап беруге корпус пен есептеу лингвистикасы көмектеседі.

Деректердің үлкен көлемін өңдеу бұрын қол жетімсіз болған үлгілерді анықтауға, белгілі бір тіл мүмкіндіктерінің дамуын болжауға, нақты уақытта дерлік сөздердің жасалуын қадағалауға мүмкіндік береді.

Практикалық жаһандық деңгейде корпусты, мысалы, қоғамдық көңіл-күйді бағалаудың әлеуетті құралы ретінде қарастыруға болады - Интернет нақты пайдаланушылар жасаған әртүрлі мәтіндердің үздіксіз жаңартылатын мәліметтер базасы: бұл пікірлер, шолулар, мақалалар, және көптеген басқа сөйлеу формалары.

Сонымен қатар, корпуспен жұмыс Google немесе Яндекс қызметтерінен, машиналық аудармадан, электронды сөздіктерден бізге таныс ақпаратты іздеуге қатысатын техникалық құралдарды дамытуға ықпал етеді.

Корпус лингвистикасы өзінің алғашқы қадамдарын ғана жасап жатыр және жақын болашақта қарқынды дамиды деп айтуға болады.

Ұсынылған: