تشکیلکالج ها و دانشگاه

جسم زبانشناسی چیست؟

فقط چند دهه پیش به طور خودکار به تحقیقات زبانی، دانشمندان تنها می تواند از خواب. این کار با دست انجام می شد، آن را جذب تعداد زیادی از دانش آموزان، احتمال قابل توجهی اشتباهات "بی دقتی" وجود دارد، و از همه مهمتر - همه این یک مدت طولانی و طولانی صورت گرفت.

با توسعه تکنولوژی کامپیوتر ممکن تبدیل شده است برای انجام تحقیقات در منظور از قدر سریع تر، و امروز یکی از جهات امیدوار کننده ترین در این مطالعه از زبان زبانشناسی پیکرهای است. ویژگی های اصلی آن استفاده از مقادیر زیادی از اطلاعات متن، اطلاعات را در یک پایگاه داده واحد، در یک حالت خاص است و به نام بدن مشخص شده است.

تا به امروز، بسیاری از ساختمان های ایجاد شده با اهداف مختلف بر اساس مواد مختلف زبانی پوشا از میلیون ها نفر به ده ها میلیارد واحد واژگانی وجود دارد. این جهت به عنوان یک امیدوار به رسمیت شناخته شده و نشان می دهد پیشرفت های قابل توجهی نسبت به نرم افزار و اهداف تحقیقی است. کارشناسان، یک راه یا خرید و فروش با زبان طبیعی، توصیه می شود تا با بدن از متون حداقل در سطح پایه آشنا می شود.

تاریخچه زبانشناسی پیکرهای

تشکیل این روند با توجه به ایجاد ایالات متحده در بدن براون در اوایل دهه 60-IES از قرن گذشته است. این مجموعه شامل متن هر 1 میلیون نفر از اشکال کلمه، و امروز بدن از این اندازه خواهد بود کاملا غیر رقابتی. این بیشتر به دلیل سرعت توسعه تکنولوژی کامپیوتر، و همچنین نیازهای رو به رشد برای منابع تحقیقات جدید به علت.

در 90s زبانشناسی پیکرهای به یک نظم و انضباط کامل و مستقل پدید آمده است، مجموعه ای از متون کشیده شده است و مشخص شده برای ده ها تن از زبان. در این دوره ایجاد شد، به عنوان مثال، ملی بریتانیا جسم 100 میلیون نشانه.

با توسعه این حوزه از زبانشناسی، حجم متن در حال تبدیل شدن بیشتر و بیشتر (و به میلیاردها واحد فرهنگ لغت)، و طرح در حال تبدیل شدن متنوع تر است. تا به امروز، فضای اینترنت می تواند لاشه نوشته شده پیدا شده است و زبان، چند زبانه، و ادبیات هنری یا علمی-یادگیری گرا، و همچنین بسیاری دیگر از گونه سخن گفته است.

مسکن چیست

انواع بدن در زبان شناسی بدن ممکن است به چند دلیل ارائه شده است. به طور مستقیم، پایه و اساس طبقه بندی می تواند یک زبان متن (روسی، آلمانی)، حالت دسترسی (منبع باز، بسته، تجاری)، ژانر از منابع (داستانی، مستند، علمی، روزنامه نگاری).

راه جالب تولید مواد زبان سخن گفته است. از آنجا که ضبط عمدی مانند گفتار برای ایجاد یک محیط مصنوعی برای پاسخ دهندگان، و مواد حاصل نمی توان به نام "خود به خود"، زبانشناسی پیکرهای مدرن راه دیگری رفته است. یک داوطلب با یک میکروفون مجهز، و در طول روز تولید یک رکورد از تمام مکالمات، که در آن شرکت می کند. مردم در اطراف، البته، ممکن است بدانید که در این دوره از مکالمه روزمره کمک به توسعه علم است.

بعد ثبت ذخیره شده در پایگاه داده دریافت و توسط چاپ نوع متن متن همراه است. بنابراین، آن را نشانه گذاری ممکن است مورد نیاز برای ایجاد یک مسکن گفتار روزانه دهان و دندان می شود.

کاربرد

در صورت امکان استفاده از یک زبان، و احتمالا استفاده از ساختمان متون. مواد و روش ها برای اعمال بدنه در زبان شناسی ممکن است:

  • ایجاد یک برنامه تعیین کلید، به طور گسترده ای در سیاست و کسب و کار استفاده برای پیگیری پاسخ های مثبت و منفی از رای دهندگان و مشتریان، به ترتیب.
  • اتصال سیستم اطلاعات به فرهنگ لغت و مترجم به بهبود عملکرد آنها.
  • انواع کارهای تحقیقاتی که به درک درستی از واحد زبان، تاریخ توسعه و پیش بینی خود را از تغییرات در آینده نزدیک کمک می کند.
  • توسعه سیستم های بازیابی اطلاعات بر اساس ریخت شناسی، نحوی، معنایی و دیگر ویژگی های.
  • بهینه سازی سیستم های زبان های مختلف و دیگران است.

استفاده از ساختمان

رابط منابع مشابه با یک موتور جستجو به طور معمول، و باعث کاربر را وارد کنید یک کلمه یا ترکیبی از کلمات را برای جستجو پایگاه اطلاعات است. به جز شکل پرس و جو دقیق می توانید نسخه افزایش یافته است، که اجازه می دهد تا اطلاعات متنی بر روی تقریبا هر معیار زبانی را پیدا استفاده کنید.

پایه جستجو ممکن است:

  • عضویت در یک گروه خاص از بخش هایی از سخنرانی؛
  • ویژگی های دستوری؛
  • معناشناسی؛
  • سبکی و عاطفی رنگ آمیزی.

شما همچنین می توانید از معیارهای جستجوی ترکیب برای دنباله ای از کلمات، برای مثال، برای پیدا کردن همه تکرار فعل در زمان حال، اول شخص مفرد، که پس از حرف اضافه "در" و اسم در مورد مفعولی می آید. راه حلی برای چنین کار ساده ای طول می کشد برای کاربران چند ثانیه و نیاز به تنها با چند کلیک ماوس در زمینه مشخص شده است.

روند ایجاد

خود جستجو می توان بر روی تمام subcorpus انجام و به طور خاص انتخاب شده، با توجه به نیازهای در دستیابی به یک هدف خاص:

  1. اولین قدم این است که برای تعریف متون پایه و اساس مورد تشکیل می دهد. برای اهداف عملی، آن است که اغلب استفاده می شود روزنامه نگاری، اخبار، نظرات آنلاین. این پروژه تحقیقاتی با استفاده از طیف گسترده ای از انواع بسته است، اما در متن باید با توجه به برخی زمینه های مشترک انتخاب شود.
  2. این مجموعه حاصل از متون در معرض قبل، است تصحیح اشتباهات وجود دارد، اگر هر، تهیه شده توسط توصیف کتاب شناختی و فوق العاده زبانشناختی متن.
  3. آیا همه اطلاعات غیر متنی حذف: پاک گرافیک، تصاویر، جداول.
  4. آیا تخصیص نشانه، که معمولا گفتار، برای پردازش بیشتر.
  5. در نهایت، آن کثرت مورفولوژیکی، نحوی و نشانه گذاری های دیگر به دست آمده از عناصر انجام شده است.

در نتیجه از همه معاملات با توزیع آن کثرت از عناصر، که هر کدام بخشی از سخنرانی، دستوری شناسایی می شود و در برخی موارد، ویژگی های معنایی ساخته شده توسط یک ساختار نحوی.

مشکلات در ایجاد ساختمان

این مهم است که درک این است که به اندازه کافی برای کنار هم قرار دادن مجموعه ای از کلمات یا جملات برای بدن نیست. از یک طرف، مجموعه ای از متون باید متعادل باشد، است که، نشان دهنده انواع مختلف از متون را در نسبت های خاصی است. از سوی دیگر - محتویات محفظه باید در یک حالت خاص فاصله.

مشکل اول این است که با یک شرایط حل: به عنوان مثال، در مجموعه شامل 60 درصد از متون ادبی، 20٪ از فیلم های مستند، درصد معینی داده شده است یک نمایش نوشته از زبان گفتاری، قانون، آثار علمی، و غیره امروز کامل دستور بدن و متعادل کننده شده وجود ندارد ...

سوال دوم، مربوط به طرح بندی مطالب، حل چالش برانگیز است. برنامه های خاص و الگوریتم های مورد استفاده برای مارک خودکار از متون وجود دارد، اما آنها یک نتیجه کامل را نمی دهد، می توانید اختلال و علت نیاز به دوباره کاری کتابچه راهنمای کاربر. فرصت ها و چالش ها در برخورد با این مشکل به طور مفصل در مقاله V. ص Zaharova از زبانشناسی پیکرهای است.

نشانه گذاری متن است که در سطوح مختلف، که ما لیست زیر اجرا شده است.

برچسب زدن مورفولوژیکی

از مدرسه، ما به یاد داشته باشید که در زبان روسی، هستند بخش های مختلف بیان وجود دارد، و هر یک از آنها دارای ویژگی های خاص آن است. به عنوان مثال، فعل دسته از تمایل و زمانی که در آن هیچ الاسم. زبان مادری بدون تردید کاهش اسم و فعل مزدوج، اما به علامت بدن از 100 میلیون نفر است. نشانه کار دستی کار نخواهد کرد. تمام عملیات لازم می تواند از کامپیوتر اجرا، با این حال، این به آن نیاز به آموزش داده شود.

برچسب زدن مرفولوژی، کامپیوتر باید "درک" هر کلمه به عنوان یک بخش خاصی از سخنرانی داشتن ویژگی های دستوری خاص است. از آنجا که روسیه (و هر زبان دیگری) به اجرا در تعدادی از قوانین به طور منظم، آن را ممکن است برای ساخت یک روش خودکار برای تجزیه و تحلیل مورفولوژیک، سرمایه گذاری در ماشین را برای تعدادی از الگوریتم های. با این حال، استثنا به قاعده، و همچنین عوامل مختلف پیچیده وجود دارد. در نتیجه، تجزیه و تحلیل کامپیوتری خالص امروز دور از ایده آل، و حتی 4 خطای٪ به ارزش 4 میلیون می دهد. کلمات بر روی بدن از 100 میلیون نفر است. واحد، نیاز به دوباره کاری کتابچه راهنمای کاربر.

کتاب مفصل مشکل Zaharova V. ص "جسم زبانشناسی" توصیف می کند.

حاشیه نویسی نحوی

تجزیه یا تجزیه - یک روش است که رابطه کلمات در یک جمله تعیین می کند. با استفاده از مجموعه ای از الگوریتم برای تعیین متن موضوع، محمول، اضافات، نوبت های متعدد بیان امکان پذیر است. یافتن پست های که کلمات از رشته اصلی، و که - وابسته، ما به طور موثر می تواند استخراج اطلاعات از متن و به آموزش دستگاه به صدور در پاسخ به درخواست جستجو فقط اطلاعات جالب است.

به هر حال، موتورهای جستجو مدرن استفاده از این به بیرون دادن شماره های خاص به جای متون طولانی در واکنش به درخواستهای مربوطه از جمله "چه مقدار کالری در یک سیب" یا "فاصله از مسکو به سنت پترزبورگ." با این حال، به درک حتی اصول اولیه از روند شرح داده شده توسط نیاز به مشورت "مقدمه ای بر جسم زبانشناسی" و یا سایر آموزش های اساسی.

نشانه گذاری معنایی

معناشناسی کلمه - است، به عبارت ساده تر، به معنای. روش به طور گسترده ای قابل اجرا به تجزیه و تحلیل معنایی از یک کلمه برچسب ها اسناد، که منعکس کننده تعلق خود را به مجموعه ای از مقوله های معنایی و زیر شاخه ها. چنین اطلاعاتی برای بهینه سازی الگوریتم های تجزیه و تحلیل لحن متن، خلاصهسازی خودکار و کارهای دیگر روش های زبانشناسی پیکرهای ارزشمند است.

تعدادی از "ریشه" از درخت، به نمایندگی از کلمه انتزاعی با یک معناشناسی بسیار گسترده ای وجود دارد. عنوان شاخه ای از گره های درخت تشکیل شده است، حاوی تر و اختصاصی تر عناصر واژگانی. به عنوان مثال، کلمه "موجود" ممکن است با مفاهیم مانند "انسان" و "حیوانات" همراه است. اولین کلمه ادامه خواهد داد به شعبه به حرفه های مختلف، شرایط خویشاوندی، ملیت، و دوم - در کلاس ها و انواع حیوانات.

استفاده از سیستم های بازیابی اطلاعات

مناطق استفاده از زبانشناسی پیکرهای پوشش زمینه های مختلف فعالیت. محوطه برای آماده سازی و اصلاح لغت نامه استفاده می شود، ایجاد سیستم ترجمه خودکار، حاشیه نویسی، بازیابی حقایق، تعیین تن و دیگر پردازش متن.

علاوه بر این، این منابع به طور جدی در مطالعه زبان و مکانیزم عملکرد زبان در کل جهان استفاده می شود. دسترسی به حجم زیادی از اطلاعات از پیش آماده شده را تسهیل مطالعه سریع و جامع از روند از زبان های توسعه و تغییر واژه های جدید تشکیل پایدار سرعت گفتار ارزش واحد واژگانی و دیگران است.

از آنجا که کار با مقادیر زیادی از داده ها نیاز به اتوماسیون، امروز است تعامل نزدیک بین کامپیوتر و لاشه زبان شناسی وجود دارد.

روسیه جسم ملی

این مورد (مخفف NKRYA) شامل تعدادی از subcorpus، اجازه دادن به استفاده از یک منبع برای طیف گسترده ای از وظایف.

مواد در پایگاه داده تقسیم می شوند NKRYA:

  • به انتشارات در 90s و 2000S رسانه، هر دو داخلی و خارجی؛
  • ضبط گفتار؛
  • aktsentologicheski مشخص شده اند متون (به عنوان مثال، علائم استرس)؛
  • سخنرانی گویش؛
  • شعر؛
  • مواد با نحوی و دیگر نشانه گذاری.

سیستم اطلاعات همچنین شامل Subcorpus با ترجمه موازی از آثار از روسی به زبان انگلیسی، آلمانی، فرانسوی و بسیاری از زبان های دیگر (و بالعکس).

همچنین در پایگاه داده است یک بخش از متون تاریخی، به نمایندگی از سخنرانی نوشته شده در روسیه در دوره های مختلف توسعه آن وجود دارد. همچنین یک بدن آموزش، که می تواند در تسلط بر زبان روسی برای شهروندان خارجی مفید است.

روسیه جسم ملی شامل 400 میلیون واحد واژگانی، و از بسیاری جهات پیش از بخش قابل توجهی از زبان بدن اروپا.

چشم انداز

واقع در حمایت از به رسمیت شناختن این روند در دسترس بودن وعده آزمایشگاه زبانشناسی پیکرهای در دانشگاه های روسیه، و همچنین خارجی است. با استفاده از و پژوهش در چارچوب این اطلاعات و جستجو منابع مستلزم توسعه مناطق خاصی در زمینه فن آوری بالا، سیستم پرسش و پاسخ، اما آن را در بالا بحث شد.

توسعه بیشتر از زبانشناسی پیکرهای است که در تمام سطوح پیش بینی شده، اعم از فنی و از نظر پیاده سازی الگوریتم های جدید است که بهینه سازی فرآیندهای جستجو و پردازش اطلاعات، توانمند سازی کامپیوتر، رم بیشتر، و به مصرف کننده، چرا که کاربران راه بیشتر و بیشتر به استفاده از این نوع منابع در روزانه خود هستند زندگی و کار.

در نتیجه

در وسط قرن گذشته در 2017 به نظر می رسید آینده دور، که در آن سفینه های فضایی را از طریق جهان سفر و روبات انجام تمام کار برای مردم است. در واقع، علم سرشار از "لکه های سفید" و تلاش های نومیدانه برای پاسخ به سوالات بشر برای قرن ها نگران کننده است. سوالات عملکرد زبان در اینجا اشغال جای افتخار، و کابینت و محاسباتی زبان شناسی می توانید به ما کمک به آنها پاسخ دهد.

پردازش مجموعه داده های بزرگ می تواند الگوهای شناسایی، قبلا غیر قابل دسترس، پیش بینی توسعه از ویژگی های زبان خاص برای پیگیری تشکیل کلمات در زمان تقریبا واقعی است.

در سطح عملی، محوطه جهانی دیده می شود، به عنوان مثال، به عنوان یک ابزار بالقوه برای ارزیابی خلق و خوی عمومی - اینترنت طور مداوم به روز بر اساس متون مختلف روزانه ایجاد شده توسط کاربران واقعی این است: این نظرات و بررسی و مقالات، و بسیاری از اشکال دیگر بیان.

علاوه بر این، کار با بدن منجر به توسعه از همان سخت افزار، که در بازیابی اطلاعات است، ما با سرویس "Google" یا "یاندکس"، ترجمه ماشینی، لغت نامه های الکترونیکی آشنا هستند.

ما با اطمینان می توانید ادعا کند که زبانشناسی پیکرهای باعث می شود تنها اولین گام، و در آینده ای نزدیک شکوفا خواهد شد.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 fa.birmiss.com. Theme powered by WordPress.