کامپیوترهافن آوری اطلاعات

رمزگذاری یونیکد: استاندارد رمزگذاری کاراکتر

هر کاربر از اینترنت در تلاش برای پیکربندی یک یا چند از توابع خود را حتی یک بار در صفحه نمایش کلمه "یونیکد" نوشته شده در حروف لاتین . با خواندن این مقاله، آن را یاد خواهید گرفت.

تعریف

کدگذاری یونیکد یک استاندارد رمزگذاری کاراکتر است. این توسط سازمان غیر انتفاعی Unicode Inc. پیشنهاد شد در سال 1991 این استاندارد برای ترکیب انواع مختلف نمادها در یک سند طراحی شده است. صفحه ای که بر مبنای آن ایجاد می شود، می تواند شامل حروف و حروف الفبا از زبان های مختلف (از روسی به کره ای) و نشانه های ریاضی باشد. با این حال، تمام کاراکترهای این رمزگذاری بدون مشکل نمایش داده می شوند.

دلایل ایجاد

یک بار، مدتها قبل از اینکه سیستم Unicode ظاهر شد، رمزگذاری بر اساس ترجیحات نویسنده سند انتخاب شد. به همین دلیل، اغلب برای خواندن یک سند، مجبورید از جداول مختلف استفاده کنید. گاهی اوقات لازم بود چندین بار انجام شود، که به طور قابل توجهی پیچیده زندگی یک کاربر عادی. همانطور که قبلا ذکر شد، راه حل این مشکل در سال 1991 توسط شرکت غیر انتفاعی Unicode Inc. پیشنهاد شد که نوع جدیدی از رمزگذاری کاراکتر را پیشنهاد کرد. او از استانداردهای اخلاقی منسوخ و متنوع ترکیب شده بود. "یونیکد" - رمزگذاری، که در آن زمان امکان دستیابی به غیر قابل تصور داشت: برای ایجاد یک ابزار که تعداد زیادی از کاراکترها را پشتیبانی می کند. این نتیجه بیش از انتظارات بسیاری بود - اسناد ظاهر شدند که به طور همزمان حاوی متن انگلیسی و روسی، عبارات لاتین و ریاضی بود.

اما ایجاد یک برنامه نویسی یکپارچه پیش از نیاز به حل و فصل تعدادی از مشکلات که به دلیل تنوع زیادی از استانداردهای که در آن زمان وجود داشت وجود دارد. رایج ترین آنها عبارتند از:

  • حروف الف و یا "krakozyabry"؛
  • مجموعه کاراکتر محدود؛
  • مشکل تبدیل کدگذاری؛
  • تکرار فونتها

یک حرکت تاریخی کوتاه

تصور کنید که حیاط 80 ساله است. فن آوری رایانه خیلی گسترده نیست و نگاهی متفاوت از امروز دارد. در آن زمان، هر سیستم عامل به روش خود منحصر به فرد است و توسط هر علاقه مندان برای نیازهای خاص نهایی شده است. نیاز به مبادله اطلاعات تبدیل به تجدید نظر در مورد همه چیز در جهان می شود. تلاش برای خواندن یک سند ایجاد شده در سیستم عامل دیگر، اغلب یک مجموعه از شخصیت های غیر قابل درک روی صفحه نمایش می دهد و بازی هایی با کدینگ شروع می شوند. همیشه این امکان وجود دارد که این کار را به سرعت انجام دهید و گاهی اوقات سند مورد نیاز را در نیم سال یا حتی بعد باز کنید. افرادی که اغلب اطلاعات را مبادله می کنند، جداول تبدیل را برای خود ایجاد می کنند. و در اینجا کار بر روی آنها جزئیات جالبی را نشان می دهد: آنها باید در دو جهت ایجاد شوند: "از من به تو" و بازگشت. برای تبدیل معکوس محاسبات دستگاه نمی تواند، زیرا در ستون سمت راست یک کد منبع و در ستون سمت چپ نتیجه، اما به هر حال بر خلاف. اگر نیاز به استفاده از هر شخصیت خاص در سند وجود داشته باشد، لازم بود که ابتدا آن را اضافه کنید، و سپس به شریک توضیح داد که چه کاری انجام شده است تا این کاراکترها به "karkozyabry" تبدیل نشوند. و فراموش نکنید که برای هر کدام ما مجبور بودیم فونت های خودمان را توسعه دهیم یا اجرا کنیم، که منجر به ایجاد یک تعداد زیادی از تکراری در OS شد.

تصور کنید که در صفحه فونت، شما 10 قطعه از Times New Roman را با علامت های کوچک برای UTF-8، UTF-16، ANSI، UCS-2 خواهید دید. در حال حاضر شما می فهمید که توسعه یک استاندارد جهانی ضروری فوری بود؟

"پدران سازندگان"

منشاء ایجاد یونیکد باید در سال 1987 مورد بررسی قرار گیرد، جو بکر از Xerox، همراه با لی کالینز و مارک دیویس از اپل، شروع به تحقیق در مورد ساختن یک مجموعه شخصیت جهانی کردند. در اوت 1988، جو بکر پیشنهاد پیشنهادی برای ایجاد یک سیستم کد گذاری چندجانبه بین المللی 16 بیتی را منتشر کرد.

چند ماه بعد، گروه کاری یونیکد گسترش یافت تا کن ویستلر و مایک کرانگن از RLG، Glenn Wright از Sun Microsystems و چندین متخصص دیگر، که امکان تکمیل کار در شکل گیری اولیه یک استاندارد برنامه نویسی واحد را فراهم آورد، گسترش یافت.

توضیحات عمومی

یونیکد بر اساس مفهوم یک نماد است. با این تعریف، معنی یک پدیده انتزاعی موجود در یک فرم بنیادی از نوشتن است و از طریق گرافن («پرتره های آن») تحقق می یابد. هر شخصیت در یونیکد با یک کد منحصر به فرد متعلق به یک بلوک خاص از استاندارد تنظیم شده است. به عنوان مثال، گرافیت B در هر دو حروف انگلیسی و روسی است، اما در Unicode آن را با دو کاراکتر متفاوت مرتبط می کند. آنها به یک حرف کوچک تبدیل می شوند ، یعنی هر یک از آنها با یک کلید پایگاه داده، مجموعه ای از خواص و یک نام کامل مشخص شده است.

مزایای یونیکد

از دیگر معاصران، کدگذاری یونیکد با ذخیره زیادی از شخصیت ها برای رمزگذاری شخصیت ها مشخص شد. واقعیت این است که پیشینیانش 8 بیت داشتند، یعنی آنها از 28 کاراکتر پشتیبانی می کردند، اما توسعه جدید در حال حاضر 216 کاراکتر بود که قدم بسیار زیادی پیش رو داشت. این اجازه داد که تقریبا تمام الفبای موجود و توزیع شده را رمزگذاری کند.

با ظهور یونیکد، نیازی به استفاده از جداول تبدیل نیست: به عنوان یک استاندارد واحد، به سادگی نیاز آنها را حذف کرد. به همین ترتیب، "krakozyabry" - استاندارد تک آنها را غیر ممکن ساخته، و همچنین حذف نیاز به ایجاد فونت های تکراری.

توسعه یونیکد

البته، پیشرفت هنوز ثابت نشده است، و 25 سال از اولین ارائه ارائه شده است. با این حال، رمزگذاری یونیکد به طور قاطع موقعیت خود را در جهان حفظ می کند. در بسیاری از موارد این امکان وجود دارد که به راحتی پیاده سازی و گسترش می شود، که توسط توسعه دهندگان نرم افزار اختصاصی (پرداخت شده) و منبع باز به رسمیت شناخته شده است.

در عین حال، ما نباید فرض کنیم که امروز ما همان کدگذاری Unicode را یک چهارم یک قرن پیش داریم. در حال حاضر نسخه آن به 5.x.x تغییر کرده است و تعداد کاراکترهای کد شده به 231 افزایش یافته است. از امکان استفاده از یک انبار بزرگتر از شخصیتها پشتیبانی نمیشود تا Unicode-16 پشتیبانی شود (کدگذاری که حداکثر تعداد آن به 216 محدود شد). از زمان آغاز و تا نسخه 2.0.0، "Unicode-standard" تعداد کاراکترهایی که شامل آنها شده است تقریبا 2 برابر افزایش داده است. رشد فرصت ها در سال های بعد ادامه یافت. برای نسخه 4.0.0 قبلا نیاز به افزایش استاندارد خود بود که انجام شد. به عنوان یک نتیجه، یونیکد فرم به دست آورد که در آن امروز ما آن را می دانیم.

چه چیز دیگری در یونیکد وجود دارد؟

علاوه بر تعداد زیادی از کاراکترها، Unicode-coding اطلاعات متنی یکی از ویژگی های مفید دیگر است. ما در مورد نرمال سازی به اصطلاح صحبت می کنیم. به جای پیمایش از طریق نماد کل سند توسط شخصیت و جایگزینی آیکون های مربوطه از جدول مسابقه، یکی از الگوریتم های عادی سازی موجود استفاده می شود. ما در مورد چه چیزی صحبت می کنیم؟

الگوریتم خاصی به جای استفاده از منابع کامپیوتری برای بررسی منظم همان نماد، که می تواند در الفبای مختلف مشابه باشد، استفاده می شود. این اجازه می دهد تا شما شخصیت های مشابه را در یک نمودار جداگانه از جدول جستجوگر بیابید و به آنها مراجعه کرده و بارها و بارها همه داده ها را بررسی کنید.

چهار الگوریتم چنین الگوریتمی توسعه داده شده و پیاده سازی شده است. در هر یک از آنها، تحول براساس یک اصل کاملا تعریف شده است که از دیگران متفاوت است؛ بنابراین نمیتوان یکی از آنها را موثرترین نامید. هر کدام برای نیازهای خاص طراحی شده بود، معرفی و با موفقیت مورد استفاده قرار گرفت.

گسترش استاندارد

برای 25 سال از تاریخ آن، رمزگذاری یونیکد احتمالا بزرگترین توزیع در جهان را دریافت کرد. تحت این استاندارد، برنامه ها و صفحات وب نیز تنظیم می شوند. گستردگی برنامه را می توان با این واقعیت بیان کرد که Unicode امروز بیش از 60 درصد از منابع اینترنتی را استفاده می کند.

حالا شما می دانید وقتی استاندارد "Unicode" ظاهر شد. آنچه که هست، شما همچنین می دانید و قادر به درک کل ارزش اختراع ساخته شده توسط یک گروه از متخصصان از Unicode Inc. بیش از 25 سال پیش.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 fa.birmiss.com. Theme powered by WordPress.