ایزیری ۶۲۱۹
ایزیری ۶۲۱۹ (تلفظ ISIRI 6219) یا استاندارد فناوری اطلاعات - تبادل و شیوهٔ نمایش اطلاعات فارسی براساس یونی کد، استانداردی برای یکسانسازی شیوه تبادل و ذخیره اطلاعات کامپیوتری به زبان فارسی است.
روند تدوین
این استاندارد توسط موسسه استاندارد و تحقیقات صنعتی ایران (ماتصا) برای تعریف و یکسانسازی استفاده از حروف و الفبای فارسی در محیط کامپیوتر در اردیبهشت ۱۳۸۱ تدوین شدهاست. این استاندارد در حال حاضر (تیر ۱۳۸۸) جدیدترین استاندارد در این زمینه و جایگزین کلیه استانداردهای قدیمیتر ایزیری ۳۳۴۲، ایزیری ۲۹۰۰ و استانداردهای غیر رسمی ویندوز ۱۲۵۶، ایرانسیستم، پانیذ و سایهاست. ایزیری ۶۲۱۹ کاملاً بر اساس یونیکد بوده و توسط گروهی از افراد متخصص و مسلط در این زمینه نگاشته شدهاست. مسائل مطرح شده در ایزیری ۶۲۱۹ از روز تدوین آن تاکنون مقبولیت روزافزونی داشته و روز به روز در نرمافزارهای بیشتری رعایت شدهاست. مثلاً راحتتر شدن جستجو و مقایسه اطلاعات فارسی که توسط منابع مختلف ثبت شده، رفع مشکل انواع «ی» در فونتهای مایکروسافت و بقیه، تمایز قطعی بین انواع «ی»ها و انواع «ک»ها، رواج گسترده زبان فارسی در محیط لینوکس و… همگی از ثمرات این استاندارد است.
به علت آن که در استاندارد یونیکد به ازای خیلی از حروف مثل «ی»، «ک»، «الف» و خیلی از اعداد و خیلی از نشانهها و لیگاتورها تعداد زیادی کاراکتر یونیکد شبیه به هم وجود دارد، خیلی از افراد و کاربردها در استفاده از آنها دچار ابهام میشوند. مثلاً مطابق توضیحات بلوک عربی یونیکد حدود ده «ی» مختلف وجود دارد که استفاده از هر کدام فقط در استاندارد یک یا چند کشور مجاز است. مهمترین موضوعی که ایزیری ۶۲۱۹ به آن پرداخته، مشخص کردن کاراکترهای مجاز و غیر مجاز برای خط/زبان فارسی در ایران است. مثلاً این استاندارد فقط حرف «ی» فارسی با کد U+06CC و «ئ» همزهدار با کد U+0626 را برای خط/زبان فارسی مجاز اعلام کردهاست. موضوع مهم بعدی که ایزیری ۶۲۱۹ به آن میپردازد نحوه نمایش حروف و کلمات فارسی از دیدگاه چپ و راست چینی (و نه شکل قلم) است. این قواعد مشکلات مرتبط با به هم ریختگی حروف و کلمات فارسی به خصوص به هنگام استفاده همزمان با حروف و کلمات لاتین را حل میکند. ایزیری ۶۲۱۹، الگوریتم شماره ۹ یونیکد که به الگوریتم دو جهته معروف است را به عنوان مرجع و بخشی از خود معرفی کردهاست.
خصوصیات ایزیری ۶۲۱۹
- حرف «ی» بینقطه نچسب عربی با کد U+0649 «همان ی که به نام الف مقصوره شهرت دارد که ودر حروف موسی و عیسی و غیره در عربی بکار برده میشود» که متون فارسی را کاملاً به هم میریزد از متون فارسی حذف میشود. از به هم ریختگیهای خیلی آزار دهنده ایجاد شده توسط این نوع «ی» میتوان به تیکه تیکه شدن کلمات حاوی «ی» در خیلی از موبایلهای امروزی و خیلی از نرمافزارهای قدیمی ویندوز نام برد.
- به جای اعداد لاتین یا حتی اعداد عربی، از اعداد فارسی استفاده میشود. این اعداد در ویندوزهایی که Regional Settings آنها تغییر پیدا کرده به صورت ظاهراً فارسی نمایش داده میشوند، ولی وقتی که به PDF تبدیل میشوند یا در محیطهای دیگری از طریق وب دیده میشوند به همان صورت غلط لاتین دیده میشوند.
- جلوگیری از درهمریختگی متون ترکیبی فارسی و انگلیسی در اکثر نرمافزارها و محیطهای (Platform) امروزی. به عنوان مثال نمایش برعکس پرانتزها، جابجایی حروف نشانهای مثل سمیکالن، نقطه و… حتی وقتی که کلمات کاملاً انگلیسی هستند و صرفاً در یک محیط دو زبانه (دو جهته یا Bidirectional) نمایش داده میشوند. ایزیری ۶۲۱۹ این کار را با استفاده از کاراکترهای ویژه الگوریتم شماره ۹ مثل RIGHT-TO-LEFT EMBEDDING انجام میدهد.
- یکسانسازی استفاده از علائم در خط و زبان فارسی. مثلاً در این استاندارد استفاده از دابل کوتیشن و تک کوتیشن رایج در متون انگلیسی ممنوع و به جای آنها، کاراکترهای «» که شبیه دو علامت کوچکتر یا بزرگتر به هم چسبیده هستند به عنوان «گیومه فارسی» معرفی شدهاست. در این استاندارد کاراکترهای مشخصی هم برای ممیز فارسی، جداکننده هزارگان فارسی و… در نظر گرفته شدهاست.
نکات تکمیلی:
- حروف فارسی معرفی شده در یونیکد همگی بر اساس بلوک عربی هستند. دلیل آن هم این است که ما هیچ بلوک یا بخش واحدی در یونیکد برای خط فارسی یا دیگر خط/زبانهای مبتنی بر عربی مثل اردو و کردی نداریم.
- استاندارد ایزیری ۶۲۱۹ کاری به چیدمان حروف فارسی در صفحه کلید ندارد؛ ولی خود استاندارد ایزیری ۹۱۴۷ که چیدمان حروف و علایم فارسی بر روی صفحه کلید کامپیوتر را معین میکند، بر اساس همین استاندارد ایزیری ۶۲۱۹ طراحی شدهاست.
- ایزیری ۶۲۱۹ مستقل از شکل نمایشی (Glyph) حروف است. مثلاً نمیگوید آخر حرف «ف» چقدر باید به بالا کشیده شده باشد.