پیکره بی‌جن‌خان

پیکره بی‌جن‌خان یک پیکرهٔ برچسب‌گذاری‌شده است که برای تحقیق پردازش زبان طبیعی در زبان فارسی مناسب است. این مجموعه از اخبار و متون عمومی گردآوری شده‌است. در این مجموعه، تمام مستندات بر حسب موضوعات و بر اساس حدود ۴۳۰۰ موضوع مانند سیاسی، فرهنگی و غیره طبقه‌بندی شده‌اند. این پیکره دربرگیرندهٔ نزدیک به ۲٫۶ میلیون کلمه است که به صورت دستی برچسب‌گذاری شده‌اند.[1]

پیکرهٔ بی‌جن‌خان توسط گروه تحقیقات پایگاه داده در دانشگاه تهران ایجاد شده‌است. این پیکره برای مصارف تجاری رایگان نیست؛ با این حال، این محدودیت‌ها برای همهٔ کشورها یکسان نیست. این پیکره، به افتخار محمود بی‌جن‌خان، استاد زبان‌شناسی دانشگاه تهران و خدمات او در این زمینه، چنین نام‌گذاری شده‌است.

جستارهای وابسته

منابع

پیوند به بیرون

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.