پیکره بیجنخان
پیکره بیجنخان یک پیکرهٔ برچسبگذاریشده است که برای تحقیق پردازش زبان طبیعی در زبان فارسی مناسب است. این مجموعه از اخبار و متون عمومی گردآوری شدهاست. در این مجموعه، تمام مستندات بر حسب موضوعات و بر اساس حدود ۴۳۰۰ موضوع مانند سیاسی، فرهنگی و غیره طبقهبندی شدهاند. این پیکره دربرگیرندهٔ نزدیک به ۲٫۶ میلیون کلمه است که به صورت دستی برچسبگذاری شدهاند.[1]
پیکرهٔ بیجنخان توسط گروه تحقیقات پایگاه داده در دانشگاه تهران ایجاد شدهاست. این پیکره برای مصارف تجاری رایگان نیست؛ با این حال، این محدودیتها برای همهٔ کشورها یکسان نیست. این پیکره، به افتخار محمود بیجنخان، استاد زبانشناسی دانشگاه تهران و خدمات او در این زمینه، چنین نامگذاری شدهاست.
جستارهای وابسته
منابع
- مشارکتکنندگان ویکیپدیا. «Bijankhan Corpus». در دانشنامهٔ ویکیپدیای انگلیسی، بازبینیشده در ۱۴ مارس ۲۰۱۹.
پیوند به بیرون
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.