هستیشناسی ژن
هستیشناسی ژن یا آنتولوژی ژن (به انگلیسی: Gene Ontology) یا به صورت خلاصه GO یک پروژه گروهی در بیوانفورماتیک برای استفاده از یک نمایش و هستیشناسی واحد برای بیان ویژگیهای ژنها و محصولات ژنتیکی است. [1] این پروژه اطلاعاتی ساختاریافته و قابل پردازش از عملکرد ژنها و محصولات ژنتیکی ارائه میدهد. امروزه دادههای پروژه GO به طور گسترده در علوم زیستی استفاده میشوند و محتوای آن هم از نظر کیفیت و هم از نظر کمیت مدام در حال تغییر است.[2] به طور دقیقتر این پروژه تلاش میکند تا سه هدف زیر را کسب کند:[3]
- از کتابخانه ژنها و ویژگیهای هر ژن نگهداری کند و آن را توسعه دهد.
- برای ژنها حاشیهنویسی کند و حاشیههای نوشته شده را جمعآوری و توزیع کند.
- ابزاری برای دسترسی راحت به تمام جنبههای دادههای ارائه شده توسط این پروژه را در اختیار همگان قرار دهد.
پایگاه داده GO یک پایگاه داده پویاست و محققین به همراه اعضای پروژه GO به طور مداوم برروی آن تغییرات و اصلاحاتی اعمال میکنند. این تغییرات پیشنهاد شده توسط ویرایشگران GO بررسی میشوند و در صورت مناسب بودن اعمال میشوند.
دادههای پروژه GO با قالبهای متفاوت از طریق وبسایت GO به صورت رایگان قابل دسترسیست. همچنین میتوان از مرورگر برخط GO برای دسترسی به این اطلاعات استفاده کرد. این پروژه امکان بارگیری نگاشتهایی از اصطلاحاتش به اصطلاحات معادل در سیستمهای دیگر طبقهبندی را نیز فراهم کردهاست.
تاریخچه
پروژه هستیشناسی ژن به عنوان یک کنسرسیوم از سال ۱۹۹۸ آغاز به کار کرد. در آن زمان سه گروه از محققین که برروی سه مدل ارگانیسم مختلف (مگس سرکه، موش خانگی و ساکارومایسس سرویزیه که یک نوع مخمر صنعتیست) کار میکردند تصمیم گرفتند تا با همکاری هم یک طبقهبندی مشترک برای کارکرد ژنها ایجاد کنند. این پروژه به گونهای پیشرفت کرده که امروزه ژنهای چندین هزار جاندار مختلف در آن قرار گرفتهاند.[4]
اصطلاحات و هستیشناسی
هستیشناسی نمایشی از چیزیست که آن را میشناسیم. هستیشناسیها شامل مجموعهای از کلاسها یا اصطلاحات و رابطههای میان این اصطلاحات هستند. در علوم زیستی و شاخههای مرتبط با آن، اصطلاحات معنی فراگیری ندارند و معنی هر اصطلاح توسط حوزه پژوهشی که در آن به کار میرود مشخص میشود. این مسئله باعث بروز مشکلاتی در ارتباطات و به اشتراک گذاشتن اطلاعات میان زیستشناسان میشود. پروژه هستیشناسی ژن در تلاش است تا یک هستیشناسی از اصطلاحات تعریف شدهای که خصوصیات محصولات ژنتیکی را مشخص میکنند ارائه دهد. این هستیشناسی سه محدوده اصلی را پوشش میدهد:[1]
- کارکردهای مولکولی: فعالیتهای در سطح مولکول که توسط محصول ژنتیکی انجام میشوند.
- بخشهای سلولی: بخشهایی از ساختار سلول که که محصول ژنتیکی در آنها فعالیت میکند.
- فرایندهای زیستی: فرایندهای زیستی که فعالیت محصول ژنتیکی در آنها اثر گذار است.
به عنوان مثال برای محصول ژنتیکی سیتوکروم سی کارکرد مولکولی فعالیت اکسیدوردوکتاز، بخش سلولی ماتریس میتوکندری و فرایند زیستی فسفرگیری اکسایشی است.[5]
ساختار GO
ساختار اصطلاح
هر اصلاح GO شامل موارد زیر است:
- یک نام قابل خواندن توسط انسان
- یک مشخص کننده یکتا که یک عدد ۷ رقمی با پیشوند GO: است
- یک تعریف از مفاهیمی که این اصطلاح نمایش میدهد به همراه منابع آن
- ارتباطات آن با دیگر اصطلاحات؛ هر اصطلاح (به جز اصطلاحات ریشهای) در GO فرزند یک اصطلاح پدر است
همچنین علاوه بر این موارد اصطلاحات میتوانند دربردارنده موارد دیگری نیز باشند از جمله یک یا چند هممعنی (که دقیقاً در کلاسی همارز با اصطلاح قرار میگیرند)، ارجاعهایی به به مفاهیم معادل در پایگاه داده، زیرمجموعهای از اصطلاحات که این اصطلاح به آن تعلق دارد، نظراتی پیرامون کاربرد و معنی آن اصطلاح و موارد دیگر.[7]
گراف GO
اصطلاحات GO به صورت گرههایی در یک شبکه به هم متصل هستند که این اتصالات گرههای پدر و پسر را مشخص میکنند. بنابراین ساختار هستیشناسی GO یک گراف جهتدار بیدور است که در آن هر راس گراف یک اصطلاح GO و هر یال گراف یک رابطه بین دو اصطلاح GO از یک یا دو دامنه متفاوت است. لغتنامه GO به گونهای طراحی شده که مستقل از نوع گونهها باشد و اصطلاحات آن برای پروکاریوتها، یوکاریوتها، جاندارن تک و یا چند سلولی قابل بهکار گیریست.
هرچند این شبکه پویاست و با جمع آوری دادههای جدید تغییر میکند، اما اصطلاحات آن از یکتایی و دقت کافی برخوردارند که باعث میشود پایگاههای دادهای که از این اصطلاحات استفاده میکنند همزمان با گسترش هستیشناسی به صورت خودکار بروز شوند.[8]
حاشیهنویسی
یک حاشیه GO عبارتی است که توضیحاتی درباره کارکرد یک ژن خاص ارائه میدهد. حاشیههای GO از طریق مرتبط کردن یک ژن یا محصول ژنتیکی با یک اصطلاح GO ساخته میشوند. مجموعه این حاشیهها تصویری از اطلاعات زیستی حال حاضر ارائه میدهد. بنابراین حاشیههای GO اطلاعاتی درباره اینکه یک ژن در سطح مولکولی چگونه فعالیت میکند، در کجای سلول قرار دارد و به چه فرایندهای زیستی کمک میکند را نگهداری میکنند.[9] اعضای کنسرسیوم GO حاشیههای خود را روی وبسایت GO منتشر میکنند و استفاده کنندگان میتوانند این حاشیهنویسیها را بارگیری کرده یا آنها را به صورت برخط با کمک AmiGO مشاهده کنند.[10] محتوای یک حاشیه GO علاوه بر مشخصکننده محصول و اصطلاح مرتبط GO شامل این موارد نیز هست: ارجاع استفاده شده برای ساخت حاشیه (مثلاً یک مقاله)، یک کد مدرک که مشخص کننده نوع مدرک یا مدارکیست که حاشیه به آنها استناد میکند، تاریخ و سازنده این حاشیه.
کد مدرک که از یک لغتنامه کنترلشده از کدها میآید هم شیوههای حاشیهنویسی دستی و هم خودکار را پوشش میدهد. به عنوان مثال، این کد مشخص میکند که آیا سازنده این حاشیه یک انسان بوده که بر مبنای یک مقاله علمی آن را ایجاد کرده، یا یک انسان بوده که با جستجوی مشابهت در دنبالهها به نتایج معنیدار زیستی رسیده، یا این حاشیه به صورت خودکار تولید شدهاست. کنسرسیوم GO برای حاشیههایی که به طور خودکار تولید میشوند اعتبار کمتری قائل است چرا که توسط یک انسان تایید نشدهاند. به همین علت فقط زیرمجموعهای از این حاشیهها توسط AmiGO قابل دسترسی هستند.
به تازگی، الگوریتمهای یادگیری ماشین بسیاری برای پیشبینی حاشیههای GO طراحی و پیادهسازی شدهاند.
ابزارها
در حال حاضر ابزارهای زیادی برای استفاده از دادههای پروژه GO چه به صورت برخط و چه از طریق بارگیری وجود دارد. [11] اکثر این ابزارها توسط اشخاص ثالث ارائه میشوند و کنسرسیوم GO تنها دو ابزار AmiGO و OBO-Edit را توسعه میدهد.
AmiGO یک برنامه مبتنی بر وب است که به استفاده کنندگان اجازه میدهد تا هستیشناسی و دادههای مرتبط با محصولات ژنتیکی را مصورسازی و در میان آنها جستجو کنند.[12] همچنین این برنامه از یک ابزار بلاست استفاده میکند که تحلیل دادههای بزرگ را نیز امکان پذیر میکند و یک رابط کاربری مستقیم برای دسترسی به پایگاهداده GO در اختیار کاربران میگذارد. از AmiGO میتوان هم به شیوه برخط و هم با بارگیری و نصب برروی هر سیستم محلی (که از پایگاه دادهای با ساختار مشابه پایگاه داده GO بهره میبرد) استفاده کرد. این برنامه یک نرمافزار متنباز و رایگان است.
OBO-Edit یک نرمافزار متنباز و رایگان ویرایشگر آنتولوژیست که توسط زبان جاوا پیادهسازی شدهاست. این ابزار یک واسط ساده برای ویرایش دادههای هستیشناسی ژن ارائه میدهد و از یک استنتاجکننده معنایی برای استنتاج پیوندهای ناشناخته [13] و از یک شیوه مبتنی بر گراف برای نمایش و ویرایش دادهها استفاده میکند.
کنسرسیوم GO
کنسرسیوم هستیشناسی ژن (Gene Ontology Consortium) منابع آنتولوژی ژن را از گسترهای از گروههای پژوهشی و پایگاههای داده زیستشناسی جمع آوری کرده که گستره این منابع از مدلهای ارگانیسم و پایگاههای دادهای پروتئینی تا جوامع پژوهشی زیستشناسی که به صورت فعال در توسعه و پیادهسازی پروژه هستیشناسی ژن مشغولند را شامل میشود.[14]
جستارهای وابسته
پیوند به بیرون
منابع
- The Gene Ontology Consortium* (نوامبر ۲۰۰۷). «The Gene Ontology project in 2008». Nucleic Acids Research. doi:10.1093/nar/gkm883.
- The Gene Ontology Consortium* (ژانویه ۲۰۱۹). «The Gene Ontology Resource: 20 years and still GOing strong». Nucleic Acids Research. doi:10.1093/nar/gky1055.
- Dessimoz، Christophe؛ Škunca، Nives. The Gene Ontology Handbook. ۱۴۴۶. doi:10.1007/978-1-4939-3743-1.
- «About the GO». از وبسایت رسمی GO
- «Gene Ontology overview». از وبسایت رسمی GO
- Carbon، Seth؛ Mungall، Chris (۲۰۱۸). «Gene Ontology Data Archive (Version 2019-07-01) [Data set]». Zenodo.
- «GO term elements». از وبسایت رسمی GO
- Ashburner، Michael؛ Ball، Catherine A؛ Blake، Judith A.؛ Botstein، David؛ Butler، Heather؛ و دیگران (مه ۲۰۰۰). «Gene Ontology: tool for the unification of biology». Nature. doi:10.1038/75556.
- «Introduction to GO annotations». از وبسایت رسمی GO
- «AmiGO2». ابزار آنلاین استفاده از محتوای پایگاه داده GO
- Mosquera، J.L؛ Sanchez-Pla، A. (ژوئیه ۲۰۰۸). «SerbGO: searching for the best GO tool». Nucleic Acids Research. doi:10.1093/nar/gkn256.
- Carbon، Seth؛ Ireland، Amelia؛ Mungall، Christopher J (۱۵ ژوئن ۲۰۰۹). «AmiGO: online access to ontology and annotation data». Bioinformatics. doi:10.1093/bioinformatics/btn615.
- «OBO-Edit». وبسایت رسمی OBO-Edit، ابزار ویرایش آنتولوژی
- «Gene Ontology Consortium». شامل فهرست گروههایی که در کنسرسیوم هستیشناسی ژن مشارکت میکنند
مشارکتکنندگان ویکیپدیا. «Gene ontology». در دانشنامهٔ ویکیپدیای انگلیسی، بازبینیشده در ۲۶ ژوئیه ۲۰۱۹.