ژن‌یابی

اصولاً ژن‌یابی یا پیش‌بینی ژن به زمینهٔ محاسبات بیولوژیکی اشاره دارد که با تعیین الگوریتمیکِ قطعات توالی‌ها، غالباً ژنوم دی‌ان‌ای، که کارکرد بیولوژیکی دارند در ارتباط است. این امر به‌طور خاص شامل ژن‌های کدکنندهٔ پروتئین است، اما ممکن است شامل سایر عناصر کارکردی از قبیل ژن‌های آران‌ای و نواحی تنظیم‌کننده نیز بشود. ژن‌یابی یکی از اولین و مهم‌ترین مراحل شناخت ژنوم یک گونه‌ای که به صورت توالی درآورده شده‌است. در اوایل، «ژن‌یابی» بر اساس آزمایش‌های پرزحمت و دشوار بر روی سلول‌های زنده و ارگانیسم‌ها استوار شده بود. تحلیل‌های آماری نرخ نوترکیب‌های هومولوگ چندین ژن مختلف می‌تواند ترتیب قرار گرفتن آن‌ها را روی یک کروموزوم خاص تعیین کند و اطلاعات بدست آمده از چنین آزمایش‌هایی می‌تواند برای ساختن یک نقشۀ ژنتیکی که موقعیت نسبی ژن‌های مرتبط به هم را به‌طور تقریبی مشخص کند، استفاده شود. امروزه با در اختیار داشتن توالی‌های ژنی وسیع و منابع محاسباتی قدرتمند، تعریف ژن‌یابی به عنوان مسئلهٔ محاسباتی عظیمی تغییر پیدا کرده‌است. تعیین اینکه آیا یک توالی کارکردی است مستلزم تعیین کارکرد یا محصول آن ژن است.

روش‌های بیرونی

در سیستم‌های ژن‌یابی خارجی (بر پایهٔ شواهد) ژنوم هدف را در توالی‌هایی که شبیه به شواهد خارجی هستند را از روی یک توالی شناخته شدهٔ آران‌ای پیام‌رسان یا محصول یک پروتئین جستجو می‌کنند. برای یک توالی آران‌ای پیام‌رسان داده شده، بدست آوردن یک توالی دی‌ان‌ای منحصر بفرد واضح است. برای یک توالی پروتئینی، خانواده‌ای از توالی‌های ممکن از دی‌ان‌ای کد شده را می‌توان از روی ترجمهٔ معکوس کد ژنتیکی بدست آورد. وقتی توالی‌های دی‌ان‌ای مشخص شدند جستجوی کارآمد یک ژنوم هدف برای یافتن تطابق‌های کامل یا جزئی، مسئلهٔ الگوریتمیک سرراستی است. یک سیستم بسیار پرکاربرد برای این منظور بلاست است.

روش‌های از آغاز

به دلیل دشواری و هزینهٔ زیاد در بدست آوردن شواهد خارجی برای اکثر ژن‌ها، که در زمرهٔ ژن‌یابی‌های از آغاز قرار می‌گیرند، که در آن توالی‌های ژنوم دی‌ان‌ای به تنهایی به‌طور سیستماتیک به منظور یافتن نشانه‌هایی از حضور ژن‌های کد کنندهٔ پروتئین جستجو می‌کند. این نشانه‌ها یا می‌توانند به عنوان سیگنال، توالی‌های خاصی که حضور ژن در اطراف را تشخیص می‌دهند، یا محتوا، ویژگی‌های آماری کد کردن توالی‌های پروتئینی، دسته‌بندی شوند. به‌طور دقیق تر ژن‌یابیِ از آغاز در ردهٔ پیش‌بینی ژن قرار می‌گیرد، زیرا که شواهد خارجی کلاً مستلزم این است که کارکرد یک ژن معروف را استنتاج کرده باشد.

در ژنوم پروکاریوت‌ها، ژن‌ها توالی‌های پروموتوری (سیگنال) خاص و نسبتاً شناخته شده‌ای دارند، از قبیل Pinbow box و نواحی اتصال فاکتورهای رونویسی که به راحتی قابل شناسایی هستند. همچنین کد کردن توالی برای پروتئین به صورت یک قالب خواندن باز (ORF) به هم پیوسته اتفاق می‌افتد که به اندازهٔ صدها یا هزاران جفت بازی درازا دارد. آماری که از کدون‌های خاتمه بدست می‌آید به گونه‌ای است که حتی یافتن یک قالب خواندن باز با این طول نیز حاوی اطلاعات بسیاری است. علاوه براین، دی‌ان‌ای کد کردن پروتئین دارای فراوانی مشخص و سایر ویژگی‌های آماری که به سادگی قابل پیدا کردن در توالی ای با این طول هستند، دارد. این ویژگی‌ها سبب می‌شوند که ژن‌یابی که پروکاریوت‌ها نسبتاً آسان و سرراست انجام شود و سیستم‌های با طراحی مناسب قادر هستند که به سطح بالایی از دقت نیز برسند.

ژن‌یابی از آغاز در یوکاریوت‌ها مخصوصاً ارگانیسم‌های پیچیده مانند انسان، به چندین دلیل چالش بر انگیزتر است. اول اینکه، پروموتر. سایر سیگنال‌های تنظیم‌کننده پیچیده‌تر و ناشناخته تر هستند در مقایسه با پروکاریوت‌ها.

دوم اینکه مکانیزم‌های پیوند کردن (splicing) در سلول‌های یوکاریوت‌ها به کار گرفته می‌شود؛ به این معنی که یک توالیِ مشخصِ کد کنندهٔ پروتئین در ژنوم به چندین بخش تقسیم می‌شود (اگزون) که با توالی‌های غیر کدکننده (اینترون) جدا شده‌اند. یک ژن کد کنندهٔ پرئتئین در انسان ممکن است به دو جین اگزون که هر یک کمتر از دویست جفتِ بازی درازا دارند (البته می‌تواند به کوتاهی بیست تا سی جفتِ بازی نیز باشد) تقسیم شود؛ بنابراین در یوکاریوت‌ها فراوانی و سایر ویژگی‌های محتوایی شناخته شده از دی‌ان‌ای کد کنندهٔ پروتئین بسیار دشوارتر است از پروکاریوت‌ها.

ژن یاب‌های پیشرفته هم برای ژنوم پرئکاریوت‌ها و هم برای ژنوم یوکاریوت‌ها از مدل‌های احتمالی پیچیده استفاده می‌کنند از قبیل مدل‌های مارکوف پنهان، تا اطلاعات سیگنال‌های مختلف و متنوع را با هم ترکیب کنند. سیستم GLIMMER یک ژن یاب پرکاربرد و دقیق برای پرئکاریوت هاست. GeneMark دیدگاه معروف دیگری است. ژن یاب‌های از آغاز برای یوکاریوت‌ها به نسبت موفقیت کمتری بدست آورده‌اند؛ برنامه‌های GENSCAN و geneid نمونه‌های بازر از این قبیل ژن یاب‌ها هستند. ژن یاب SNAP همانند Genscan مبتنی بر HMM است و سعی دارد که قابلیت سازگاری بیشتری با ارگانیسم‌های متفاوت داشته باشد.[1] روش‌های جدید مانند mSplicer ,[2] CONTRAST,[3] یا mGene[4] نیز از تکنیک‌های یادگیری ماشین مانند ماشین بردار پشتیبان برای یک پیش‌بینی ژن موفق استفاده می‌کنند.

سایر سیگنال‌ها

از بین سیگنال‌های بدست آمده‌ای که برای پیش‌بینی استفاده می‌شوند می‌توان به آمار k-mer، تبدیل فوریه، Z-curve parameters and certain run features.[5] اشاره کرد. ادعا می‌شود که سیگنال‌هایی که به‌طور مستقیم در توالی قابل شناسایی نیستند می‌توانند در بهبود پیش‌بینی ژن به کار گرفته شوند. برای مثال تاکنون نقش ساختار دوم در شناسایی موتیف‌های تنظیم‌کننده گزارش شده‌است.[6] علاوه بر این گفته شده که پیش‌بینی ساختار دوم RNA به پیش‌بینی نواحی متصل شدگی (splicing) کمک می‌کند.[7][8][9][10]

شبکه‌های عصبی

شبکه‌های عصبی مصنوعی مدل‌های محاسباتی هستند که در یادگیری ماشین و بازشناخت الگو، برتری دارند. شبکه‌های عصبی قبل از اینکه بتوانند داده‌های آزمایشی را دسته‌بندی کنند و در مقابل معیار‌ها سنجیده شوند، باید با داده های نمونه یادگیری کنند. شبکه‌های عصبی قادر به ارائه راه‌حل‌های تقریبی برای مسائلی هستند که حل الگوریتمی آن‌ها دشوار است، مشروط بر اینکه داده‌های یادگیری کافی وجود داشته‌باشد. هنگامی که برای پیش‌بینی ژن استفاده می‌شود، شبکه‌های عصبی می‌توانند در کنار سایر روشهای "از آغاز" برای پیش‌بینی یا شناسایی ویژگی‌های زیستی مانند مکان‌های شکاف استفاده شوند.[11] یک رویکرد،[12] استفاده از یک بازه‌ی حرکت‌کننده است که روی داده‌های دنباله به حالت تداخلی حرکت می‌کند. خروجی در هر نقطه، امتیازی‌ست که براساس آن است که شبکه فکر می‌کند این بازه دارای یک مکان شکاف‌دهنده است یا یک مکان شکاف‌شونده است. بازه‌های بزرگ‌تر، دقت بیش‌تری دارند اما به قدرت محاسباتی بیش‌تری نیز نیاز دارند. شبکه عصبی، نمونه‌ای از حس‌گر سیگنال است زیرا که هدف آن شناسایی محل عمل‌کردی در ژنوم است.

روش‌های تطبیق ژنوم‌ها

از آن‌جا که کل توالی ژنومی بسیاری از گونه‌ها به دست آورده شده‌است، یک حرکت امیدوارکننده در تحقیقات فعلی در زمینه ژن‌یابی، روش ژنوم‌های تطبیقی است.

این روش بر اساس این پایه‌گذاری شده‌است که نیروی انتخاب طبیعی باعث می‌شود که ژن‌ها و سایر عناصر کارکردی، کندتر از بقیه ژنوم تحت جهش واقع شوند؛ بنابراین ژن‌ها می‌توانند از روی مقایسه با ژنوم گونه‌های مربوطه مقایسه شوند. این روش در ابتدا بر روی ژنوم‌های موش و انسان اعمال شد، که در آن از برنامه‌هایی مانند SLAM، SGP، Twinscan/N-SCAN و CONTRAST استفاده شد.[13]

چند آگاهی‌دهنده

TWINSCAN تنها هم‌رشتگی انسان-موش را جستجو کرد تا به دنبال ژنهای اَرتاساخت باشد. برنامه‌هایی مانند N-SCAN و CONTRAST امکان تطبیق از موجودات مختلف را دادند، یا در مورد N-SCAN، صرفاًیک موجود متفاوت از موجود هدف. استفاده از چند آگاهی‌دهنده می‌تواند باعث پیش‌رفت چشمگیری در دقت کار شود.[13]

CONTRAST از دو عنصر تشکیل شده است. اولی، یک دسته‌بند کوچکتر است، که مکان‌های مربوط به تقسیم‌دهنده و مکان‌های شکاف‌پذیرنده و هم‌چنین رمزه‌های (codon) شروع‌کننده و متوقف‌کننده را تشخیص می‌دهد. عنصر دوم شامل ساختن یک مدل کامل با استفاده از یادگیری ماشین است. دو بخش کردن مسئله به این معنی است که می توان از مجموعه داده‌های کوچکتر برای آموزش دسته‌بند استفاده کرد، و دسته‌بند می‌تواند مستقل عمل کند و با بازه‌های کوچک‌تر آموزش ببیند. مدل کلی می‌تواند از دسته‌بند مستقل استفاده کند، و نیازی به اتلاف وقت محاسباتی یا پیچیدگی مدل نیست. مقاله ای که در آن CONTRAST معرفی شده‌است، پیشنهاد می‌کند که روش آن‌ها (و TWINSCAN و غیره) به عنوان انجمن ژن de novo طبقه‌بندی شود، که از ژنوم های جایگزین استفاده می‌کند.[13]

ژن‌یابی تطبیقی نیز می‌تواند برای ایجاد تفسیر‌های با کیفیت بالا از یک ژنوم به ژنومی دیگر مورد استفاده قرار گیرد. نمونه های قابل توجه شامل Projector، GeneWise ، GeneMapper و GeMoMa می‌شود. این‌گونه تکنیک‌ها اکنون نقش مهمی در تفسیر همه ژنوم‌ها دارند.

شبه‌ژن یابی

شبه‌ژن‌ها بسیار به ژن‌ها مرتبط‌اند، به طوری که دارای ساختار دنباله‌ی بسیار متشابه‌اند، اما قادر به کدگذاری برای یک محصول پروتئینی یکسان نیستند. هرچند که یک زمانی به عنوان محصول جانبی توالی‌یابی ژن به شمار می‌آمدند، با توجه به کشف بیشتر نقش‌های نظارت‌کننده، آنها به خودی خود به اهداف مورد پیش‌بینی تبدیل می‌شوند.[14] پیش‌بینی شبه‌ژن‌ها از روش‌های تشابه توالی موجود و روش‌های "ab initio" استفاده می‌کند، که با اضافه کردن فیلتر اضافی و روش‌های شناسایی خصوصیات شبه‌ژن، به کار می‌رود. روش‌های تشابه توالی را می‌توان برای پیش‌بینی شبه‌ژن‌ها با استفاده از فیلترهای اضافی برای یافتن شبه‌ژن‌های احتمالی تنظیم کرد. این روش می‌تواند از تشخیص ناتوانی استفاده کند، که به دنبال جهش‌های بی‌معنی و یا تغییر فریم است که باعث می شود توالی کد‌نویسی کاربردی کوتاه شود یا به هم بخورد.[15] علاوه بر این، ترجمه DNA به توالی پروتئین می تواند مؤثرتر از یافتن تشابه مستقیم DNA باشد.[14]

تشخیص دهنده‌های محتوا را می توان با توجه به تفاوت در خصوصیات آماری بین شبه‌ژن‌ها و ژن‌ها، مانند کم‌تر بودن تعداد جزایر CpG در شبه‌ژن‌ها، یا تفاوت در محتوای G-C بین شبه‌ژن‌ها و همسایگان آن‌ها، فیلتر کرد.[16]

ژن‌یابی متاژنومیک

متاژنومیک مطالعه مواد ژنتیکی است که از محیط خارج دربافت می‌شود، که در نتیجه اطلاعات توالی از مجموعه‌ای از موجودات زنده حاصل می‌شود. پیش‌بینی ژن‌ها برای متاژنومیک تطبیقی سودمند است.

ابزار Metagenomics هم‌چنین در گروه‌های اصلی استفاده از هر دو روش تشابه دنباله (MEGAN4) و تکنیک‌های "ab initio" مانند (GLIMMER-MG) قرار می‌گیرد.

Glimmer-MG[17] افزونه‌ای به GLIMMER است که بیش‌تر به رویکرد "ab initio" برای یافتن ژن و به استفاده از مجموعه‌ داده‌های یادگیری از موجودات وابسته متکی است. استراتژی پیش‌بینی با استفاده از روش‌های دسته‌بندی و خوشه‌بندی مجموعه ژن‌ها قبل از به کارگیری روش‌های پیش‌بینی ژن "ab initio" افزوده می‌شود. داده‌ها توسط گونه‌ها دسته‌بندی می‌شوند. این روش دسته‌بندی از روش‌های دسته‌بندی فیلوژنتیک متاژنومی استفاده می‌کند.

MEGAN4[18] از یک رویکرد تشابه توالی، با استفاده از هم‌ترازی محلی در برابر پایگاه‌داده‌های توالی شناخته‌شده استفاده می‌کند، ولی سعی در دسته‌بندی با استفاده از اطلاعات اضافی در مورد نقش‌های کاربردی ، مسیرهای بیولوژیکی و آنزیم‌ها دارد.

FragGeneScan و MetaGeneAnnotator برنامه‌های ژن‌یابی معروف، بر اساس مدل پنهان مارکوف هستند. این پیش‌بینی‌کننده‌ها، خطای توالی‌یابی، ژن‌های جزئی و کار برای خواندن‌های کوتاه را در نظر می‌گیرند.

یکی دیگر از ابزارهای سریع و دقیق برای ژن‌یابی در متاژنوم‌ها، MetaGeneMark است.[19] این ابزار توسط مؤسسه DOE Joint Genome Institute برای تفسیر IMG/M است، که بزرگترین مجموعه متاژنوم تا به امروز است.


صفحات مرتبط


پیوند به بیرون

منابع

  1. Korf I. (2004-05-14). "Gene finding in novel genomes". BMC Bioinformatics. 5: 59–67. doi:10.1186/1471-2105-5-59. PMC 421630. PMID 15144565.
  2. Rätsch, Gunnar; Sonnenburg, S; Srinivasan, J; Witte, H; Müller, KR; Sommer, RJ; Schölkopf, B (2007-02-23). "Improving the C. elegans genome annotation using machine learning". PLoS Computational Biology. 3 (2): e20. doi:10.1371/journal.pcbi.0030020. PMC 1808025. PMID 17319737.
  3. Gross, Samuel S; Do, CB; Sirota, M; Batzoglou, S (2007-12-20). "CONTRAST: A Discriminative, Phylogeny-free Approach to Multiple Informant De Novo Gene Prediction". Genome Biology. 8 (12): R269. doi:10.1186/gb-2007-8-12-r269. PMC 2246271. PMID 18096039.
  4. Schweikert G, Behr J, Zien A; et al. (2009). "mGene.web: a web service for accurate computational gene finding". Nucleic Acids Res. 37 (Web Server issue): W312–6. doi:10.1093/nar/gkp479. PMC 2703990. PMID 19494180. Unknown parameter |month= ignored (help)
  5. Saeys Y, Rouzé P, Van de Peer Y (2007). "In search of the small ones: improved prediction of short exons in vertebrates, plants, fungi and protists". Bioinformatics. 23 (4): 414–420. doi:10.1093/bioinformatics/btl639. PMID 17204465.
  6. Hiller M, Pudimat R, Busch A, Backofen R (2006). "Using RNA secondary structures to guide sequence motif finding towards single-stranded regions". Nucleic Acids Res. 34 (17): e117. doi:10.1093/nar/gkl544. PMC 1903381. PMID 16987907.
  7. Patterson DJ, Yasuhara K, Ruzzo WL (2002). "Pre-mRNA secondary structure prediction aids splice site prediction". Pac Symp Biocomput: 223–234. PMID 11928478.
  8. Marashi SA, Goodarzi H, Sadeghi M, Eslahchi C, Pezeshk H (2006). "Importance of RNA secondary structure information for yeast donor and acceptor splice site predictions by neural networks". Comput Biol Chem. 30 (1): 50–7. doi:10.1016/j.compbiolchem.2005.10.009. PMID 16386465.
  9. Marashi SA, Eslahchi C, Pezeshk H, Sadeghi M (2006). "Impact of RNA structure on the prediction of donor and acceptor splice sites". BMC Bioinformatics. 7: 297. doi:10.1186/1471-2105-7-297. PMC 1526458. PMID 16772025.
  10. Rogic, S (2006). The role of pre-mRNA secondary structure in gene splicing in Saccharomyces cerevisiae (PDF) (PhD thesis). University of British Columbia. Archived from the original (PDF) on 30 May 2009. Retrieved 26 June 2011.
  11. Goel N, Singh S, Aseri TC (July 2013). "A comparative analysis of soft computing techniques for gene prediction". Analytical Biochemistry. 438 (1): 14–21. doi:10.1016/j.ab.2013.03.015. PMID 23529114.
  12. Johansen, ∅Ystein; Ryen, Tom; Eftes∅l, Trygve; Kjosmoen, Thomas; Ruoff, Peter (2009). Splice Site Prediction Using Artificial Neural Networks. Computational Intelligence Methods for Bioinformatics and Biostatistics. Lec Not Comp Sci. 5488. pp. 102–113. doi:10.1007/978-3-642-02504-4_9. ISBN 978-3-642-02503-7.
  13. Gross SS, Do CB, Sirota M, Batzoglou S (2007). "CONTRAST: a discriminative, phylogeny-free approach to multiple informant de novo gene prediction". Genome Biology. 8 (12): R269. doi:10.1186/gb-2007-8-12-r269. PMC 2246271. PMID 18096039.
  14. Alexander RP, Fang G, Rozowsky J, Snyder M, Gerstein MB (August 2010). "Annotating non-coding regions of the genome". Nature Reviews. Genetics. 11 (8): 559–71. doi:10.1038/nrg2814. PMID 20628352.
  15. Svensson O, Arvestad L, Lagergren J (May 2006). "Genome-wide survey for biologically functional pseudogenes". PLoS Computational Biology. 2 (5): e46. doi:10.1371/journal.pcbi.0020046. PMC 1456316. PMID 16680195.
  16. Zhang Z, Gerstein M (August 2004). "Large-scale analysis of pseudogenes in the human genome". Current Opinion in Genetics & Development. 14 (4): 328–35. doi:10.1016/j.gde.2004.06.003. PMID 15261647.
  17. Kelley DR, Liu B, Delcher AL, Pop M, Salzberg SL (January 2012). "Gene prediction with Glimmer for metagenomic sequences augmented by classification and clustering". Nucleic Acids Research. 40 (1): e9. doi:10.1093/nar/gkr1067. PMC 3245904. PMID 22102569.
  18. Huson DH, Mitra S, Ruscheweyh HJ, Weber N, Schuster SC (September 2011). "Integrative analysis of environmental sequences using MEGAN4". Genome Research. 21 (9): 1552–60. doi:10.1101/gr.120618.111. PMC 3166839. PMID 21690186.
  19. Zhu W, Lomsadze A, Borodovsky M (July 2010). "Ab initio gene identification in metagenomic sequences". Nucleic Acids Research. 38 (12): e132. doi:10.1093/nar/gkq275. PMC 2896542. PMID 20403810.


This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.