ژنیابی
اصولاً ژنیابی یا پیشبینی ژن به زمینهٔ محاسبات بیولوژیکی اشاره دارد که با تعیین الگوریتمیکِ قطعات توالیها، غالباً ژنوم دیانای، که کارکرد بیولوژیکی دارند در ارتباط است. این امر بهطور خاص شامل ژنهای کدکنندهٔ پروتئین است، اما ممکن است شامل سایر عناصر کارکردی از قبیل ژنهای آرانای و نواحی تنظیمکننده نیز بشود. ژنیابی یکی از اولین و مهمترین مراحل شناخت ژنوم یک گونهای که به صورت توالی درآورده شدهاست. در اوایل، «ژنیابی» بر اساس آزمایشهای پرزحمت و دشوار بر روی سلولهای زنده و ارگانیسمها استوار شده بود. تحلیلهای آماری نرخ نوترکیبهای هومولوگ چندین ژن مختلف میتواند ترتیب قرار گرفتن آنها را روی یک کروموزوم خاص تعیین کند و اطلاعات بدست آمده از چنین آزمایشهایی میتواند برای ساختن یک نقشۀ ژنتیکی که موقعیت نسبی ژنهای مرتبط به هم را بهطور تقریبی مشخص کند، استفاده شود. امروزه با در اختیار داشتن توالیهای ژنی وسیع و منابع محاسباتی قدرتمند، تعریف ژنیابی به عنوان مسئلهٔ محاسباتی عظیمی تغییر پیدا کردهاست. تعیین اینکه آیا یک توالی کارکردی است مستلزم تعیین کارکرد یا محصول آن ژن است.
روشهای بیرونی
در سیستمهای ژنیابی خارجی (بر پایهٔ شواهد) ژنوم هدف را در توالیهایی که شبیه به شواهد خارجی هستند را از روی یک توالی شناخته شدهٔ آرانای پیامرسان یا محصول یک پروتئین جستجو میکنند. برای یک توالی آرانای پیامرسان داده شده، بدست آوردن یک توالی دیانای منحصر بفرد واضح است. برای یک توالی پروتئینی، خانوادهای از توالیهای ممکن از دیانای کد شده را میتوان از روی ترجمهٔ معکوس کد ژنتیکی بدست آورد. وقتی توالیهای دیانای مشخص شدند جستجوی کارآمد یک ژنوم هدف برای یافتن تطابقهای کامل یا جزئی، مسئلهٔ الگوریتمیک سرراستی است. یک سیستم بسیار پرکاربرد برای این منظور بلاست است.
روشهای از آغاز
به دلیل دشواری و هزینهٔ زیاد در بدست آوردن شواهد خارجی برای اکثر ژنها، که در زمرهٔ ژنیابیهای از آغاز قرار میگیرند، که در آن توالیهای ژنوم دیانای به تنهایی بهطور سیستماتیک به منظور یافتن نشانههایی از حضور ژنهای کد کنندهٔ پروتئین جستجو میکند. این نشانهها یا میتوانند به عنوان سیگنال، توالیهای خاصی که حضور ژن در اطراف را تشخیص میدهند، یا محتوا، ویژگیهای آماری کد کردن توالیهای پروتئینی، دستهبندی شوند. بهطور دقیق تر ژنیابیِ از آغاز در ردهٔ پیشبینی ژن قرار میگیرد، زیرا که شواهد خارجی کلاً مستلزم این است که کارکرد یک ژن معروف را استنتاج کرده باشد.
در ژنوم پروکاریوتها، ژنها توالیهای پروموتوری (سیگنال) خاص و نسبتاً شناخته شدهای دارند، از قبیل Pinbow box و نواحی اتصال فاکتورهای رونویسی که به راحتی قابل شناسایی هستند. همچنین کد کردن توالی برای پروتئین به صورت یک قالب خواندن باز (ORF) به هم پیوسته اتفاق میافتد که به اندازهٔ صدها یا هزاران جفت بازی درازا دارد. آماری که از کدونهای خاتمه بدست میآید به گونهای است که حتی یافتن یک قالب خواندن باز با این طول نیز حاوی اطلاعات بسیاری است. علاوه براین، دیانای کد کردن پروتئین دارای فراوانی مشخص و سایر ویژگیهای آماری که به سادگی قابل پیدا کردن در توالی ای با این طول هستند، دارد. این ویژگیها سبب میشوند که ژنیابی که پروکاریوتها نسبتاً آسان و سرراست انجام شود و سیستمهای با طراحی مناسب قادر هستند که به سطح بالایی از دقت نیز برسند.
ژنیابی از آغاز در یوکاریوتها مخصوصاً ارگانیسمهای پیچیده مانند انسان، به چندین دلیل چالش بر انگیزتر است. اول اینکه، پروموتر. سایر سیگنالهای تنظیمکننده پیچیدهتر و ناشناخته تر هستند در مقایسه با پروکاریوتها.
دوم اینکه مکانیزمهای پیوند کردن (splicing) در سلولهای یوکاریوتها به کار گرفته میشود؛ به این معنی که یک توالیِ مشخصِ کد کنندهٔ پروتئین در ژنوم به چندین بخش تقسیم میشود (اگزون) که با توالیهای غیر کدکننده (اینترون) جدا شدهاند. یک ژن کد کنندهٔ پرئتئین در انسان ممکن است به دو جین اگزون که هر یک کمتر از دویست جفتِ بازی درازا دارند (البته میتواند به کوتاهی بیست تا سی جفتِ بازی نیز باشد) تقسیم شود؛ بنابراین در یوکاریوتها فراوانی و سایر ویژگیهای محتوایی شناخته شده از دیانای کد کنندهٔ پروتئین بسیار دشوارتر است از پروکاریوتها.
ژن یابهای پیشرفته هم برای ژنوم پرئکاریوتها و هم برای ژنوم یوکاریوتها از مدلهای احتمالی پیچیده استفاده میکنند از قبیل مدلهای مارکوف پنهان، تا اطلاعات سیگنالهای مختلف و متنوع را با هم ترکیب کنند. سیستم GLIMMER یک ژن یاب پرکاربرد و دقیق برای پرئکاریوت هاست. GeneMark دیدگاه معروف دیگری است. ژن یابهای از آغاز برای یوکاریوتها به نسبت موفقیت کمتری بدست آوردهاند؛ برنامههای GENSCAN و geneid نمونههای بازر از این قبیل ژن یابها هستند. ژن یاب SNAP همانند Genscan مبتنی بر HMM است و سعی دارد که قابلیت سازگاری بیشتری با ارگانیسمهای متفاوت داشته باشد.[1] روشهای جدید مانند mSplicer ,[2] CONTRAST,[3] یا mGene[4] نیز از تکنیکهای یادگیری ماشین مانند ماشین بردار پشتیبان برای یک پیشبینی ژن موفق استفاده میکنند.
سایر سیگنالها
از بین سیگنالهای بدست آمدهای که برای پیشبینی استفاده میشوند میتوان به آمار k-mer، تبدیل فوریه، Z-curve parameters and certain run features.[5] اشاره کرد. ادعا میشود که سیگنالهایی که بهطور مستقیم در توالی قابل شناسایی نیستند میتوانند در بهبود پیشبینی ژن به کار گرفته شوند. برای مثال تاکنون نقش ساختار دوم در شناسایی موتیفهای تنظیمکننده گزارش شدهاست.[6] علاوه بر این گفته شده که پیشبینی ساختار دوم RNA به پیشبینی نواحی متصل شدگی (splicing) کمک میکند.[7][8][9][10]
شبکههای عصبی
شبکههای عصبی مصنوعی مدلهای محاسباتی هستند که در یادگیری ماشین و بازشناخت الگو، برتری دارند. شبکههای عصبی قبل از اینکه بتوانند دادههای آزمایشی را دستهبندی کنند و در مقابل معیارها سنجیده شوند، باید با داده های نمونه یادگیری کنند. شبکههای عصبی قادر به ارائه راهحلهای تقریبی برای مسائلی هستند که حل الگوریتمی آنها دشوار است، مشروط بر اینکه دادههای یادگیری کافی وجود داشتهباشد. هنگامی که برای پیشبینی ژن استفاده میشود، شبکههای عصبی میتوانند در کنار سایر روشهای "از آغاز" برای پیشبینی یا شناسایی ویژگیهای زیستی مانند مکانهای شکاف استفاده شوند.[11] یک رویکرد،[12] استفاده از یک بازهی حرکتکننده است که روی دادههای دنباله به حالت تداخلی حرکت میکند. خروجی در هر نقطه، امتیازیست که براساس آن است که شبکه فکر میکند این بازه دارای یک مکان شکافدهنده است یا یک مکان شکافشونده است. بازههای بزرگتر، دقت بیشتری دارند اما به قدرت محاسباتی بیشتری نیز نیاز دارند. شبکه عصبی، نمونهای از حسگر سیگنال است زیرا که هدف آن شناسایی محل عملکردی در ژنوم است.
روشهای تطبیق ژنومها
از آنجا که کل توالی ژنومی بسیاری از گونهها به دست آورده شدهاست، یک حرکت امیدوارکننده در تحقیقات فعلی در زمینه ژنیابی، روش ژنومهای تطبیقی است.
این روش بر اساس این پایهگذاری شدهاست که نیروی انتخاب طبیعی باعث میشود که ژنها و سایر عناصر کارکردی، کندتر از بقیه ژنوم تحت جهش واقع شوند؛ بنابراین ژنها میتوانند از روی مقایسه با ژنوم گونههای مربوطه مقایسه شوند. این روش در ابتدا بر روی ژنومهای موش و انسان اعمال شد، که در آن از برنامههایی مانند SLAM، SGP، Twinscan/N-SCAN و CONTRAST استفاده شد.[13]
چند آگاهیدهنده
TWINSCAN تنها همرشتگی انسان-موش را جستجو کرد تا به دنبال ژنهای اَرتاساخت باشد. برنامههایی مانند N-SCAN و CONTRAST امکان تطبیق از موجودات مختلف را دادند، یا در مورد N-SCAN، صرفاًیک موجود متفاوت از موجود هدف. استفاده از چند آگاهیدهنده میتواند باعث پیشرفت چشمگیری در دقت کار شود.[13]
CONTRAST از دو عنصر تشکیل شده است. اولی، یک دستهبند کوچکتر است، که مکانهای مربوط به تقسیمدهنده و مکانهای شکافپذیرنده و همچنین رمزههای (codon) شروعکننده و متوقفکننده را تشخیص میدهد. عنصر دوم شامل ساختن یک مدل کامل با استفاده از یادگیری ماشین است. دو بخش کردن مسئله به این معنی است که می توان از مجموعه دادههای کوچکتر برای آموزش دستهبند استفاده کرد، و دستهبند میتواند مستقل عمل کند و با بازههای کوچکتر آموزش ببیند. مدل کلی میتواند از دستهبند مستقل استفاده کند، و نیازی به اتلاف وقت محاسباتی یا پیچیدگی مدل نیست. مقاله ای که در آن CONTRAST معرفی شدهاست، پیشنهاد میکند که روش آنها (و TWINSCAN و غیره) به عنوان انجمن ژن de novo طبقهبندی شود، که از ژنوم های جایگزین استفاده میکند.[13]
ژنیابی تطبیقی نیز میتواند برای ایجاد تفسیرهای با کیفیت بالا از یک ژنوم به ژنومی دیگر مورد استفاده قرار گیرد. نمونه های قابل توجه شامل Projector، GeneWise ، GeneMapper و GeMoMa میشود. اینگونه تکنیکها اکنون نقش مهمی در تفسیر همه ژنومها دارند.
شبهژن یابی
شبهژنها بسیار به ژنها مرتبطاند، به طوری که دارای ساختار دنبالهی بسیار متشابهاند، اما قادر به کدگذاری برای یک محصول پروتئینی یکسان نیستند. هرچند که یک زمانی به عنوان محصول جانبی توالییابی ژن به شمار میآمدند، با توجه به کشف بیشتر نقشهای نظارتکننده، آنها به خودی خود به اهداف مورد پیشبینی تبدیل میشوند.[14] پیشبینی شبهژنها از روشهای تشابه توالی موجود و روشهای "ab initio" استفاده میکند، که با اضافه کردن فیلتر اضافی و روشهای شناسایی خصوصیات شبهژن، به کار میرود. روشهای تشابه توالی را میتوان برای پیشبینی شبهژنها با استفاده از فیلترهای اضافی برای یافتن شبهژنهای احتمالی تنظیم کرد. این روش میتواند از تشخیص ناتوانی استفاده کند، که به دنبال جهشهای بیمعنی و یا تغییر فریم است که باعث می شود توالی کدنویسی کاربردی کوتاه شود یا به هم بخورد.[15] علاوه بر این، ترجمه DNA به توالی پروتئین می تواند مؤثرتر از یافتن تشابه مستقیم DNA باشد.[14]
تشخیص دهندههای محتوا را می توان با توجه به تفاوت در خصوصیات آماری بین شبهژنها و ژنها، مانند کمتر بودن تعداد جزایر CpG در شبهژنها، یا تفاوت در محتوای G-C بین شبهژنها و همسایگان آنها، فیلتر کرد.[16]
ژنیابی متاژنومیک
متاژنومیک مطالعه مواد ژنتیکی است که از محیط خارج دربافت میشود، که در نتیجه اطلاعات توالی از مجموعهای از موجودات زنده حاصل میشود. پیشبینی ژنها برای متاژنومیک تطبیقی سودمند است.
ابزار Metagenomics همچنین در گروههای اصلی استفاده از هر دو روش تشابه دنباله (MEGAN4) و تکنیکهای "ab initio" مانند (GLIMMER-MG) قرار میگیرد.
Glimmer-MG[17] افزونهای به GLIMMER است که بیشتر به رویکرد "ab initio" برای یافتن ژن و به استفاده از مجموعه دادههای یادگیری از موجودات وابسته متکی است. استراتژی پیشبینی با استفاده از روشهای دستهبندی و خوشهبندی مجموعه ژنها قبل از به کارگیری روشهای پیشبینی ژن "ab initio" افزوده میشود. دادهها توسط گونهها دستهبندی میشوند. این روش دستهبندی از روشهای دستهبندی فیلوژنتیک متاژنومی استفاده میکند.
MEGAN4[18] از یک رویکرد تشابه توالی، با استفاده از همترازی محلی در برابر پایگاهدادههای توالی شناختهشده استفاده میکند، ولی سعی در دستهبندی با استفاده از اطلاعات اضافی در مورد نقشهای کاربردی ، مسیرهای بیولوژیکی و آنزیمها دارد.
FragGeneScan و MetaGeneAnnotator برنامههای ژنیابی معروف، بر اساس مدل پنهان مارکوف هستند. این پیشبینیکنندهها، خطای توالییابی، ژنهای جزئی و کار برای خواندنهای کوتاه را در نظر میگیرند.
یکی دیگر از ابزارهای سریع و دقیق برای ژنیابی در متاژنومها، MetaGeneMark است.[19] این ابزار توسط مؤسسه DOE Joint Genome Institute برای تفسیر IMG/M است، که بزرگترین مجموعه متاژنوم تا به امروز است.
پیوند به بیرون
- http://www.geneprediction.org
- FGENESH
- Bibliography on computational gene recognition by Wentian Li
- geneid
- SGP2
- http://cbcb.umd.edu/software/glimmer بایگانیشده در ۲۶ اوت ۲۰۱۱ توسط Wayback Machine
- http://cbcb.umd.edu/software/GlimmerHMM بایگانیشده در ۱۸ اوت ۲۰۱۱ توسط Wayback Machine
- https://web.archive.org/web/20080908011830/http://bio.math.berkeley.edu/genemapper/
- https://web.archive.org/web/20061116041807/http://www.genomethreader.org/
- GENSCAN
- Twinscan/N-SCAN
- CHEMGENOME
- GeneMark
- Gismo
- mGene
- StarORF — A multi-platform and web tool for predicting ORFs and obtaining reverse complement sequence
منابع
- Korf I. (2004-05-14). "Gene finding in novel genomes". BMC Bioinformatics. 5: 59–67. doi:10.1186/1471-2105-5-59. PMC 421630. PMID 15144565.
- Rätsch, Gunnar; Sonnenburg, S; Srinivasan, J; Witte, H; Müller, KR; Sommer, RJ; Schölkopf, B (2007-02-23). "Improving the C. elegans genome annotation using machine learning". PLoS Computational Biology. 3 (2): e20. doi:10.1371/journal.pcbi.0030020. PMC 1808025. PMID 17319737.
- Gross, Samuel S; Do, CB; Sirota, M; Batzoglou, S (2007-12-20). "CONTRAST: A Discriminative, Phylogeny-free Approach to Multiple Informant De Novo Gene Prediction". Genome Biology. 8 (12): R269. doi:10.1186/gb-2007-8-12-r269. PMC 2246271. PMID 18096039.
- Schweikert G, Behr J, Zien A; et al. (2009). "mGene.web: a web service for accurate computational gene finding". Nucleic Acids Res. 37 (Web Server issue): W312–6. doi:10.1093/nar/gkp479. PMC 2703990. PMID 19494180. Unknown parameter
|month=
ignored (help) - Saeys Y, Rouzé P, Van de Peer Y (2007). "In search of the small ones: improved prediction of short exons in vertebrates, plants, fungi and protists". Bioinformatics. 23 (4): 414–420. doi:10.1093/bioinformatics/btl639. PMID 17204465.
- Hiller M, Pudimat R, Busch A, Backofen R (2006). "Using RNA secondary structures to guide sequence motif finding towards single-stranded regions". Nucleic Acids Res. 34 (17): e117. doi:10.1093/nar/gkl544. PMC 1903381. PMID 16987907.
- Patterson DJ, Yasuhara K, Ruzzo WL (2002). "Pre-mRNA secondary structure prediction aids splice site prediction". Pac Symp Biocomput: 223–234. PMID 11928478.
- Marashi SA, Goodarzi H, Sadeghi M, Eslahchi C, Pezeshk H (2006). "Importance of RNA secondary structure information for yeast donor and acceptor splice site predictions by neural networks". Comput Biol Chem. 30 (1): 50–7. doi:10.1016/j.compbiolchem.2005.10.009. PMID 16386465.
- Marashi SA, Eslahchi C, Pezeshk H, Sadeghi M (2006). "Impact of RNA structure on the prediction of donor and acceptor splice sites". BMC Bioinformatics. 7: 297. doi:10.1186/1471-2105-7-297. PMC 1526458. PMID 16772025.
- Rogic, S (2006). The role of pre-mRNA secondary structure in gene splicing in Saccharomyces cerevisiae (PDF) (PhD thesis). University of British Columbia. Archived from the original (PDF) on 30 May 2009. Retrieved 26 June 2011.
- Goel N, Singh S, Aseri TC (July 2013). "A comparative analysis of soft computing techniques for gene prediction". Analytical Biochemistry. 438 (1): 14–21. doi:10.1016/j.ab.2013.03.015. PMID 23529114.
- Johansen, ∅Ystein; Ryen, Tom; Eftes∅l, Trygve; Kjosmoen, Thomas; Ruoff, Peter (2009). Splice Site Prediction Using Artificial Neural Networks. Computational Intelligence Methods for Bioinformatics and Biostatistics. Lec Not Comp Sci. 5488. pp. 102–113. doi:10.1007/978-3-642-02504-4_9. ISBN 978-3-642-02503-7.
- Gross SS, Do CB, Sirota M, Batzoglou S (2007). "CONTRAST: a discriminative, phylogeny-free approach to multiple informant de novo gene prediction". Genome Biology. 8 (12): R269. doi:10.1186/gb-2007-8-12-r269. PMC 2246271. PMID 18096039.
- Alexander RP, Fang G, Rozowsky J, Snyder M, Gerstein MB (August 2010). "Annotating non-coding regions of the genome". Nature Reviews. Genetics. 11 (8): 559–71. doi:10.1038/nrg2814. PMID 20628352.
- Svensson O, Arvestad L, Lagergren J (May 2006). "Genome-wide survey for biologically functional pseudogenes". PLoS Computational Biology. 2 (5): e46. doi:10.1371/journal.pcbi.0020046. PMC 1456316. PMID 16680195.
- Zhang Z, Gerstein M (August 2004). "Large-scale analysis of pseudogenes in the human genome". Current Opinion in Genetics & Development. 14 (4): 328–35. doi:10.1016/j.gde.2004.06.003. PMID 15261647.
- Kelley DR, Liu B, Delcher AL, Pop M, Salzberg SL (January 2012). "Gene prediction with Glimmer for metagenomic sequences augmented by classification and clustering". Nucleic Acids Research. 40 (1): e9. doi:10.1093/nar/gkr1067. PMC 3245904. PMID 22102569.
- Huson DH, Mitra S, Ruscheweyh HJ, Weber N, Schuster SC (September 2011). "Integrative analysis of environmental sequences using MEGAN4". Genome Research. 21 (9): 1552–60. doi:10.1101/gr.120618.111. PMC 3166839. PMID 21690186.
- Zhu W, Lomsadze A, Borodovsky M (July 2010). "Ab initio gene identification in metagenomic sequences". Nucleic Acids Research. 38 (12): e132. doi:10.1093/nar/gkq275. PMC 2896542. PMID 20403810.