هم‌ترازسازی توالی

در بیوانفورماتیک، هم‌تراز کردن توالی (به انگلیسی: Sequence Alignment) به روش‌های مرتب کردن توالی‌های آران‌ای، دی‌ان‌ای و پروتئین گفته می‌شود به‌طوری‌که مکان‌های مشابهت بین توالی‌ها را مشخص کند. این مکان‌های مشابهت بین دو یا چند توالی، می‌تواند نشانگر ارتباط عملکردی، ساختاری یا تکاملی مابین توالی‌ها باشد. توالی یک دی‌ان‌ای یا آران‌ای، دنباله‌ای از نوکلئوتیدهای تشکیل دهندهٔ آن و توالی یک پروتئین، دنباله‌ای از پس مانده‌های تقطیر اسیدهای آمینه آن است. توالی‌های هم‌تراز شده را معمولاً به شکل سطرهایی زیر هم درون یک ماتریس نشان می‌دهند. در صورت لزوم در برخی مکان‌های توالی بین نوکلئوتیدها(پس مانده‌ها) فاصله اضافه می‌کنند تا در چند ستون پی در پی کاراکترهای یکسان زیر هم قرار بگیرند.

هم‌تراز شده توالی‌های دو پروتئین موجود در بدن انسان. هم‌تراز کردن توسط نرم‌افزار کلاستال انجام شده‌است. دو پروتئین هم‌تراز شده، پروتئین‌های zinc finger هستند که کد آن‌ها در ژن‌بانک در سمت چپ نشان داده شده‌است. حروف رنگی نشان دهندهٔ اسیدهای آمینه هستند. '*' نشان دهندهٔ همانند بودن، ':' نشان دهندهٔ جانشینی حفظ شده، '.' نشان دهندهٔ جانشینی نیمه حفظ شده و '-' نشان دهندهٔ فاصله می‌باشد.

هم‌تراز کردن توالی‌ها برای دنباله‌های غیر زیستی مانند دنباله‌های موجود در زبان‌های طبیعی یا داده‌های مالی نیز استفاده می‌شود.

تفسیر زیستی

اگر دو توالی که هم‌تراز کردن بر روی آن‌ها صورت می‌گیرد دارای یک جد مشترک باشند، پس از هم‌تراز کردن، مکان‌هایی که دو دنباله با یکدیگر مطابقت ندارند را می‌توان به عنوان جهش نقطه‌ای تفسیر کرد. همچنین فاصله‌ها را می‌توان به عنوان جهش رخنه‌ای یا جهش حذفی در یکی یا هر دو از اجداد در هنگام انشعاب یافتن از یکدیگر تفسیر کرد. در هم‌تراز کردن توالی‌های پروتئینی، درجه شباهت بین اسیدهای آمینه یک ناحیه خاص در توالی را می‌توان به عنوان مقیاسی برای اینکه یک منطقه چقدر بین اجداد حفظ شده‌است در نظر گرفت. عدم وجود جانشینی یا وجود تنها تعدادی جانشینی بسیار حفظ شده(جانشینی اسیدهای آمینه‌ای که زنجیره‌های جانبی‌اشان خواص بیوشمیایی مشابه دارند) در ناحیه‌ای خاص از توالی، این ناحیه را به عنوان ناحیه‌ای مهم از لحاظ ساختاری یا کارکردی پیشنهاد می‌دهد. هر چند در دی‌ان‌ای و آران‌ای بازهای نوکلئوتیدها نسبت به آمینواسیدها بیشتر به هم شباهت دارند، جفت بازهای حفظ شده نیز می‌توانند نشان دهندهٔ وظیفهٔ ساختاری یا کارکردی مشابه باشند.

روش‌های هم‌تراز کردن

توالی‌های بسیار کوچک یا بسیار مشابه می‌توانند به صورت دستی هم‌تراز شوند. اما، اکثر مسائل جالب توجه نیاز به هم‌تراز کردن توالی‌های طولانی، بسیار متغیر یا با تعداد بسیار زیاد دارند که نمی‌توانند تنها توسط تلاش انسانی هم‌تراز شوند. در عوض، دانش انسان، در ساختن الگوریتم‌هایی که هم‌تراز کردن توالی‌ها را با کیفیت بالا را انجام می‌دهند، و گاهی در تنظیم نتایج نهایی برای منعکس ساختن الگوهایی که نمایش آن‌ها به صورت الگوریتمی سخت است ( مخصوصاً در مورد توالی‌های نوکلوئوتیدی )، به کار می‌رود. رویکردهای محاسباتی برای هم‌تراز کردن توالی‌ها به‌طور کلی در دو دسته جا می‌گیرد: هم‌تراز کردن سراسری و هم‌تراز کردن محلی. محاسبه هم‌ترازی سراسری، شکلی از بهینه‌سازی سراسری است که به هم‌ترازی فشار می‌آورد تا در کل طول توالی‌های مورد جستجو گسترده شود. بلعکس، هم‌تراز کردن محلی، نواحی مشابه درون توالی‌های بلند را که معمولاً در طول توالی بسیار متفاوت اند، تشخیص می‌دهد. معمولاً هم‌تراز کردن محلی ترجیح داده می‌شود، اما محاسبه‌اش می‌تواند به علت مشکلات تشخیص نواحی مشابه، مشکل تر باشد. الگوریتم‌های محاسباتی گوناگونی برای مسئله هم‌تراز کردن توالی‌ها به کار رفته است، که شامل روش‌های آهسته ولی بهینه‌کننده‌ای مانند برنامه‌ریزی پویا، و روش‌های کارآمد اما نه دارای الگوریتم‌های کاملاً ابتکاری یا روش‌های احتمالاتی، که برای جستجو در پایگاه داده‌های در مقیاس بزرگ به کار می‌رود، می‌باشد.

شیوه‌های نمایش

به‌طور معمول هم‌ترازی توالی‌ها هم به صورت گرافیکی و هم در قالب متنی ارائه می‌شود. در اکثر روش‌های نمایش هم‌ترازی توالی‌ها، توالی‌ها به صورت سطری مرتب و نوشته می‌شوند، به‌طوری‌که در نتیجه، پس ماندهای هم‌تراز شده درستون‌های پشت سر هم ظاهر می‌شوند. در قالب‌های متنی، ستون‌های هم‌تراز شده شامل کاراکترهای یکسان یا مشابه، با سیستمی از سمبل‌های محافظت شده نمایش داده می‌شوند. همان‌طور که در تصویر بالا می‌بینید، سمبل ستاره و سمبل پایپ برای نشان دادن یکسان بودن دو ستون استفاده شده‌است؛ بقیه نشانه‌های کمتر معمول شامل دو نقطه برای جانشینی محافظت شده و نقطه برای جانشینی نیمه محافظت شده‌است. بسیاری از برنامه‌های مشاهده توالی از رنگ‌ها نیز برای نمایش اطلاعات دربارهٔ ویژگی‌های عناصر توالی به صورت تکی استفاده می‌کند؛ در توالی‌های دی‌ان‌ای و آران‌ای، این کار معادل نشان دادن هرنوع نوکلئوتید با یک رنگ ویژه آن می‌باشد. در هم‌ترازی‌های پروتئین‌ها، مانند تصویر بالا، رنگ کردن معمولاً برای نشان دادن خصوصیات اسیدهای آمینه استفاده می‌شود که به تشخیص جانشینی‌های حفظ شدهٔ یک آمینو اسید مشخص کمک می‌کند. برای چند توالی با هم، آخرین سطر در هر ستون معمولاً توالی توافقی است که توسط هم‌ترازی تعیین شده‌است؛ توالی توافقی همچنین معمولاً در قالب گرافیکی با یک لوگو که اندازه هرحرف نوکلئوتید یا اسید آمینه در آن متناظر با درجه حفاظت شدگی آن است، نمایش داده می‌شود.

هم‌ترازی توالی‌ها می‌تواند به شکل‌های گوناگونی در قالب‌های فایل‌های متنی ذخیره شود، که بسیاری از این قالب‌ها در آغاز از برنامه‌های هم‌تراز کردن خاصی تولید شده‌اند. اکثر ابزارهای مبتنی بر وب تعداد محدودی قالب ورودی و خروجی را پشتیبانی می‌کنند؛ مانند قالب FASTA و قالب ژن بانک، و خروجی‌اشان نیز به سادگی قابل ویرایش نیست. چند برنامه نیز برای تبدیل قالب‌های مختلف به یکدیگر موجود است، مانند READSEQ یا EMBOSS که دارای واسط کاربر گرافیکی یا نوشتاری هستند. همچنین بسته‌های برنامه‌سازی مانند بیوپرل و BioRuby توابعی را برای انجام این کار فراهم کرده‌اند.

هم‌تراز کردن سراسری و هم‌تراز کردن محلی

مثالی از هم‌تراز کردن سراسری و هم‌تراز کردن محلی که نشان دهندۀ وضعیت گپی هم‌تراز کردن سراسری است که موقعی رخ می‌دهد که توالی‌ها به اندازۀ کافی شبیه نباشند.

هم‌تراز کردن سراسری، که تلاش می‌کند هر پس ماندی را در هر توالی هم‌تراز کند، وقتی توالی‌های مجموعهٔ جستجو مشابه هستند و کاملاً اندازه یکسانی دارند، بهترین کاربرد را دارد( این به معنی آن نیست که هم‌ترازی سراسری در فواصل ( گپ) نمی‌تواند پایان یابد). یک تکنیک عمومی هم‌تراز کردن سراسری، الگوریتم نیدلمن–وانچ است، که بر پایه برنامه‌ریزی پویا است. هم‌تراز کردن محلی برای توالی‌های غیر مشابه که مظنون به داشتن نواحی همانندی یا داشتن موتیف‌های مشابه درون فضای بزرگتر توالی‌اشان هستند، مفیدتر می‌باشد. الگوریتم اسمیت-واترمن یک روش عمومی هم‌تراز کردن محلی است که آن نیز برپایه برنامه‌ریزی پویا است. برای توالی‌هایی که به اندازه کافی شبیه باشند، تفاوتی بین هم‌ترازی محلی و سراسری وجود ندارد.

روش‌های ترکیبی، که با عنوان روش‌های نیمه سراسری یا "سرامحلی" شناخته می‌شوند، تلاش می‌کنند تا بهترین هم‌ترازی ممکن که شامل ابتدا و انتهای یکی از توالی‌ها باشد را بیابند. این ایده می‌تواند به ویژه وقتی پایین دست یک توالی با بالا دست توالی دیگر هم‌پوشانی دارد، مفید باشد. در این حالت، نه هم‌تراز کردن سراسری و نه محلی کاملاً مناسب نیست: در حالی که هم‌تراز کردن محلی نمی‌تواند کاملاً منطقه هم‌پوشانی را بپوشاند، هم‌ترازی سراسری تلاش می‌کند تا بر هم‌تراز کردن فشار آورد تا در آنسوی منطقهٔ هم‌پوشانی گسترش یابد.

هم‌تراز کردن دوبدو

روش‌های هم‌تراز کردن دوبدو، برای پیدا کردن بهترین هم‌ترازی جور تکه‌ای محلی یا سراسری دو توالی مورد استفاده قرار می‌گیرد. هم‌تراز کردن دوبدو می‌تواند تنها بین دو توالی در یک زمان مورد استفاده قرار گیرد، اما از لحاظ محاسباتی کارآمد است و معمولاً برای روش‌هایی که نیاز به دقت بسیار زیادی ندارند (مانند جستجوی یک پایگاه داده برای یافتن توالی‌های با تشابه بالا با توالی مورد جستجو) مورد استفاده قرار می‌گیرد. سه روش اولیه برای تولید هم‌ترازی دوبدو؛ روش ماتریس–نقطه، برنامه‌ریزی پویا، و روش‌های کلمه‌ای است؛ البته تکنیک‌های هم‌تراز کردن چندین توالی می‌تواند توالی‌های دوبدو را نیز هم‌تراز کند. اگرچه هر روش، نقاط قوت و ضعف خود را دارد، هر سه روش هم‌تراز کردن دوبدو دارای مشکلاتی در توالی‌های تکرار شونده بالا با محتوای اطلاعاتی کم می‌باشند-مخصوصا جایی که تعداد تکرارها در دوتوالی‌ای که قرار است هم‌تراز شوند متفاوت باشند. یک روش برای تعیین سودمندی یک هم‌ترازی دوبدو داده شده "حداکثر جفت‌های یکتا"، یا بزرگترین زیر دنباله‌ای که در هر دو توالی اتفاق می افتد، می‌باشد. از توالی‌های با حداکثر جفت‌های یکتای بلندتر، نوعاً ارتباط نزدیک‌تری نتیجه می‌شود.

روش‌های ماتریس-نقطه

نمودار نقطه‌ای دی‌ان‌ای برای فاکتور نسخه برداری zinc finger انسان(شناسه ژن‌بانک: NM_002383)، که نشان دهندهٔ خود-همانندی ناحیه‌ای است. قطر اصلی، هم‌ترازی توالی با خودش را نشان می‌دهد؛ خطوط خارج از قطر اصلی، الگوهای تکراری یا همانند درون توالی را نشان می‌دهد.

رویکرد ماتریس–نقطه، که یک خانواده از هم‌ترازی‌ها برای مناطق هر توالی تولید می‌کند، از نظر مقداری و مفهومی ساده است، با این وجود برای آنالیز در یک مقیاس بزرگ، زمان بر است. در غیاب نویز، می‌توان به سادگی برخی از ویژگی‌های توالی را-مانند درج‌ها، حذف‌ها، تکرارها، یا تکرارهای معکوس شده- به صورت دیداری در یک نمودار ماتریس-نقطه‌ای تشخیص داد. برای ساخت یک طرح ماتریس-نقطه، دو توالی در امتداد بالاترین سطر و چپ‌ترین ستون از یک ماتریس دو بعدی نوشته می‌شود و سپس در هر مکانی که دو کاراکتر، سطر و ستون آن‌ها با یکدیگر منطبق بود، یک نقطه گذاشته می‌شود. بعضی از پیاده‌سازی‌های این روش، اندازه و شدت هر نقطه را بسته به درجه تشابه دو کاراکتر تغییر می‌دهند تا جانشینی‌های حفظ شده را معین کنند. در این روش، نمودار نقطه‌ای توالی‌های بسیار نزدیک به هم، به صورت یک خط در امتداد قطر اصلی ماتریس ظاهر می‌شود.

مشکلات نمودارهای نقطه‌ای، به عنوان یک تکنیک نمایش اطلاعات، شامل مواردی چون: نویز، کمبود وضوح، عدم درک مستقیم وشهودی، و دشواری استخراج خلاصه آماری جورشده‌ها و مکان‌های جور روی دو توالی است. همچنین فضای هدر رفته بیشتری در جاییکه اطلاعات جورها در طول قطر تکثیرشده‌اند و اکثر فضای نمودار خالی است یا توسط نویز اشغال شده‌است، وجود دارد؛ و نهایتاً، نمودارهای نقطه‌ای برای دو توالی محدود شده‌اند. هیچ‌کدام از این محدودیت‌ها در دیاگرام‌های هم‌ترازی Miropeats وجود ندارد اما آن‌ها نیز عیب‌های خاص خود را دارند.

نمودارهای نقطه‌ای همچنین می‌توانند برای تعیین تکرار شوندگی در یک توالی منفرد استفاده شوند. یک توالی می‌تواند با خودش هم‌تراز شود و نواحی که تشابهات مهمی را مشترک هستند به صورت خطوطی خارج از قطر اصلی ظاهر می‌شوند. این اثر می‌تواند هنگامی که پروتئینی دارای چند حوزهٔ مشابه است اتفاق بیفتد

سایر کاربردهای زیستی

در بازسازی توالی از هم‌ترازسازی توالی استفاده میشود تا همپوشانی مبان توالی‌های را پیدا کرده و به وسیله آن پیوستارها(خطوط ممتد طولانی و بدون شاخه در رشته) را پیدا کنیم. همچنین آران‌ای‌های توالی‌یابی شده مانند ام‌آران‌ای‌های نابالغ میتوانند با یک ژنوم توالی‌یابی شده هم‌تراز شوند تا مکان ژن‌ها را در آن‌ها پیدا کرده و اطلاعاتی را راجع به پیوند جایگزین[1] و ویرایش آران‌ای [2] به دست آوریم. [3] استفاده‌ی دیگر هم‌ترازسازی در تحلیل چندریختی تک-نوکلئوتید میباشد که به وسیله هم‌ترازسازی توالی نمونه‌های مختلف انجام میگیرد.[4]

کاربردهای غیرزیستی

روش‌های استفاده شده برای هم‌ترازسازی توالی همچنین در سایر عرصه‌ها استفاده پیدا کردند، که از مهمترین آنها میتوان به پردازش زبان‌های طبیعی و علوم انسانی اشاره کرد. [5] تکنیک‌هایی که مجموعه‌ای از لغات را برای ساخت نسخه‌های زبانی اثبات‌های ریاضی تولیدشده توسط کامپیوتر انتخاب میکنند، بسیاری از روش‌های استفاده شده در هم‌ترازسازی در بیوانفورماتیک را استفاده میکنند.[6] در زبان‌شناسی تاریخی و مقایسه‌ای هم‌ترازسازی در خودکار کردن بخشی از روش مقایسه‌ای که زبان‌شناسان به صورت سنتی جهت بازسازی زبان‌ها استفاده میکردند کاربرد دارد.[7] تحقیقاتی در اقتصاد و بازاریابی نیز از تکنیک‌های هم‌ترازسازی جهت تحلیل توالی خریدها در طول زمان استفاده کرده‌اند.[8]

نرم‌افزارها

لیست کامل نرم‌افزارهای هم‌ترازسازی دسته‌بندی شده بر اساس الگوریتم و نوع هم‌ترازسازی در نرم‌افزارهای هم‌ترازسازی توالی موجود میباشد، اما متداول‌ترین نرم‌افزارهایی که برای هم‌ترازسازی توالی استفاده میشوند ClustalW2[9] و T-coffee[10] میباشند و برای جستجوی پایگاه‌داده از BLAST[11] و FASTA3x[12] استفاده میشود. نرم‌افزارهای تجاری مانند DNASTAR Lasergene ،Geneious و PatternHunter نیز موجودند.

الگوریتم‌ها و نرم‌افزارهای هم‌ترازسازی را میتوان توسط مجموعه هم‌ترازسازی های محک که معروف به BAliBASE[13] هستند مستقیماً با یکدیگر مقایسه کرد. کارایی نسبی روش‌های متداول هم‌ترازسازی برروی مسائل پرتکرار محاسبه شده و در وبسایت BAliBASE منتشر شده است.[14][15] لیست کاملی از نمرات BAliBASE برای بسیاری از نرم‌افزارهای هم‌ترازسازی را میتوان توسط میزکار پروتئین STRAP محاسبه کرد.[16]

منابع

  1. Kim N; Lee C (2008). Bioinformatics detection of alternative splicing. Methods Mol. Biol. Methods in Molecular Biology™. 452. pp. 179–97. doi:10.1007/978-1-60327-159-2_9. ISBN 978-1-58829-707-5. PMID 18566765.
  2. Li JB, Levanon EY, Yoon JK, et al. (May 2009). "Genome-wide identification of human RNA editing sites by parallel DNA capturing and sequencing". Science. 324 (5931): 1210–3. Bibcode:2009Sci...324.1210L. doi:10.1126/science.1170995. PMID 19478186.
  3. Blazewicz J, Bryja M, Figlerowicz M, et al. (June 2009). "Whole genome assembly from 454 sequencing output via modified DNA graph concept". Comput Biol Chem. 33 (3): 224–30. doi:10.1016/j.compbiolchem.2009.04.005. PMID 19477687.
  4. Duran C; Appleby N; Vardy M; Imelfort M; Edwards D; Batley J (May 2009). "Single nucleotide polymorphism discovery in barley using autoSNPdb". Plant Biotechnol. J. 7 (4): 326–33. doi:10.1111/j.1467-7652.2009.00407.x. PMID 19386041.
  5. Abbott A.; Tsay A. (2000). "Sequence Analysis and Optimal Matching Methods in Sociology, Review and Prospect". Sociological Methods and Research. 29 (1): 3–33. doi:10.1177/0049124100029001001.
  6. Barzilay R; Lee L. (2002). "Bootstrapping Lexical Choice via Multiple-Sequence Alignment" (PDF). Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP). 10: 164–171. arXiv:cs/0205065. Bibcode:2002cs........5065B. doi:10.3115/1118693.1118715.
  7. Kondrak, Grzegorz (2002). "Algorithms for Language Reconstruction" (PDF). University of Toronto, Ontario. Archived from the original (PDF) on 17 December 2008. Retrieved 2007-01-21.
  8. Prinzie A.; D. Van den Poel (2006). "Incorporating sequential information into traditional classification models by using an element/position-sensitive SAM". Decision Support Systems. 42 (2): 508–526. doi:10.1016/j.dss.2005.02.004. See also Prinzie and Van den Poel's paper Prinzie, A; Vandenpoel, D (2007). "Predicting home-appliance acquisition sequences: Markov/Markov for Discrimination and survival analysis for modeling sequential information in NPTB models". Decision Support Systems. 44 (1): 28–45. doi:10.1016/j.dss.2007.02.008.
  9. EMBL-EBI. "ClustalW2 <Multiple Sequence Alignment <EMBL-EBI". www.EBI.ac.uk. Retrieved 12 June 2017.
  10. T-coffee
  11. "BLAST: Basic Local Alignment Search Tool". blast.ncbi.nlm.NIH.gov. Retrieved 12 June 2017.
  12. "UVA FASTA Server". fasta.bioch.Virginia.edu. Retrieved 12 June 2017.
  13. Thompson JD; Plewniak F; Poch O (1999). "BAliBASE: a benchmark alignment database for the evaluation of multiple alignment programs". Bioinformatics. 15 (1): 87–8. doi:10.1093/bioinformatics/15.1.87. PMID 10068696.
  14. BAliBASE
  15. Thompson JD; Plewniak F; Poch O. (1999). "A comprehensive comparison of multiple sequence alignment programs". Nucleic Acids Res. 27 (13): 2682–90. doi:10.1093/nar/27.13.2682. PMC 148477. PMID 10373585.
  16. "Multiple sequence alignment: Strap". 3d-alignment.eu. Retrieved 12 June 2017.

مشارکت‌کنندگان ویکی‌پدیا. «Sequence alignment». در دانشنامهٔ ویکی‌پدیای انگلیسی، بازبینی‌شده در ۲۶ ژوئن ۲۰۱۱.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.