بیوانفورماتیک

زیست‌داده‌ورزی[1]یا بیوانفورماتیک دانش استفاده از علوم رایانه و آمار و احتمالات در شاخه زیست‌شناسی مولکولی است. در چند دههٔ اخیر، پیشرفت در زیست‌شناسی مولکولی و تجهیزات مورد نیاز تحقیق در این زمینه باعث افزایش سریع تعیین توالی ژنوم بسیاری از گونه‌های موجودات شد، تا جایی که پروژه‌های تعیین توالی ژنوم‌ها از پروژه‌های بسیار رایج به حسب می‌آیند. امروزه توالی ژنوم بسیاری از موجودات ساده مانند باکتری‌ها تا موجودات بسیار پیشرفته چون یوکاریوت‌های پیچیده شناسایی شده‌است. پروژهٔ شناسایی ژنوم انسان در سال ۱۹۹۰ آغاز شد و در سال ۲۰۰۳ پایان یافت و اکنون اطلاعات کامل مربوط به توالی هر ۲۳ کروموزوم انسان موجود است.

طرح کروموزوم اکس

بیوانفورماتیک یک دانش بین رشته‌ای است که شامل روش‌ها و نرم‌افزارهایی برای فهم اطلاعات زیستی است. بیوانفورماتیک به عنوان یک دانش بین رشته‌ای، به منظور تجزیه و تحلیل و تفسیر اطلاعات زیست‌شناسی، از ترکیب علوم رایانه، آمار، ریاضی و مهندسی استفاده می‌کند. به عبارتی دیگر از بیوانفورماتیک برای تجزیه و تحلیل درون رایانه‌ایِ مسائل زیست‌شناسی با استفاده از تکنیک‌های ریاضی و آمار استفاده می‌شود.

بیوانفورماتیک از برنامه‌ریزی‌های رایانه‌ای برای تجزیه و تحلیل اختصاصی ژنومیک استفاده می‌کند. از دیگر کاربردهای متداول بیوانفورماتیک، شناسایی چند شکلی‌های تک نوکلئوتیدی (SNPs) و ژن‌های کاندید است. چنین شناسایی‌هایی اغلب، با هدف فهم بهتر پایه ژنتیکی بیماری‌ها، تطابق و ایجاد خواص مطلوب (خصوصاً در گونه‌های کشاورزی) یا شناخت تفاوت‌های میان جمعیت‌ها انجام می‌شود. بیوانفورماتیک همچنین به دنبال فهم بیشتری از اصول ساختاری نوکلئیک اسیدها و توالی پروتئین‌ها در غالب علم پروتومیک می‌باشد.

در زیست‌شناسی مولکولی تجربی، تکنیک‌های بیوانفورماتیک مانند پردازش سیگنال و تصویرسازی سه بعدی منجر می‌شود مقادیر بالایی از اطلاعات خام بدست بیاید. تفسیر این اطلاعات نتایج جالبی را به ما ارائه می‌کند. برای مثال در زمینه ژنتیک و ژنومیک، بیوانفورماتیک با طراحی پرایمر به تعیین توالی، تفسیر اطلاعات ژنومی و جهش‌های مشاهده شده در انسان کمک می‌کند.که این اطلاعات به تشخیص بیماری ها یا مداوای آنها کمک می کند.

بیوانفورماتیک همچنین نقش مهمی در تجزیه و تحلیل تنظیم و بیان ژن و پروتئین ایفا می‌کند. در حالت کلی بیوانفورماتیک به مقایسه ژنتیک و اطلاعات ژنومیک و به دنبال آن به فهم چگونگی تکامل زیست مولکولی کمک می‌کند. بیوانفورماتیک همچنین در شبیه‌سازی و مدلسازی رنا, دنا[2][3]و پروتئین‌ها[4] و تعاملات زیست مولکولی کمک‌کننده است.[5][6][7]

گسترش روزافزون حجم عظیم داده‌های ژنومی و نیاز به ذخیره، بازیابی و تحلیل مناسب این داده‌ها، موجب پیدایش علم بیوانفورماتیک گردید. این دانش نوظهور، به عنوان یک دانش بین رشته‌ای، تلاش می‌کند تا با استفاده از تکنیک‌های موجود در علوم رایانه، ریاضیات، ژنتیک، شیمی، فیزیک و علوم مرتبط دیگر، مسایل مختلف زیست‌شناختی را که معمولاً در سطح مولکولی هستند حل کند. تلاش‌های پژوهشی اصلی در این رشته عبارتند از: تطابق توالی، کشف ژن، گردآوری ژنوم، تنظیم ساختار پروتئینی، پیش‌بینی ساختارهای دوم و سوم پروتئین، پیش‌بینی بیان ژن و تعاملات پروتئین- پروتئین و مدلسازی تکامل.

واژه‌های بیوانفورماتیک و زیست‌شناسی محاسباتی اغلب به‌جای یکدیگر به‌کار می‌روند. به‌هرحال بیوانفورماتیک، به‌گونه مناسب‌تری به ایجاد و توسعه الگوریتمها، تکنیک‌های محاسباتی و آماری و تئوری اشاره می‌کند که برای حل مسایلی رسمی و عملی به‌کار می‌روند که توسط مدیریت و تحلیل داده‌های زیست‌شناختی مطرح شده یا از آن الهام می‌گیرند. از طرف دیگر زیست‌شناسی محاسباتی به تحقیق مبتنی بر فرضیه در مورد یک مسئله خاص زیست‌شناسی با استفاده از پردازش رایانه می‌پردازد که با داده‌های عملی و شبیه‌سازی شده انجام می‌شود و با هدف اصلی کشف و توسعه دانش زیست‌شناختی همراه است. تحقیق در زیست‌شناسی محاسباتی، با زیست‌شناسی سیستم‌ها هم‌پوشانی‌هایی دارد.

تمایز مشابهی توسط مؤسسه ملی سلامت آمریکا در کار بر روی تعریف بیوانفورماتیک و زیست‌شناسی محاسباتی انجام شده‌است که در آن تأکید بیشتر بر این است که پیوند محکمی از پیشرفت‌ها و دانش میان تحقیقات بیشتر مبتنی بر فرضیه زیست‌شناسی محاسباتی و پژوهش مبتنی بر تکنیک بیوانفورماتیک وجود دارد. همچنین زیست‌شناسی محاسباتی شامل دو زیرشاخه کمتر شناخته شده ولی به یک اندازه مهم است: بیوشیمی محاسباتی و بیوفیزیک محاسباتی.

یک خط مشترک در بیوانفورماتیک و زیست‌شناسی محاسباتی، استفاده از ابزارهای ریاضی و آماری برای استخراج اطلاعات مفید از داده‌های تولیدشده توسط تکنیک‌های زیست‌شناختی با برون‌ده بالا نظیر توالی ژنوم است. یک مسئله نمونه در بیوانفورماتیک، گردآوری توالی ژنوم با کیفیت بالا از یک توالی DNA تکه‌تکه شده تفنگ ساچمه‌ای(Shotgun sequencing) است. دیگر مسایل معمول عبارتند از مطالعه قواعد ژن با استفاده از داده‌هایی از ریزآرایه‌ها (Microarray) یا طیف‌سنجی جرمی (Mass Spectophotometry).داده های ریزآرایه در queryها ذخیره می شودو با مراجعه به کتابخانه ها می توان به آنها دسترسی پیدا کرد.

تاریخچه

از لحاظ تاریخی، اصطلاح بیوانفورماتیک به معنای امروزی آن نیست. پائولین هوگوگ و بن هسپر بیوانفورماتیک را در سال ۱۹۷۰ برای اشاره به مطالعه در زمینه پردازش اطلاعات و سیستم‌های زنده اختراع کردند[8][9][10]). این تعریف از بیوانفورماتیک این علم را به عنوان یک حوزه در موازات با بیوفیزیک (مطالعه فرایندهای فیزیک در سیستم‌های زیستی) یا بیوشیمی (مطالعه فرایندهای شیمی در سیستم‌های زیستی) قرار می‌دهد.[8]

پس از اینکه توالی انسولین در اوایل ۱۹۵۰ توسط فریدریک سانگر مشخص شد، وجود رایانه‌ها در زیست مولکولی ضرورت پیدا کرد. چرا که مقایسهٔ توالی‌های متعدد به صورت دستی طاقت فرسا بود. در این زمینه مارگارت دایهوف پیشگام شد[11] و نخستین پایگاه داده توالی پروتئینی را گردآوری و به عنوان کتاب[12] و روش‌های پیشگام در هم ترازی (alignment) توالی و ارزیابی مولکولی منتشر کرد.[13] از جمله افراد دیگر در حوزه شکل‌گیری بیوانفورماتیک الوین کابات بود که در تجزیه و تحلیل توالی زیستی در سال ۱۹۷۰ پیشقدم شد.[14]

اهداف

به منظور درک بهتر از چگونگی تغییر فعالیت‌های سلولی نرمال در بیماری‌های مختلف، باید اطلاعات زیستی ترکیب شوند تا تصویری جامع از این فعالیت‌ها شکل بگیرد. از اینرو بیوانفورماتیک در زمینه تجزیه و تحلیل و تفسیر انواع مختلفی از داده‌ها به کمک ما می‌آید. این داده‌ها شامل توالی نوکلئوتیدها و اسیدهای آمینه، دومین‌ها و ساختارهای پروتئینی است.[15] فرایند تجزیه و تحلیل و تفسیر اطلاعات شامل: - توسعه و پیاده‌سازی برنامه‌های رایانه‌ای به منظور دسترسی کارآمد، استفاده و مدیریت از انواع مختلفی از اطلاعات - توسعهٔ الگوریتم‌های جدید (فرمول‌های ریاضی) و مقیاس‌های آماری به منظور ارزیابی ارتباطات میان اعضای مجموع داده‌های حجیم

به عنوان مثال می‌توان در شرایط رایانه‌ای، یک ژن را در داخل یک توالی خاص قرار داد و ساختار یا عملکرد پروتئین آن را پیش‌بینی کرد. هدف اولیه بیوانفورماتیک افزایش سطح فهم و درک از فرایندهای زیستی است و تمرکز آن در توسعه و کاربرد تکنیک‌های محاسباتی جامع به منظور کسب این هدف است برای مثال می‌توان به تشخیص الگو، داده کاوی، الگوریتم‌های یادگیری و تصویرسازی اشاره کرد. تلاش‌های تحقیقاتی گسترده‌ای در این زمینه (شامل هم ترازی توالی، ژن یابی، گردآوری ژنوم، طراحی و کشف دارو، پیش‌بینی ساختار پروتئین، پیش‌بینی بیان ژن، برهم کنش پروتئین-پروتئین، مطالعات مربوط به ژنوم، مدلسازی تکامل و تقسیم سلولی) در حال انجام است.

در چند دهه گذشته، پیشرفت سریع در علم ژنومیک و دیگر تکنیک‌های تحقیقات مولکولی با تکنیک‌های تجمیع اطلاعات (به منظور تولید مقادیر بسیار بالای از اطلاعات مرتبط با زیست مولکولی)، ترکیب شده‌اند.

فعالیت‌های متداول در بیوانفورماتیک شامل نقشه‌کشی و آنالیز توالی‌های DNA و پروتئین، هم ترازی توالی‌های DNA و پروتئین به منظور مقایسه آن‌ها و ایجاد مدل‌های سه بعدی از ساختارهای پروتئین است.

کاربردهای بیوانفورماتیک

-تجزیه و تحلیل توالی ها: از زمان توالی یابی فاژ Φ-X174در سال ۱۹۷۷[16] توالی DNA هزاران موجود تعیین و در پایگاه‌های داده ذخیره شد. این اطلاعات توالی به منظور تعیین ژن‌های کدکننده پروتئین، RNA، توالیهای تنظیمی، موتیف‌های ساختاری و توالی‌های تکرای تجزیه و تحلیل می‌شوند.

مقایسه ژنها درون و میان گونه‌ها می‌تواند شباهت میان عملکرد پروتئین‌ها یا ارتباطات میان گونه‌ها (درخت فیلوژنیک) را نشان دهد. امروزه برنامه‌های رایانه‌ای مانند BLAST به صورت روزمره برای جستجوی توالی بیشتر از ۲۶۰۰۰۰ موجود زنده شامل بیشتر از ۱۹۰ میلیارد نوکلئوتید استفاده می‌شود.[17] آنالیز توالی در بیوانفورماتیک برای توالی یابی، گردآوری ژنوم، تفسیر ژنوم و موارد دیگر به کار می‌رود. -تجزیه و تحلیل ساختار سلولی: روش‌های متعددی برای تجزیه و تحلیل موقعیت اندامک‌ها، پروتئین‌ها و دیگر اجزا داخل سلولی ایجاد شده‌اند. این روش‌ها به ما کمک می‌کند تا بتوانیم رفتارهای سیستم‌های زیستی را به درستی پیش‌بینی کنیم.

-بیوانفورماتیک ساختاری: پیش‌بینی ساختار پروتئین یکی دیگر از کاربردهای بیوانفورماتیک است. توالی اسیدآمینه‌ای پروتئین که ساختار اولیه نامیده می‌شود می‌تواند به راحتی توسط توالی ژن رمزکننده اش تعیین شود. شناخت ساختار اولیه در فهم عملکرد پروتئین حیاتی است. بیوانفورماتیک می-تواند ساختار یک پروتئین را از طریق بررسی شباهت بین ژن رمزکنندهٔ پروتئین و ژنی که عملکرد آن مشخص شده‌است پیش‌بینی کند.[18]

از مهمترین کارها در بیوانفورماتیک تجزیه و تحلیل اطلاعات توالی است. زیست‌شناسی محاسباتی نامی است که به این فرایند داده شده‌است و شامل موارد زیر است:

  • پیدا کردن ژن‌ها در توالی‌های دی ان ای
  • توسعهٔ روش‌های پیش‌بینی ساختار یا وظایف پروتئینهای تازه کشف شده و توالی‌های ساختاری RNA
  • صف بندی پروتئین‌های مشابه و ایجاد درخت‌های نژادشناسی برای بررسی روابط تکاملی.

دو فعالیت برجسته در بیوانفورماتیک، پروتئومیک و ژنومیک هستند. از شاخه‌های دیگر علوم زیستی همچون متابولیک و ترانسکریپتومیک نیز استفاده می‌شود. لازم است ذکر شود سه بانک DDBJ در ژاپن و EBI در اروپا و NCBI در آمریکا روزانه تمام اطلاعات ژنتیکی که به هر کدام از این سه بانک ارسال می‌شود را در بین هم به اشتراک می‌گذراند. این سه بانک به علت ارائه ابزارهای جانبی می‌توانند کاربردهای متفاوتی داشته باشند. سایت پیش تاز در بین این سه سایت در ارائه نرم‌افزارها و بانک‌های کاربردی NCBI می‌باشد.

زمینه‌های مهم بیوانفورماتیک

۱. تحلیل توالی‌های ژنوم

در این زمینه بررسی می‌شود که آیا یک توالی به دست آمده برای یک DNA در برگیرندهٔ یک ژن هست یا خیر. اگر وجود دارد در کجای زنجیرهٔ DNA قرار دارد و آنزیمی که کد می‌کند چه نقشی در سلول یا فرایندهای حیاتی ایفا می‌کند.

۲. پیش‌بینی ساختار سه بعدی پروتئین

کاربرد مولکول‌های بزرگ پروتئین بستگی زیادی به شکل فضایی و ساختار سه بعدی آن‌ها دارد. ژن‌ها با عملکرد پروتئین‌هایی که می‌سازند نقش خود را اعمال می‌کنند؛ بنابراین لازمهٔ شناخت کامل ژن‌ها، شناخت کامل پروتئین‌ها است.
پیشرفت پروژه‌های پروتیوم به دلایل زیر کند است:
  • هزینهٔ زیاد
  • کندی روند تعیین توالی پروتئین‌ها
  • مشکل بودن تعیین ساختار سه بعدی پروتئین‌ها در آزمایشگاه

دو اصل مهم برای تعیین ساختار سه بعدی پروتئین از روی توالی آن وجود دارد که هر کدام روش جداگانه‌ای ارائه می‌دهند:

  • پروتئین‌ها با توالی نسبتاً مشابه، شکل فضایی شبیه به هم پیدا می‌کنند. (جستجو برای یافتن توالی‌های مشابه)
  • شکل فضایی مولکول به گونه‌ای است که به حداقل سطح انرژی برسد (استفاده از قوانین شیمی، فیزیک و ترمودینامیک)

۳. تحلیل کارکردی در سطح ژنوم

با به‌کارگیری روش‌های آماری پیشرفته و کلاستربندی، مسائلی چون بررسی هم‌زمان میزان فعالیت هزاران ژن در سلول، تحلیل نحوه تعامل تعداد زیادی پروتئین و تحلیل خصوصیات هزاران سلول جهش یافته در آن واحد حل شده‌اند. دانش مربوط به این بخش ژنوم‌شناسی کارکردی نام دارد و از دستاوردهای مهم در این زمینه می‌توان پیش‌بینی نقش و کارکرد ژن‌ها در سلول بدون نیاز به آنالیز داده‌های پروتئینی را نام برد.

۴. ایجاد و مدیریت پایگاه‌های داده‌ای

داده‌های تولید شده در زیست‌شناسی مولکولی باید از طریق پایگاه در اختیار پژوهشگران قرار گیرد. نحوهٔ حصول اطمینان از صحت داده‌ها و چگونگی نمایش مفید داده‌ها از دغدغه‌های اداره کنندگان پایگاه‌های بزرگ بیوانفورماتیکی هستند.

۵. مدل‌سازی ریاضی و فرایندهای حیات

یکی از اهداف مهم بیوانفورماتیک درک کامل سازوکار ارگانیسم‌های زنده در سطح مولکولی است. برای تحقق این هدف، تلاش می‌کنند فرایندهای خاص سلولی را شبیه‌سازی کرده و با یک پارچه‌سازی آن‌ها به یک سلول کامل برسند.
توالی ژن‌ها و پروتئین‌های مختلف ممکن است پهلو به پهلو برای اندازه‌گیری شباهت‌هایشان هم تراز شوند. این ترازبندی توالی پروتئین حاوی دومین‌های WPP را مقایسه می‌کند.

موضوعات سیستم نرم‌افزاری بیوانفورماتیک

  1. ماهیت اطلاعات و داده‌های زیستی
  2. ذخیره‌سازی اطلاعات، تجزیه و تحلیل و بازیابی
  3. محاسبه، مدل‌سازی و شبیه‌سازی
  4. بیولوژی با معنی اطلاعات و یکپارچگی آنها
  5. کندوکاو در داده‌ها
  6. مجسم کردن پردازش و تجسم فکری آن
  7. خاتمهٔ این چرخه

مراکز و ابزار

جستارهای وابسته

پیوند به بیرون

منابع

  1. زیست‌داده‌ورزی از واژه‌های مصوب فرهنگستان زبان و ادب فارسی به جای bioinformatics در انگلیسی و در حوزهٔ ژن‌شناسی است. «فرهنگ واژه‌های مصوب فرهنگستان ـ دفتر هشتم، بخش لاتین». فرهنگستان زبان و ادب فارسی. ص. ۱۲. بایگانی‌شده از اصلی در ۲۶ دسامبر ۲۰۱۱. دریافت‌شده در ۱۱ فروردین ۱۳۹۱.
  2. 1. Sim, Adelene YL; Minary, Peter; Levitt, Michael (2012-06-01). "Modeling nucleic acids". Current Opinion in Structural Biology. Nucleic acids/Sequences and topology. 22 (3): 273–278. doi:10.1016/j.sbi.2012.03.012. PMC 4028509. PMID 22538125.
  3. Dawson, Wayne K. ; Maciejczyk, Maciej; Jankowska, Elzbieta J. ; Bujnicki, Janusz M. (2016-07-01). "Coarse-grained modeling of RNA 3D structure". Methods. Advances in RNA Structure Determination. 103: 138–156. doi:10.1016/j.ymeth.2016.04.026.
  4. 3. Kmiecik, Sebastian; Gront, Dominik; Kolinski, Michal; Wieteska, Lukasz; Dawid, Aleksandra Elzbieta; Kolinski, Andrzej (2016-06-22). "Coarse-Grained Protein Models and Their Applications". Chemical Reviews. 116: 7898–936. doi:10.1021/acs.chemrev.6b00163. ISSN 0009-2665. PMID 27333362.
  5. 6. Spiga, Enrico; Degiacomi, Matteo Thomas; Dal Peraro, Matteo (2014-01-01). Karabencheva-Christova, Tatyana, ed. Chapter Three - New Strategies for Integrative Dynamic Modeling of Macromolecular Assembly. Biomolecular Modelling and Simulations. 96. Academic Press. pp. 77–111. doi:10.1016/bs.apcsb.2014.06.008
  6. 5. Jump up^ Joyce, Adam P. ; Zhang, Chi; Bradley, Philip; Havranek, James J. (2015-01-01). "Structure-based modeling of protein: DNA specificity". Briefings in Functional Genomics. 14 (1): 39–49. doi:10.1093/bfgp/elu044. ISSN 2041-2649. PMC 4366589. PMID 25414269.
  7. 4. Wong, KC (2016). Computational Biology and Bioinformatics: Gene Regulation. CRC Press (Taylor & Francis Group). ISBN 978-1-4987-2497-5.
  8. 7. Hogeweg P (2011). Searls, David B. , ed. "The Roots of Bioinformatics in Theoretical Biology". PLoS Computational Biology. 7 (3): e1002021. Bibcode:2011PLSCB...7E0020H. doi:10.1371/journal.pcbi.1002021. PMC 3068925. PMID 21483479.
  9. 8. Hesper B, Hogeweg P (1970). "Bioinformatica: een werkconcept". 1 (6). Kameleon: 28–29.
  10. 9. Hogeweg P (1978). "Simulating the growth of cellular forms". Simulation. 31 (3): 90–96. doi:10.1177/003754977803100305
  11. 10. Moody, Glyn (2004). Digital Code of Life: How Bioinformatics is Revolutionizing Science, Medicine, and Business. ISBN 978-0-471-32788-2.
  12. Dayhoff, M.O. (1966) Atlas of protein sequence and structure. National Biomedical Research Foundation, 215 pp.
  13. Eck RV, Dayhoff MO (1966). "Evolution of the structure of ferredoxin based on living relics of primitive amino Acid sequences". Science. 152 (3720): 363–6. Bibcode:1966Sci...152..363E. doi:10.1126/science.152.3720.363. PMID 17775169.
  14. 13. Johnson G, Wu TT (January 2000). "Kabat Database and its applications: 30 years after the first variability plot". Nucleic Acids Res. 28 (1): 214–218. doi:10.1093/nar/28.1.214. PMC 102431. PMID 10592229
  15. "Concepts, Historical Milestones and the Central Place of Bioinformatics in Modern Biology: A European Perspective". Bioinformatics – Trends and Methodologies. InTech. Retrieved 8 Jan 2012.
  16. Sanger F, Air GM, Barrell BG, Brown NL, Coulson AR, Fiddes CA, Hutchison CA, Slocombe PM, Smith M (February 1977). "Nucleotide sequence of bacteriophage phi X174 DNA". Nature. 265 (5596): 687–95. Bibcode:1977Natur.265..687S. doi:10.1038/265687a0. PMID 870828.
  17. 16. Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Wheeler DL (January 2008). "GenBank". Nucleic Acids Res. 36 (Database issue): D25–30. doi:10.1093/nar/gkm929. PMC 2238942. PMID 18073190
  18. 17. Hoy, JA; Robinson, H; Trent JT, 3rd; Kakar, S; Smagghe, BJ; Hargrove, MS (3 August 2007). "Plant hemoglobins: a molecular fossil record for the evolution of oxygen transport.". Journal of Molecular Biology. 371 (1): 168–79. doi:10.1016/j.jmb.2007.05.029. PMID 17560601.

Baldi P. and Brunak S. (2001), Bioinformatics: The Machine Learning Approach, 2nd edition. MIT Press.

Barnes, M.R. and Gray I.C. (2003), Bioinformatics for Geneticists, first edition. Wiley.

Baxevanis, A.D. and Ouellette, B.F.F. , eds. , Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, third edition. Wiley, 2005.

Claverie, J.M. and C. Notredame (2003), Bioinformatics for Dummies. Wiley.

Durbin, R. , S. Eddy, A. Krogh and G. Mitchison (1998), Biological sequence analysis.

Cambridge University Press.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.