سال گذشته ، DeepMind Alphabet یک پایگاه داده منبع باز از ساختارهای سه بعدی صدها هزار پروتئین ، از جمله تمام ۲۰۰۰۰ پروتئین شناخته شده در بدن انسان منتشر کرد.
اکنون، این پایگاه داده ساختار پروتئین آلفا فولد به ۲۰۰ میلیون افزایش یافته است که تقریباً تمام پروتئینهای شناخته شده برای علم را شامل میشود.
پروتئینها مانند اسبهای کاری در سلولهای زنده هستند که تعداد بی شماری از فرآیندهای بیولوژیکی حیاتی برای زندگی را انجام میدهند.
آنها از زنجیرهای از اسیدهای آمینه تشکیل شدهاند که به شکلهای سهبعدی پیچیده تا میشوند، که عملکرد آنها را اعمال میکند. ترسیم ساختار پروتئینها برای درک اینکه چه کاری انجام میدهند، چگونه کار میکنند و چگونه ممکن است اشتباه پیش برود، مهم است، که برای تحقیق در مورد همه چیز از داروها و درمانهای جدید تا بهبود محصولات کشاورزی و حفاظت از حیوانات کلیدی است.
اما محاسبه ساختار دقیق یک پروتئین بر اساس اسیدهای آمینه تشکیل دهنده آن دشوار است. پی بردن به این موضوع معمولاً به مقدار زیادی قدرت محاسباتی و ساعات کار انسان نیاز دارد و این وضعیت به «مشکل تاخوردگی پروتئین» معروف شده است.
به این ترتیب، پیشرفت در طول دههها نسبتاً کند بوده است. یعنی تا زمانی که Alphabet هوش مصنوعی DeepMind قدرتمند خود را روی مشکل تنظیم کند. این سیستم که در ابتدا بر روی ۱۰۰۰۰۰ ساختار پروتئینی شناخته شده آموزش دیده بود، توانایی پیشبینی ساختار میلیونها پروتئین دیگر را توسعه داد، بهطوریکه برای تعیین هر یک از آنها فقط چند دقیقه یا ثانیه طول میکشید تا ماهها یا سالها.
در ژوئیه ۲۰۲۱ اولین پایگاه داده ساختار پروتئین آلفا فولد برای دانشمندان برای مطالعه در اختیار عموم قرار گرفت.
در ابتدا حاوی بیش از ۳۵۰۰۰۰ ساختار پروتئینی بود که حدود ۹۸.۵ درصد از پروتئینهای انسانی و همچنین پروتئینهای موجود در مگسهای میوه، موش، مخمر و E. coli را شامل میشد. بعدها به حدود یک میلیون ساختار پروتئینی از ۱۰۰۰۰ گونه جانور، گیاه، باکتری، قارچ و سایر موجودات گسترش یافت.
در یک سال پس از آن، بیش از ۵۰۰۰۰۰ دانشمند از سراسر جهان برای کمک به تحقیقات خود به پایگاه داده دسترسی پیدا کرده اند. در حال حاضر، DeepMind یک به روز رسانی عظیم جدید برای پایگاه داده منتشر کرده است که در حال حاضر شامل حدود ۲۱۴ میلیون ساختار از یک میلیون گونه است.
این تعداد، تقریباً تمام پروتئینهایی را که در حال حاضر برای علم شناخته شده است، پوشش میدهد و برای تحقیق در مورد درمان بیماریها، واکسنها، پایداری، مقاومت آنتیبیوتیکی و حتی آلودگیهای پلاستیکی مفید است.
اریک توپول، مدیر موسسه ترجمه تحقیقاتی اسکریپس، گفت: آلفا فولد اکتشافات عظیمی از جمله شکستن ساختار مجتمع منافذ هستهای را تسریع و فعال کرده است.
با افزودن این ساختارهای جدید که تقریباً کل جهان پروتئین را روشن میکند، میتوانیم انتظار داشته باشیم که اسرار بیولوژیکی بیشتری هر روزه حل شود.
کل پایگاه داده ساختارهای پروتئین، متشکل از بیش از ۲۵ ترابایت داده، را میتوان از مجموعه دادههای عمومی Google Cloud بارگیری کرد.
منبع: سایت نیواطلس