في أوائل عام 2018، توجه أحد الطلاب الباحثين في مجال الذكاء الاصطناعي، والذي كان يدرس في جامعة ميونخ التقنية، إلى مختبر الأحياء بالحرم الجامعي، حيثما يعمل هاينزينجر، وطرح عليه فكرة تبدو غريبة: هل يمكن للنماذج نفسها المستخدمة للتدقيق الإملائي والإكمال التلقائي وAlexa أن تتعلم لغة الحياة نفسها؟
انضم هاينزينجر، عالم الأحياء الحاسوبية، إلى المختبر في وقت سابق من ذلك العام، حيث كان يجري أبحاثه لدرجة الدكتوراه التي يدرسها. وكان مختبره مكرسًا لفهم سلاسل البروتين، والتي غالبًا ما توصف بأنها اللبنات الأساسية للحياة. ونظرًا لأنه متخصص في علم الأحياء، فلم يكن على دراية بالتطورات السريعة في معالجة اللغات الطبيعية، المعروفة اختصارًا بالمصطلح (NLP)، لذلك فقد طرح الفكرة على زملائه للنظر فيها. إلا أنهم قد اعتراهم الشك في جدوى ذلك.
ويتذكر قائلاً: “لا أخفيكم سرًا؛ فقد كان هذا المشروع شديد الخطورة بشكل غير مسبوق،”، موضحًا أنه عندما تتاح لك ثلاث أو أربع سنوات للحصول على درجة الدكتوراه، فمن الحكمة أن تركز خلال هذا الوقت على الاتجاه الواعد. “لقد بدأنا بافتراض أننا قد نتفوق على أحدث التقنيات التي طُوِّرَت على مدار 30 عامًا. وربما تفشل هذه الفكرة أيضًا بشكل رهيب، وحينئذٍ لن يكون بوسعك – بعد مرور ثلاث سنوات – إلا أن تقول لنفسك: ’نعم، لقد جربنا الفكرة، ولكنها لم تكن ذات جدوى.‘”
كانت هذه المعضلة بمثابة النواة الأساسية لنموذج ProtTrans، وهو أول نموذج تعليمي للذكاء الاصطناعي لدراسة عالم سلاسل البروتينات، واستخدام معالجة اللغات الطبيعية للكشف عن القواعد الأساسية في عالم البروتين. وقد أحدث هذا التطبيق غير المتوقع لتعلم الأحياء بالذكاء الاصطناعي ضجة واسعة في كلا المجالين، وأعقبته موجة من الابتكارات.
وكان أحمد النجار هو من أوحى إلى مايكل بالفكرة حينما توجه إليه في المختبر، فقد كان النجار باحثًا في مجال الذكاء الاصطناعي، مولعًا بالتطورات السريعة في معالجة اللغات الطبيعية وإمكانات التعلم ذاتية الإشراف المزودة بها. وقد كان يثق بحدسه الذي أخبره بجدوى الفكرة. لكنه كان فقط بحاجة إلى الشريك المناسب. طرأت بذهنه فكرة الاستعانة بمختبر “روستلاب” Rostlab، الذي يديره عالم الفيزياء النظرية ورائد المعلوماتية الحيوية الأستاذ الجامعي بوركهارد روست. وجد عرضه المرسل إلى روستلاب بالبريد الإلكتروني طريقه إلى هاينزينجر. وهمَّ الاثنان بعقد اجتماع.
يقول النجار: “أردد دومًا أنه من الأفضل أن تقرأ، وتقرأ، وتقرأ، وتستمع، وتستمع، وتستمع، ثم تتحدث‘،”. “فعندما بدأت في القراءة عن نماذج المحولات هذه وهذا النوع الجديد من المعالجة، رأيت الكثيرين الذين يعملون بالفعل في هذا المجال. دائمًا ما يروق لي السعي بحثًا عن فكرة جديدة؛ مجال جديد بِكر لم يكتشفه أحد من قبل.
ومع تطور معالجة اللغات الطبيعية (NLP) بدلاً من خوض نواحٍ جديدة، ركزت حالات الاستخدام جميعها على الاستخدام التقليدي للغة. هز النجار رأسه، وأوضح قائلاً:
“لقد راودتني هذه الفكرة عندما بدأت السير في الحرم الجامعي” وأنا أتذكر كيف كنت أحصي عدد “الرؤساء”، وهم أساتذة الأوساط الأكاديمية الألمانية بفرقهم الخاصة وميزانياتهم.
وقد شرع بالبحث والدراسة الوافية لكل أستاذ منهم، ومراجعة عملهم وتركيزهم على البحث سعيًا وراء إيجاد مجال مناسب مبتكر لم يسبقه إليه أحد حيثما يمكنه غرس فكرته. بدأ في صياغة قائمة قصيرة، وتضمنت تلك القائمة “روستلاب”. “لم يكن روستلاب هو المختبر الوحيد الذي فكرت فيه، ولكن بعد مناقشة هذه الأفكار مع مختبرات عدة، رأيت أنه يشكل حالة استخدام يمكننا تجربتها الآن.”
وخلال مناقشاتهما، تطورت الفكرة حيث استكشفا مجموعات البيانات المتاحة، وكيفية اختبار نموذج معالجة اللغات الطبيعية. ويتذكر قائلاً: “لم تكن لدينا فكرة البروتين هذه في البداية،”. “بل كانت لدينا فكرة أنه ربما يمكننا، يومًا ما، صنع نموذج يمكنه استخراج ميزات من تسلسل جيني واحد.”
كان النجار على دراية بالنماذج اللغوية، لكن لم تكن لديه أدنى فكرة عن امتلاك علماء المعلومات الحيوية مثل هذه الثروة من البيانات غير المنظمة. “ولولا هذه المناقشات مع مايكل، لما فكرت في هذا الاتجاه.”
فقد كان التوقيت مثاليًا. يقول هاينزينجر: “لقد كانت محض مصادفة مذهلة أنه تعثر في مكتبنا الزجاجي،”. “وفي هذا الوقت، كنا قد وصلنا إلى طريق مسدود عندما حاولنا التنبؤ بالتفاعلات بين البروتينات. وكنا نبحث عن سبل أخرى لتمثيل سلاسل البروتينات فعليًا باستخدام تسلسل بروتين واحد فقط”.
“ثم يقرع أحمد الباب ويقول، ’هناك خوارزميات معالجة اللغات الطبيعية هذه والتي تتفوق حاليًا على المعيار القياسي كل أسبوع من خلال إصدارات جديدة تُطْرَح أسبوعيًا. لديكم يا رفاق بيانات متسلسلة، فماذا عن تطبيق هذا على هذه الخوارزميات؟‘”
قرر هاينزينجر تولي زمام المبادرة.
ويستطرد قائلاً: “لقد استعنا بأكثر الطرق مباشرة التي يمكنك تخيلها،”. “وتعاملنا مع الحمض الأميني الواحد ككلمة، وتعاملنا مع السلسلة الواحدة كجملة. ومن ثم، فقد اقتربنا من النتيجة بالفعل، وباتت وشيكة للغاية أمامنا”.
تتكون البروتينات، شأنها شأن آليات الحياة، من سلاسل من الأحماض الأمينية. ويوجد 20 حمضًا أمينيًا إجمالاً، يمثل كل منها 20 حرفًا من الحروف الأبجدية. وهذه الحروف، عند تفسيرها بالتسلسل، تشبه الكلمات في الجملة وتخبرك ببنية البروتين.
وإن كان لا يزال لديه أي تحفظات، فقد تبددت وتلاشت في وقت مبكر. يقول: “لقد حصلنا على نتائج سريعة وواعدة للغاية،”. “وبعد ذلك واصلنا التدريب، حيث كنا نقوم بالاختبار والفحص كل أسبوع أو ما شابه، وشهدنا طفرة في الأداء أسبوعًا بعد أسبوع. كان الأمر أشبه بالسحر.”
بقراءة مجموعات البيانات من الملايين من سلاسل البروتينات، كان نموذج اللغة المدربة يبحث عن الميزات ويستخرجها، ويحدد الأنماط والتركيبات الشائعة، حيث تعلم تحليل “لغة” البروتين والتنبؤ بها.
يقول هاينزينجر إن النجاح المفاجئ منحهم الشجاعة. لقد تفوق النموذج في أدائه على تقنية word2Vec (تضمين الأشعة-الكلمات)، وهي طريقة قديمة لتحويل الكلمات إلى تمثيل رقمي. لكن نموذج اللغة واصل التحسن. ويتذكر هاينزينجر قائلاً: “على الرغم من أنه فاق التوقعات ووصل إلى الحد الأقصى، فقد تعين علينا حينئذٍ البحث عن خوارزميات أكثر تعقيدًا وتطورًا”.
ودُعِي النجار لإلقاء محاضرة عن التقدم المحرز في مؤتمر الحوسبة عالية الأداء. وأطلق على نموذجهما الأولي SeqVec (التسلسل-المتجهات)، وأوضح أنه اقترح حلاً واعدًا لتحدي كيفية التعامل بكفاءة مع العدد المتزايد بشكل كبير من السلاسل في قواعد بيانات البروتين.
وبعد أن انتهى من إلقاء كلمته، عرض ممثلون من شركات مثل Google وNVIDIA وجامعة كورنيل على الباحثين استخدام أنظمتهما لتوسيع نطاق عملها. ويقول النجار: “ثمة نصيحة أود أن أسديها إلى الباحثين لإعداد نموذج أولي وشبكة”.
بفضل الأفكار المستوحاة من مناهج معالجة اللغات الطبيعية التقليدية، بحث الاثنان في البداية عن مجموعات بيانات ضخمة بغض النظر عن جودتها. وقاما بتدريب نموذج التعلم على “قاعدة البيانات الضخمة “، المعروفة اختصارًا باسم BFD، وهي أكبر قاعدة بيانات متاحة تحتوي على 2.1 مليار سلسلة بروتينات. “إنها مجموعة مزعجة وتصيب بالإرباك. ثم وجدنا أن المشكلة هي أنها تعكس هذا الإزعاج والربكة في أثناء وقت التدريب. فكلما كانت مجموعة البيانات أكبر، فمن المؤكد أنها ستحتاج إلى وقت أطول في التدريب.”
وعلى الرغم من توفر المزيد من القوة الحاسوبية، وما تشمله من الوصول إلى حاسوب “Summit” العملاق الفائق الذي طورته شركة IBM، والذي كان ثاني أسرع كمبيوتر عملاق في العالم، فقد شهد معدل التحسن تراجعًا مرة أخرى. لقد أرادا التوصل إلى نتائج تتنافس مع تراصف السلسلة المتعدد (MSA)، وهي طريقة عالية الدقة لتمثيل تراصف ثلاثة أو أكثر من سلاسل البروتين.
يقول هاينزينجر: “لقد كنا متحمسين للغاية،”. “ومن الطبيعي أننا شعرنا بالإحباط، فقد كنا على وشك الوصول للنهاية بفارق درجة أو درجتين مئوية.”
ثم جاءت القفزة التالية عندما وجدا مجموعة أصغر حجمًا وأنظف من سلاسل البروتين تسمى Uniref في منشور شاركه فريق الذكاء الاصطناعي على صفحة Facebook. “هذا يعني أنه يمكنك تغطية عالم البروتين بطريقة أكثر اتساقًا من قاعدة البيانات الضخمة ، والتي كانت تحتوي على تحيز كبير تجاه العائلات الكبيرة.”
لقد برهنا على أن المحولات، التي حققت شهرة كبيرة في مهام معالجة اللغات الطبيعية، يمكن أن توفر أيضًا “دمجًا” للبروتينات، والتي تشفر السلاسل في حيز رياضي، وتجمع البروتينات المتشابهة في التركيب والوظيفة معًا بشكل أقرب من البروتينات غير المرتبطة. ويمكن للمحولات تحسين التوقعات التي ننتظرها من عالم البروتينات.
قدم نموذج ProtTrans، الذي يجمع بين الكلمتين “بروتين” و”محول”، أكثر من مجرد رؤى جديدة في علم الأحياء. كما كان له أثره الهائل على توسيع عالم الذكاء الاصطناعي من خلال إظهار مدى كون المحولات أفضل في نمذجة العلاقات في تسلسلات أطول بكثير من نماذج الذكاء الاصطناعي السابقة الأفضل أداءً، والتي كانت في الأساس شبكات عصبية متكررة.
تعد المحولات مناسبة تمامًا لاستغلال بنية الكمبيوتر العملاق الحديثة، حيث يمكن لمحول واحد أن يتدرب بشكل أسرع عن طريق الاستخدام المتزامن للعديد من وحدات المعالجة المركزية المتوازية، أو رقاقة الكمبيوتر الموجودة في أجهزة اللابتوب العادية، أو وحدات معالجة الرسومات، أو الأجهزة المفضلة لنماذج التعلم العميق، أو رقائق وحدات معالجة الموتر المخصصة من Google المعروفة اختصارًا بـ TPU.
فهذه المحولات تتسم أيضًا باحتياجها الدائم للتغذية بالبيانات، مما يجعلها الاختيار المثالي للتعلم على مجموعات البيانات الهائلة. وأخيرًا، يشير النجار إلى الأبحاث الحديثة التي تثبت أن المحولات ما هي إلا شبكات عصبية للرسومات، مما يعني أن المحول يكون مناسبًا تمامًا للتعلم الضمني للمعلومات المتعلقة ببنية البروتين من سلسلة الأحماض الأمينية.
ويواصل نموذج ProtTrans إرسال تموجات عبر عالم التكنولوجيا الحيوية. ويقول نيكولاس لوبيز كارانزا من InstaDeep: “إن العمل الذي قام به هذان الباحثان كان إنقاذًا للبشرية،”.
وينسب الفضل إلى النجار وهاينزينجر في التأثير على عمل فريقه في تطوير منصة تصميم بروتين مطور بالذكاء الاصطناعي، تسمى DeepChain.
“في فريق DeepChain، أدركنا بسرعة كبيرة قيمة نموذج ProtTrans،” كما يعقِّب عن ذلك مضيفًا أن قدرات أجهزة التنبؤ الخاصة بالتعلم الآلي للمنصة تتضمن قوى تحليل تسلسل البروتين المطبقة في نموذج ProtTrans.
ويوضح لوبيز كارانزا قائلاً: “لقد سمح لنا النموذج بتحليل المشهد التطوري للبروتينات من منظور جديد،” مشيرًا إلى ميزات مثل Playground في منصة DeepChain، والتي يمكن أن تساعد المستخدمين في تحليل تسلسل البروتين بشكل أفضل بطرق جديدة تمامًا ومختلفة بفضل نموذج ProtTrans. تمكِّن مثل هذه الأدوات الباحثين من تصميم علاجات ولقاحات وأدوية جديدة محتملة لقطاع عريض من الأمراض.
وبالنسبة للباحثين الذين يفتقرون إلى إمكانية الوصول إلى كمبيوتر عملاق مثل Summit أو الآلاف من وحدات معالجة الرسومات، فقد أسهمت InstaDeep في توفير محولات حيوية مفتوحة المصدر، ومئات الملايين من تضمينات البروتينات المحسوبة مسبقًا للمساعدة في إضفاء الطابع الديمقراطي على نتائج تقدم نموذج ProtTrans. ويتمثل الهدف من ذلك في مساعدة الباحثين على حل مشكلات البروتين التي تواجههم كجزء من مبادرة تطبيقات DeepChain مفتوحة المصدر (انظر الصفحة 9).
ولا يزال هاينزينجر يتابع دراسته لنيل الدكتوراه، ويشارك الآن في تأليف العديد من الأوراق البحثية الحديثة، ويعكس رؤيته لكل ما توصلا إليه قائلاً:
“لا تنسوا أنني قلت في السابق إننا نفترض احتمالية تفوقنا على أحدث التقنيات المتطورة باستخدام سلسلة بروتين واحدة فقط. أليس كذلك؟” “لكنني الآن أتبين مدى خطئي آنذاك”.
ويستطرد قائلاً: “بالمقارنة مع الرأي السابق، فإن الحقيقة أن الأمر لم يعد بهذه الصعوبة بعد الآن”. “فالأمر الذي شكل صعوبة بالفعل وقتها هو إدراك هذه الفكرة أولاً والإيمان بأنها تستحق المحاولة حقًا.”