في دراسة جديدة نُشرت في مجلة Nature Communications، ابتكر فريق متعدد التخصصات من الباحثين بقيادة يونها هوانغ، مرشحة الدكتوراه في قسم بيولوجيا الكائنات والتطور (OEB) في جامعة هارفارد، نظام ذكاء اصطناعي (AI) قادر على فك شفرة اللغة المعقدة لعلم الجينوم.
لغة الجينوم هي شفرة مصدر علم الأحياء. تصف الوظائف البيولوجية والقواعد التنظيمية المشفرة في الجينومات. سأل الباحثون: هل يمكننا تطوير محرك ذكاء اصطناعي "لقراءة" لغة الجينوم وإتقانها، وفهم معنى الجينات أو وظائفها وتنظيماتها؟ قام الفريق بتغذية مجموعة بيانات الميتاداتا الجينومية الميكروبية، وهي أكبر وأكثر مجموعات بيانات الجينوم تنوعًا المتاحة، للآلة لإنشاء نموذج لغة الجينوم (gLM).
“في علم الأحياء، لدينا قاموس بالكلمات المعروفة ويعمل الباحثون ضمن هذه الكلمات المعروفة. المشكلة هي أن هذا الجزء من الكلمات المعروفة يشكل أقل من واحد بالمائة من التسلسلات البيولوجية،” قالت هوانغ، “كمية وتنوع بيانات الجينوم تتزايد بشكل هائل، لكن البشر غير قادرين على معالجة هذه الكمية الكبيرة من البيانات المعقدة.”
تتعلم نماذج اللغات الكبيرة (LLMs)، مثل GPT4، معاني الكلمات من خلال معالجة كميات هائلة من بيانات النصوص المتنوعة التي تمكنها من فهم العلاقات بين الكلمات. يتعلم نموذج لغة الجينوم (gLM) من بيانات الميتاداتا الجينومية المتنوعة للغاية، والمستمدة من الميكروبات التي تسكن بيئات مختلفة بما في ذلك المحيط والتربة والأمعاء البشرية. من خلال هذه البيانات، يتعلم gLM فهم "الدلالات" الوظيفية و"النحو" التنظيمي لكل جين من خلال تعلم العلاقة بين الجين وسياقه الجينومي. gLM، مثل LLMs، هو نموذج ذاتي الإشراف - وهذا يعني أنه يتعلم تمثيلات ذات معنى للجينات من البيانات وحدها ولا يتطلب تسميات مخصصة من قبل الإنسان.
لقد قام الباحثون بتسلسل بعض الكائنات الحية الأكثر دراسة مثل البشر، والإشريكية القولونية، وذباب الفاكهة. ومع ذلك، حتى بالنسبة للجينومات الأكثر دراسة، تظل غالبية الجينات غير موصوفة بشكل جيد. “لقد تعلمنا الكثير في هذه الحقبة الثورية من علم ‘الأوميكس’، بما في ذلك مقدار ما لا نعرفه،” قال المؤلف المشارك البروفيسور بيتر جيرجويس، وهو أيضًا في قسم بيولوجيا الكائنات والتطور (OEB) في هارفارد. “سألنا، كيف يمكننا استخلاص المعنى من شيء دون الاعتماد على قاموس مجازي؟ كيف نفهم بشكل أفضل محتوى وسياق الجينوم؟”
توضح الدراسة أن gLM يتعلم الوظائف الإنزيمية ووحدات الجينات المتعاونة في التنظيم (تسمى الأوبيرونات)، ويوفر سياقًا جينوميًا يمكنه التنبؤ بوظيفة الجين. يتعلم النموذج أيضًا المعلومات التصنيفية والاعتماديات السياقية لوظائف الجينات. بشكل لافت للنظر، لا يعرف gLM الإنزيم الذي يراه، ولا البكتيريا التي يأتي منها التسلسل. ومع ذلك، نظرًا لأنه رأى العديد من التسلسلات وفهم العلاقات التطورية بين التسلسلات أثناء التدريب، فإنه قادر على اشتقاق العلاقات الوظيفية والتطورية بين التسلسلات.
https://www.nature.com/articles/s41467-024-46947-9
