يمكن للتعلم الآلي (ML) أن يعزز بشكل كبير جودة البيانات الصحية، مما يؤدي إلى تشخيصات أكثر دقة وعلاجات أكثر كفاءة. تطور دراسة جديدة من جامعة ريغا التقنية وتقيّم استراتيجيات قائمة على التعلم الآلي تركز على الأبعاد الأساسية: الدقة والاكتمال وإعادة الاستخدام. النتائج، المنشورة في مجلة "Frontiers in Artificial Intelligence"، تُظهر تحسينات كبيرة بناءً على مجموعة بيانات مرض السكري وتؤكد الإمكانات لأطر عمل قابلة للتكرار في الممارسة السريرية.
جودة البيانات الصحية أمر بالغ الأهمية للقرارات السريرية ونتائج المرضى، ولكن مشاكل مثل القيم المفقودة والشذوذ غالبًا ما تؤدي إلى تشخيصات خاطئة أو استخدام غير فعال للموارد. وفقًا لإرشادات ISO-9000، يجب أن تلبي جودة البيانات احتياجات المستخدمين، سواء للتحليلات السريرية أو نماذج التعلم الآلي. تعالج دراسة Agate Jarmakovica هذه التحديات من خلال نهج شامل يجمع بين الأساليب التقنية والاستراتيجيات التنظيمية.
تم استخدام مجموعة بيانات مرض السكري المتاحة للجمهور من GitHub للتحقيق، والتي تتضمن 768 مجموعة بيانات مع تسعة متغيرات - بما في ذلك العمر، ومؤشر كتلة الجسم (BMI)، ومستوى السكر في الدم، وضغط الدم، وسمك طية الجلد، والأنسولين في المصل، ووظيفة شجرة عائلة مرض السكري، ونتيجة ثنائية لحالة مرض السكري. تم إخفاء هوية مجموعة البيانات واستوفت المعايير الأخلاقية. بلغ الاكتمال الأولي 90.57 بالمائة، مع فجوات كبيرة في الأنسولين في المصل (48.70 بالمائة) وسمك طية الجلد (29.56 بالمائة).
شملت المنهجية سير عمل مفصل: أولاً، تم تحميل البيانات وتحليلها استكشافيًا باستخدام مكتبات Python مثل Pandas، مدعومة بتصورات باستخدام Matplotlib و Seaborn. تم التعامل مع القيم المفقودة عن طريق الاستكمال باستخدام K-Nearest Neighbors (KNN)، مع خمسة جيران كمعلمة للحفاظ على التوازن بين مقاومة الضوضاء والدقة. تم اكتشاف وتصحيح القيم الشاذة - حوالي 20.1 بالمائة من البيانات - باستخدام تقنيات التجميع مثل Isolation Forest (للعزل العالمي للقيم المتطرفة) و Local Outlier Factor (LOF، لمقارنات الكثافة المحلية). سمحت الصيغ لدرجات القيم الشاذة، بناءً على أطوال المسارات في الأشجار (Isolation Forest) والكثافة المحلية القابلة للوصول (LOF)، بتحديد دقيق.
بالإضافة إلى ذلك، تم تطبيع البيانات (StandardScaler) وإجراء تحليل المكونات الرئيسية (PCA)، الذي حدد نسبة السكر في الدم ومؤشر كتلة الجسم والعمر كمتنبئات رئيسية لمرض السكري. أظهرت تحليلات الارتباط علاقات قوية بين هذه المتغيرات. تم تنفيذ العملية في Google Colaboratory، باستخدام أدوات مثل MLflow و TensorBoard للمراقبة في الوقت الفعلي وإنشاء البيانات الوصفية، لضمان قابلية التكرار.
تم تدريب نماذج تنبؤية للتحقق: تقسيم مجموعة البيانات بنسبة 80/20، مع التحقق المتقاطع k-fold، اختبر نماذج Random Forest و LightGBM. تفوق Random Forest على LightGBM بدقة 75.3% وقيمة AUC بلغت 0.83 (مقارنة بـ 0.80 لـ LightGBM). أكدت منحنيات الدقة والاستدعاء (Precision-Recall) ومنحنيات ROC فعالية المعالجة المسبقة، مما زاد من قيم AUC مقارنة بالبيانات غير المعالجة.
توضح النتائج تقدمًا واضحًا: زادت الاكتمالية إلى ما يقرب من 100%، واستفادت الدقة من تقليل القيم الشاذة، وتحسنت قابلية إعادة الاستخدام من خلال التوثيق التفصيلي والتحكم في الإصدارات. تم تصور التحسينات باستخدام الخرائط الحرارية (Heatmaps) والمخططات الصندوقية (Boxplots) والمدرجات التكرارية (Histograms)، بينما أوضح إطار عمل مفاهيمي (الشكل 1) تكامل أساليب التعلم الآلي مع الأساليب التنظيمية.
يؤكد استعراض الأدبيات أن جودة البيانات تشمل جوانب متعددة الأبعاد مثل السلامة والاتساق والأخلاق، مع إضافة عناصر حديثة مثل التتبع والقابلية للحوكمة. تستند الأعمال السابقة، مثل تلك المتعلقة بالاستكمال (Imputation) (Thomas and Rajabi, 2021) أو اكتشاف القيم الشاذة (Liu et al., 2008)، إلى هذا الأساس. تسلط الدراسة الضوء على أن التعلم الآلي لا يوفر حلولًا تقنية فحسب، بل يخلق أيضًا أساسًا للذكاء الاصطناعي الموثوق به في الطب، حيث تكون البيانات عالية الجودة ضرورية لأنظمة التعلم العميق (Munappy et al., 2022).
يؤكد يارماكوفيتشا على الآثار العملية: "من خلال الجمع بين الاستكمال واكتشاف القيم الشاذة، يمكننا إنشاء أطر عمل قوية تساهم في تحسين النتائج السريرية والقدرات التنبؤية." يؤكد التحسين التكراري باستخدام البحث الشبكي (Grid Search) والتحسين البايزي (Bayesian Optimization) على قابلية توسيع النهج.
يرى الخبراء في مثل هذه الاستراتيجيات وسيلة لربط حركة العلم المفتوح بحماية البيانات وتعزيز الابتكار في أبحاث الرعاية الصحية. تدعو الدراسة إلى مزيد من البحث حول المراقبة في الوقت الفعلي والنهج متعددة التخصصات لضمان جودة البيانات في البيئات الديناميكية.
لمزيد من المعلومات: Frontiers in Artificial Intelligence، https://doi.org/10.3389/frai.2025.1621514.
