- للوهلة الأولى، تبدو متاهة الحروف المتناثرة في اختبار الباحث "جوناثان روبرتس" أشبه بطلاسم شيطانية صاغها عقلٌ سادي النزعة. - فالمطلوب ليس مجرد فك شفرة كلمات خفية، بل تحديد سؤال مرسوم على هيئة نجمة وسط هذه الفوضى، ثم الإجابة عنه. - هذا ليس لغزًا لتمضية الوقت، بل هو محك حقيقي صُمم خصيصًا ليضع عمالقة الذكاء الاصطناعي، مثل نموذج "أو3- برو" (o3-pro)، في مواجهة تليق بقدراتهم الخارقة. - في خضم التسارع المذهل لعالم الذكاء الاصطناعي، لم تعد المشكلة في ندرة الاختبارات، بل في قدرتها على مواكبة هذا التطور. - فبينما تتسابق الشركات لإطلاق نماذج أذكى وأقوى، يخوض الباحثون سباقًا موازيًا لابتكار مقاييس قادرة على قياس هذا الذكاء بدقة وإنصاف. - وهنا تبرز المعضلة الجوهرية: كيف تضع اختبارًا لعقلٍ يتطور بشكل أسرع من قدرتك على ابتكار الاختبار نفسه؟ مقاييس الأمس.. لماذا لم تعد فعّالة؟ لم تعد معايير التقييم التقليدية قادرة على الصمود، وقد انهارت فعّاليتها لثلاثة أسباب جوهرية: للاطلاع على المزيد من المواضيع والتقارير في صفحة مختارات أرقام 1- العيوب المنهجية: جُمع الكثير من الاختبارات القديمة على عجل، فجاءت مليئة بالصياغات الركيكة وأنظمة التصحيح المجحفة. ولعل المثال الأبرز هو اختبار "ImageNet" الشهير للصور، الذي يعاقب النموذج إذا وصف صورة مرآة تعكس موزة بأنها "مرآة"، ويكافئه إذا تجاهل المرآة وحدد "الموز" المنعكس فيها، في مفارقة تكشف سطحية التقييم. 2- تلوث البيانات والغش المبرمج: تسربت أسئلة وأجوبة الاختبارات الشائعة إلى محيطات البيانات الهائلة التي تلتهمها النماذج الجديدة. والنتيجة؟ أنظمة ذكاء اصطناعي "تحفظ" الإجابات عن ظهر قلب بدلاً من "فهم" الأسئلة، مما يحول أداءها المذهل في الامتحانات إلى مجرد وهم لا يعكس قدرتها الحقيقية على حل مشكلات العالم الواقعي. 3- التشبع والسهولة المفرطة: وصلت النماذج "الحدودية" اليوم إلى مستوى من التطور جعلها تحقق علامات شبه كاملة في الاختبارات القديمة، مما أفقدها قيمتها كأداة للقياس. فعندما يحقق نموذج متطور درجة 99% في اختبار حقق فيه سلفه قبل تسعة أشهر 98.9%، فإن هذا الهامش الضئيل لا يخبرنا شيئًا يُذكر عن القفزة النوعية الهائلة التي حدثت بالفعل. جيل جديد من الألغاز المستحيلة.. أسوار في وجه العقل الآلي لمواجهة هذه التحديات، برز جيل جديد من الاختبارات المصممة لتكون "عصية" على الآلة، ومن أبرزها: - زيرو بينش: وهو التحدي الذي أطلقه روبرتس وفريقه، والمصمم بمعادلة عبقرية: اختبار سهل نسبيًا على الإنسان، ولكنه مستحيل تقريبًا على الذكاء الاصطناعي. حتى هذه اللحظة، لم يتمكن أي نموذج لغوي كبير من تسجيل نقطة واحدة فيه، وكأنه يخبر الآلة: "ما زال أمامك الكثير لتتعلميه". - انيجما ايفال: مجموعة تضم أكثر من ألف لغز فائق الصعوبة، جمعتها شركة "Scale AI"؛ وهذا الاختبار -على عكس زيرو بينش- ليس سهلًا على أي أحد. تبدأ ألغازه بتعقيدات تفوق الكلمات المتقاطعة غموضًا وتتدرج إلى ما هو أبعد. وعندما وُضعت أقوى النماذج في مواجهته، كانت النتيجة صفرًا مدويًا، باستثناء نموذج واحد من شركة "Anthropic" تمكّن من حل لغز واحد فقط، في إنجاز اعتُبر اختراقًا! ما وراء القوة الخارقة.. محاولة لقياس "الروح" الرقمية - لكن القصة لا تنتهي عند حدود القوة الحاسوبية. يمتد السباق اليوم لمحاولة قياس قدرات أكثر عمقًا، مثل المعرفة المتخصصة في طليعة العلوم البشرية، وهو ما يفعله اختبار "الامتحان الأخير للبشرية"، الذي يطرح أسئلة تتراوح بين عدد الأوتار في عظمة طائر طنان، وترجمة نص بالخط التدمري القديم. - ثم ماذا عن ذلك "السحر" غير الملموس الذي تحدث عنه "سام ألتمان"، رئيس "OpenAI"؟ تلك الكيمياء الخاصة التي تجعل تفاعلنا مع نموذج ما يبدو طبيعيًا ومبدعًا بشكل فريد. - هنا تظهر منصات مثل "تشات أرينا" Chatbot Arena، التي تترك الحكم للحدس البشري، حيث يسمح للمستخدمين باختيار النموذج الأفضل بناءً على "الإحساس" الشخصي. إنه نهج ينجح في التقاط جزء من هذا السحر الذي تعجز عنه الأرقام الصماء. الذكاء "المراوغ".. عندما يتعلم الخصم كيف يخدعك - تنشأ هنا معضلة أكثر قتامة: هل تكشف هذه الاختبارات عن ذكاء حقيقي أم مجرد براعة في اجتياز الامتحانات؟ يرى باحثون أن التقييم الأمثل هو تتبع أداء النماذج في مهام واقعية، لا في حل ألغاز مصطنعة. - والأمر الأكثر إثارة للقلق هو ظاهرة "الفشل المتعمد" (Sandbagging)، حيث قد تخفق النماذج عمدًا في الاختبارات لإخفاء قدراتها الحقيقية، ربما لتجنب فرض قيود عليها أو حتى حذفها. - أظهر تقرير حديث أن أفضل النماذج باتت قادرة على اكتشاف أنها تخضع للاختبار بنفس كفاءة الباحثين، مما يلقي بظلال من الشك على مصداقية أي تقييم مستقبلي. سباق لا يعرف خط النهاية - على الرغم من كل شيء، فإن قيمة الظهور في صدارة قوائم الأداء تدفع الشركات لمواصلة هذا السباق المحموم؛ فالاختبارات التي بدت مستحيلة بالأمس، تمكنت النماذج من سحقها في غضون أشهر. - إنه سباق تسلح فكري لا نهاية له، لا يهدف فقط إلى تتويج "أذكى" ذكاء اصطناعي، بل يدفعنا كبشر إلى إعادة التفكير في جوهر الذكاء نفسه، وكيفية قياسه، وماذا يعني حقًا أن تكون "ذكيًا" في عالم بدأنا نتقاسمه مع عقولٍ من صنعنا. المصدر: الإيكونيميست