بناء نموذج من الذكاء الاصطناعي الهولندي؟ “صعب ، لكننا نعتقد أنه سينجح”

NRC منذ 3 أسابيع

4 دقائق

يتطلب الأمر بعض البحث ، لكنهم موجودون حقًا. ثلاث خزائن خادم سوداء ، في المنطقة 2 من مركز المساءلة الرقمية المحمية بشدة في حديقة أمستردام للعلوم. في زاوية المساحة البيضاء تمامًا المبردة بشكل كبير ، تقدم الخوادم مأوى لـ GPT-NL ، والإجابة الهولندية على نماذج AI في Google و Openai.

في المنطقة 2 ، مقسمة على حفنة من المساحات التي يبلغ طولها حوالي عشرين مترًا لكل منها ، فإن تقنية الكمبيوتر الأكثر تقدماً في هولندا. مع نجم العرض: SuperComputer Snellius ، الذي سمي على اسم الرياضيات والفيزيائي ويلبرورد سنيل فان روين (1580-1626). الحاسوب الوطني – 38 ‘petaflops’ ، أو: 38 البلياردو (خمسة عشر من الأصفار) حسابات في الثانية – مخصصة للعلماء الذين يقومون بحسابات معقدة. وبالنسبة لـ GPT-NL ، يستخدم Snellius لمعالجة البيانات.

منذ عام ونصف ، أعلن مجلس الوزراء السابق عن مشروع طموح في الجزء العلوي من الضجيج الذكاء الاصطناعى. نموذج من الذكاء الاصطناعى الهولندي ، الذي طورته TNO ، إلى جانب الأطراف غير الربحية NFI و Surf. توازن التوازن الهولندي لنماذج الذكاء الاصطناعى في Google و Meta و Openai ، التي تدرب نماذج اللغة مع بيانات من مواقع الويب التي لا نهاية لها والمقالات الإخبارية والكتب ووسائل التواصل الاجتماعي. دون طلب إذن لهذا أو دفع حقوق الطبع والنشر.

يجب أن يكون الإصدار الأول من GPT-NL متاحًا في نهاية عام 2025. هذا بعد مرور عام على ذلك.

صورة أوليفييه ميدندورب

عمل بسيط منظمة العفو الدولية

GPT-NL يعالجها بشكل مختلف. يستخدم فقط البيانات الهولندية التي تم الحصول عليها بإذن ولا تحتوي على معلومات حساسة للخصوصية. من بين أمور أخرى ، قام Koninklijke Bibliotheek ، مجلس النواب والمتحف Naturalis بإتاحته لبياناتهم العامة. أولئك الذين يفضلون عدم الاعتماد على التكنولوجيا الأمريكية سيتمكنون قريبًا من استخدام GPT-NL للقيام بعمل AI بسيطًا نسبيًا. فكر في: كتابة النصوص أو تلخيص المستندات.

والسؤال هو ما إذا كان GPT-NL يمكن أن يقترب إلى حد ما من ما يفعله ChatGpt بالفعل بلا عيب ، وكذلك باللغة الهولندية. لأن المشروع يعمل بشكل خشن ، اتضح. بسبب عدم وجود بيانات جيدة ، لم تبدأ GPT-NL بعد التدريب ، وهي شهور من العملية تتعلم فيها GPT-NL من خلال Snellius للتعرف على الأنماط في النص.

سيبدأ التدريب في الصيف الماضي ، ولكن يبدأ الآن في يونيو من هذا العام. يجب أن يكون الإصدار الأول من GPT-NL متاحًا في نهاية عام 2025. هذا بعد مرور عام على ذلك.

تم تخصيص 12.5 مليون يورو لمشروع GPT-NL ، منتشرة على مدى خمس سنوات.

صورة أوليفييه ميدندورب

طموح جدا

نعم ، كانت الأهداف الأصلية “طموحة للغاية” ، كما تعترف ساسكسيا Lensink. يقع GPT-NL Project Leader في غرفة اجتماعات مع عرض لخوادم GPT-NL في مركز بيانات Realty Digital. هي قلقة. “نعم ، هذا صعب. صعب. محبط للغاية” ، كما تقول. “لكننا نعتقد أن هذا سوف ينجح.”

لدى المنظمات حتى نهاية أبريل للتبرع بالبيانات إلى GPT-NL. يمكن لأي شخص لديه أكثر من 10 ملايين كلمة على الكمبيوتر الإبلاغ. الآن يرتبط النموذج بـ 50 مليار من الرموز الهولندية “الرموز” (أجزاء من النص) ، ويستكمل بنص إنجليزي ما مجموعه 900 مليار رمز. للمقارنة: يعمل Meta’s AI Model Llama مع 15000 مليار رمز. يأمل Lensink أن يكون الإصدار الأول من GPT-NL جيدًا بما يكفي لإقناع المزيد من موردي البيانات.

من الواضح أن Lensink يخوض معركة غير متكافئة. “ديفيد ضد جالوت” ، كما تقول ذلك بنفسها. حيث يستثمر عمالقة التكنولوجيا الأمريكية والصينية مليارات الدولارات في نماذج الذكاء الاصطناعى ، فإن GPT-NL تقوم بها مع 25 موظفًا وميزانية قدرها 12.5 مليون يورو ، تمتد على مدى خمس سنوات. بالإضافة إلى ذلك ، يجب أن يكسب GPT-NL نفسه من خلال التراخيص. لهذا السبب ، لم يكتمل GPT-NL مصدر (متاح للجميع) ، وهذا يجعل من الصعب على الغرباء المساهمة في تطورها.

هناك الكثير من نماذج اللغة التي اختارت البيانات من كل مكان. أنت لا تميز نفسك بهذا

أرنود Engelfriet
محامي

ومع ذلك ، فإن نهج GPT-NL-Distingsiptuctle في مجال الخصوصية والأخلاق-هو الخيار الصحيح ، يعتقد أنه لم يمر Arnoud Engelfriet. يقول: “نماذج اللغة التي اختارت البيانات من كل مكان ، هناك ما يكفي. أنت لا تميز نفسك بذلك”. وبالتالي فإن GPT-NL لديه نقص كبير في البيانات لا مفر منه وفقًا لـ Engelfriet. “هذا متأصل في القيام بأنيقة.”

يمكن لـ SuperCuterer Snellius أداء 38 “Petaflops” ، أو: 38 مليار (خمسة عشر من الأصفار) في الثانية.

صورة أوليفييه ميدندورب

تنظيف البيانات

وتأمل GPT-NL أن تصدر المنظمات أرشيفاتها وكتبها وبروتوكولاتها ومقالاتها. في حد ذاته ، فإن هذا الاستعداد موجود في العديد من المنظمات ، كما يوضح Lensink ، وخاصة داخل الحكومة. حتى يظهر ما يستلزمه إصدار البيانات بالفعل. يجب توفير جميع البيانات “نظيفة” أو مجهولة. ويتكون الكثير من البيانات في المؤسسات من PDFs أو – أسوأ – أرشيف الورق. إن جعل ذلك قابلاً للاستخدام لـ GPT-NL يعني: الكثير من العمل وبالتالي التكاليف المرتفعة.

إن ناشري الكتب أو المنظمات الإخبارية مترددة لسبب آخر. وهم يعرفون أن نصوصهم لشركات الذكاء الاصطناعى قد تستحق الملايين. GPT-NL لا تستطيع تحمل ذلك.

لكن التوترات الحالية بين الولايات المتحدة وأوروبا تقدم الأمل ، وفقًا لما قاله Lensink. “كل شخص يعرف الآن بالتأكيد مدى أهمية أن نطور تقنيتنا.” وساعد نجاح نموذج الذكاء الاصطناعى الصيني أيضًا في التغلب على الشكوك حول نقص الأموال من GPT-NL. تمكنت Deepseek من بناء نموذج مع موارد قليلة نسبيًا تقترب من أداء أفضل طرز الذكاء الاصطناعي من Openai و Google.

يريد Lensink أن يقول نموذج اللغة الهولندي الجيد. شريطة أن تكون هناك معلومات كافية. وتقول: “نريد أن نظهر أنه من الممكن بناء نموذج منظمة العفو الدولية دون كسر القانون”. “خذ على طول. ساعدنا. خذ مسؤوليتك. فقط بهذه الطريقة ، نقوم ببناء بديل كامل للتكنولوجيا الكبرى.”

نموذج الذكاء الاصطناعى الهولندي “الماعز” في وضع عدم الاتصال

في بداية هذا العام ، تم أخذ نموذج كبير منظمة العفو الدولية الهولندية ، وهو مشروع هواية بعنوان “الماعز” ، في وضع عدم الاتصال. حدث ذلك بناءً على طلب Stichting Brein ، المدافع عن حاملي حقوق الطبع والنشر. كان النموذج متاحًا للجمهور وتدريبه مع 10 مليارات من الرموز المميزة اللغوية الهولندية (أجزاء من النص).

طور المبدع إدوين ريجيرسبرغ الماعز بمساعدة التكنولوجيا من شركة AI الفرنسية MISTRAL. لتدريب نموذجه ، استخدم مجموعة بيانات مع ، من بين أشياء أخرى ، عشرات الآلاف من الكتب الهولندية التي لم يتم دفعها لحقوق الطبع والنشر. وقالت المؤسسة في ذلك الوقت “الدماغ ليس ضد تدريب الذكاء الاصطناعي ، لكنه يعتقد أن مؤلفي كل تلك الموسيقى والكتب وما إلى ذلك يجب أن يتلقى تعويضًا عادلًا لهذا”.

وقال Rijgersberg في تعليق على مدونته: “Goat هو مشروع هواية علمية غير تجارية”. “أردت أن يظل الماعز متاحًا للعلماء. لكن لسوء الحظ: لم تنته المحادثات مع الدماغ في أي شيء. لا يمكنني تحمل دعوى قضائية طويلة للغاية ، وقبل كل شيء.”