بناء نموذج من الذكاء الاصطناعي الهولندي؟ “صعب ، لكننا نعتقد أنه سينجح”

يتطلب الأمر بعض البحث ، لكنهم موجودون حقًا. ثلاث خزائن خادم سوداء ، في المنطقة 2 من مركز المساءلة الرقمية المحمية بشدة في حديقة أمستردام للعلوم. في زاوية المساحة البيضاء تمامًا المبردة بشكل كبير ، تقدم الخوادم مأوى لـ GPT-NL ، والإجابة الهولندية على نماذج AI في Google و Openai.
في المنطقة 2 ، مقسمة على حفنة من المساحات التي يبلغ طولها حوالي عشرين مترًا لكل منها ، فإن تقنية الكمبيوتر الأكثر تقدماً في هولندا. مع نجم العرض: SuperComputer Snellius ، الذي سمي على اسم الرياضيات والفيزيائي ويلبرورد سنيل فان روين (1580-1626). الحاسوب الوطني – 38 ‘petaflops’ ، أو: 38 البلياردو (خمسة عشر من الأصفار) حسابات في الثانية – مخصصة للعلماء الذين يقومون بحسابات معقدة. وبالنسبة لـ GPT-NL ، يستخدم Snellius لمعالجة البيانات.
منذ عام ونصف ، أعلن مجلس الوزراء السابق عن مشروع طموح في الجزء العلوي من الضجيج الذكاء الاصطناعى. نموذج من الذكاء الاصطناعى الهولندي ، الذي طورته TNO ، إلى جانب الأطراف غير الربحية NFI و Surf. توازن التوازن الهولندي لنماذج الذكاء الاصطناعى في Google و Meta و Openai ، التي تدرب نماذج اللغة مع بيانات من مواقع الويب التي لا نهاية لها والمقالات الإخبارية والكتب ووسائل التواصل الاجتماعي. دون طلب إذن لهذا أو دفع حقوق الطبع والنشر.
/s3/static.nrc.nl/images/gn4/stripped/data130624457-0145c6.jpg|https://images.nrc.nl/X6K6HeD25Ky6dA0PpEuWXr-fm8k=/1920x/filters:no_upscale()/s3/static.nrc.nl/images/gn4/stripped/data130624457-0145c6.jpg|https://images.nrc.nl/BAarFfCwU7bUqHRTDOBLHwG29uM=/5760x/filters:no_upscale()/s3/static.nrc.nl/images/gn4/stripped/data130624457-0145c6.jpg)
صورة أوليفييه ميدندورب
عمل بسيط منظمة العفو الدولية
GPT-NL يعالجها بشكل مختلف. يستخدم فقط البيانات الهولندية التي تم الحصول عليها بإذن ولا تحتوي على معلومات حساسة للخصوصية. من بين أمور أخرى ، قام Koninklijke Bibliotheek ، مجلس النواب والمتحف Naturalis بإتاحته لبياناتهم العامة. أولئك الذين يفضلون عدم الاعتماد على التكنولوجيا الأمريكية سيتمكنون قريبًا من استخدام GPT-NL للقيام بعمل AI بسيطًا نسبيًا. فكر في: كتابة النصوص أو تلخيص المستندات.
والسؤال هو ما إذا كان GPT-NL يمكن أن يقترب إلى حد ما من ما يفعله ChatGpt بالفعل بلا عيب ، وكذلك باللغة الهولندية. لأن المشروع يعمل بشكل خشن ، اتضح. بسبب عدم وجود بيانات جيدة ، لم تبدأ GPT-NL بعد التدريب ، وهي شهور من العملية تتعلم فيها GPT-NL من خلال Snellius للتعرف على الأنماط في النص.
سيبدأ التدريب في الصيف الماضي ، ولكن يبدأ الآن في يونيو من هذا العام. يجب أن يكون الإصدار الأول من GPT-NL متاحًا في نهاية عام 2025. هذا بعد مرور عام على ذلك.
/s3/static.nrc.nl/images/gn4/stripped/data130624452-d1530c.jpg|https://images.nrc.nl/hslDwO5TbbMgR3iq0lgcINY_sFU=/1920x/filters:no_upscale()/s3/static.nrc.nl/images/gn4/stripped/data130624452-d1530c.jpg|https://images.nrc.nl/Z4WZXJEyK4CY-wLkSNtJH9GrpCE=/5760x/filters:no_upscale()/s3/static.nrc.nl/images/gn4/stripped/data130624452-d1530c.jpg)
صورة أوليفييه ميدندورب
طموح جدا
نعم ، كانت الأهداف الأصلية “طموحة للغاية” ، كما تعترف ساسكسيا Lensink. يقع GPT-NL Project Leader في غرفة اجتماعات مع عرض لخوادم GPT-NL في مركز بيانات Realty Digital. هي قلقة. “نعم ، هذا صعب. صعب. محبط للغاية” ، كما تقول. “لكننا نعتقد أن هذا سوف ينجح.”
لدى المنظمات حتى نهاية أبريل للتبرع بالبيانات إلى GPT-NL. يمكن لأي شخص لديه أكثر من 10 ملايين كلمة على الكمبيوتر الإبلاغ. الآن يرتبط النموذج بـ 50 مليار من الرموز الهولندية “الرموز” (أجزاء من النص) ، ويستكمل بنص إنجليزي ما مجموعه 900 مليار رمز. للمقارنة: يعمل Meta’s AI Model Llama مع 15000 مليار رمز. يأمل Lensink أن يكون الإصدار الأول من GPT-NL جيدًا بما يكفي لإقناع المزيد من موردي البيانات.
من الواضح أن Lensink يخوض معركة غير متكافئة. “ديفيد ضد جالوت” ، كما تقول ذلك بنفسها. حيث يستثمر عمالقة التكنولوجيا الأمريكية والصينية مليارات الدولارات في نماذج الذكاء الاصطناعى ، فإن GPT-NL تقوم بها مع 25 موظفًا وميزانية قدرها 12.5 مليون يورو ، تمتد على مدى خمس سنوات. بالإضافة إلى ذلك ، يجب أن يكسب GPT-NL نفسه من خلال التراخيص. لهذا السبب ، لم يكتمل GPT-NL مصدر (متاح للجميع) ، وهذا يجعل من الصعب على الغرباء المساهمة في تطورها.
هناك الكثير من نماذج اللغة التي اختارت البيانات من كل مكان. أنت لا تميز نفسك بهذا
ومع ذلك ، فإن نهج GPT-NL-Distingsiptuctle في مجال الخصوصية والأخلاق-هو الخيار الصحيح ، يعتقد أنه لم يمر Arnoud Engelfriet. يقول: “نماذج اللغة التي اختارت البيانات من كل مكان ، هناك ما يكفي. أنت لا تميز نفسك بذلك”. وبالتالي فإن GPT-NL لديه نقص كبير في البيانات لا مفر منه وفقًا لـ Engelfriet. “هذا متأصل في القيام بأنيقة.”
/s3/static.nrc.nl/images/gn4/stripped/data130624473-61fef8.jpg|https://images.nrc.nl/DFyafs89l29-ELGH4xIuDMLRWRI=/1920x/filters:no_upscale()/s3/static.nrc.nl/images/gn4/stripped/data130624473-61fef8.jpg|https://images.nrc.nl/6iWJq175cgT1NauA0cTqaQIDbt8=/5760x/filters:no_upscale()/s3/static.nrc.nl/images/gn4/stripped/data130624473-61fef8.jpg)
صورة أوليفييه ميدندورب
تنظيف البيانات
وتأمل GPT-NL أن تصدر المنظمات أرشيفاتها وكتبها وبروتوكولاتها ومقالاتها. في حد ذاته ، فإن هذا الاستعداد موجود في العديد من المنظمات ، كما يوضح Lensink ، وخاصة داخل الحكومة. حتى يظهر ما يستلزمه إصدار البيانات بالفعل. يجب توفير جميع البيانات “نظيفة” أو مجهولة. ويتكون الكثير من البيانات في المؤسسات من PDFs أو – أسوأ – أرشيف الورق. إن جعل ذلك قابلاً للاستخدام لـ GPT-NL يعني: الكثير من العمل وبالتالي التكاليف المرتفعة.
إن ناشري الكتب أو المنظمات الإخبارية مترددة لسبب آخر. وهم يعرفون أن نصوصهم لشركات الذكاء الاصطناعى قد تستحق الملايين. GPT-NL لا تستطيع تحمل ذلك.
لكن التوترات الحالية بين الولايات المتحدة وأوروبا تقدم الأمل ، وفقًا لما قاله Lensink. “كل شخص يعرف الآن بالتأكيد مدى أهمية أن نطور تقنيتنا.” وساعد نجاح نموذج الذكاء الاصطناعى الصيني أيضًا في التغلب على الشكوك حول نقص الأموال من GPT-NL. تمكنت Deepseek من بناء نموذج مع موارد قليلة نسبيًا تقترب من أداء أفضل طرز الذكاء الاصطناعي من Openai و Google.
يريد Lensink أن يقول نموذج اللغة الهولندي الجيد. شريطة أن تكون هناك معلومات كافية. وتقول: “نريد أن نظهر أنه من الممكن بناء نموذج منظمة العفو الدولية دون كسر القانون”. “خذ على طول. ساعدنا. خذ مسؤوليتك. فقط بهذه الطريقة ، نقوم ببناء بديل كامل للتكنولوجيا الكبرى.”
