فشل الذكاء الاصطناعي في المهام المالية اليومية .. ما هي القصة؟ | تكنولوجيا

منذ ظهور “الدردشة BT” في نهاية عام 2022 وبداية العام التالي ، جاءت أصوات من مختلف أنحاء العالم في وظائف مختلفة خوفًا من هذه التكنولوجيا التي تشغل وظائف في العالم ، وأن الشركات لم تمنع الشركات من تطوير هذه النماذج أكثر وأقوى في محاولة لزيادة قدراتها.
لقياس هذه الاحتمالات ، تقوم الشركات بإجراء اختبارات مستمرة ، فهذه هي الاختبارات التي تنجح فيها نماذج الذكاء الاصطناعي ، لكن هذه النجاحات كانت سببًا لزيادة شكوك ريان كريشنان ، التي قررت لاحقًا إنشاء شركة ووصفتها بأنها “Valen AI”.
يحاول “Valus AI” اختبار نماذج الذكاء الاصطناعي بشكل مستقل وبعيدًا عن الشركات ، من خلال سلسلة من الاختبارات المكثفة للتأكد من جودة هذه النماذج واكتشاف نقاط ضعفها. وفقًا للاختبارات التي أجراها “Valus AI” في 22 نموذجًا عامًا للذكاء الاصطناعي لـ “OBEN AI” ، “Google” ، الأنثروبور “،” X “وغيرها ، سجلت جميع هذه النماذج أقل من 50 ٪ في اختبارات الدقة فيما يتعلق بالتحليل والجوانب المالية المختلفة ، وينبغي أن تكون هذه الاختبارات لم تكن اختبارات معقدة؟
فجوة بين قاعدة بيانات التدريب والاستخدام الحقيقي
يرى كريشنان أن الادعاءات فيما يتعلق بجودة ودقة نماذج الذكاء الاصطناعي لا تفوت الدقة ، لأنها تأتي مباشرة من الشركة المتقدمة للنموذج مع عدم وجود أدوات التدقيق والتقييم الخارجية ، لذلك كان ينبغي العثور على حل خارجي للحكم على النماذج المختلفة للذكاء والمساعدة الاصطناعية.
ضد واشنطن بوست ، أشار كيرشكان إلى أن معظم نماذج الذكاء الاصطناعي مدرجة في الأبحاث العلمية وتقارير البحوث الخالصة ، وغالبًا ما لا يكون لها أي حقيقة واستخدام يومي ، وبالتالي فإن النتائج جيدة علمياً ولكنها سيئة عملياً.
أدى هذا Valusai إلى تطوير اختبار الذكاء الاصطناعي المكون من 500 مقابر باستخدام أحد المؤسسات المالية الرائدة لإنشاء اختبار فعال على وجه التحديد في القطاع المالي وتحديد مستوى جودة ودقة نماذج الذكاء الاصطناعي.
وأضاف أيضًا أن معظم اختبارات الذكاء الاصطناعي تحدث من خلال سلسلة من الأسئلة العامة والبيانات العلمية في التقارير البحثية المتوفرة لمعظم نماذج الذكاء الاصطناعي في العالم ويمكن الوصول إليها بسهولة ، بحيث تكون نتائج الاختبارات إيجابية دائمًا.
في الاختبار الذي أجرته “Valus AI” ، قال كريشنان إن الاختبار تضمن سلسلة من المهام المختلفة والأساسية لأي شخص يعمل في الأسواق المالية وحتى الصحفيين الذين يغطيون عالم المال باستمرار حتى يتمتعون بخبرة كافية. تضمن الاختبار أسئلة مثل البحث عن المعلومات داخل أنظمة “Edgar” لتخزين البيانات في الشركات ، أو حتى قاعدة بيانات سلطة الأوراق المالية والأسهم المتاحة للشركات التي تحتوي على الجمهور ، كلها موارد يستخدمها المحللون والخبراء ويحتاجونها كل يوم.
أقل من 50 ٪ لجميع النماذج
وفقًا للتقرير “واشنطن بوست” ، أدى اختبار Valus AI إلى انخفاض نتائج نماذج الذكاء الاصطناعي ، والتي لم تتجاوز نتائجها أكثر من 50 ٪ من النتائج الإجمالية في الاختبار. على سبيل المثال ، يمكّن نموذج OPPO الجديد للشركة الشركة من تحقيق نتيجة بنسبة 48.3 ٪ ، على الرغم من أنها مخصصة لهذا النوع من الأبحاث والمعلومات.
من حيث نموذج “كلود سونيت 3.7” الحديث ، يمكن أن يصل النموذج إلى 44.1 ٪. أما بالنسبة إلى LLMA ، The Three Dead “LLMA” ، كانت نتائجها مخيبة للآمال للغاية ، لأن نتائجها لا تزيد عن 10 ٪ في جميع الاختبارات.
بالطبع ، تجاهلت هذه الشركات اختبارات “Valus AI” ورفضت تقديم تعليقات كاملة ، سواء كانت تجاهلت تمامًا نتائج الاختبارات التي أجراها “Oben AI” أو شركات أخرى.

لماذا هذه النتائج السيئة؟
هناك العديد من الأسباب المنطقية التي تجعل نتائج الذكاء الاصطناعي سيئة إلى هذا الحد ، بدءًا من الاعتماد على الذكاء الاصطناعي لمجموعة من المواد غير الدقيقة في الاختبارات وحتى المواد العلمية النقية التي لا تتعامل مع الأسئلة الحقيقية التي يحتاجها الخبراء.
من ناحية أخرى ، وثقت الشركة في الشركة على إنشاء مكتبة أسئلة ، دون توفير النموذج مع المستندات والتدريب اللازمة لتحقيق هذه النتائج ، لأن الأسئلة تركز بشكل مباشر على النماذج دون منحهم سياقًا حقيقيًا.
اتجاه جديد في عالم الذكاء الاصطناعي
تعد شركة Fallis AI واحدة من الشركات الناشئة الجديدة في قطاع الذكاء الاصطناعي ، والتي تريد أن تكون متأكدة وتريد التحقق من نتائج النماذج المختلفة والبحث في النماذج ، كاستجابة مباشرة لتنوع نماذج الذكاء الاصطناعي وعرض العديد منها باستمرار.
يعتقد كريشنان أن الثقة في اختبارات الشركات الخارجية مثل “Valusai” هي الطريقة الوحيدة لتطوير نماذج الذكاء الاصطناعي وبناء روبوتات الدردشة الحقيقية التي يمكن أن تساعد المستخدمين في التحديات الحقيقية التي يواجهونها.
في هذه الحالة ، لن يحل الذكاء الاصطناعي محل الأشخاص ، بل كن أداة لتسهيل أداء العمل وإنهائه في وقت سريع وشرعي ، شريطة أن تكون النتائج دقيقة ويمكن الخبراء الاعتماد عليها.
أكمل الناس الذكاء الاصطناعي تماما؟
في فبراير الماضي ، قال بيل غيتس ، مؤسس شركة Microsoft ، إن الذكاء الاصطناعي سيحل مكان العديد من الوظائف البشرية مثل الأطباء والمعلمين ، والذي كان مدعومًا من قبل فيكتور لازارا ، أبرز المستثمر في العديد من الشركات التقنية ، لأنه قال إن الذكاء الاصطناعي لن يقتصر على الترويج للمهام البشرية.
ولكن ما مدى صحة هذه النظريات والبيانات في ضوء نتائج اختبارات “Valus AI” التي أثبتت أنها تقصر إمكانيات الذكاء الاصطناعي في بعض المناطق؟
