تطوير روبوت محادثة مؤسسي في عصر الذكاء الاصطناعي التوليدي

يفتح صعود الذكاء الاصطناعي في التعليم الطريق أمام أنماط جديدة من التفاعل بين الطلاب والمؤسسات. في قلب هذه الديناميكية، تظهر روبوتات المحادثة كحل واعد للإجابة على الأسئلة الشائعة، وتوجيه الوافدين الجدد، وتخفيف العبء عن الخدمات الإدارية. لكن هذه الأدوات يجب أن تتعامل أيضًا مع بيئة غير مستقرة، حيث تتطور المعلومات باستمرار.

في INSA تولوز، شرعنا في إنشاء روبوت محادثة مؤسسي قادر على مواجهة هذه التحديات. بعد اختبار بنيات معمارية مختلفة، من الأكثر بدائية إلى الأكثر تطورًا، كان نموذج RAG (التوليد المعزز بالاسترجاع) هو الأكثر ملاءمة في النهاية.

تاريخ حديث لروبوتات المحادثة

تعود جذور روبوتات المحادثة إلى آلان تورينج، مع سؤاله الشهير حول قدرة الآلات على التفكير. منذ ELIZA، أول برنامج محادثة ظهر في الستينيات، كان التقدم مذهلاً. أدى إدخال التعلم العميق والمحولات إلى تحقيق اختراقات حاسمة. اليوم، نماذج مثل ChatGPT أو Siri قادرة على فهم اللغة الطبيعية وتوليد استجابات بطلاقة ملحوظة.

من بين البنيات المعمارية البارزة:

GPT (المحول التوليدي المدرب مسبقًا)، المرجع الحالي في توليد النصوص
MoE (خليط الخبراء)، المستخدمة في Mixtral-8x7B
RNN، التي أصبحت اليوم قديمة، لكنها مهمة تاريخيًا

جمع البيانات: كاشطة لـ INSA

لتغذية روبوت المحادثة الخاص بنا، طورنا كاشطة Java تستهدف المواقع العامة لـ INSA تولوز ومنصة Moodle الخاصة بها. النتائج:

6,215 صفحة تم جمعها في 20 دقيقة
حوالي 4.45 مليون كلمة مستخرجة
55% من المستندات مع تاريخ تحديث قابل للتحديد

ظهرت بعض القيود، لا سيما عدم القدرة على قراءة محتوى الصور، وملفات PDF الممسوحة ضوئيًا غير القابلة للقراءة، أو الاستخراج السيئ للجداول المعقدة. على الرغم من كل شيء، كان حجم النص الخام كافيًا لتجاربنا الأولى.

المحاولة الأولى: بناء نموذج من الصفر

حاولنا تصميم نموذج لغوي من نوع SLM (نموذج لغوي صغير) باستخدام PyTorch، واختبار عدة تكوينات للترميز (على مستوى الحرف والكلمة الفرعية).

مجموعات البيانات المستخدمة:

شكسبير (2 ميغابايت، إنجليزية قديمة)
ويكيبيديا بالفرنسية (10 جيجابايت)

النتائج، على الرغم من بعض تحسينات الخسارة، بقيت بعيدة جدًا عن توقعاتنا. لم يتعلم النموذج بناء الجملة بشكل صحيح، ولم يتمكن من إنتاج جمل منطقية.

الاسم	جهاز التدريب	اللغة	مجموعة البيانات	الخسارة النهائية	حجم السياق	حجم الدفعة	المدة
Scratch-v0.0	Intel Core i7-8700	إنجليزي	Shakespeare (2 MB)	1.1268	192	32	03:24:00
Scratch-v0.1	Intel Core i7-8700	إنجليزي	Shakespeare (2 MB)	0.8046	192	32	06:11:00
Scratch-v1.0	2×GPU NVIDIA RTX A4500	إنجليزي	Shakespeare (2 MB)	0.9041	512	32	00:28:00
Scratch-v2.0	2×GPU NVIDIA RTX A4500	فرنسي	Wikipedia (10 GB)	1.0603	512	32	00:27:00
Scratch-v2.3	2×GPU NVIDIA RTX A4500	فرنسي	Wikipedia (10 GB)	0.6484	512	48	03:31:00

كان القيد الرئيسي هو الأجهزة: بطاقة GPU واحدة RTX A4500 ليست كافية للتدريب العميق. للحصول على نتائج قابلة للمقارنة مع GPT-2، كان سيتطلب الأمر أسابيع من التدريب على بنية تحتية موزعة.

المحاولة الثانية: الضبط الدقيق لـ GPT-2

اخترنا بعد ذلك تكييف نموذج موجود: GPT-2. كانت الفكرة هي استخدام نموذج مدرب مسبقًا، ثم تخصيصه بمجموعة بيانات داخلية (100 مستند من الكشط الخاص بنا).

تم التدريب محليًا، مع:

3 حقب
حجم دفعة 2
معالج Intel Core i7-13700H
محلل رموز HuggingFace محدد

على الرغم من هذه الجهود، كان 3.82% فقط من الإجابات مرضية تمامًا وفقًا لمقيّمين بشريين. علاوة على ذلك، أي تحديث للبيانات سيتطلب إعادة تدريب مرهقة وتستهلك الطاقة.

RAG: الحل الهجين الذي يغير كل شيء

يجمع نهج التوليد المعزز بالاسترجاع بين الأفضل من العالمين: البحث الدلالي وتوليد الاستجابة.

العملية:

يتم تقسيم المستندات إلى مقاطع من 1000 حرف
يتم تحويل كل مقطع إلى متجه عبر MiniLM
يتم فهرسة المتجهات في FAISS
عند الاستعلام، يتم استخراج المقاطع الأقرب وحقنها مع السؤال في Mixtral-8x7B

الميزة الرئيسية: يمكن للنموذج الاعتماد على مستندات محدثة، دون الحاجة إلى إعادة التدريب.

اختبار المساعد: IAN

طورنا واجهة باستخدام Streamlit، مما أدى إلى ظهور IAN (الذكاء الاصطناعي لـ INSA). تفرض الواجهة:

إجابات بالفرنسية
نبرة رسمية وموجزة
إشارة واضحة في حالة غياب المعلومات

في اختبار من 8 أسئلة، تم الحكم على 7 إجابات بأنها ذات صلة، سواء للأسئلة المتعلقة باللوائح أو للتفاعلات العامة.

تقييم الملاءمة: التناقضات والسياق

طورنا عدة أدوات لاكتشاف نقاط ضعف النظام:

حساب التشابه الجيبي بين القطع
إعادة الترتيب بواسطة المشفر المتقاطع (MiniLM)
مصنف ثنائي لتقدير ما إذا كان السؤال قابلاً للإجابة

اكتشاف مثير للاهتمام: نطاق درجة FAISS يمكن أن يشير إلى ما إذا كانت المستندات المستخرجة مفيدة. نطاق ضيق = ملاءمة قليلة؛ نطاق واسع = تنوع الاستجابات، وبالتالي تغطية جيدة.

الخلاصة: نموذج واعد

يوضح عملنا أن RAG، جنبًا إلى جنب مع قاعدة منظمة جيدًا، يمكن أن يصبح أداة موثوقة لمساعدة الطلاب في إطار أكاديمي. إنه يتفوق بكثير على النماذج المدربة محليًا أو المضبوطة بدقة.

بالتأكيد، ليس كل شيء مثاليًا. سنحتاج إلى:

تحسين إدارة الغموض
إضافة مصادر منظمة (جداول المواعيد، قواعد بيانات SQL)
دمج تعدد الوسائط (الصور، النماذج)

لكن الأسس قوية.

المنظورات التقنية

نحن نفكر في عدة تحسينات:

تقسيم فهرس FAISS إلى فهارس فرعية متخصصة
استخدام مصنف لتشغيل إعادة كتابة الاستعلامات أم لا
استكشاف البيانات المنظمة لإثراء الإجابات

تفتح هذه المسارات الطريق نحو مساعد مدرسي قوي ورشيق.

شكر وتقدير

شكرًا لـ فيليب لولو، إريك ألاتا و سيلين بيراوب على دعمهم. تم إجراء هذا المشروع بجدية، ولم يتم استخدام أي أداة ذكاء اصطناعي توليدي للبحث أو التحليل. فقط لتحسين وضوح النص.

بناء روبوت محادثة لإرشاد الطلاب.