منذ إصدار “شات جي بي تي” رسميا في 30 نوفمبر/تشرين الثاني 2022، أثر في العديد من جوانب حياتنا، ولم تكن الكتابة الأكاديمية والبحوث العلمية محصنة.
وتمكن العلماء منذ ذلك الحين من استخدام “نماذج اللغة الكبيرة” -أنظمة ذكاء اصطناعي قادرة على فهم وتوليد لغة بشرية من خلال معالجة كميات هائلة من البيانات النصية- لمراجعة جميع الأوراق العلمية التي ينتجونها وتحريرها وكتابتها أحيانًا من الصفر، ولكن مدى الاستخدام الفعلي لهذا النوع من الذكاء الاصطناعي لا يزال غير معروف.
في الواقع، استكشف عدد كبير من الأبحاث بالفعل مزايا نماذج اللغات الكبيرة وعيوبها، وحاول العديد من الباحثين رسم خريطة لتطور العلوم من خلال التغييرات في اللغة التي ينتجونها، وآخر هذه المحاولات قام بها عالم الأبحاث ديمتري كوباك وزملاؤه في معهد هيرتي للذكاء الاصطناعي في مجال صحة الدماغ في توبنغن بألمانيا.
وجد كوباك وزملاؤه طريقة لقياس تأثير أنظمة الذكاء الاصطناعي في الأدبيات العلمية أو العلوم المبسطة منذ عام 2022، وقارنوها بتأثير الأحداث الرئيسة الأخرى في العلوم.
بدأ كوباك وزملاؤه بتنزيل الخلاصات من أكثر من 14 مليون ورقة بحثية منشورة على قاعدة بيانات الطب الحيوي “بابميد” (PubMed) منذ عام 2010، ثم أزالوا بعد ذلك الكلمات والعبارات الشائعة التي لا علاقة لها بكتابة المؤلفين من قاعدة البيانات، مثل “حقوق الطبع والنشر” أو “كيفية الاستشهاد بهذه المقالة”.
بعد ذلك، قاموا بحساب عدد المرات التي ظهرت فيها كل كلمة أطول من 3 أحرف كل عام. وأخيرًا، نظروا إلى الكلمات الـ800 الأكثر شعبية وكيف يتغير تواترها كل عام، وكيف تؤثر ليس في الطريقة التي يكتب بها العلماء فحسب، بل في الطريقة التي يتم بها إجراء العلوم.
تغييرات مفاجئة
كشفت النتائج على الفور عن بعض الاتجاهات الواضحة في العلوم. على سبيل المثال، بلغ تكرار كلمة “إيبولا” (مرض يصيب الإنسان بسبب عدوى فيروسية) ذروته في عام 2015، وكلمة “زيكا” (عدوى فيروسية تنتقل عن طريق البعوض) في عام 2017.
حدث أحد أكبر التغييرات في عام 2020 مع زيادة هائلة في استخدام كلمات مثل “الإغلاق”، و”الوباء” و”الجهاز التنفسي” و”ريمديسيفير” (دواء جديد مضاد للفيروسات) أثناء تفشي جائحة كورونا، وهو حدث معروف على نطاق واسع أنه كان له أحد أكبر التأثيرات على النشر العلمي والمنشآت والمؤسسات البحثية في التاريخ.
وللمفاجأة، حدث تغيير أكبر في عام 2024 مع زيادة في كلمات مثل “حاسم” و”مهم” و”محتمل”، ومن الغريب أن هذه الكلمات ليست مرتبطة بالمحتوى العلمي للورقة البحثية، بل بأسلوب الكتابة.
ويشير الباحثون إلى أن هذه هي بالضبط نوعية الكلمات التي تفضلها نماذج اللغة الكبيرة المدرَّبة مسبقًا على كميات هائلة من البيانات، والتي يقولون إنها “تغير الخطاب العلمي على نطاق غير مسبوق”.
ويقول كوباك وزملاؤه إن الزيادة غير المسبوقة في الكلمات النمطية الزائدة في عام 2024 تسمح باستخدامها كدلالة على استخدام “شات جي بي تي”، ويشيرون إلى أن وتيرة تكرار مئات الكلمات زادت فجأة بعد أن أصبح “شات جي بي تي” متاحًا ومستخدمًا على نطاق واسع جدا إذ وصل إلى 100 مليون مستخدم نشط بعد 3 أشهر من إصداره، ويعد أحد المعالم الرئيسة لنماذج اللغة إلى جانب “جي بي تي-4”.
أوراق بحثية بالذكاء الاصطناعي
وضع كوباك وزملاؤه حدًّا أدنى لعدد الأوراق البحثية التي تأثرت بنماذج اللغة الكبيرة. وتشير البيانات إلى أن ما لا يقل عن 10% من الأوراق البحثية المنشورة على موقع “بابميد” الطبي للأبحاث في عام 2024 قد تأثرت بهذه الطريقة.
وخلص الباحثون إلى أنه “مع فهرسة 1.5 مليون ورقة بحثية حاليا في موقع “بابميد” سنويا، فإن هذا يعني أن نماذج اللغة الكبيرة تساعد في كتابة ما لا يقل عن 150 ألف ورقة بحثية سنويا”.
لاحظ الفريق أن مساعدة الذكاء الاصطناعي كانت أكثر شيوعًا في الأبحاث المقدمة من البلدان التي لم تكن اللغة الإنجليزية هي لغتها الأولى، والتي غالبًا ما يُعاقب باحثوها لأن أوراقهم تبدو أقل احترافية من أقرانهم الذين يكتبون باللغة الإنجليزية.
قد يشير ذلك إلى أن غير المتحدثين باللغة الإنجليزية يستخدمون أنظمة الذكاء الاصطناعي التوليدي لتحقيق تكافؤ الفرص في الكتابة العلمية، أو أن المتحدثين باللغة الإنجليزية يستخدمونها بالقدر نفسه ولكنهم أكثر مهارة في إزالة تأثيرها من أوراقهم البحثية قبل النشر. وفي كلتا الحالتين، يبدو استخدام نماذج اللغة الكبيرة على نطاق واسع.
وإذا كان النشر العلمي يؤخذ مثالا على تأثير الذكاء الاصطناعي، فمن المحتمل أن تواجه مجالات النشر الأخرى القائمة على العلوم الاجتماعية والتكنولوجيا والهندسة والرياضيات تحديات أيضًا، وتكون لها نتائج مماثلة.