لا أعتقد أنه سيكون طويلاً حتى ذلك الحين OpenAI كما ستلعب دورًا في تطوير محرك بحث قائم على الذكاء الاصطناعي. الجديد web crawler GPTBot مع نموذج اللغة العريضة GPT-5 الذي تم إصداره بالفعل.
Cei care utilizează ChatGPT știu că acest model de limbaj larg (LLM) قيد التشغيل حاليًا GPT-3.5، يجري تدريبه على مجموعة بيانات تم تحديثها في سبتمبر 2021. لذلك إذا تم طلب معلومات أحدث من هذا التاريخ ، شات جي بي تي غير قادر على تقديم معلومات دقيقة. بالطبع ، صالح للإصدار المجاني الذي لا يدعم استخدام المكونات الإضافية.
مع صدور GPTBot, OpenAI الطريق مفتوح لفهرسة صفحات الويب من خلال هذا الجديد web crawler. كما تفعل شركات مثل Google و Microsoft و Yahoo والعديد من الشركات الأخرى منذ سنوات عديدة.
GPT-5 والويب كراولر الجديد GPTBot الذي تم تطويره بواسطة OpenAI.
الجديد web crawler GPTBot يستخدم web agent:
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
يمكن لمالكي مواقع الويب التحكم في فهرسة صفحات الويب من خلال الملف robots.txt
، باستخدام نفس التوجيهات للآخرين web crawlerوشركات أخرى.
على سبيل المثال ، إذا كان مالك موقع الويب لا يريد ذلك OpenAI لجمع المعلومات من الموقع ، قد تضيف في robots.txt
الخطوط:
User-agent: GPTBot
Disallow: /
حتى لو كان يتصرف مثل واحد web crawler, GPTBot سيكون له غرض مميز: حصاد البيانات المتاحة للجمهور مع تجنب المصادر التي تتضمن حظر الاشتراك غير المدفوع ، أو جمع البيانات الشخصية ، أو المحتوى الذي ينتهك السياسات OpenAI.
ولكن هناك عدد غير قليل من الخلافات ، حتى أن بعضها أثار إجراءات قانونية ضد الشركة OpenAI بشأن الخصوصية واستخدام المحتوى دون موافقة المؤلفين أو دون تحديد المصادر.
في يونيو ، أصدر منظم الخصوصية في اليابان تحذيرًا إلى OpenAI cu privire la colectarea neautorizată a datelor. De asemenea, la începutul acestui an, Italia a interzis temporar utilizarea ChatGPT din cauza presupuselor încălcări ale legilor Uniunii Europene privind confidențialitatea.