كيفية منع الوصول إلى SeekportBot أو غيرها جrawلقد نقرت على موقع على شبكة الإنترنت

في معظم الأحيان ، عندما تحتاج إلى حظر الوصول SeekportBot او اخرين crawl bots مع موقع الويب ، الأسباب بسيطة. يقوم عنكبوت الويب بإجراء العديد من عمليات الوصول في فترة زمنية قصيرة ويطلب موارد خادم الويب ، أو يأتي من محرك بحث لا تريد فهرسة موقع الويب الخاص بك فيه.

إنه مفيد جدًا لموقع الويب الذي يزوره crawاصطدمت به. تم تصميم عناكب الويب هذه لاستكشاف ومعالجة وفهرسة محتوى صفحات الويب في محركات البحث. تستخدم Google و Bing مثل crawاصطدمت به. ومع ذلك ، هناك أيضًا محركات بحث تستخدم الروبوتات لجمع البيانات من صفحات الويب. Seekport هو أحد محركات البحث هذه ، والذي يستخدم crawSeekportBot ler لفهرسة صفحات الويب. لسوء الحظ ، فإنه يستخدمه أحيانًا بشكل مفرط ويؤدي إلى حركة مرور غير ضرورية.

ما هو SeekportBot؟

SeekportBot هو web crawler التي طورتها الشركة Seekport، التي يوجد مقرها في ألمانيا (ولكنها تستخدم عناوين IP من عدة بلدان ، بما في ذلك فنلندا). يستخدم هذا الروبوت للزحف إلى مواقع الويب وفهرستها بحيث يمكن عرضها في نتائج محرك البحث. Seekport. محرك بحث غير وظيفي ، بقدر ما أستطيع أن أقول. على الأقل ، لم تُرجع أي نتائج بالنسبة لي لأي عبارة رئيسية.

SeekportBot استخدم user agent:

"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"

كيفية منع الوصول إلى SeekportBot أو غيرها جrawلقد نقرت على موقع على شبكة الإنترنت

إذا توصلت إلى استنتاج مفاده أن عنكبوت الويب هذا أو غيره ، فليس من الضروري فحص موقع الويب بالكامل وإجراء زيارات غير ضرورية إلى خادم الويب ، فلديك عدة طرق يمكنك من خلالها منع وصولهم.

جدار الحماية على مستوى خادم الويب

إنها تطبيقات جدار الحماية open-source والتي يمكن تثبيتها على أنظمة التشغيل Linux ويمكن تهيئتها لمنع حركة المرور على أساس عدة معايير. عنوان IP أو الموقع أو المنافذ أو البروتوكولات أو وكيل المستخدم.

APF (Advanced Policy Firewall) هو مثل هذا البرنامج الذي يمكنك من خلاله منع الروبوتات غير المرغوب فيها ، على مستوى الخادم.

نظرًا لأن SeekportBot وعناكب الويب الأخرى تستخدم كتلًا متعددة من عناوين IP ، فإن قاعدة الحظر الأكثر فعالية تعتمد على "user agent". لذلك ، إذا كنت تريد منع الوصول SeekportBot بواسطة APF، كل ما عليك فعله هو الاتصال بخادم الويب عبر SSH، وأضف قاعدة التصفية في ملف التكوين.

1. افتح ملف التكوين باستخدام nano (أو ناشر آخر).

sudo nano /etc/apf/conf.apf

2. ابحث عن السطر الذي يبدأ بـ "IG_TCP_CPORTS"وأضف وكيل المستخدم الذي تريد حظره في نهاية هذا السطر ، متبوعًا بفاصلة. على سبيل المثال ، إذا كنت تريد حظر user agent "SeekportBot"، يجب أن يبدو الخط كالتالي:

IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"

3. احفظ الملف وأعد تشغيل خدمة APF.

sudo systemctl restart apf.service

سيتم حظر وصول "SeekportBot".

منقي web crawls بمساعدة Cloudflare - حظر الوصول إلى SeekportBot

بمساعدة Cloudflare ، يبدو لي الطريقة الأكثر أمانًا والأكثر ملاءمة التي يمكنك من خلالها تقييد وصول بعض الروبوتات إلى موقع ويب بطرق مختلفة. الطريقة التي استخدمتها أيضًا في الحالة SeekportBot لتصفية حركة المرور إلى متجر على الإنترنت.

بافتراض أنك قد أضفت موقع الويب بالفعل إلى Cloudflare وأن خدمات DNS نشطة (أي أن حركة المرور إلى موقع الويب تمر عبر Cloudflare) ، فاتبع الخطوات التالية:

1. افتح حساب Clouflare الخاص بك وانتقل إلى موقع الويب الذي تريد تقييد الوصول إليه.

2. انتقل إلى: Security → WAF وإضافة قاعدة جديدة. Create rule.

3. اختر اسمًا للقاعدة الجديدة ، Field: User Agent - Operator: Contains - Value: SeekportBot (أو اسم بوت آخر) - Choose action: Block - Deploy.

كيفية منع وصول SeekportBot
حظر الوصول إلى SeekportBot من Cloudflare

في ثوان معدودة ، القاعدة الجديدة WAF (Web Application Firewall) يبدأ العمل به.

أحداث جدار الحماية في Cloudflare
أحداث جدار الحماية في Cloudflare

من الناحية النظرية ، يمكن ضبط التردد الذي يصل به عنكبوت الويب إلى الموقع robots.txt، لكن ... من الناحية النظرية فقط.

User-agent: SeekportBot
Crawl-delay: 4

كثير web crawlerii (باستثناء Bing و Google) لا تتبع هذه القواعد.

في الختام ، إذا قمت بتحديد موقع الويب جrawمن يقوم بالوصول إلى موقعك بشكل مفرط ، فمن الأفضل منع وصوله تمامًا. بالطبع ، إذا لم يكن هذا الروبوت من محرك بحث تهتم بالتواجد فيه.

شغوفة بالتكنولوجيا ، أكتب بسرور StealthSettings.com منذ عام 2006. لدي خبرة واسعة في أنظمة التشغيل: macOS, Windows سي Linuxبل أيضًا في لغات البرمجة ومنصات التدوين (WordPress) وللمتاجر عبر الإنترنت (WooCommerce، ماجنتو، بريستاشوب).

كيف » صافي التزحلق » كيفية منع الوصول إلى SeekportBot أو غيرها جrawلقد نقرت على موقع على شبكة الإنترنت
اترك تعليق