ในการต่อสู้ฟาดฟันกันอย่างเปิดเผยระหว่างสองบริษัทเทคโนโลยียักษ์ใหญ่ Cloudflare และ Perplexity อุตสาหกรรม AI กำลังพบกับความท้าทายที่สำคัญซึ่งเกี่ยวข้องกับความสามารถในการป้องกันข้อมูลจากการเก็บรวบรวมของ AI การโต้ตอบที่เริ่มต้นจากรายงานที่กล่าวหาว่า Perplexity ใช้เทคนิคการ "crawling แบบลับ" เพื่อเข้าถึงข้อมูลที่เจ้าของเว็บไซต์ไม่ต้องการให้เปิดเผยนี้ได้เผยแพร่ข้อบกพร่องที่มีอยู่ในเทคโนโลยีการตรวจจับบอท ซึ่งมีผลกระทบต่อวิธีการที่ธุรกิจต่าง ๆ ป้องกันเนื้อหาของตนเองจากการรบกวนของ AI
การโต้เถียงเริ่มขึ้นเมื่อ Cloudflare ซึ่งทำหน้าที่เป็นผู้นำด้านโครงสร้างพื้นฐานคลาวด์ ปล่อยรายงานเทคนิคที่ระบุว่า Perplexity ใช้เว็บเบราว์เซอร์ที่ปลอมตัวเพื่อหลบเลี่ยงการบล็อกของเว็บไซต์และเก็บข้อมูลที่เจ้าของเว็บไซต์พยายามป้องกัน การตอบโต้ที่ไวไวของ Perplexity ได้ประกาศว่าข้อกล่าวหาดังกล่าวเป็นเพียง “กลยุทธ์การประชาสัมพันธ์” ของ Cloudflare ที่ต้องการผลักดันแคมเปญการตลาด หรือกล่าวหาว่า Cloudflare “ไม่เข้าใจ” ปัญหาในตลาด
ตามที่รายงานโดย Cloudflare ปัญหาเริ่มต้นขึ้นเมื่อได้รับการร้องเรียนจากลูกค้าว่า Perplexity ยังเข้าถึงเนื้อหาที่ถูกบล็อกโดยการใช้ไฟล์ robots.txt และกฎไฟร์วอลล์ โดย Cloudflare ได้ทดลองสร้างโดเมนใหม่ที่บล็อกบอท AI ทุกประเภท และเมื่อถาม Perplexity เกี่ยวกับเว็บไซต์ที่ถูกจำกัด กลับได้พบว่ามันยังให้ข้อมูลรายละเอียดเกี่ยวกับเนื้อหาที่ถูกบล็อกอยู่ดี
การตรวจสอบของ Cloudflare พบว่าเมื่อฟีเจอร์บอทที่ประกาศโดย Perplexity ถูกบล็อก มันได้สลับไปใช้ User Agent ของเบราว์เซอร์ทั่วไปที่ถูกออกแบบมาให้เหมือน Chrome บน macOS ทำให้เกิดการร้องขอมากถึง 3-6 ล้านครั้งต่อวันจากเว็บไซต์ต่าง ๆ ขณะที่บอทของ Perplexity เองทำการร้องขอเพียง 20-25 ล้านครั้งต่อวัน
Cloudflare ย้ำว่า พฤติกรรมดังกล่าวขัดต่อหลักการพื้นฐานของเว็บไซต์ที่มีอยู่ “อินเทอร์เน็ตในปัจจุบันถูกสร้างขึ้นจากความเชื่อใจ ความโปร่งใส คือสิ่งที่สำคัญในโครงสร้างนี้” และกล่าวว่าเมื่อทดสอบกับ OpenAI’s ChatGPT พบว่า ChatGPT ปฏิบัติตามกฎการบล็อกเมื่อเห็นว่าไม่สามารถเข้าถึงเนื้อหาได้
แต่ Perplexity ไม่ได้ให้ความสำคัญกับข้อกล่าวหาดังกล่าว โดยระบุในโพสต์ LinkedIn ว่า Cloudflare กำลังใช้พวกเขาเป็นเครื่องมือในการโปรโมตตนเองว่าถูกต้อง ด้วยข้อเสนอที่ว่า Cloudflare อาจทำการ "misattribute" การร้องขอจากบริการ BrowserBase ที่เป็นบริการเบราว์เซอร์ของบุคคลที่สาม
พวกเขายืนยันว่าการร้องขอบางส่วนที่ถูกกล่าวถึงนั้นมาจาก BrowserBase ที่มีการใช้งานเพียงเล็กน้อยกว่า 45,000 รายการต่อวัน แทนที่จะเป็นการ "stealth crawling" ที่ Cloudflare กล่าวถึง ส่วน Perplexity ก็ยังชี้แจงว่า AI ของพวกเขาไม่เก็บข้อมูลที่ได้มา แต่เพียงนำข้อมูลที่สดใหม่จากเว็บไซต์ต่าง ๆ มาสรุปเพื่อสร้างคำตอบที่ดีที่สุดให้กับคำถามของผู้ใช้
ความวุ่นวายนี้ทำให้ผู้เชี่ยวชาญในอุตสาหกรรมสะท้อนว่า ปัญหาที่เกิดขึ้นนี้ย้ำเตือนว่าเครื่องมือการตรวจจับบอทในปัจจุบันยังไม่สามารถแยกแยะระหว่างบริการ AI ที่ถูกต้องตามกฎหมายกับบอทที่อันตรายได้ อีกทั้งยังมีปัญหาในเรื่องการให้ข้อมูลที่รวดเร็วและแม่นยำแก่ผู้ใช้
ในขณะที่ Cloudflare และ Perplexity ขัดแย้งกันอย่างรุนแรงนี้ มันยังชี้ให้เห็นถึงปัญหาที่กว้างขึ้นในนโยบายการป้องกันข้อมูลของบริษัทต่าง ๆ ว่าอาจมีข้อบกพร่องหรือด้อยประสิทธิภาพในการปกป้องข้อมูลของตนเอง อีกทั้งยังมีความเสี่ยงที่รูปร่างของโลกอินเทอร์เน็ตจะกลายเป็นสองชั้น ที่เข้าถึงข้อมูลขึ้นอยู่กับว่าเครื่องมือหรือบริการใดได้ถูกอนุมัติจากผู้ให้บริการโครงสร้างพื้นฐาน
ในสังคมที่กำลังเปลี่ยนแปลงเหล่านี้ บริการต่าง ๆ อย่าง OpenAI ก็ยังคงไม่หยุดพัฒนา โดยได้มีโครงการ Web Bot Auth ที่จะช่วยยืนยันตัวตนของบอทในการร้องขอข้อมูลเพื่อเพิ่มความเชื่อถือได้และลดความสับสนในระบบการเข้าถึงข้อมูลต่อไป
การเผชิญหน้าครั้งนี้นับว่ามีความสำคัญต่อทุกบริษัทที่เกี่ยวข้องกับเทคโนโลยีและ AI เพื่อค้นหาวิธีการใหม่ในการสร้างเครือข่ายที่มีความยั่งยืนและโปร่งใส โดยมีความเป็นไปได้ที่จะมีมาตรฐานที่ชัดเจนในการใช้เทคโนโลยีเหล่านี้ในอนาคต