جمع‌آوری اطلاعات از اینترنت برای چت‌جی‌پی‌تی توسط بات جدید اوپن‌ای‌آی

این مساله شکایت‌های متعدد نویسندگان و سایر کاربران اینترنت را به دنبال داشته است. بسیاری از اوپن‌ای‌آی و سایرین به دلیل استفاده از اطلاعات شخصی و محتوای دارای حق نشر برای آموزش مدل‌هایشان که از این متن‌‌ها به‌طور بالقوه به عنوان اطلاعات استفاده می‌کنند یا حتی این متن‌ها در پاسخ‌های سیستم تکرار می‌شوند، انتقاد کرده‌اند. شرکت‌های هوش مصنوعی با انتقاد افراد دیگری نیز مواجه شده‌اند که ادعا می‌کنند چنین وب‌گرد‌هایی یا اصطلاحا «خزندگان وب» زیرساخت وب‌ آنها را مجبور می‌کنند از نهایت ظرفیتش استفاده کند. به عنوان نمونه، ایلان ماسک گفته که بار این بات‌‌ها توییتر را مجبور کرده‌اند تعداد پست‌هایی را که کاربران می‌توانند در سایت مشاهده کنند، محدود کند. چت‌جی‌پی‌تی‌۵/ ۳ و ۴ موجود اوپن‌ای‌آی بر اساس داده‌های برداشته‌شده از اینترنت تا اواخر سال ۲۰۲۱ آموزش داده شده‌اند. برای مالکان آن داده‌ها یا برای وب‌سایت‌هایی که این داده‌ها از آنها جمع‌آوری شده‌اند، هیچ راهی وجود ندارد که این اطلاعات را از مدل‌های اوپن‌ای‌آی حذف کنند. اینک اوپن‌ای‌آی می‌گوید سیستم جدید که «جی‌پی‌تی‌بات» نام دارد، در میان داده‌ها و متن‌ها در وب می‌چرخد تا برای آموزش دادن به مدل‌های آتی، اطلاعات بیشتری جمع‌آوری کند. به مدیران وب‌سایت‌ها گفته شده که اگر نمی‌خواهند این اطلاعات جمع‌آوری شود، باید برای بات دستورالعمل‌هایی قرار دهند تا از چرخیدن آن در وب‌سایتشان جلوگیری کنند. مدیران می‌توانند چنین اطلاعاتی را در فایلی به نام robots. txt قرار دهند که به سایر خزندگان وب‌ مانند خزندگان وبی که گوگل برای نتایج جست‌وجویش از آنها استفاده می‌کند دستورالعمل‌هایی می‌دهد.