سرآغاز روایت هوش مصنوعی از دنیای تصاویر

خلق تصاویر سه‌بعدی با فرمان‌های متنی

سیستم جدید ۳D-GPT محصول تحقیقات گسترده و مشترک دانشمندان و محققان دانشگاه دولتی استرالیا، دانشگاه آکسفورد و آکادمی هوش مصنوعی پکن است که می‌تواند فرمان‌های متنی کاربران را به تصاویر سه‌بعدی تبدیل کند. این سیستم در مقایسه با روش‌های سنتی الگوسازی سه‌بعدی، روشی شهودی و مفیدتر برای خلق تصاویر سه‌بعدی است که می‌تواند با دقت بالا وظایف مربوط به الگوسازی سه‌بعدی را به بخش‌های قابل دسترس و ساده تبدیل و دستیار هوش مصنوعی مناسب برای هر کدام از این وظایف را انتخاب کند. این سیستم از ابزارها و الگوهای مختلف هوش مصنوعی بهره می‌گیرد که هرکدام روی یک بخش متفاوت درک سریع متن و اجرای فرآیند الگوسازی، متمرکز می‌شوند.

این محققان اعلام کرده‌اند که سیستم ۳D-GPT الگوهای بزرگ زبانی را به‌عنوان ابزارهای ماهری برای حل مشکلات به‌کار می‌گیرد و به خوبی تشخیص می‌دهد که از هرکدام در کجا استفاده کند. مهم‌ترین کارکرد این سیستم در ارسال وظایف و کارهاست که ساختار متن را تجزیه می‌کند و سپس با مفهوم‌سازی جزئیات فراموش‌شده از توصیف اولیه را به آن اضافه می‌کند و در نهایت با کنار هم گذاشتن تمام پارامترها و تولید کد، شروع به ارسال این کدها به یک نرم‌افزار تولید تصاویر سه‌بعدی مانند Blender می‌کند. این سیستم با تجزیه فرآیند الگوسازی و تخصیص ابزارهای هوش مصنوعی ویژه، امکان تفسیر پیام‌ها و فرمان‌های متنی را فراهم آورده، این توصیفات را با جزئیات بیشتر غنی می‌کند و در نهایت یک مجموعه تصاویر سه‌بعدی تولید می‌کند که با تصورات کاربر تا حد زیادی همخوانی و مطابقت دارد.

این سیستم با اولین آزمایش، تصویری سه‌بعدی از «یک صبح بهاری و مه‌آلود را خلق کرد که در آن علفزاری سرسبز در محاصره نهال‌های جوان قرار دارند و شبنم بر گلبرگ گل‌ها نشسته است.» ۳D-GPT توانست صحنه‌ سه‌بعدی کاملی با گرافیک واقعی تولید کند که به خوبی عناصر توصیف‌شده در متن را منعکس می‌کرد. درحالی‌که کیفیت این تصویر گرافیکی هنوز به خوبی یک عکس واقعی نیست، اما نتایج اولیه نشان داد که این سیستم می‌تواند خلق تصاویر سه‌بعدی از متن را ساده‌سازی کند. بررسی‌های تجربی نشان می‌دهد که سیستم ۳D-GPT نه تنها ساختارهای متنی را منتقل و اجرا می‌کند، بلکه نتایج معتبری را ارائه می‌دهد و به شکل تاثیرگذاری می‌تواند با طراحان گرافیک همکاری کند. این سیستم با تولید کد برای کنترل نرم‌افزارهای سه‌بعدی موجود به جای مدل‌سازی بر اساس طرح، بنیاد انعطاف‌پذیری را برای پایه‌گذاری تکنیک‌های الگوسازی ارائه می‌دهد که به کمک آن می‌توان الگوهای پیشرفته‌تری را هم ایجاد کرد. این سیستم هنوز در مراحل اولیه است و محدودیت‌هایی دارد؛ اما روند توسعه آن قدم مهمی به سمت الگوسازی سه‌بعدی مبتنی بر هوش مصنوعی است.

بازوی تصویرساز چت جی‌پی‌تی برای کسب‌وکارها

همزمان با خبر ارائه ۳D-GPT به‌عنوان یک محصول تحقیقاتی و انقلابی، شرکت OpenAI به‌عنوان خالق چت‌بات جنجالی چت جی‌پی‌تی هم از عرضه یک الگوی هوش مصنوعی مولد تصویر به نام DALL-۳ خبر داد که از ماه سپتامبر نوید آن را داده بود. این ابزار در اختیار مشترکان سرویس ChatGPT Plus (با حق‌اشتراک پایه ماهانه ۲۰ دلار) و سرویس ChatGPT برای کسب‌وکارها (با قیمت‌های متفاوت) قرار خواهد گرفت. OpenAI در وبلاگ خود این خبر را اعلام کرد و نوشت: «الگوی DALL-۳ در مقایسه با الگوهای قبلی می‌تواند تصاویری را تولید کند که نه تنها از نظر بصری بهتر و برجسته‌تر هستند، بلکه جزئیات زنده‌تری هم دارند. این ابزار می‌تواند جزئیات پیچیده‌ای از جمله متن، دست‌ها و صورت‌ها را به تصاویر معتبری تبدیل کند. علاوه بر این، الگوی DALL-۳ به‌ویژه در پاسخ به فرمان‌های مفصل و پر از جزئیات خوب عمل می‌کند و می‌تواند از هر دو نسبت‌های تصویر دورنما (landscape) و پرتره (portrait) پشتیبانی کند.این در حالی است که الگوی DALL-۳ همچنین توانایی تولید متن و تایپوگرافی را هم به کاربران می‌دهد که به‌ویژه برای کاربردهای بازاریابی، برندینگ و دیگر فرآیندهای تولید محتوا برای کسب‌وکارها مفید و راهگشا خواهد بود. به این ترتیب این ابزار قابلیت‌هایی فراتر از دیگر الگوهای هوش مصنوعی مولد تصویر رقیب مانند Adobe Firefly ۲ و Midjourney را در اختیار کاربرانش قرار می‌دهد.

یک آموزگار حسابی برای روبات‌ها

ماراتن هوش مصنوعی برای ورود به دنیای تصاویر به تازگی اما توفانی و پر تب و تاب آغاز شده است. همزمان با این تحولات شرکت انویدیا که این روزها با طراحی و تولید پردازنده‌های پیشرفته هوش مصنوعی در جهان تکنولوژی سر و صدا به پا کرده است، اعلام کرد که یک دستیار هوش مصنوعی جدید را توسعه داده که بر پایه الگوی هوش مصنوعی مولد GPT-۴ شرکت OpenAI است و می‌تواند به‌طور خودکار مهارت‌های پیچیده و سخت را به روبات‌ها آموزش دهد.

این دستیار که «اورکا» (Eureka) نام دارد، برای اولین‌بار امکان آموزش بازوی روباتیک برای اجرای روش‌های قلم‌زنی و نوشتن را درست به همان شکلی که انسان انجام می‌دهد، ارائه می‌کند. اورکا همچنین به روبات‌ها آموزش می‌دهد تا کشوهای کمد و کابینت را باز کنند، توپ‌ها را پرتاب کنند و بگیرند و با مهارت بتوانند قیچی را کنترل کرده و از آن استفاده کنند. در حقیقت این دستیار هوش مصنوعی امکان آموزش چیزی در حدود ۳۰کار به روبات‌ها را دارد.

یکی از مدیران ارشد بخش تحقیقات هوش مصنوعی شرکت انویدیا در وبلاگ این شرکت نوشته است: «تقویت یادگیری می‌تواند یک پیروزی تاثیرگذار و مهم در طول چند دهه اخیر باشد؛ هرچند همچنان چالش‌های بسیاری از قبیل طراحی پاداش، در پیش‌رو قرار دارند. اورکا اولین قدم به سمت توسعه الگوریتم‌های جدیدی است که هوش مصنوعی مولد را با روش‌های تقویت یادگیری ادغام می‌کند تا بتواند به انجام وظایف و فرمان‌های سخت و پیچیده کمک کند.»

بازوی تحقیقاتی شرکت انودیا همچنین آرشیوی از الگوریتم‌های هوش مصنوعی اورکا را منتشر کرده است تا افراد بتوانند آن را در کار با سیستم شبیه‌ساز ورزش Nvidia Isaac Gym امتحان کنند. این سیستم شبیه‌ساز مبتنی بر پلتفرم Nvidia Omniverse است که برای ایجاد ابزارهای سه‌بعدی و اپلیکیشن‌های مبتنی بر ساختار OpenUSD به‌کار می‌رود.

طبق اعلام شرکت انویدیا، توسعه دستیار هوش مصنوعی اورکا از ماه آوریل آغاز شده و بر پایه دیگر دستیارهای هوش مصنوعی خودکار از قبیل Auto-GPT، BabyAGI و AgentGPT توسعه یافته است. هفته گذشته جف کلون، استاد علوم کامپیوتری دانشگاه بریتیش کلمبیا و محقق سابق شرکت OpenAI در مصاحبه با نیویورک‌تایمز درباره تلاش‌ها و اقداماتی که برای تغییر شکل و تبدیل چت‌بات‌های هوش مصنوعی به دستیارهای آنلاین انجام می‌شود، گفت: «این یک فرصت تجاری بسیار بزرگ است که پتانسیل درآمدزایی تریلیون دلاری را برای کسب‌وکارها به همراه خودش می‌آورد. این یک مزیت بزرگ است که می‌تواند پیامدهای بسیار مثبتی برای کل جامعه داشته باشد.»

درواقع دستیار هوش مصنوعی اورکا شرکت انویدیا، ترکیبی منحصربه‌فرد از الگوهای زبانی بزرگ و تکنولوژی‌های شبیه‌ساز مبتنی بر GPUهای این شرکت است. جیم فان، دانشمند و محقق ارشد شرکت انویدیا با تاکید بر این موضوع در وبلاگ این شرکت نوشته است: «ما معتقدیم که دستیار هوش مصنوعی اورکا امکان کنترل و مدیریت روبات‌های ماهر و پیشرفته را دارد و روشی جدید برای تولید انیمیشن‌های باکیفیت و واقعی‌تری را به هنرمندان و طراحان خواهد داد.» این همان نکته‌ای است که بسیاری از کارشناسان و محققان در تایید عملکرد محصول جدید شرکت انویدیا اعلام کرده و معتقدند که این ابزار هوشمند می‌تواند در انجام بیش از ۸۳درصد از امور به متخصصان انسانی کمک کند.

اخبار مرتبط