درک محتوای ویدئویی به کمک هوش مصنوعی

اما محققان موفق شده‌اند با استفاده از الگوریتم‌های هوش مصنوعی، سیستمی هوشمند طراحی کنند که می‌تواند اتفاقات داخل ویدئوها را درک کرده و بفهمد. گروهی از محققان MIT و IBM، الگوریتمی توسعه داده‌اند که می‌تواند فعالیت‌های داخل ویدئوها را با درصد بالایی درست تشخیص دهد و در عین حال انرژی پردازشی بسیار کمی نسبت به سیستم‌های دیگر می‌طلبد. تکنیک جدیدی که حالا برای تشخیص ویدئوها استفاده می‌شود، تا پیش از این برای تشخیص مفاهیم داخل تصویر به‌کار گرفته شده بود و حالا می‌تواند حتی برای تعداد زیادی ویدئو نیز استفاده شود. این تکنولوژی در راستای کمک به تشخیص مطالب داخل ویدئو طراحی شده، ویدئوهایی که هر روز به تعداد آنها افزوده می‌شود و هر روز، پیگیری مطالب داخل آنها سخت‌تر از روز قبل می‌شود. گزارش شده که تنها در سرویس یوتیوب، در ماه مه ‌امسال، در هر دقیقه بیش از ۵۰۰ ساعت ویدئو آپلود شده است.

این دستاورد جدید محققان، به‌زودی قادر خواهد بود به‌صورت اتوماتیک جزئیات مطالب داخل ویدئو را اعلام کند تا جدا کردن ویدئوهایی با مطالب نامناسب، راحت‌تر شود. به علاوه، دنیای تبلیغات نیز از این دستاورد می‌تواند حسابی استفاده ببرد، زیرا با طبقه‌بندی مطالب داخل ویدئو، تشخیص مخاطب مناسب نیز راحت‌تر خواهد شد. شرکت‌های تکنولوژیک مانند فیس‌بوک و گوگل نیز می‌توانند با کمک هوش‌مصنوعی، به‌صورت اتوماتیک ویدئوهایی را که حاوی بدافزار یا مطالب نامناسب است جدا کنند. هوش مصنوعی، تکنولوژی مورد علاقه بسیاری از شرکت‌های تکنولوژیک است ولی تاکنون برای تحلیل ویدئو از آن استفاده نشده بود. یوتیوب، فیس‌بوک و تیک‌تاک برای مرتب‌سازی و پیشنهاد کلیپ‌های مختلف به‌کاربران، از الگوریتم‌های یادگیری ماشینی استفاده می‌کنند. چنین شرکت‌هایی، بدون شک از ورود هوش مصنوعی به صنعت ویدئو استقبال خواهند کرد که البته لازمه آن، توسعه و پیشرفت قدرت پردازشی کامپیوترهاست.

Song Han، دستیار پروفسوری در ام‌آی‌تی است که رهبری تیم این پروژه تحقیقاتی را بر عهده دارد. وی می‌گوید: «درک ویدئوها، بسیار با اهمیت است. اما تاکنون، میزان پیشرفت ما در حوزه پردازشی محدود بوده است.» الگوریتم‌های هوش مصنوعی، انرژی زیادی مصرف می‌کنند که میزان این انرژی به طرز هشداردهنده‌ای درحال افزایش است. میزان قدرتی که کامپیوترها برای توسعه تحقیقات هوش مصنوعی استفاده می‌کنند، تقریبا هر سه سال و نیم دو برابر می‌شود. در ماه جولای، محققان موسسه هوش مصنوعی  Allen از دیگر محققان این حوزه دعوت کردند تا برای پیدا کردن راهکاری برای به صرفه‌سازی مصرف انرژی این تکنولوژی جدید، همفکری کنند. طی سال‌های اخیر، پیشرفت‌های چشمگیری در حوزه تشخیص تصویر انجام شده است که عموما با استفاده از تکنولوژی یادگیری ماشینی انجام می‌شود. یادگیری ماشینی نوعی تکنیک آماری است که برای دریافت معنی داده‌های پیچیده کاربرد دارد. الگوریتم‌های یادگیری ماشینی و یادگیری عمیق می‌توانند اشیا را براساس پیکسل‌های نمایان داخل تصویر تشخیص دهند.

اما یادگیری ماشینی به شکل کنونی، در تعبیر و تفسیر ویدئوها، کارآیی زیادی ندارد چرا که تحلیل فریم‌های یک ویدئو نمی‌تواند نشان دهد که در داخل مطالب ویدئو چه اتفاقاتی روی می‌دهد، مگر اینکه با فریم‌های پیش و پس مقایسه شود. این یعنی حجم عظیم‌تری از داده‌ها. آقای‌هان تخمین زده است که این سیستم درحال توسعه جدید می‌تواند ۵۰ برابر بیشتر از سیستم‌های قبل داده تحلیل کرده و قدرت پردازش ۸ برابر بیشتر ارائه دهد. با این ویژگی‌ها، سیستم قادر خواهد بود با استفاده از تکنیک ارتقا یافته‌تری از آموزش یادگیری ماشینی، مطالب داخل ویدئو یا تصویر را تحلیل کرده و درک کند. آقای‌هان نتایج تحقیقات خود را اولین بار، سال گذشته منتشر کرد که توجه بسیاری از شرکت‌های تکنولوژیک را جلب کرد. وی می‌گوید که شرکت چینی Baidu همین حالا از تکنیک جدید این تیم بهره‌برداری می‌کند و آن را داخل چارچوب سیستم‌های خود اعمال کرده است.

بهینه‌سازی تکنولوژی پردازش داده، می‌تواند اهمیت زیادی، برای صنعت گوشی‌های هوشمند داشته باشد. این تکنولوژی می‌تواند در اپلیکیشن‌های متعدد در زمینه‌های مختلف مانند سرگرمی، ورزشی، روباتیک و ... کارآیی داشته باشد. در این حوزه‌ها، زمان پردازش داده اهمیت زیادی دارد. آقای‌هان می‌گوید الگوریتم‌های جدید می‌توانند دستگاه‌های مختلف زیادی را هوشمندتر از قبل کنند، زیرا قابلیت تحلیل ویدئو را به آنها با کمترین سخت افزارهای ممکن اضافه می‌کنند. با کمک این تکنولوژی، گوشی‌های هوشمند آینده قادر خواهند بود جسچرها و حرکات بدنی بیشتری از کاربر تشخیص دهند. همچنین، دوربین‌های مدار بسته علاوه بر تشخیص چهره افراد قادر خواهند بود کاری که افراد انجام می‌دهند را نیز ضبط کنند. این طور که به‌نظر می‌آید ظاهرا سیستم‌های هوش مصنوعی روز به روز به دنیای انسان‌ها و درک رفتارهای انسانی نزدیک و نزدیک‌تر می‌شوند.