قابلیت هوش مصنوعی جدید گوگل در تبدیل تصاویر به ویدیوی کوتاه
اخیرا مهندسان شرکت گوگل از توسعه فناوری جدیدی به نام Transframer مبتنی بر هوش مصنوعی خبر دادهاند که میتواند بر اساس یک تصویر واحد، ویدیوهای کوتاه تولید کند.
هرچه پیشرفت در حوزه فناوری بیشتر میشود، محققان به کشف راهکارهای جدید برای استفاده از قابلیتهای هوش مصنوعی و یادگیری ماشینی میپردازند. یکی از این دستاوردها که تحت عنوان Transframer شناخته میشود، میتواند به دردرسرهای رندر سنتی پایان دهد و این امکان را برای توسعهدهندگان فراهم کند تا با استفاده از قابلیتهای هوش مصنوعی و یادگیری ماشینی، محیطهای مجازی را خلق کنند.
این فناوری که نوعی چارچوب جدید برای تولید ویدیوهای کوتاه با استفاده از یک تصویر محسوب میشود و این نام اشارهای به مدل مبتنی بر فناوری هوش مصنوعی Transformer دارد که در ابتدا در سال ۲۰۱۷ معرفی شد. این مدل، یک معماری جدید شبکه عصبی با قابلیت تولید متن از طریق مدل سازیو مقایسه کلمات دیگر در یک جمله است.
از آن زمان تاکنون، این مدل در چارچوبهای یادگیری ماشینی استانداردی همچون TensorFlow و PyTorch به کار رفته است. همانند Transformer که از زبان برای پیشبینی خروجیهای بالقوه بهره میبرد، Transframer برای خلق ویدیوهای کوتاه از تصاویر زمینه با تناسب مشابه استفاده میکند.
در این فناوری، ویدیوی تولیدشده حول تصویر هدف حرکت میکند و یک پرسپکتیو دقیق را تصویرسازی میکند؛ این کار در حالی انجام میشود که هیچ اطلاعات هندسی در ورودیهای تصویر اصلی ارائه نمیشود.
این فناوری جدید که با استفاده از پلتفرم هوش مصنوعی دیپمایند گوگل نشان داده شد، از طریق تجزیه و تحلیل یک تصویر واحد، سعی میکند نقاط کلیدی تصویر را استخراج و تصاویر جدیدی را خلق کند. طی این فرآیند، سیستم، چارچوببندی تصویر را شناسایی میکند که به این فناوری کمک خواهد کرد تا جزییات اطراف تصویر را پیشبینی کند.
در گام بعد، از تصویر زمینه برای پیشبینی نحوه به نمایش درآمدن یک تصویر از زوایای مختلف استفاده میشود. در اینجا، فریمهای بعدی بر اساس دادهها و دیگر اطلاعات موجود از تصویر زمینه تولید میشود.
این دستاورد با ارائه قابلیتی که میتواند یک ویدیو را با توجه به اطلاعات محدود، خلق کند، یک موفقیت بزرگ در زمینه فناوری تولید ویدیو محسوب میشود. عملکرد Transframer بسیار امیدوارکننده بوده و در تستهای مختلف، نتایج راضیکنندهای را ثبت کرده است.
این دستاورد میتواند برای صنایعی که فعالیتیشان مبتنی بر ویدیو است همانند بازیسازان بسیار مفید و کاربردی باشد. محیطهای فعلی طراحی و توسعه بازی، مبتنی بر تکنیکهای رندر همانند سایهزنی، عمق میدان و ردیابی پرتو است.