همه چیز درباره هوش مصنوعی گوگل Gemini
پکیج هوش مصنوعی مولد گوگل که Gemini نام دارد، مجموعه از مدلها، اپلیکیشنها و سرویسها است و این شرکت بنا دارد با معرفی این محصول، حسابی گرد و خاک به پا کند.
اما Gemini حقیقتا چیست و چطور میتوان از آن استفاده کرد؟
همینطور چگونه قرار است با محصولات هم رده خود رقابت کند؟ پاسخ این سوالات را در ادامه بخوانید.
Gemini چست؟
Gemini، نسل بعدی مدلهای هوش مصنوعی مولد است که گوگل مدتهاست قول عرضه آن را داده است. این سرویس توسط آزمایشگاههای هوش مصنوعی گوگل-DeepMind وGoogle Research طراحی و در سه مدل تولید شدهاند:
Gemini Ultra
Gemini Pro
Gemini Nano
تمام مدلهای Gemini قادر هستند انواع صدا، تصاویر، ویدیوها، کدها و متون در زبانهای مختلف را درک کرده و خود را با آنها تطبیق دهند.
مدلهای Gemini نسبت به مدلهای دیگر گوگل مانند LaMDA متفاوت است زیرا جمینی میتواند متن، صدا، تصویر، ویدیو و کدها را هم درک کرده و هم تولید کند. LaMDA بسیار محدودتر بوده و زمینه عملکرد آن تنها درک و تولید متن است مانند مقالات یا پیشنویسهای ایمیل.
نامگذاری محصولات گوگل همیشه منحصر به فرد بوده اما بسیاری از کاربران را گیج میکند. اما این بار مدلهای چندگانه Gemini به وضوح از اپلیکیشنهای این سرویس(که قبلا Bard نام داشت) متمایز شدهاند. این اپلیکیشنها حکم رابطی برای دسترسی به برخی از مدلهای Gemini را دارند.
قابلیتهای Gemini
مدلهای Gemini ویژگی متمایزی دارند و میتوانند با استفاده از چند مدل مختلف از داده، خروجیهای مختلفی ارائه دهند. البته برخی از قابلیتهای این سیستم هنوز آماده عرضه نیست و گوگل قول داده به زودی آنها را به سیستم اصلی اضافه میکند.
البته گوگل سابقهی خوبی در نگه داشتن قول ندارد مثلا سیستم Bard بسیار دیرتر از زمانی که اعلام شده بود، عرضه شد. فیلم اخیری نیز توسط گوگل منتشر شد که قابلیتهای سیستم Gemini را معرفی می کرد ولی مشخص شد که مونتاژ سنگینی داشته و بیشتر شبیه یک طرح مفهومی بود تا واقعیت.
فرض را بر این میگذاریم که واقعیت Gemini همانطوری باشد که گوگل معرفی کرده، بیایید ببینیم هر کدام از نسخههای مختلف جمینی چه کارهای انجام میدهند:
Gemini Ultra
Gemini اولترا طبق گفته گوگل با قابلیتهای مالتی مُدالی که دارد، میتواند در حل مسائل فیزیک کمک کند. اولترا، هم میتواند راه حل این مسائل را مرحله به مرحله توضیح داده و هم اشکال راه حل ارائه شده توسط کاربر را تشخیص دهد. به علاوه قادر است مقالات علمی مرتبط را پیدا کرده و اطلاعات به خصوصی را از آنها استخراج کند.
Gemini اولترا قابلیت تکنیکی تولید تصویر ندارد و هنوز داخل ساختار سیستمی که در دسترس عموم قرار گرفته، ادغام نشده است. دلیل این تاخیر، مکانیزم تولید تصویر به خصوص اولترا است که با نحوه عملکرد دیگر اپلیکیشنهای این حوزه متفاوت است. مثلا در چتجیپیتی، تکنیکهای سادهتری برای تولید تصویر اتخاذ شده ولی تکنیک پیچیده تولید تصویر در نسخه جمینی اولترا، هنوز در حال توسعه و آزمایش است.
Gemini اولترا ابزاری است که در توسعه اپلیکیشنهای هوشمند به توسعه دهندگان برنامه کمک میکند و از طریق پلتفرمهایی مانند Vertex AI یا AI Studio در دسترس است. البته کاربران برای استفاده از تمام قابلیتهای آن باید طرح اشتراک Google One AI را خریداری کنند که 20 دلار در ماه هزینه دارد.
Gemini پرو
به گفته گوگل، جمینی پرو نسخه ارتقا یافته پلتفرم LaMDA (یک مدل هوشمند زبان محاورهای که توسط گوگل توسعه یافته) است و قابلیت استدلال، برنامه ریزی و درک اطلاعات را دارد.
بر اساس تحقیقات مستقلی که انجام شده، جمینی پرو در زمینه مدیریت زنجیرههای استدلالی پیچیدهتر و طولاتر، نسبت چت جیپیتی نسخه 3.5 اوپن ایآی برتری دارد.
اولین نسخه ارتقا یافته این مدل، Gemini 1.5 پرو نام دارد که به خصوص در زمینه ظرفیت پردازش داده تغییرات مهمی در آن اعمال شده است. نسخه محدود(Limited) از جمینی 1.5 پرو میتواند تقریبا 700 هزار کلمه یا 30 هزار خط از کدها را مدیریت کند که 35 برابر بیشتر از از نسخه Gemini 1.0 پرو است. به علاوه، جمینی 1.5 پرو به عنوان یک مدل چند حالته، میتواند 11 ساعت فایل صوتی یا یک ساعت فایل ویدیویی را در چند زبان مختلف تحلیل و بررسی کند، که البته سرعت این فرآیند کمی آهسته است.
همچنین نسخه دیگری نیز وجود دارد به نام Gemini پرو ویژن که میتواند هم متن و هم تصویر ( چه عکس و چه ویدیو) را پردازش کرده و بر اساس آنها، خروجی متنی تولید کند، مشابه چتجیپیتی-4 شرکت اوپن ایآی.
Gemini نانو
Gemini نانو، نسخه فشرده شده مدلهای جمینی پرو و اولترا محسوب شده و میتواند مستقیما از طریق دستگاههای موبایل (فعلا فقط در گوگل پیکسل 8 پرو) اجرا شده و در واقع به یک سرور خاص وابسته نیست. این مدل، دستگاه پیکسل 8 پرو را به دو قابلیت «خلاصه نویسی» در برنامه Recorder و قابلیت «پاسخ هوشمند» در برنامه Gboard مجهز کرده است.
در برنامه Recorder، کاربر میتواند یک صدا ضبط کرده( مثل مصاحبه، مکالمه و غیره) و Gemini نانو خلاصهای از مکالمه کاربر تولید میکند. برای تولید این متون خلاصه شده، اتصال به اینترنت لازم نیست و تمام فرآیند، روی گوشی کاربر انجام میگیرد.
Gemini نانو، داخل برنامه کیبورد گوگل(Gboard) هم تلفیق شده که البته فعلا در مرحله پیش نمایش و فقط برای توسعه دهندگان در دسترس است. از دیگر قابلیتهای این مدل، «پاسخ هوشمند» است که توصیههایی متنی هستند و هنگام گفتگو در برنامههای پیغام رسانی، به کاربر پیشنهاد داده میشوند.
به گفته گوگل، این برنامه ابتدا برای اپلیکیشن واتسپ و در طول سال 2024 برای دیگر اپلیکیشنها عرضه خواهد شد.
آیا Gemini از چتجیپیتی 4 اوپن ایآی بهتر است؟
گوگل مدعی است در آزمایشاتی که توسط محققان انجام شده، Gemini در انجام سبک خاصی از دستورات، برتر از دیگر پلتفرمهای هم رده خود شناخته شده و حتی در زمینه خلاصه نویسی، هم فکری و نوشتار، نسبت به چت جیپیتی 3.5 بهتر عمل میکند.
البته برخی معتقدند این آزمایشها نمی تواند به وضوح نشاندهنده برتری پلتفرم خاصی باشد. امتیازاتی که گوگل ادعا میکند، تنها فاصله کمی با مدلهای اوپن ایآی دارند. به علاوه، بازخوردهای اولیه کاربران و متخصصان درباره مدلهای Gemini، چندان مثبت نبوده است. بسیاری معتقد هستند که جمینی پرو برخی از استدلالها و واقعیتهای ساده را اشتباه میگیرد، در ترجمه مشکل دارد و توصیههای کدنویسی نه چندان کاربردی ارائه میدهد.
هزینه استفاده از Gemini چقدر خواهد بود؟
در اپلیکیشنهای Gemini و فعلا در پلتفرمهای AI Studio و Vertex AI، استفاده از Gemini پرو رایگان است.
زمانیکه Gemini پرو در پلتفرم Vertex از حالت پیش نمایش خارج شود، به عنوان مثال خلاصه نویسی یک مقاله 500 کلمهای در جمینی پرو، تقریبا 5 دلار هزینه دارد.
هزینه استفاده از قابلیتهای نسخه اولترا هنوز اعلام نشده است.
از چه طریقی می توان Gemini را امتحان کرد؟
Gemini پرو
سادهترین راه استفاده از جمینی پرو، اپلیکیشنهای Gemini هستند. در این برنامهها، مدلهای پرو و اولترا میتوانند طیف مختلفی از درخواستها را به زبانهای مختلف پاسخ دهند.
Gemini پرو و اولترا همچنین از طریق نسخه پیش نمایش در پلتفرم Vertex AI از طریق API در دسترس هستند.
Gemini پرو و اولترا در پلتفرم AI Studio هم ارائه شدهاند. برنامه نویسان میتوانند از طریق این سرویس، پرامپتها و چتباتهای خود را تولید کرده و همچنین با دریافت کلیدهای API، این ابزارها را داخل برنامهها خود تلفیق کنند.
Gemini نانو
Gemini نانو از طریق دستگاه پیکسل 8 پرو در دسترس است و در آینده برای دیگر دستگاهها نیز ارائه میشود.
منبع: techcrunch