گوگل از سالها پیش بر هوش مصنوعی تمرکز داشته و اولین شرکت در زمینه هوش مصنوعی می باشد. اکنون، یک سال پس از انتشار ChatGPT که انقلابی در هوش مصنوعی ایجاد کرد، گوگل نیز تصمیم گرفته است تا حرکت بزرگی در این زمینه انجام دهد.
به گفته Sundar Pichai (مدیر عامل گوگل)، گوگل عصر جدیدی از هوش مصنوعی را آغاز میکند. Gemini مدل زبانی بزرگ و جدید گوگل می باشد که Pichai اولین نسخه آن را در کنفرانس توسعهدهندگان I/O در ژوئن 2023 معرفی کرد و اکنون بهطور رسمی برای عموم منتشر شده است. به گفته Pichai و مدیر عامل Google DeepMind با نام Demis Hassabis، این مدل یک جهش بزرگ در زمینه هوش مصنوعی می باشد که در نهایت بر تقریباً تمام محصولات گوگل تأثیر خواهد گذاشت. Pichai میگوید: "یکی از ویژگیهای قدرتمند مدل زبان Gemini این است که شما میتوانید روی یک فناوری زیربنایی کار کنید و آن را بهبود ببخشید و این بهبود به سرعت در تمامی محصولات ما اعمال گردد."
Gemini بیش از یک مدل هوش مصنوعی واحد می باشد. یک نسخه سبکتر به نام Gemini Nano وجود دارد که برای اجرا به صورت بومی و آفلاین روی دستگاههای اندرویدی طراحی شدهاست. یک نسخه قدرتمندتر به نام Gemini Pro نیز به زودی بسیاری از خدمات Google AI را تأمین خواهد کرد و از امروز به عنوان پایه و اساس Bard عمل خواهد نمود.
همچنین یک مدل حتی با قابلیتهای بیشتر به نام Gemini Ultra وجود دارد و قدرتمندترین LLM (مدل زبانی بزرگ) می باشد که Google تاکنون ایجاد کرده و به نظر میرسد بیشتر برای مراکز داده و کاربردهای سازمانی طراحی شدهاست.
تصویر(1)
گوگل در حال حاضر جمنای را به چند روش مختلف عرضه میکند. Bard اکنون توسط Gemini Pro تأمین میشود و کاربران Pixel 8 Pro چند ویژگی جدید را به لطف Gemini Nano دریافت خواهند کرد. (Gemini Ultra سال آینده عرضه خواهد شد.) توسعهدهندگان و مشتریان سازمانی از تاریخ 13 دسامبر میتوانند از طریق Google Generative AI Studio یا Vertex AI در Google Cloud به Gemini Pro دسترسی داشته باشند. Gemini در حال حاضر فقط به زبان انگلیسی در دسترس است اما به نظر میرسد زبانهای دیگر به زودی اضافه شوند. Pichai میگوید این مدل در نهایت در موتور جستجوی Google، محصولات تبلیغاتی، مرورگر Chrome و موارد دیگر در سراسر جهان ادغام خواهد شد.
OpenAI یک سال پیش ChatGPT را راه اندازی کرد و این شرکت و محصول آن بلافاصله به بزرگترین بازیگران حوزه هوش مصنوعی تبدیل شدند. گوگل که بسیاری از فناوریهای بنیادی پشتیبان این هوش مصنوعی را ایجاد کرده و خود را نزدیک به یک دهه "AI-first" خوانده، به وضوح توسط ChatGPT و پیشرفتی که فناوری OpenAI به دست آورده است، غافلگیر شده و در نهایت آماده مبارزه در برابر این رقیب قوی می باشد.
جمنای با 32 بنچمارک معتبر بررسی و عملکرد آن سنجیده شده است. در بنچمارکهای انجام شده بزرگترین مزیت Gemini، توانایی آن در درک و تعامل با فیلم و صدا می باشد. این ویژگی کاملاً از پیش طراحی شده است. چندرسانهای بودن از ابتدا بخشی از برنامه Gemini بود.
Google مدلهای جداگانهای را برای تصاویر و صدا آموزش نداده و مانند OpenAI که DALL-E و Whisper را ایجاد کرده، از ابتدا یک مدل چند حسی طراحی کرده است. Hassabis میگوید: «ما همیشه به سیستمهای عمومی علاقهمند بودهایم». او بهویژه به نحوه ترکیب همه این حالتها یعنی جمعآوری بیشترین دادهها از هر تعداد ورودی، حس و سپس پاسخ دادن با همان تنوع، علاقهمند است.
با این حال، تستهای استاندارد تنها برای محیط های آزمایشگاهی هستند و در نهایت، آزمون واقعی برای عملکرد Gemini توسط کاربرانی که میخواهند از آن برای جستجوی اطلاعات، نوشتن کد و کارهای دیگر استفاده کنند، انجام می شود. به نظر میرسد گوگل کدنویسی را یک کاربرد ویژه برای Gemini میبیند و از یک سیستم جدید کدنویسی به نام AlphaCode 2 استفاده میکند که ادعا دارد عملکرد بهتری نسبت به 85 درصد از شرکتکنندگان در مسابقات کدنویسی خواهد داشت، در حالی که نسخه اصلی AlphaCode 50 درصد بود اما Pichai میگوید که کاربران در تقریباً همه چیزهایی که مدل به آن میپردازد، بهبودی را مشاهده خواهند کرد.
برای گوگل، مهم تر از همه این است که Gemini یک مدل بسیار کارآمدتری به نظر برسد. این مدل روی واحدهای پردازش Tensor (TPU) اختصاصی گوگل آموزش دیده و سریعتر و ارزانتر از مدلهای قبلی گوگل مانند PaLM اجرا میشود. در کنار مدل جدید، گوگل نسخه جدیدی از سیستم TPU خود، TPU v5p را راهاندازی میکند، یک سیستم محاسباتی که برای استفاده در مراکز داده جهت آموزش و اجرای مدلهای بزرگ مقیاس، طراحی شده است.
تصویر(2)
با توجه به گفتگوهای انجام شده با Pichai و Hassabis، مشخص است که آنها Gemini را هم به عنوان آغاز پروژه بزرگتر و هم به عنوان یک گام عظیم در گوگل میبینند. Gemini همان مدلی است که گوگل منتظر آن بوده و همان مدلی می باشد که سالها در حال ساخت آن بوده است، شاید حتی می بایست قبل از اینکه OpenAI و ChatGPT دنیا را تسخیر کنند، ارائه می شد.
گوگل که پس از راهاندازی ChatGPT اعلام "code red" کرد و از آن زمان به بعد به دنبال جبران عقبماندگی بوده است، به نظر میرسد هنوز سعی دارد به شعار "bold and responsible" خود پایبند باشد. Hassabis و Pichai هر دو میگویند که مایل نیستند فقط برای همگام شدن با رقبا خیلی سریع صرفا یک هوش مصنوعی معمولی راه اندازی نمایند. هوش مصنوعی عمومی، اصطلاحی برای هوش مصنوعی می باشد که خود را بهبود میبخشد، از انسانها هوشمندتر است و آماده تغییر جهان می باشد. Hassabis میگوید: "با نزدیکتر شدن به هوش مصنوعی عمومی، همه چیز متفاوت خواهد بود. این یک فناوری فعال است، بنابراین فکر میکنم باید با احتیاط به آن نزدیک شویم. با احتیاط اما خوشبینانه."
تصویر(3)
گوگل میگوید که سخت تلاش کرده است تا ایمنی و مسئولیت پذیری Gemini را هم از طریق آزمایشهای داخلی و خارجی و هم از طریق تیم قرمز (تیم قرمز گوگل متشکل از یک گروه هکر است که انواع مختلفی از دشمنان را شبیهسازی و در اصل به عنوان یک دشمن به سیستم حمله می کنند تا باگ های آن را شناسایی نمایند) تضمین نماید. Pichai خاطرنشان میکند که اطمینان از امنیت دادهها، بهویژه برای محصولاتی که ابتدا توسط شرکتها استفاده میشوند، بسیار مهم است اما Hassabis به این واقعیت اذعان میکند که یکی از خطرات راهاندازی سیستم AI پیشرفته این خواهد بود که ممکن است دارای مشکلات و آسیبپذیریهایی باشد و هیچکس نتواند آنها را پیشبینی کند.
نتیجه گیری
سالها است که Pichai و سایر مدیران گوگل درباره پتانسیل هوش مصنوعی صحبت می کنند. خود Pichai چندین بار گفته است که هوش مصنوعی برای بشریت از آتش یا برق تأثیرگذارتر خواهد بود. در نسخه اولیه مدل Gemini، ممکن است دنیا را تغییر ندهد اما به گوگل کمک کند تا در رقابت با OpenAI عقب نماند.