सीईओ सुंदर पिचाई का कहना है कि यह Google में AI के एक नए युग की शुरुआत है: जेमिनी युग। जेमिनी Google का नवीनतम बड़ा भाषा मॉडल है, जिसे पिचाई ने पहली बार जून में I/O डेवलपर सम्मेलन में छेड़ा था और अब इसे जनता के लिए लॉन्च किया जा रहा है। पिचाई और गूगल डीपमाइंड के सीईओ डेमिस हसाबिस को इसका वर्णन सुनने के लिए, यह एआई मॉडल में एक बड़ी छलांग है जो अंततः व्यावहारिक रूप से Google के सभी उत्पादों को प्रभावित करेगा। पिचाई कहते हैं, “इस क्षण के बारे में शक्तिशाली चीजों में से एक यह है कि आप एक अंतर्निहित तकनीक पर काम कर सकते हैं और इसे बेहतर बना सकते हैं और यह तुरंत हमारे उत्पादों में प्रवाहित होती है।”

जेमिनी एक एआई मॉडल से कहीं अधिक है। जेमिनी नैनो नामक एक हल्का संस्करण है जो एंड्रॉइड डिवाइस पर देशी और ऑफ़लाइन चलाने के लिए है। जेमिनी प्रो नामक एक बेहतर संस्करण है जो जल्द ही Google AI सेवाओं को शक्ति प्रदान करेगा और आज से शुरू होने वाले बार्ड की रीढ़ है। और जेमिनी अल्ट्रा नामक एक और भी अधिक सक्षम मॉडल है जो Google द्वारा अब तक बनाया गया सबसे शक्तिशाली एलएलएम है और ऐसा लगता है कि इसे ज्यादातर डेटा केंद्रों और एंटरप्राइज़ अनुप्रयोगों के लिए डिज़ाइन किया गया है।

Google अभी कुछ तरीकों से मॉडल लॉन्च कर रहा है: बार्ड अब जेमिनी प्रो द्वारा संचालित है, और पिक्सेल 8 प्रो उपयोगकर्ताओं को जेमिनी नैनो की बदौलत कुछ नई सुविधाएँ मिलेंगी। (जेमिनी अल्ट्रा अगले साल आ रहा है।) डेवलपर्स और एंटरप्राइज़ ग्राहक 13 दिसंबर से Google क्लाउड में Google जेनरेटिव एआई स्टूडियो या वर्टेक्स एआई के माध्यम से जेमिनी प्रो तक पहुंच सकेंगे। जेमिनी अभी केवल अंग्रेजी में उपलब्ध है, जाहिर तौर पर अन्य भाषाएं भी जल्द ही उपलब्ध होंगी। लेकिन पिचाई का कहना है कि मॉडल को अंततः दुनिया भर में Google के खोज इंजन, उसके विज्ञापन उत्पादों, क्रोम ब्राउज़र और बहुत कुछ में एकीकृत किया जाएगा। यह Google का भविष्य है, और यह जल्द ही यहां आ जाएगा।

OpenAI ने एक साल और एक सप्ताह पहले ChatGPT लॉन्च किया था, और कंपनी और उत्पाद तुरंत AI में सबसे बड़ी चीज़ बन गए। अब, Google – वह कंपनी जिसने वर्तमान AI बूम के पीछे अधिकांश मूलभूत तकनीक का निर्माण किया है, जिसने लगभग एक दशक तक खुद को “AI-प्रथम” संगठन कहा है, और यह स्पष्ट रूप से और शर्मनाक तरीके से इस बात से हैरान था कि ChatGPT कितना अच्छा था और ओपनएआई की तकनीक ने उद्योग पर कितनी तेजी से कब्जा कर लिया है – आखिरकार वापस लड़ने के लिए तैयार है।

तो, चलिए महत्वपूर्ण प्रश्न पर आते हैं, क्या हम? OpenAI का GPT-4 बनाम Google का जेमिनी: तैयार, चलें। यह कुछ समय से Google के दिमाग में स्पष्ट रूप से रहा है। हसाबिस कहते हैं, “हमने साथ-साथ सिस्टम और बेंचमार्किंग का बहुत गहन विश्लेषण किया है।” Google ने मल्टी-टास्क लैंग्वेज अंडरस्टैंडिंग बेंचमार्क जैसे व्यापक समग्र परीक्षणों से लेकर दो मॉडलों की पायथन कोड उत्पन्न करने की क्षमता की तुलना करने वाले बेंचमार्क तक, दो मॉडलों की तुलना करते हुए 32 अच्छी तरह से स्थापित बेंचमार्क चलाए। “मुझे लगता है कि हम उन बेंचमार्क में से 32 में से 30 पर काफी आगे हैं”, हसाबिस अपने चेहरे पर हल्की सी मुस्कान के साथ कहते हैं। “उनमें से कुछ बहुत संकीर्ण हैं। उनमें से कुछ बड़े हैं।”

उन बेंचमार्क में (जो वास्तव में बहुत करीब हैं) मिथुन का स्पष्ट लाभ वीडियो और ऑडियो को समझने और उनके साथ बातचीत करने की क्षमता से आता है। यह डिज़ाइन के अनुसार बहुत कुछ है: मल्टीमॉडैलिटी शुरू से ही जेमिनी योजना का हिस्सा रही है। Google ने छवियों और आवाज़ के लिए अलग-अलग मॉडल प्रशिक्षित नहीं किए हैं, जिस तरह OpenAI ने DALL-E और Whisper बनाया; इसने शुरुआत से ही एक बहुसंवेदी मॉडल बनाया। हसाबिस कहते हैं, “हम हमेशा से बहुत, बहुत सामान्य प्रणालियों में रुचि रखते हैं।” उनकी विशेष रुचि इस बात में है कि उन सभी तरीकों को कैसे मिलाया जाए – किसी भी संख्या में इनपुट और इंद्रियों से जितना संभव हो उतना डेटा एकत्र किया जाए और फिर उतनी ही विविधता के साथ प्रतिक्रियाएं दी जाएं।
अभी, जेमिनी के सबसे बुनियादी मॉडल टेक्स्ट इन और टेक्स्ट आउट हैं, लेकिन जेमिनी अल्ट्रा जैसे अधिक शक्तिशाली मॉडल छवियों, वीडियो और ऑडियो के साथ काम कर सकते हैं। “यह उससे भी अधिक सामान्य होने जा रहा है,” हसाबिस कहते हैं। “अभी भी एक्शन और स्पर्श जैसी चीजें हैं – रोबोटिक्स-प्रकार की चीजें जैसी।” उनका कहना है कि समय के साथ, मिथुन अधिक समझदार हो जाएंगे, अधिक जागरूक हो जाएंगे, और इस प्रक्रिया में अधिक सटीक और जमीनी स्तर पर पहुंच जाएंगे। “ये मॉडल अपने आसपास की दुनिया को बेहतर ढंग से समझते हैं।” बेशक, ये मॉडल अभी भी मतिभ्रम करते हैं, और उनमें अभी भी पूर्वाग्रह और अन्य समस्याएं हैं। लेकिन जितना अधिक वे जानेंगे, हासबिस कहते हैं, उतना ही बेहतर होगा।

हालाँकि, बेंचमार्क केवल बेंचमार्क हैं, और अंततः, जेमिनी की क्षमता की असली परीक्षा रोजमर्रा के उपयोगकर्ताओं से होगी जो इसका उपयोग विचारों पर विचार-मंथन करने, जानकारी देखने, कोड लिखने और बहुत कुछ करने के लिए करना चाहते हैं। ऐसा लगता है कि Google कोडिंग को विशेष रूप से जेमिनी के लिए एक बेहतरीन ऐप के रूप में देखता है; यह अल्फ़ाकोड 2 नामक एक नई कोड-जनरेटिंग प्रणाली का उपयोग करता है, जिसके बारे में उसका कहना है कि यह कोडिंग प्रतियोगिता के 85 प्रतिशत प्रतिभागियों से बेहतर प्रदर्शन करता है, जो कि मूल अल्फ़ाकोड के लिए 50 प्रतिशत से अधिक है। लेकिन पिचाई का कहना है कि उपयोगकर्ता मॉडल द्वारा स्पर्श की गई हर चीज़ में सुधार देखेंगे।

Google के लिए भी उतना ही महत्वपूर्ण यह है कि जेमिनी स्पष्ट रूप से कहीं अधिक कुशल मॉडल है। इसे Google की अपनी Tensor प्रोसेसिंग इकाइयों पर प्रशिक्षित किया गया था और यह Google के PaLM जैसे पिछले मॉडलों की तुलना में तेज़ और सस्ता दोनों है। नए मॉडल के साथ, Google अपने TPU सिस्टम का एक नया संस्करण, TPU v5p भी लॉन्च कर रहा है, जो एक कंप्यूटिंग सिस्टम है जिसे प्रशिक्षण और बड़े पैमाने के मॉडल चलाने के लिए डेटा केंद्रों में उपयोग के लिए डिज़ाइन किया गया है।

पिचाई और हसबिस से बात करने पर, यह स्पष्ट है कि वे जेमिनी लॉन्च को एक बड़े प्रोजेक्ट की शुरुआत और अपने आप में एक कदम बदलाव के रूप में देखते हैं। जेमिनी वह मॉडल है जिसका Google इंतजार कर रहा है, जिसे वह वर्षों से बना रहा है, शायद वह भी जिसे OpenAI और ChatGPT के दुनिया भर में कब्ज़ा करने से पहले तैयार हो जाना चाहिए था।

Google, जिसने ChatGPT के लॉन्च के बाद “कोड रेड” घोषित किया था और माना जाता है कि वह तब से कैच-अप खेल रहा है, ऐसा लगता है कि वह अभी भी अपने “साहसिक और जिम्मेदार” मंत्र को मजबूती से पकड़ने की कोशिश कर रहा है। हसबिस और पिचाई दोनों का कहना है कि वे सिर्फ बने रहने के लिए बहुत तेजी से आगे बढ़ने को तैयार नहीं हैं, खासकर जब हम अंतिम एआई सपने के करीब पहुंच रहे हैं: कृत्रिम सामान्य बुद्धि, एक एआई के लिए शब्द जो आत्म-सुधार करने वाला, मनुष्यों से अधिक स्मार्ट है, और दुनिया को बदलने के लिए तैयार. हसाबिस कहते हैं, “जैसे-जैसे हम एजीआई के पास पहुंचेंगे, चीजें अलग होती जाएंगी।” “यह एक तरह की सक्रिय तकनीक है, इसलिए मुझे लगता है कि हमें इसे सावधानी से अपनाना होगा। सावधानी से, लेकिन आशावादी ढंग से।”

Google का कहना है कि उसने आंतरिक और बाह्य परीक्षण और रेड-टीमिंग दोनों के माध्यम से जेमिनी की सुरक्षा और जिम्मेदारी सुनिश्चित करने के लिए कड़ी मेहनत की है। पिचाई बताते हैं कि डेटा सुरक्षा और विश्वसनीयता सुनिश्चित करना एंटरप्राइज-फर्स्ट उत्पादों के लिए विशेष रूप से महत्वपूर्ण है, जहां सबसे अधिक जेनरेटर एआई अपना पैसा कमाता है। लेकिन हस्साबिस स्वीकार करते हैं कि अत्याधुनिक एआई सिस्टम लॉन्च करने का एक जोखिम यह है कि इसमें ऐसे मुद्दे और आक्रमणकारी कारक होंगे जिनकी किसी ने भविष्यवाणी नहीं की होगी। वह कहते हैं, ”इसलिए आपको चीज़ों को छोड़ना होगा, देखने और सीखने के लिए।” Google अल्ट्रा रिलीज़ को विशेष रूप से धीरे-धीरे ले रहा है; हस्साबिस ने इसकी तुलना Google के सबसे सक्षम और अनियंत्रित मॉडल के लिए “सुरक्षित प्रयोग क्षेत्र” के साथ एक नियंत्रित बीटा से की है। मूल रूप से, यदि मिथुन राशि के अंदर विवाह को बर्बाद करने वाला कोई वैकल्पिक व्यक्तित्व है, तो Google आपके ऐसा करने से पहले उसे ढूंढने का प्रयास कर रहा है।

वर्षों से, पिचाई और अन्य Google अधिकारी AI की क्षमता के बारे में काव्यात्मक बातें करते रहे हैं। पिचाई ने खुद एक से अधिक बार कहा है कि एआई आग या बिजली की तुलना में मानवता के लिए अधिक परिवर्तनकारी होगा। इस पहली पीढ़ी में, जेमिनी मॉडल दुनिया को नहीं बदल सकता है। सर्वोत्तम स्थिति में, यह Google को महान जेनरेटर एआई बनाने की दौड़ में ओपनएआई तक पहुंचने में मदद कर सकता है। (सबसे खराब स्थिति में, बार्ड उबाऊ और औसत दर्जे का बना रहता है, और चैटजीपीटी जीतता रहता है।) लेकिन पिचाई, हसाबिस और Google के बाकी सभी लोग सोचते हैं कि यह वास्तव में किसी बड़ी चीज़ की शुरुआत है। वेब ने Google को एक तकनीकी दिग्गज बना दिया

Leave a Reply

Your email address will not be published. Required fields are marked *