क्या भारतीय भाषाओं और बोलियों को समझकर एआई और भी प्रशिक्षित हो रही है?

संचार और सूचना प्रौद्योगिकी उपकरण

27-06-2026 09:26 AM

क्या भारतीय भाषाओं और बोलियों को समझकर एआई और भी प्रशिक्षित हो रही है?

साल 1975 में 19 साल के बिल गेट्स और 22 साल के पॉल एलन ने मिलकर एक ऐसी कंपनी की शुरुआत की थी, जो आज दुनिया की सबसे मूल्यवान कंपनी बन चुकी है। इनकी पहली मुलाकात सिएटल के लेकसाइड स्कूल में हुई थी और कंप्यूटर के प्रति दोनों के भीतर गहरा उत्साह था। उनकी व्यावसायिक साझेदारी ट्रैफ़-ओ-डेटा नामक एक प्रोजेक्ट से शुरू हुई थी, जो व्यावसायिक रूप से तो बहुत सफल नहीं रहा, लेकिन इससे उन्हें सॉफ़्टवेयर विकास का अहम अनुभव मिला। बिल गेट्स के पिता, विलियम हेनरी गेट्स द्वितीय, एक प्रसिद्ध वकील थे और एक बड़ी लॉ फर्म के सह-संस्थापक थे, जहाँ से बिल को कम उम्र में ही व्यापार और कानून की रणनीतिक समझ मिल गई थी। ऑल्टेयर 8800 नाम के पहले व्यावसायिक पर्सनल कंप्यूटर ने वास्तव में इस कंपनी की नींव रखने का काम किया। गेट्स और एलन ने बिना असली कंप्यूटर के, एक मिनीकंप्यूटर पर सिम्युलेटर बनाकर बेसिक प्रोग्रामिंग भाषा का इंटरप्रेटर तैयार किया और पहली ही कोशिश में वह सफल रहा, जिसके बाद 4 अप्रैल 1975 को माइक्रो-सॉफ्ट की स्थापना की गई।

साल 1980 में आईबीएम के साथ हुई साझेदारी ने इस कंपनी को एक नई पहचान और बाज़ार में दबदबा दिया। आईबीएम को अपने पहले पर्सनल कंप्यूटर के लिए एक ऑपरेटिंग सिस्टम चाहिए था और जब डिजिटल रिसर्च के साथ उनकी बातचीत विफल हो गई, तब बिल गेट्स ने यह ज़िम्मेदारी ली। बिल गेट्स ने 75,000 डॉलर में सिएटल कंप्यूटर प्रोडक्ट्स से 86-डोस सिस्टम खरीदा, उसे एमएस-डोस में बदला और आईबीएम को लाइसेंस पर दे दिया। इस सॉफ़्टवेयर को पूरी तरह बेचने के बजाय लाइसेंस पर देना उनकी सबसे बड़ी रणनीतिक जीत थी, क्योंकि इससे वे अन्य पीसी निर्माताओं को भी इसे बेच सकते थे। इसके बाद 1985 में ग्राफिकल इंटरफ़ेस वाला विंडोज़ 1.0 और फिर 1995 में विंडोज़ 95 ने पर्सनल कंप्यूटर की दुनिया में क्रांति ला दी। समय के साथ इस कंपनी ने 2011 में 8.5 अरब डॉलर में स्काइप, 2014 में 2.5 अरब डॉलर में मोजांग (माइनक्राफ्ट), 2016 में 26.2 अरब डॉलर में लिंक्डइन और 2018 में 7.5 अरब डॉलर में गिटहब जैसी विशाल कंपनियों का अधिग्रहण करके अपना साम्राज्य बढ़ाया। साल 2019 में एप्पल और अमेज़ॉन के बाद यह एक ट्रिलियन डॉलर के बाज़ार मूल्य को छूने वाली तीसरी अमेरिकी सार्वजनिक कंपनी बनी। 2022 में 68.7 अरब डॉलर में एक्टिविज़न ब्लिज़र्ड को खरीदने की घोषणा की गई, जिसे अमेरिका और यूरोपीय संघ की लंबी नियामक जांच के बाद अक्टूबर 2023 में पूरा किया जा सका। साल 2019 में इस कंपनी ने एआई की दुनिया में एक बड़ा कदम रखते हुए ओपनएआई में एक अरब डॉलर का निवेश किया, जो आज क्लाउड कंप्यूटिंग (माइक्रोसॉफ्ट एज़्योर) के ज़रिए अमेज़ॉन वेब सर्विसेज़ को कड़ी टक्कर दे रहा है।

क्या आर्टिफिशियल इंटेलिजेंस इंसानों की तरह सोचना आपके डेटा से सीख रहा है?
चैटजीपीटी जैसे लार्ज लैंग्वेज मॉडल को इंसानों की तरह टेक्स्ट को समझने और लिखने के लिए भारी मात्रा में डेटा की आवश्यकता होती है। पारंपरिक सॉफ़्टवेयर के विपरीत, जो इंसानों द्वारा बनाए गए नियमों पर चलते हैं, एआई सिस्टम उदाहरणों से और मशीन लर्निंग की प्रक्रिया के ज़रिए सीखते हैं। इसके प्रशिक्षण डेटा में लाइसेंस प्राप्त सामग्री (जैसे किताबें और शोध डेटासेट), इंसानों द्वारा बनाया गया डेटा और इंटरनेट पर मौजूद सार्वजनिक जानकारी का एक विविध मिश्रण शामिल होता है। सार्वजनिक वेब पर मौजूद अरबों वेब पेज, न्यूज़ आर्टिकल, विकिपीडिया, अकादमिक शोध पत्र और कोड रिपॉज़िटरी से यह डेटा बड़े पैमाने पर क्रॉलिंग के ज़रिए लिया जाता है। इसके अलावा, कंपनियों के आंतरिक कॉर्पोरेट डेटासेट, सोशल मीडिया पोस्ट, प्रोडक्ट रिव्यू और चैट लॉग भी इस प्रशिक्षण का अहम हिस्सा होते हैं। ऑटोनोमस वाहनों (बिना ड्राइवर वाली कारों) के लिए कंप्यूटर-जनरेटेड परिदृश्यों और रोबोटिक्स के लिए सिंथेटिक डेटा का भी तेज़ी से इस्तेमाल हो रहा है।

यह ध्यान रखना ज़रूरी है कि एआई इन सभी दस्तावेजों को सीधे याद करने या सहेजने के बजाय भाषा के पैटर्न, संरचना और संदर्भ को समझता है। इस मॉडल को और अधिक सटीक बनाने के लिए सुपरवाइज़्ड लर्निंग और इंसानी फीडबैक से रीइन्फोर्समेंट लर्निंग जैसी आधुनिक तकनीकों का इस्तेमाल किया जाता है। ओपनएआई की प्रमुख भागीदार, माइक्रोसॉफ्ट इस पूरी प्रक्रिया में अपने माइक्रोसॉफ्ट एज़्योर के ज़रिए क्लाउड कंप्यूटिंग, इंफ्रास्ट्रक्चर और लिंक्डइन जैसे अपने स्वामित्व वाले प्लेटफ़ॉर्म से पेशेवर डेटा की सुविधा प्रदान करती है। हालाँकि, इंटरनेट से सारा डेटा सिर्फ़ ऐसे ही wholesale (थोक में) नहीं उठा लिया जाता; इस डेटा का उपयोग विशिष्ट नीतियों, गोपनीयता मानकों और लाइसेंसिंग समझौतों का सख्ती से पालन करते हुए किया जाता है। ट्रेनिंग से पहले डेटा को साफ़ किया जाता है, डुप्लिकेट हटाए जाते हैं, पक्षपात को कम किया जाता है और व्यक्तिगत जानकारी को अनाम कर दिया जाता है। फिर भी, कॉपीराइट सामग्री के उपयोग, 'भूल जाने के अधिकार' (right to be forgotten) और सांस्कृतिक गोपनीयता जैसी नैतिक चुनौतियां अभी भी एक बड़ी बहस का विषय बनी हुई हैं।

क्या लिंक्डइन पर आपकी पेशेवर जानकारी एआई का ईंधन बन रही है?
माइक्रोसॉफ्ट के स्वामित्व वाला प्लेटफ़ॉर्म लिंक्डइन आज सिर्फ़ एक स्थिर सीवी (CV) डेटाबेस नहीं रह गया है, बल्कि यह एआई के लिए पेशेवर डेटा का एक बहुत बड़ा और बेहद मूल्यवान स्रोत बन चुका है। एक अरब से अधिक सदस्यों वाले इस प्लेटफ़ॉर्म का विशाल डेटा माइक्रोसॉफ्ट के संपूर्ण एंटरप्राइज़ एआई उत्पादों को प्रशिक्षित करने के लिए दोहरे उद्देश्य की पूर्ति करता है। लिंक्डइन एआई आज रिक्रूटर्स के लिए हायरिंग असिस्टेंट, जॉब खोजने वालों के लिए प्रोफ़ाइल ऑप्टिमाइज़ेशन और आम यूज़र्स के लिए पोस्ट जनरेशन जैसे कई बेहतरीन टूल पेश करता है। यह एआई इंजन यूज़र्स की सार्वजनिक पोस्ट, प्रोफ़ाइल डेटा, ग्रुप की गतिविधियों, अपलोड किए गए रेज़्यूमे और फीडबैक से लगातार सीखता है। हालाँकि, कानूनी और गोपनीयता के जोखिमों को कम करने के लिए कंपनी प्राइवेट इनमेल, लॉगिन क्रेडेंशियल, पेमेंट की जानकारी, सैलरी डेटा और किसी विशिष्ट जॉब एप्लिकेशन के डेटा को इस एआई ट्रेनिंग से पूरी तरह बाहर रखती है।

सबसे बड़ी और चौंकाने वाली बात यह है कि डेटा संग्रह का यह नियम सभी यूज़र्स के लिए डिफ़ॉल्ट रूप से चालू (Opt-in by default) रहता है और इसके लिए बाकायदा नवंबर 2025 से नई नीतियां लागू की जा रही हैं। अगर कोई यूज़र अपनी प्राइवेसी सेटिंग में जाकर इस विकल्प को बंद (ऑप्ट-आउट) भी कर देता है, तो भी यह नियम पूर्वव्यापी (retroactive) रूप से लागू नहीं होता। इसका मतलब यह है कि पहले से इस्तेमाल हो चुका डेटा एआई के सिस्टम में हमेशा के लिए मौजूद रहता है। थर्ड-पार्टी ऐप्स (जैसे सीआरएम या सीवी बिल्डर) के साथ लिंक्डइन का जुड़ाव यूज़र्स के डेटा के लीक होने का जोखिम और भी बढ़ा देता है। साल 2021 में लिंक्डइन पर हुई 70 करोड़ यूज़र्स की डेटा स्क्रेपिंग की घटना इस बात का प्रमाण है कि सुरक्षा में सेंध लग सकती है। यूज़र्स भले ही अपने डेटा के मालिक होने का दावा करें, लेकिन प्लेटफ़ॉर्म के यूज़र एग्रीमेंट का व्यापक लाइसेंस कंपनी को बिना किसी मुआवजे के उस सामग्री का उपयोग, संशोधन और वितरण करने की आज़ादी दे देता है। इन सब जोखिमों के बीच 'एटॉमिक मेल' (Atomic Mail) जैसी एंड-टू-एंड एन्क्रिप्शन और ज़ीरो-एक्सेस एन्क्रिप्शन वाली सेवाएं एक सुरक्षित विकल्प के रूप में उभर रही हैं, जो एआई का लाभ तो देती हैं लेकिन कभी भी यूज़र्स के निजी डेटा पर अपने मॉडल को प्रशिक्षित नहीं करतीं।

क्या भारतीय भाषाओं और बोलियों को समझकर एआई और भी चतुर हो रहा है?
एआई को दुनिया भर के यूज़र्स के लिए प्रासंगिक बनाने के लिए माइक्रोसॉफ्ट जैसी कंपनियां क्षेत्रीय भाषाओं का डेटा भी भारी मात्रा में इकट्ठा कर रही हैं। इसके पीछे मुख्य उद्देश्य यह समझना है कि अलग-अलग क्षेत्रों के लोग असल में अपनी दिनचर्या में कैसे बोलते और लिखते हैं। भारतीय भाषाओं के संदर्भ में, इस डेटा संग्रह की शुरुआत अक्सर सरकारी वेबसाइटों, शैक्षिक सामग्री और भाषिनी (Bhashini) जैसे खुले प्लेटफ़ॉर्म से होती है। भाषिनी का प्राथमिक ध्यान इंटरनेट पर भारतीय भाषाओं को अधिक सुलभ और उपयोगी बनाना है। इसके साथ ही, हिंदी, तमिल, बंगाली और अन्य कई क्षेत्रीय भारतीय भाषाओं में सटीक तथा सुव्यवस्थित भाषा डेटा प्राप्त करने के लिए लाइसेंस प्राप्त डेटासेट का उपयोग किया जाता है और नामी विश्वविद्यालयों तथा शोधकर्ताओं के साथ मिलकर काम किया जाता है।

इतना ही नहीं, एआई सिस्टम को वास्तविक यूज़र्स की दैनिक बातचीत से भी बहुत कुछ सिखाया जाता है। उदाहरण के लिए, लोग प्लेटफ़ॉर्म पर कैसे टाइप करते हैं, वे क्या सर्च करते हैं या किस तरह से एक-दूसरे के साथ संवाद करते हैं, यह सब एआई के लिए एक खुली किताब की तरह काम करता है। इसके अलावा, क्षेत्रीय बोलियों या हिंग्लिश (Hinglish) जैसी मिश्रित भाषाओं के इस्तेमाल को गहराई से समझने के लिए कभी-कभी विशेष सर्वे और फीडबैक प्रोग्राम की मदद ली जाती है। इन प्रोग्राम्स में यूज़र्स अपनी मर्ज़ी से अपनी भाषा के उपयोग के बारे में अहम जानकारी साझा करते हैं। यह पूरी डेटा संग्रह प्रक्रिया सख्त गोपनीयता नियमों के तहत पूरी की जाती है, जहाँ यह सुनिश्चित किया जाता है कि उपयोगकर्ताओं की व्यक्तिगत जानकारी पूरी तरह से सुरक्षित रहे या उसे अनाम (anonymized) कर दिया जाए। आसान शब्दों में कहें तो आधिकारिक डेटा, विभिन्न शोध साझेदारियों और वास्तविक दुनिया के उपयोग को मिलाकर माइक्रोसॉफ्ट यह सुनिश्चित करता है कि उसके एआई सिस्टम भारत के अलग-अलग हिस्सों में लोगों के संवाद करने के वास्तविक तरीके को गहराई से समझ सकें और संदर्भ के अनुसार सटीक जवाब उत्पन्न कर सकें।

संदर्भ
1. https://tinyurl.com/23z2xs2u
2. https://tinyurl.com/24jbpu3n
3. https://tinyurl.com/23u24m6g

संचार और सूचना प्रौद्योगिकी उपकरण

क्या भारतीय भाषाओं और बोलियों को समझकर एआई और भी प्रशिक्षित हो रही है?

Recent Posts

पेले कैसे बने तीन विश्व कप जीतने वाले दुनिया के एकमात्र खिलाड़ी

हमारे देश में क्रिकेट की ख्याति के कारण, मेरठ शहर कैसे बना खेल सामग्री उत्पादन का केंद्र?

ज्ञान व प्रेरणा से कैसे संबंधित हैं, प्राचीन ग्रीस की म्यूज़ेस व पारसी धर्म में स्पेंटा?

हिटलर और दूसरे विश्व युद्ध को क्यों नहीं रोक पाया 'लीग ऑफ नेशंस'?

कुरुक्षेत्र युद्ध के बाद कैसे द्वारका नहीं अपितु इंद्रप्रस्थ बना यदुवंशियों का आखिरी सहारा

Definitions of the Post Viewership Metrics