इस गर्मी में लास वेगास के कार्यक्रम में हैकर्स एआई की सीमाओं का परीक्षण करेंगे

  ह्यूमेन इंटेलिजेंस के सह-संस्थापक रुम्मन चौधरी, एक गैर-लाभकारी विकासशील जवाबदेह एआई सिस्टम ... ह्यूमेन इंटेलिजेंस के सह-संस्थापक रुम्मन चौधरी, एक गैर-लाभकारी विकासशील जवाबदेह एआई सिस्टम, सोमवार, 8 मई, 2023 को केटी, टेक्सास में अपने कंप्यूटर पर काम करते हैं। ChatGPT निर्माता OpenAI, और अन्य प्रमुख AI प्रदाता जैसे Google और Microsoft, बिडेन प्रशासन के साथ समन्वय कर रहे हैं ताकि हजारों हैकर्स अपनी तकनीक की सीमाओं का परीक्षण कर सकें। चौधरी लास वेगास में इस गर्मी के DEF CON हैकर सम्मेलन के लिए नियोजित सामूहिक हैकिंग कार्यक्रम के समन्वयक हैं। (एपी फोटो/डेविड जे. फिलिप)  रुम्मन चौधरी, ह्यूमेन इंटेलिजेंस के सह-संस्थापक, एक गैर-लाभकारी विकासशील जवाबदेह एआई सिस्टम, सोमवार, 8 मई, 2023 को कैटी, टेक्सास में अपने कंप्यूटर पर काम करते हैं। ChatGPT निर्माता OpenAI, और अन्य प्रमुख AI प्रदाता जैसे Google और Microsoft, बिडेन प्रशासन के साथ समन्वय कर रहे हैं ताकि हजारों हैकर्स अपनी तकनीक की सीमाओं का परीक्षण कर सकें। चौधरी लास वेगास में इस गर्मी के DEF CON हैकर सम्मेलन के लिए नियोजित सामूहिक हैकिंग कार्यक्रम के समन्वयक हैं। (एपी फोटो/डेविड जे. फिलिप)  रुम्मन चौधरी, ह्यूमेन इंटेलिजेंस के सह-संस्थापक, एक गैर-लाभकारी विकासशील जवाबदेह एआई सिस्टम, सोमवार, 8 मई, 2023 को केटी, टेक्सास में अपने घर पर एक तस्वीर के लिए पोज़ देते हैं। ChatGPT निर्माता OpenAI, और अन्य प्रमुख AI प्रदाता जैसे Google और Microsoft, बिडेन प्रशासन के साथ समन्वय कर रहे हैं ताकि हजारों हैकर्स अपनी तकनीक की सीमाओं का परीक्षण कर सकें। चौधरी लास वेगास में इस गर्मी के DEF CON हैकर सम्मेलन के लिए नियोजित सामूहिक हैकिंग कार्यक्रम के समन्वयक हैं। (एपी फोटो/डेविड जे. फिलिप)

जैसे ही चैटजीपीटी सामने आया, हैकर्स ने आर्टिफिशियल इंटेलिजेंस चैटबॉट को 'जेलब्रेकिंग' करना शुरू कर दिया - इसके सुरक्षा उपायों को ओवरराइड करने की कोशिश कर रहा था, ताकि यह कुछ अनहोनी या अश्लील बातें बता सके।



लेकिन अब इसके निर्माता, OpenAI, और अन्य प्रमुख AI प्रदाता जैसे कि Google और Microsoft, बिडेन प्रशासन के साथ समन्वय कर रहे हैं ताकि हजारों हैकर्स अपनी तकनीक की सीमाओं का परीक्षण करने के लिए एक शॉट ले सकें। DEF CON हैकर कन्वेंशन इस अगस्त लास वेगास में।



कुछ चीजें जो वे ढूंढ रहे होंगे: नुकसान पहुंचाने के लिए चैटबॉट्स को कैसे हेरफेर किया जा सकता है? क्या वे उन निजी सूचनाओं को साझा करेंगे जो हम उन्हें अन्य उपयोगकर्ताओं के साथ साझा करते हैं? और वे क्यों मानते हैं कि एक डॉक्टर एक पुरुष है और एक नर्स एक महिला है?



DEF CON में सामूहिक हैकिंग कार्यक्रम के समन्वयक रुम्मन चौधरी ने कहा, 'इसीलिए हमें हजारों लोगों की आवश्यकता है,' जिसमें कई हजार लोगों के शामिल होने की उम्मीद है। 'हमें इन मॉडलों पर व्यापक अनुभव, विषय वस्तु विशेषज्ञता और पृष्ठभूमि हैकिंग की एक विस्तृत श्रृंखला के साथ बहुत से लोगों की आवश्यकता है और उन समस्याओं को खोजने की कोशिश कर रहे हैं जिन्हें तब ठीक किया जा सकता है।'

जिस किसी ने भी चैटजीपीटी, माइक्रोसॉफ्ट के बिंग चैटबॉट या गूगल के बार्ड को आजमाया है, उसे जल्दी से पता चल जाएगा कि उनके पास जानकारी गढ़ने और आत्मविश्वास से इसे तथ्य के रूप में पेश करने की प्रवृत्ति है। बड़े भाषा मॉडल के रूप में जानी जाने वाली ये प्रणालियाँ उन सांस्कृतिक पूर्वाग्रहों का भी अनुकरण करती हैं, जिन्हें उन्होंने लोगों द्वारा ऑनलाइन लिखे गए विशाल समूहों पर प्रशिक्षित होने से सीखा है।



सामूहिक हैक के विचार ने मार्च में अमेरिकी सरकार के अधिकारियों का ध्यान ऑस्टिन, टेक्सास में साउथ बाय साउथवेस्ट फेस्टिवल में खींचा, जहां डीईएफ कॉन के लंबे समय से चल रहे एआई विलेज के संस्थापक स्वेन कैटेल और जिम्मेदार एआई गैर-लाभकारी सीडएआई के अध्यक्ष ऑस्टिन कार्सन थे। , एआई मॉडल को हैक करने के लिए सामुदायिक कॉलेज के छात्रों को आमंत्रित करने वाली कार्यशाला का नेतृत्व करने में मदद की।

कार्सन ने कहा कि एआई बिल ऑफ राइट्स के लिए व्हाइट हाउस के ब्लूप्रिंट के दिशानिर्देशों का पालन करते हुए वे बातचीत अंततः एआई भाषा मॉडल का परीक्षण करने के प्रस्ताव में खिल गई - एल्गोरिथम पूर्वाग्रह के प्रभावों को सीमित करने के लिए सिद्धांतों का एक सेट, उपयोगकर्ताओं को अपने डेटा पर नियंत्रण देना और यह सुनिश्चित करना स्वचालित प्रणालियों का उपयोग सुरक्षित और पारदर्शी रूप से किया जाता है।

वृषभ पुरुष मीन महिला

उपयोगकर्ताओं का एक समुदाय पहले से ही चैटबॉट्स को चकमा देने और उनकी खामियों को उजागर करने की पूरी कोशिश कर रहा है। कुछ आधिकारिक 'रेड टीम' हैं जो कंपनियों द्वारा उनकी कमजोरियों का पता लगाने के लिए एआई मॉडल पर 'तुरंत हमला' करने के लिए अधिकृत हैं। कई अन्य शौक़ीन हैं जो सोशल मीडिया पर हास्य या परेशान करने वाले आउटपुट दिखाते हैं जब तक कि उन्हें किसी उत्पाद की सेवा की शर्तों का उल्लंघन करने के लिए प्रतिबंधित नहीं किया जाता है।



चौधरी ने कहा, 'अब क्या होता है, यह एक तरह का स्कैटरशॉट दृष्टिकोण है, जहां लोग सामान ढूंढते हैं, यह ट्विटर पर वायरल हो जाता है,' और फिर यह ठीक हो भी सकता है और नहीं भी हो सकता है, अगर यह पर्याप्त रूप से आक्रामक है या ध्यान आकर्षित करने वाला व्यक्ति प्रभावशाली है।

एक उदाहरण में, 'दादी शोषण' के रूप में जाना जाता है, उपयोगकर्ता चैटबॉट प्राप्त करने में सक्षम थे, उन्हें यह बताने के लिए कि बम कैसे बनाया जाए - एक वाणिज्यिक चैटबॉट का अनुरोध सामान्य रूप से अस्वीकार कर दिया जाएगा - यह दिखावा करने के लिए कहकर कि यह एक दादी थी जो सोने के बारे में कहानी कह रही थी बम कैसे बनाया जाता है।

एक अन्य उदाहरण में, Microsoft के बिंग सर्च इंजन चैटबॉट के शुरुआती संस्करण का उपयोग करके चौधरी की खोज करना - जो कि चैटजीपीटी जैसी ही तकनीक पर आधारित है, लेकिन इंटरनेट से वास्तविक समय की जानकारी खींच सकता है - एक प्रोफ़ाइल के कारण जो चौधरी को अनुमान लगाती है 'नया खरीदना पसंद करता है जूते हर महीने ”और उसकी शारीरिक बनावट के बारे में अजीब और लिंग संबंधी दावे किए।

चौधरी ने 2021 में DEF CON के AI विलेज को एल्गोरिथम पूर्वाग्रह की खोज को पुरस्कृत करने के लिए एक विधि शुरू करने में मदद की, जब वह Twitter की AI एथिक्स टीम की प्रमुख थीं - एक नौकरी जिसे एलोन मस्क के अक्टूबर में कंपनी के अधिग्रहण के बाद समाप्त कर दिया गया था। यदि हैकर्स एक सुरक्षा बग को उजागर करते हैं तो उन्हें 'इनाम' देना साइबर सुरक्षा उद्योग में आम बात है - लेकिन हानिकारक एआई पूर्वाग्रह का अध्ययन करने वाले शोधकर्ताओं के लिए यह एक नई अवधारणा थी।

इस साल का आयोजन बहुत बड़े पैमाने पर होगा और पिछले साल के आखिर में चैटजीपीटी की रिलीज के बाद से सार्वजनिक हित और वाणिज्यिक निवेश में वृद्धि को आकर्षित करने वाले बड़े भाषा मॉडल से निपटने वाला पहला है।

चौधरी, जो अब एआई जवाबदेही गैर-लाभकारी ह्यूमेन इंटेलिजेंस के सह-संस्थापक हैं, ने कहा कि यह केवल खामियों को खोजने के बारे में नहीं है बल्कि उन्हें ठीक करने के तरीकों का पता लगाने के बारे में है।

'यह कंपनियों को प्रतिक्रिया देने के लिए एक सीधी पाइपलाइन है,' उसने कहा। 'ऐसा नहीं है कि हम सिर्फ इस हैकथॉन कर रहे हैं और हर कोई घर जा रहा है। हम एक रिपोर्ट संकलित करने के अभ्यास के महीनों बाद खर्च करने जा रहे हैं, सामान्य कमजोरियों, जो चीजें सामने आईं, पैटर्न हमने देखा।

कुछ विवरणों पर अभी भी बातचीत चल रही है, लेकिन जिन कंपनियों ने परीक्षण के लिए अपने मॉडल प्रदान करने पर सहमति व्यक्त की है, उनमें OpenAI, Google, चिपमेकर Nvidia और स्टार्टअप्स एंथ्रोपिक, हगिंग फेस और स्टेबिलिटी AI शामिल हैं। परीक्षण के लिए मंच का निर्माण एक अन्य स्टार्टअप है जिसे स्केल एआई कहा जाता है, जो डेटा को लेबल करके एआई मॉडल को प्रशिक्षित करने में मनुष्यों को मदद करने के काम के लिए जाना जाता है।

बिस्तर में एक सिंह पुरुष को कैसे आकर्षित करें

स्केल के सीईओ एलेक्जेंडर वैंग ने कहा, 'चूंकि ये फाउंडेशन मॉडल अधिक से अधिक व्यापक होते जा रहे हैं, यह वास्तव में महत्वपूर्ण है कि हम उनकी सुरक्षा सुनिश्चित करने के लिए हर संभव प्रयास करें।' 'आप दुनिया के एक तरफ किसी की कल्पना कर सकते हैं कि यह कुछ संवेदनशील या विस्तृत प्रश्न पूछ रहा है, जिसमें उनकी कुछ व्यक्तिगत जानकारी भी शामिल है। आप नहीं चाहते कि कोई भी जानकारी किसी अन्य उपयोगकर्ता को लीक हो।'

वैंग जिन अन्य खतरों की चिंता करता है, वे चैटबॉट हैं जो 'अविश्वसनीय रूप से खराब चिकित्सा सलाह' या अन्य गलत सूचना देते हैं जो गंभीर नुकसान पहुंचा सकते हैं।

एंथ्रोपिक के सह-संस्थापक जैक क्लार्क ने कहा कि उम्मीद है कि डीईएफ कॉन इवेंट एआई डेवलपर्स द्वारा बनाई जा रही प्रणालियों की सुरक्षा को मापने और मूल्यांकन करने के लिए एक गहरी प्रतिबद्धता की शुरुआत होगी।

'हमारा मूल विचार यह है कि एआई सिस्टम को तैनाती से पहले और तैनाती के बाद तीसरे पक्ष के आकलन की आवश्यकता होगी। रेड-टीमिंग एक तरीका है जिससे आप ऐसा कर सकते हैं,' क्लार्क ने कहा। 'हमें यह पता लगाने के लिए अभ्यास करने की आवश्यकता है कि यह कैसे करना है। यह वास्तव में पहले नहीं किया गया है।