You have to be logged in to leave a comment.

प्राकृतिक भाषा प्रसंस्करण का परिचय

यह पाठ प्राकृतिक भाषा प्रसंस्करण, जो कंप्यूटेशनल लिंग्विस्टिक्स का एक उपक्षेत्र है, के संक्षिप्त इतिहास और महत्वपूर्ण अवधारणाओं को कवर करता है।

प्री-लेक्चर क्विज़

परिचय

NLP, जैसा कि आमतौर पर जाना जाता है, उन सबसे प्रसिद्ध क्षेत्रों में से एक है जहाँ मशीन लर्निंग को लागू किया गया है और उत्पादन सॉफ्टवेयर में उपयोग किया गया है।

✅ क्या आप किसी सॉफ्टवेयर के बारे में सोच सकते हैं जिसका आप हर दिन उपयोग करते हैं जिसमें शायद कुछ NLP एम्बेडेड है? आपके वर्ड प्रोसेसिंग प्रोग्राम या मोबाइल ऐप्स के बारे में क्या जो आप नियमित रूप से उपयोग करते हैं?

आप निम्नलिखित के बारे में जानेंगे:

भाषाओं का विचार. भाषाएँ कैसे विकसित हुईं और अध्ययन के प्रमुख क्षेत्र क्या रहे हैं।
परिभाषा और अवधारणाएँ. आप यह भी सीखेंगे कि कंप्यूटर टेक्स्ट को कैसे प्रोसेस करते हैं, जिसमें पार्सिंग, ग्रामर, और संज्ञा और क्रियाओं की पहचान शामिल है। इस पाठ में कुछ कोडिंग कार्य हैं, और कई महत्वपूर्ण अवधारणाओं को पेश किया गया है जिन्हें आप अगले पाठों में कोड करना सीखेंगे।

कंप्यूटेशनल लिंग्विस्टिक्स

कंप्यूटेशनल लिंग्विस्टिक्स एक अनुसंधान और विकास का क्षेत्र है जो कई दशकों से यह अध्ययन करता है कि कंप्यूटर कैसे भाषाओं के साथ काम कर सकते हैं, और यहां तक कि समझ सकते हैं, अनुवाद कर सकते हैं, और संवाद कर सकते हैं। प्राकृतिक भाषा प्रसंस्करण (NLP) एक संबंधित क्षेत्र है जो इस बात पर केंद्रित है कि कंप्यूटर 'प्राकृतिक', या मानव, भाषाओं को कैसे प्रोसेस कर सकते हैं।

उदाहरण - फोन डिक्टेशन

यदि आपने कभी टाइपिंग के बजाय अपने फोन पर बोला है या एक वर्चुअल असिस्टेंट से प्रश्न पूछा है, तो आपकी आवाज़ को टेक्स्ट में परिवर्तित किया गया और फिर उस भाषा से प्रोसेस या पार्स किया गया जिसे आपने बोला। फिर पहचाने गए कीवर्ड को एक फॉर्मेट में प्रोसेस किया गया जिसे फोन या असिस्टेंट समझ सके और उस पर कार्य कर सके।

वास्तविक भाषाई समझना कठिन है! छवि Jen Looper द्वारा

यह तकनीक कैसे संभव है?

यह संभव है क्योंकि किसी ने ऐसा कंप्यूटर प्रोग्राम लिखा है। कुछ दशक पहले, कुछ विज्ञान कथा लेखकों ने भविष्यवाणी की थी कि लोग ज्यादातर अपने कंप्यूटरों से बात करेंगे, और कंप्यूटर हमेशा यह समझेंगे कि वे क्या मतलब रखते हैं। दुख की बात है कि यह समस्या उतनी आसान नहीं थी जितनी कई लोगों ने कल्पना की थी, और जबकि यह आज एक बेहतर समझी जाने वाली समस्या है, वाक्य के अर्थ को समझने में 'सही' प्राकृतिक भाषा प्रसंस्करण प्राप्त करने में महत्वपूर्ण चुनौतियाँ हैं। यह विशेष रूप से हास्य या वाक्य में व्यंग्य जैसी भावनाओं को समझने में कठिन समस्या है।

इस बिंदु पर, आप स्कूल की कक्षाओं को याद कर सकते हैं जहाँ शिक्षक ने वाक्य में ग्रामर के भागों को कवर किया था। कुछ देशों में, छात्रों को ग्रामर और लिंग्विस्टिक्स एक समर्पित विषय के रूप में पढ़ाया जाता है, लेकिन कई में, ये विषय एक भाषा सीखने का हिस्सा होते हैं: या तो प्राथमिक विद्यालय में आपकी पहली भाषा (पढ़ना और लिखना सीखना) और शायद एक दूसरी भाषा पोस्ट-प्राइमरी, या हाई स्कूल में। चिंता न करें यदि आप संज्ञाओं और क्रियाओं या क्रिया विशेषणों और विशेषणों के बीच अंतर करने में विशेषज्ञ नहीं हैं!

यदि आप साधारण वर्तमान और वर्तमान प्रगतिशील के बीच के अंतर से संघर्ष करते हैं, तो आप अकेले नहीं हैं। यह कई लोगों के लिए एक चुनौतीपूर्ण चीज है, यहां तक कि एक भाषा के मूल वक्ताओं के लिए भी। अच्छी खबर यह है कि कंप्यूटर औपचारिक नियमों को लागू करने में वास्तव में अच्छे हैं, और आप ऐसा कोड लिखना सीखेंगे जो मानव की तरह एक वाक्य को पार्स कर सके। बाद में आप जिस बड़ी चुनौती की जांच करेंगे वह है एक वाक्य के अर्थ और भावना को समझना।

पूर्वापेक्षाएँ

इस पाठ के लिए, मुख्य पूर्वापेक्षा इस पाठ की भाषा को पढ़ने और समझने में सक्षम होना है। कोई गणितीय समस्याएं या समीकरण हल करने की आवश्यकता नहीं है। जबकि मूल लेखक ने इस पाठ को अंग्रेजी में लिखा था, इसे अन्य भाषाओं में भी अनुवादित किया गया है, इसलिए आप एक अनुवाद पढ़ सकते हैं। ऐसे उदाहरण हैं जहां कई विभिन्न भाषाओं का उपयोग किया गया है (विभिन्न भाषाओं के विभिन्न ग्रामर नियमों की तुलना करने के लिए)। ये अनुवादित नहीं हैं, लेकिन व्याख्यात्मक पाठ अनुवादित है, इसलिए अर्थ स्पष्ट होना चाहिए।

कोडिंग कार्यों के लिए, आप Python का उपयोग करेंगे और उदाहरण Python 3.8 का उपयोग कर रहे हैं।

इस अनुभाग में, आपको आवश्यकता होगी, और उपयोग करेंगे:

Python 3 समझ. Python 3 में प्रोग्रामिंग भाषा समझ, यह पाठ इनपुट, लूप, फ़ाइल पढ़ना, ऐरे का उपयोग करता है।
Visual Studio Code + एक्सटेंशन. हम Visual Studio Code और इसके Python एक्सटेंशन का उपयोग करेंगे। आप अपने पसंदीदा Python IDE का भी उपयोग कर सकते हैं।
TextBlob. TextBlob Python के लिए एक सरलीकृत टेक्स्ट प्रोसेसिंग लाइब्रेरी है। इसे अपने सिस्टम पर स्थापित करने के लिए TextBlob साइट पर दिए गए निर्देशों का पालन करें (नीचे दिखाए अनुसार कॉर्पोरा को भी इंस्टॉल करें):
```
pip install -U textblob
python -m textblob.download_corpora
```

💡 टिप: आप सीधे VS Code वातावरण में Python चला सकते हैं। अधिक जानकारी के लिए docs देखें।

मशीनों से बात करना

मानव भाषा को समझने के लिए कंप्यूटर बनाने का इतिहास दशकों पुराना है, और सबसे पहले वैज्ञानिकों में से एक जिन्होंने प्राकृतिक भाषा प्रसंस्करण पर विचार किया था, वे Alan Turing थे।

'ट्यूरिंग टेस्ट'

जब ट्यूरिंग 1950 के दशक में कृत्रिम बुद्धिमत्ता पर शोध कर रहे थे, तो उन्होंने सोचा कि क्या एक संवादात्मक परीक्षण दिया जा सकता है जिसमें एक मानव और एक कंप्यूटर (टाइप किए गए संवाद के माध्यम से) शामिल हों जहां बातचीत में मानव यह सुनिश्चित न कर सके कि वे किसी अन्य मानव या कंप्यूटर से बात कर रहे हैं।

यदि, एक निश्चित अवधि की बातचीत के बाद, मानव यह निर्धारित नहीं कर सकता कि उत्तर कंप्यूटर से आ रहे हैं या नहीं, तो क्या कहा जा सकता है कि कंप्यूटर सोच रहा है?

प्रेरणा - 'द इमिटेशन गेम'

इस विचार की प्रेरणा एक पार्टी गेम द इमिटेशन गेम से आई थी जिसमें एक पूछताछकर्ता अकेले एक कमरे में होता है और उसे यह निर्धारित करना होता है कि दो लोगों (दूसरे कमरे में) में से कौन पुरुष और कौन महिला है। पूछताछकर्ता नोट भेज सकता है, और उसे ऐसे प्रश्न सोचने होते हैं जिनके लिखित उत्तर रहस्यमय व्यक्ति के लिंग का खुलासा करें। बेशक, दूसरे कमरे में खिलाड़ी पूछताछकर्ता को भ्रमित या गुमराह करने की कोशिश कर रहे होते हैं, जबकि ईमानदारी से उत्तर देने की कोशिश कर रहे होते हैं।

Eliza का विकास

1960 के दशक में MIT के एक वैज्ञानिक Joseph Weizenbaum ने Eliza नामक एक कंप्यूटर 'थेरेपिस्ट' विकसित किया जो मानव से प्रश्न पूछता था और उनके उत्तरों को समझने का आभास देता था। हालांकि, जबकि Eliza एक वाक्य को पार्स कर सकता था और कुछ व्याकरणिक संरचनाओं और कीवर्ड की पहचान कर सकता था ताकि एक उचित उत्तर दे सके, इसे वाक्य को समझने के रूप में नहीं कहा जा सकता था। यदि Eliza को एक वाक्य इस प्रारूप में प्रस्तुत किया गया "I am sad", तो यह वाक्य को पुनर्व्यवस्थित और प्रतिस्थापित कर सकता है और प्रतिक्रिया में "How long have you been sad" बना सकता है।

इससे ऐसा आभास होता था कि Eliza ने कथन को समझा और एक अनुवर्ती प्रश्न पूछ रहा है, जबकि वास्तव में, यह केवल काल को बदल रहा था और कुछ शब्द जोड़ रहा था। यदि Eliza को कोई कीवर्ड नहीं मिलता था जिसके लिए उसके पास उत्तर होता, तो यह इसके बजाय एक रैंडम उत्तर देता जो कई विभिन्न कथनों पर लागू हो सकता था। Eliza को आसानी से मूर्ख बनाया जा सकता था, उदाहरण के लिए यदि उपयोगकर्ता लिखता "You are a bicycle", तो यह प्रतिक्रिया देता "How long have I been a bicycle?", बजाय एक अधिक तर्कसंगत प्रतिक्रिया के।

🎥 ऊपर की छवि पर क्लिक करें मूल ELIZA प्रोग्राम के बारे में वीडियो के लिए

नोट: आप Eliza के 1966 में प्रकाशित मूल विवरण को पढ़ सकते हैं यदि आपके पास ACM खाता है। वैकल्पिक रूप से, wikipedia पर Eliza के बारे में पढ़ें।

व्यायाम - एक बुनियादी संवादात्मक बॉट को कोड करना

एक संवादात्मक बॉट, जैसे Eliza, एक प्रोग्राम है जो उपयोगकर्ता इनपुट को प्राप्त करता है और समझने और बुद्धिमानी से प्रतिक्रिया देने का आभास देता है। Eliza के विपरीत, हमारे बॉट के पास कई नियम नहीं होंगे जो इसे एक बुद्धिमान बातचीत का आभास देंगे। इसके बजाय, हमारे बॉट में केवल एक ही क्षमता होगी, जो कि बातचीत को यादृच्छिक प्रतिक्रियाओं के साथ जारी रखना है जो लगभग किसी भी सामान्य बातचीत में काम कर सकती हैं।

योजना

आपके संवादात्मक बॉट बनाने के चरण:

उपयोगकर्ता को बॉट के साथ कैसे इंटरैक्ट करना है, इसके निर्देश प्रिंट करें
एक लूप शुरू करें
1. उपयोगकर्ता इनपुट स्वीकार करें
2. यदि उपयोगकर्ता ने बाहर निकलने के लिए कहा है, तो बाहर निकलें
3. उपयोगकर्ता इनपुट को प्रोसेस करें और प्रतिक्रिया निर्धारित करें (इस मामले में, प्रतिक्रिया संभावित सामान्य प्रतिक्रियाओं की सूची से एक रैंडम चयन है)
4. प्रतिक्रिया प्रिंट करें
चरण 2 पर वापस जाएं

बॉट बनाना

आइए बॉट को बनाना शुरू करें। हम कुछ वाक्यांशों को परिभाषित करके शुरू करेंगे।

निम्नलिखित रैंडम प्रतिक्रियाओं के साथ Python में इस बॉट को स्वयं बनाएं:
```
random_responses = ["That is quite interesting, please tell me more.",
                    "I see. Do go on.",
                    "Why do you say that?",
                    "Funny weather we've been having, isn't it?",
                    "Let's change the subject.",
                    "Did you catch the game last night?"]
```
यहां कुछ नमूना आउटपुट है जो आपको मार्गदर्शन करेगा (उपयोगकर्ता इनपुट > से शुरू होने वाली लाइनों पर है):
```
Hello, I am Marvin, the simple robot.
You can end this conversation at any time by typing 'bye'
After typing each answer, press 'enter'
How are you today?
> I am good thanks
That is quite interesting, please tell me more.
> today I went for a walk     
Did you catch the game last night?
> I did, but my team lost
Funny weather we've been having, isn't it?
> yes but I hope next week is better
Let's change the subject.
> ok, lets talk about music
Why do you say that?
> because I like music!
Why do you say that?
> bye
It was nice talking to you, goodbye!
```
कार्य का एक संभावित समाधान यहां है

✅ रुकें और विचार करें
1. क्या आपको लगता है कि रैंडम प्रतिक्रियाएं किसी को यह सोचने में 'धोखा' देंगी कि बॉट वास्तव में उन्हें समझता है?
2. बॉट को अधिक प्रभावी बनाने के लिए उसे किन सुविधाओं की आवश्यकता होगी?
3. यदि बॉट वास्तव में एक वाक्य के अर्थ को 'समझ' सकता है, तो क्या उसे बातचीत में पिछले वाक्यों के अर्थ को 'याद' करने की आवश्यकता होगी?

🚀चुनौती

ऊपर दिए गए "रुकें और विचार करें" तत्वों में से एक को चुनें और या तो इसे कोड में लागू करने का प्रयास करें या पेपर पर छद्मकोड का उपयोग करके एक समाधान लिखें।

अगले पाठ में, आप प्राकृतिक भाषा को पार्स करने और मशीन लर्निंग के कई अन्य दृष्टिकोणों के बारे में जानेंगे।

पोस्ट-लेक्चर क्विज़

समीक्षा और आत्म-अध्ययन

नीचे दिए गए संदर्भों को आगे पढ़ने के अवसरों के रूप में देखें।

संदर्भ

शुबर्ट, लेनहार्ट, "कंप्यूटेशनल लिंग्विस्टिक्स", द स्टैनफोर्ड एन्साइक्लोपीडिया ऑफ फिलॉसफी (स्प्रिंग 2020 संस्करण), एडवर्ड एन. ज़ाल्टा (संपादक), URL = https://plato.stanford.edu/archives/spr2020/entries/computational-linguistics/.
प्रिंसटन यूनिवर्सिटी "वर्डनेट के बारे में।" WordNet. प्रिंसटन यूनिवर्सिटी। 2010।

असाइनमेंट

एक बॉट खोजें

अस्वीकरण: यह दस्तावेज़ मशीन-आधारित एआई अनुवाद सेवाओं का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता के लिए प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवादों में त्रुटियाँ या अशुद्धियाँ हो सकती हैं। मूल दस्तावेज़ को उसकी मूल भाषा में प्राधिकृत स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।

Tip!

Press p or to see the previous file or, n or to see the next file

Specify your S3 bucket

Bucket name cannot be the same as the repository name. Please change one of them.

Bucket url and prefix

Region

Endpoint Url

Disable SSL verification

README.md 25 KB

Permalink History Raw

प्राकृतिक भाषा प्रसंस्करण का परिचय

प्री-लेक्चर क्विज़

परिचय

कंप्यूटेशनल लिंग्विस्टिक्स

उदाहरण - फोन डिक्टेशन

यह तकनीक कैसे संभव है?

पूर्वापेक्षाएँ

मशीनों से बात करना

'ट्यूरिंग टेस्ट'

प्रेरणा - 'द इमिटेशन गेम'

Eliza का विकास

व्यायाम - एक बुनियादी संवादात्मक बॉट को कोड करना

योजना

बॉट बनाना

🚀चुनौती

पोस्ट-लेक्चर क्विज़

समीक्षा और आत्म-अध्ययन

संदर्भ

असाइनमेंट

Comments

Use AWS S3 as storage!

Specify your S3 bucket

Access key (If needed)

Congratulations!

Use Google Cloud Storage!

Specify your Google Storage bucket

Service Account Key

Congratulations!

Use Azure Cloud Storage!

Specify your Azure Storage bucket

Access key (If needed)

Congratulations!

Use any S3 compatible storage!

Specify your S3 bucket

Access key (If needed)

Congratulations!

nirbarazida / ML-For-Beginners mirror of https://github.com/microsoft/ML-For-Beginners.git

README.md 25 KB Permalink History Raw

प्राकृतिक भाषा प्रसंस्करण का परिचय

प्री-लेक्चर क्विज़

परिचय

कंप्यूटेशनल लिंग्विस्टिक्स

उदाहरण - फोन डिक्टेशन

यह तकनीक कैसे संभव है?

पूर्वापेक्षाएँ

मशीनों से बात करना

'ट्यूरिंग टेस्ट'

प्रेरणा - 'द इमिटेशन गेम'

Eliza का विकास

व्यायाम - एक बुनियादी संवादात्मक बॉट को कोड करना

योजना

बॉट बनाना

🚀चुनौती

पोस्ट-लेक्चर क्विज़

समीक्षा और आत्म-अध्ययन

संदर्भ

असाइनमेंट

Comments

Use AWS S3 as storage!

Specify your S3 bucket

Access key (If needed)

Congratulations!

Use Google Cloud Storage!

Specify your Google Storage bucket

Service Account Key

Congratulations!

Use Azure Cloud Storage!

Specify your Azure Storage bucket

Access key (If needed)

Congratulations!

Use any S3 compatible storage!

Specify your S3 bucket

Access key (If needed)

Congratulations!

nirbarazida
/
ML-For-Beginners
mirror of https://github.com/microsoft/ML-For-Beginners.git

README.md 25 KB

Permalink History Raw