پردازش زبان طبیعی چیست؟

آخرین مطالب

امکانات وب

پردازش زبان طبیعی چیست؟

پردازش زبان طبیعی (NLP) شاخه ای از هوش مصنوعی (AI) است که رایانه ها را قادر می سازد تا زبان انسانی را درک ، تولید و دستکاری کنند. پردازش زبان طبیعی توانایی بازجویی از داده ها را با متن یا صدا زبان طبیعی دارد. به این "زبان" نیز گفته می شود. بیشتر مصرف کنندگان احتمالاً بدون تحقق آن با NLP تعامل داشته اند. به عنوان مثال ، NLP فناوری اصلی دستیاران مجازی مانند دستیار دیجیتال اوراکل (ODA) ، سیری ، کورتانا یا الکسا است. وقتی از این دستیاران مجازی سؤال می کنیم ، NLP همان چیزی است که آنها را قادر می سازد نه تنها درخواست کاربر را درک کنند بلکه به زبان طبیعی نیز پاسخ دهند. NLP هم برای متن و هم برای گفتار نوشتاری اعمال می شود و می تواند برای همه زبانهای انسانی اعمال شود. نمونه های دیگر ابزارهای تهیه شده توسط NLP شامل جستجوی وب ، فیلتر هرزنامه ایمیل ، ترجمه خودکار متن یا گفتار ، خلاصه اسناد ، تجزیه و تحلیل احساسات و بررسی گرامر/طلسم است. به عنوان مثال ، برخی از برنامه های ایمیل می توانند به طور خودکار پاسخ مناسبی را به یک پیام مبتنی بر محتوای آن پیشنهاد دهند - این برنامه ها از NLP برای خواندن ، تجزیه و تحلیل و پاسخ به پیام شما استفاده می کنند.

چندین اصطلاح دیگر وجود دارد که تقریباً مترادف با NLP است. درک زبان طبیعی (NLU) و تولید زبان طبیعی (NLG) به ترتیب به استفاده از رایانه ها برای درک و تولید زبان انسانی اشاره دارد. NLG این توانایی را دارد که توضیحات کلامی از آنچه اتفاق افتاده است ارائه دهد. این همچنین با خلاصه کردن اطلاعات معنی دار در متن با استفاده از مفهومی که به عنوان "دستور زبان گرافیک" شناخته می شود ، "زبان خارج" نامیده می شود.

در عمل ، از NLU به معنای NLP استفاده می شود. درک رایانه های ساختار و معنی همه زبانهای انسانی ، به توسعه دهندگان و کاربران اجازه می دهد تا با استفاده از جملات و ارتباطات طبیعی با رایانه ها ارتباط برقرار کنند. زبانشناسی محاسباتی (CL) زمینه علمی است که جنبه های محاسباتی زبان انسانی را مورد مطالعه قرار می دهد ، در حالی که NLP رشته مهندسی است که مربوط به ساخت آثار محاسباتی است که می فهمد ، تولید می کند یا دستکاری می کند.

تحقیقات در مورد NLP اندکی پس از اختراع رایانه های دیجیتال در دهه 1950 آغاز شد و NLP به زبان شناسی و هوش مصنوعی ترسیم می کند. با این حال ، پیشرفت های مهم چند سال گذشته از یادگیری ماشین استفاده شده است ، که شاخه ای از هوش مصنوعی است که سیستم هایی را ایجاد می کند که از داده ها یاد می گیرند و تعمیم می دهند. یادگیری عمیق نوعی یادگیری ماشین است که می تواند الگوهای بسیار پیچیده ای را از مجموعه داده های بزرگ بیاموزد ، به این معنی که از نظر ایده آل برای یادگیری پیچیدگی های زبان طبیعی از مجموعه داده های تهیه شده از وب مناسب است.

کاربردهای پردازش زبان طبیعی

وظایف روتین خودکار: چت بابات با استفاده از NLP می تواند تعداد زیادی از کارهای روزمره را که امروزه توسط مأمورین انسانی انجام می شود پردازش کند و کارمندان را آزاد کند تا روی کارهای چالش برانگیز و جالب تر کار کنند. به عنوان مثال ، chatbots و دستیاران دیجیتال می توانند طیف گسترده ای از درخواست های کاربر را تشخیص دهند ، آنها را با ورودی مناسب در یک پایگاه داده شرکت مطابقت داده و پاسخ مناسبی را به کاربر تدوین کنند.

بهبود جستجو: NLP می تواند در جستجوی تطبیق کلمات کلیدی برای بازیابی اسناد و سؤالات متداول با تفکیک حواس کلمه بر اساس متن (به عنوان مثال ، "حامل" به معنای چیزی متفاوت در زمینه های زیست پزشکی و صنعتی باشد) ، تطبیق مترادف (به عنوان مثال ، بازیابی اسناد با ذکر "ماشین""با توجه به جستجوی" خودرو ") و در نظر گرفتن تنوع مورفولوژیکی (که برای سؤالات غیر انگلیسی مهم است). سیستم های جستجوی آکادمیک مؤثر NLP می تواند دسترسی به تحقیقات مربوط به پیشگامان مربوط به پزشکان ، وکلا و سایر متخصصان را به طرز چشمگیری بهبود بخشد.

بهینه سازی موتور جستجو: NLP ابزاری عالی برای کسب رتبه کسب و کار شما در جستجوی آنلاین با تجزیه و تحلیل جستجو برای بهینه سازی محتوای شما است. موتورهای جستجو از NLP برای رتبه بندی نتایج خود استفاده می کنند - و دانستن نحوه استفاده مؤثر از این تکنیک ها ، رتبه بندی بالاتر از رقبای خود را آسان تر می کند. این منجر به دید بیشتر برای تجارت شما خواهد شد.

تجزیه و تحلیل و سازماندهی مجموعه های بزرگ اسناد: تکنیک های NLP مانند خوشه بندی اسناد و مدل سازی موضوع ، وظیفه درک تنوع محتوا را در مجموعه های بزرگ اسناد ، مانند گزارش های شرکت ها ، مقالات خبری یا اسناد علمی ساده می کند. این تکنیک ها اغلب در اهداف کشف قانونی استفاده می شوند.

تجزیه و تحلیل رسانه های اجتماعی: NLP می تواند بررسی های مشتری و نظرات رسانه های اجتماعی را تجزیه و تحلیل کند تا از اطلاعات عظیم اطلاعات بهتر استفاده کند. تجزیه و تحلیل احساسات نظرات مثبت و منفی را در جریان نظرات رسانه های اجتماعی مشخص می کند و یک اندازه گیری مستقیم از احساسات مشتری در زمان واقعی ارائه می دهد. این می تواند منجر به بازپرداخت عظیم خط ، مانند افزایش رضایت مشتری و درآمد شود.

بینش بازار: با تلاش NLP برای تجزیه و تحلیل زبان مشتریان تجارت خود ، شما می توانید به آنچه می خواهند ، و همچنین ایده بهتری در مورد چگونگی برقراری ارتباط با آنها داشته باشید. تجزیه و تحلیل احساسات با جنبه گرا ، احساسات مرتبط با جنبه های خاص یا محصولات در رسانه های اجتماعی را تشخیص می دهد (به عنوان مثال ، "صفحه کلید عالی است ، اما صفحه نمایش خیلی کم رنگ است") ، و اطلاعات مستقیم عملی را برای طراحی و بازاریابی محصول ارائه می دهد.

تعدیل محتوا: اگر تجارت شما مقادیر زیادی از نظرات کاربر یا مشتری را به خود جلب می کند ، NLP شما را قادر می سازد آنچه را که گفته می شود ، به منظور حفظ کیفیت و تمدن با تجزیه و تحلیل نه تنها کلمات ، بلکه لحن و هدف نظرات نیز تعدیل کنید.

صنایع با استفاده از پردازش زبان طبیعی

NLP طیف گسترده ای از فرآیندهای تجاری ، به ویژه مواردی را که شامل مقادیر زیادی متن بدون ساختار مانند ایمیل ، نظرسنجی ، مکالمات رسانه های اجتماعی و موارد دیگر است ، ساده و خودکار می کند. با NLP ، مشاغل بهتر می توانند داده های خود را تجزیه و تحلیل کنند تا به تصمیمات درست کمک کنند. در اینجا فقط چند نمونه از کاربردهای عملی NLP آورده شده است:

بهداشت و درمان: از آنجا که سیستم های بهداشت و درمان در سراسر جهان به سوابق پزشکی الکترونیکی منتقل می شوند ، با مقادیر زیادی از داده های بدون ساختار روبرو می شوند. NLP می تواند برای تجزیه و تحلیل و به دست آوردن بینش جدید در مورد سوابق بهداشتی استفاده شود.
حقوقی: برای آمادگی برای یک پرونده ، وکلا اغلب باید ساعت ها را برای بررسی مجموعه های بزرگی از اسناد و جستجوی مطالب مرتبط با یک مورد خاص صرف کنند. فناوری NLP می تواند فرایند کشف قانونی را به صورت خودکار انجام دهد و هر دو زمان و خطای انسانی را با استفاده از حجم زیادی از اسناد کاهش دهد.
امور مالی: دنیای مالی بسیار سریع حرکت می کند و هر مزیت رقابتی مهم است. در حوزه مالی ، معامله گران از فناوری NLP برای استخراج خودکار اطلاعات از اسناد شرکت ها و نسخه های خبری برای استخراج اطلاعات مربوط به اوراق بهادار و تصمیمات تجاری خود استفاده می کنند.
خدمات مشتری: بسیاری از شرکت های بزرگ از دستیاران مجازی یا chatbots برای کمک به سوالات اساسی مشتری و درخواست های اطلاعاتی (مانند سؤالات متداول) استفاده می کنند و در صورت لزوم سؤالات پیچیده ای را به انسان منتقل می کنند.
بیمه: شرکت های بزرگ بیمه در تلاش برای ساده سازی نحوه انجام کار ، از NLP برای الک کردن اسناد و گزارش های مربوط به مطالبات استفاده می کنند.

نمای کلی فناوری NLP

مدل های یادگیری ماشین برای NLP: ما قبلاً اشاره کردیم که NLP مدرن به شدت به رویکردی به هوش مصنوعی به نام یادگیری ماشین متکی است. یادگیری ماشین با تعمیم بیش از نمونه ها در یک مجموعه داده پیش بینی می کند. این مجموعه داده ها به داده های آموزشی گفته می شود و الگوریتم های یادگیری ماشین در این داده های آموزشی آموزش می دهند تا یک مدل یادگیری ماشین تولید کنند که یک کار هدف را انجام می دهد.

به عنوان مثال ، داده های آموزش تجزیه و تحلیل احساسات شامل جملات همراه با احساسات آنها (به عنوان مثال ، احساسات مثبت ، منفی یا خنثی) است. یک الگوریتم یادگیری ماشین این مجموعه داده را می خواند و مدلی تولید می کند که جملات را به عنوان ورودی می گیرد و احساسات آنها را برمی گرداند. به این نوع مدل ، که جملات یا اسناد را به عنوان ورودی می گیرد و یک برچسب را برای آن ورودی باز می گرداند ، به عنوان یک مدل طبقه بندی سند خوانده می شود. طبقه بندی کننده های اسناد همچنین می توانند برای طبقه بندی اسناد بر اساس موضوعاتی که ذکر می کنند استفاده شود (به عنوان مثال ، به عنوان ورزش ، امور مالی ، سیاست و غیره).

از نوع دیگری از مدل برای شناخت و طبقه بندی اشخاص در اسناد استفاده می شود. برای هر کلمه در یک سند ، مدل پیش بینی می کند که آیا این کلمه بخشی از ذکر یک موجود است و اگر چنین است ، چه نوع موجودی درگیر است. به عنوان مثال ، در "سهام XYZ Corp دیروز با 28 دلار معامله شد" ، "XYZ Corp" یک شرکت شرکت است ، "28 دلار" مبلغ ارز است و "دیروز" تاریخ است. داده های آموزشی برای تشخیص موجودیت مجموعه ای از متون است که در آن هر کلمه با انواع موجوداتی که کلمه به آن اشاره دارد ، برچسب خورده است. به این نوع مدل ، که یک برچسب برای هر کلمه در ورودی تولید می کند ، یک مدل برچسب زدن به دنباله نامیده می شود.

مدل های دنباله به دنباله، جدیداً به خانواده مدل های مورد استفاده در NLP اضافه شده اند. یک مدل دنباله به دنباله (یا seq2seq) یک جمله یا سند کامل را به عنوان ورودی می گیرد (مانند یک طبقه بندی کننده سند) اما یک جمله یا یک دنباله دیگر (مثلاً یک برنامه کامپیوتری) را به عنوان خروجی تولید می کند.(یک طبقه بندی کننده سند فقط یک نماد را به عنوان خروجی تولید می کند). نمونه ای از کاربردهای مدل های seq2seq شامل ترجمه ماشینی است که برای مثال، یک جمله انگلیسی را ورودی می گیرد و جمله فرانسوی آن را به عنوان خروجی برمی گرداند. خلاصه سازی سند (که در آن خروجی خلاصه ای از ورودی است). و تجزیه معنایی (که در آن ورودی یک پرس و جو یا درخواست به زبان انگلیسی است و خروجی یک برنامه کامپیوتری است که آن درخواست را اجرا می کند).

یادگیری عمیق، مدل های از پیش آموزش دیده و یادگیری انتقالی: یادگیری عمیق پرکاربردترین نوع یادگیری ماشین در NLP است. در دهه 1980، محققان شبکه های عصبی را توسعه دادند که در آن تعداد زیادی از مدل های یادگیری ماشین اولیه در یک شبکه ترکیب می شوند: بر اساس قیاس با مغز، مدل های یادگیری ماشینی ساده گاهی اوقات «نرون ها» نامیده می شوند. این نورون ها در لایه ها چیده شده اند و یک شبکه عصبی عمیق شبکه ای با لایه های متعدد است. یادگیری عمیق، یادگیری ماشینی با استفاده از مدل های شبکه عصبی عمیق است.

به دلیل پیچیدگی آنها، معمولاً برای آموزش یک شبکه عصبی عمیق به داده های زیادی نیاز است و پردازش آن به توان محاسباتی و زمان زیادی نیاز دارد. مدل های NLP شبکه عصبی عمیق مدرن از منابع متنوعی مانند تمام ویکی پدیا و داده های خراش شده از وب آموزش داده می شوند. داده های آموزشی ممکن است در حدود 10 گیگابایت یا بیشتر باشد، و ممکن است یک هفته یا بیشتر در یک خوشه با کارایی بالا آموزش شبکه عصبی عمیق طول بکشد.(محققان دریافتند که آموزش مدل های عمیق تر از مجموعه های داده حتی بزرگ تر، حتی عملکرد بالاتری دارند، بنابراین در حال حاضر مسابقه ای برای آموزش مدل های بزرگ تر و بزرگ تر از مجموعه داده های بزرگتر و بزرگتر وجود دارد).

به نظر می رسد داده های بی نظیر و الزامات محاسبه شبکه های عصبی عمیق ، سودمندی آنها را به شدت محدود می کند. با این حال ، یادگیری انتقال یک شبکه عصبی عمیق آموزش دیده را قادر می سازد تا با داده های آموزش بسیار کمتری و محاسبه تلاش جدید برای دستیابی به یک کار جدید آموزش داده شود. ساده ترین نوع یادگیری انتقال تنظیم خوب است. این شامل اولین آموزش مدل در یک مجموعه داده عمومی (به عنوان مثال ، ویکی پدیا) و سپس آموزش بیشتر ("تنظیم دقیق") مدل در یک مجموعه داده بسیار خاص کار کوچکتر است که با کار هدف واقعی برچسب گذاری شده است. شاید با کمال تعجب ، مجموعه داده های تنظیم دقیق می تواند بسیار کوچک باشد ، شاید فقط حاوی صدها یا حتی ده ها نمونه آموزش باشد ، و آموزش تنظیم دقیق فقط به یک پردازنده واحد نیاز دارد. یادگیری انتقال ، استقرار مدل های یادگیری عمیق در سراسر شرکت را آسان می کند.

در حال حاضر یک اکوسیستم کامل از ارائه دهندگان ارائه می دهد که مدل های یادگیری عمیق پیش ساخته را ارائه می دهند که در ترکیب های مختلف زبانها ، مجموعه داده ها و کارهای مقدماتی آموزش دیده اند. این مدل های پیش ساخته را می توان برای طیف گسترده ای از کارهای مختلف هدف بارگیری و تنظیم کرد.

نمونه تکنیک های پیش پردازش NLP

Tokenization: Tokenization متن خام (به عنوان مثال ، یک جمله یا یک سند) را به دنباله ای از نشانه ها ، مانند کلمات یا قطعات فرعی تقسیم می کند. توکن سازی اغلب اولین قدم در خط لوله پردازش NLP است. توکن ها معمولاً توالی های مکرر متن هستند که در پردازش بعدی به عنوان واحدهای اتمی تحت درمان قرار می گیرند. آنها ممکن است کلمات ، واحدهای زیرزمینی به نام مورفم ها باشند (به عنوان مثال ، پیشوندهایی مانند "Un-" یا پسوندهایی مانند "-ing" به زبان انگلیسی) یا حتی شخصیت های فردی.

مدل های کیسه ای از کلمات: مدل های کیف های کلمه ای اسناد را به عنوان مجموعه های بدون هماهنگ نشانه ها یا کلمات درمان می کنند (یک کیسه مانند یک مجموعه است ، به جز اینکه تعداد دفعاتی که هر عنصر ظاهر می شود را ردیابی می کند). از آنجا که آنها به طور کامل نظم کلمه را نادیده می گیرند ، مدل های کیف های کلمه ای جمله ای مانند "مرد نیش مرد" را با "مرد نیش سگ" اشتباه می گیرند. با این حال ، مدل های کیف های کیف اغلب به دلایل کارآیی در کارهای بزرگ بازیابی اطلاعات مانند موتورهای جستجو استفاده می شوند. آنها می توانند نزدیک به نتایج پیشرفته با اسناد طولانی تر تولید کنند.

حذف کلمه توقف: «کلمه توقف» نشانه ای است که در پردازش بعدی نادیده گرفته می شود. آنها معمولاً کلمات کوتاه و مکرر مانند "a"، "the" یا "an" هستند. مدل های کیسه ای کلمات و موتورهای جستجو اغلب کلمات توقف را نادیده می گیرند تا زمان پردازش و ذخیره سازی در پایگاه داده را کاهش دهند. شبکه های عصبی عمیق معمولاً ترتیب کلمات را در نظر می گیرند (یعنی مدل هایی از کلمات نیستند) و حذف کلمات را متوقف نمی کنند، زیرا کلمات توقف می توانند تفاوت های ظریفی را در معنا منتقل کنند (به عنوان مثال، «بسته گم شد"و "یک بسته گم شده است" معنی یکسانی ندارند، حتی اگر پس از حذف کلمه توقف یکسان باشند).

ریشه یابی و واژه سازی: تکواژها کوچکترین عناصر معنادار زبان هستند. به طور معمول تکواژها کوچکتر از کلمات هستند. به عنوان مثال، "بازبینی" از پیشوند "re-"، ریشه "visit" و پسوند زمان گذشته "-ed" تشکیل شده است. ریشه بندی و واژه سازی کلمات را به شکل های اصلی آن ها نگاشت می کند (مثلاً «بازبینی» + گذشته). ریشه یابی و واژه سازی گام های مهمی در مدل های یادگیری عمیق هستند، اما مدل های یادگیری عمیق عموماً این نظم ها را از داده های آموزشی خود می آموزند و بنابراین نیازی به مراحل ریشه یابی صریح یا واژه سازی ندارند.

برچسب گذاری بخشی از گفتار و تجزیه نحوی: برچسب گذاری قسمتی از گفتار (PoS) فرآیند برچسب گذاری هر کلمه با بخشی از گفتار آن (به عنوان مثال، اسم، فعل، صفت و غیره) است. تجزیه کننده نحوی نحوه ترکیب کلمات را برای تشکیل عبارات، جملات و جملات کامل شناسایی می کند. برچسب گذاری PoS یک کار برچسب گذاری دنباله ای است، تجزیه نحوی یک نوع توسعه یافته از کار برچسب گذاری دنباله است، و Nntworks عصبی عمیق فناوری پیشرفته ای برای برچسب گذاری PoS و تجزیه نحوی است. قبل از یادگیری عمیق، برچسب گذاری PoS و تجزیه نحوی گام های اساسی در درک جمله بودند. با این حال، مدل های مدرن NLP یادگیری عمیق معمولاً فقط از اطلاعات PoS یا نحوی بهره می برند، بنابراین نه برچسب گذاری PoS و نه تجزیه نحوی به طور گسترده در یادگیری عمیق NLP استفاده نمی شوند.

زبان های برنامه نویسی NLP

پایتون:

کتابخانه ها و ابزارهای NLP عموماً در پایتون موجود هستند و به همین دلیل اکثر پروژه های NLP در پایتون توسعه یافته اند. محیط توسعه تعاملی پایتون توسعه و آزمایش کدهای جدید را آسان می کند.

جاوا و سی پلاس پلاس:

برای پردازش مقادیر زیادی داده، C++ و جاوا اغلب ترجیح داده می شوند زیرا می توانند کد کارآمدتری را پشتیبانی کنند.

کتابخانه های NLP و محیط های توسعه

در اینجا نمونه هایی از چند کتابخانه محبوب NLP آورده شده است.

Tensorflow و Pytorch: این دو ابزار محبوب یادگیری عمیق هستند. آنها آزادانه برای اهداف تحقیق و تجاری در دسترس هستند. در حالی که آنها از چندین زبان پشتیبانی می کنند ، زبان اصلی آنها پایتون است. آنها با کتابخانه های بزرگی از اجزای از پیش ساخته همراه هستند ، بنابراین حتی مدل های NLP یادگیری عمیق بسیار پیشرفته اغلب فقط نیاز به وصل کردن این مؤلفه ها را با هم دارند. آنها همچنین از زیرساخت های محاسباتی با کارایی بالا ، مانند خوشه های ماشین آلات با شتاب دهنده های واحد پردازنده گرافیکی (GPU) پشتیبانی می کنند. آنها مستندات و آموزش های عالی دارند.

Allennlp: این کتابخانه ای از اجزای NLP سطح بالا (به عنوان مثال ، چت های ساده) است که در Pytorch و Python اجرا شده است. مستندات عالی است.

HUGGINGFACE: این شرکت صدها مدل مختلف یادگیری عمیق NLP و همچنین یک ابزار نرم افزاری پلاگین و بازی در Tensorflow و Pytorch را توزیع می کند که توسعه دهندگان را قادر می سازد تا به سرعت ارزیابی کنند که چگونه مدل های مختلف پیش ساخته در کارهای خاص خود عملکرد دارند.

Spark NLP: Spark NLP یک کتابخانه پردازش متن منبع باز برای NLP پیشرفته برای زبانهای برنامه نویسی پایتون ، جاوا و اسکالا است. هدف آن ارائه رابط برنامه نویسی برنامه (API) برای خطوط لوله پردازش زبان طبیعی است. این مدل مدل های شبکه عصبی ، خطوط لوله و تعبیه شده و همچنین پشتیبانی از آموزش مدلهای سفارشی را ارائه می دهد.

Spacy NLP: Spacy یک کتابخانه منبع آزاد برای NLP پیشرفته در پایتون است و به طور خاص برای کمک به ساخت برنامه هایی که می توانند حجم زیادی از متن را پردازش و درک کنند ، طراحی شده است. Spacy بسیار شهودی شناخته شده است و می تواند بسیاری از وظایف مورد نیاز در پروژه های مشترک NLP را بر عهده بگیرد.

به طور خلاصه ، پردازش زبان طبیعی منطقه مهیج از توسعه هوش مصنوعی است که طیف گسترده ای از محصولات جدید مانند موتورهای جستجو ، چت بابات ، سیستم های توصیه و سیستم های گفتار به متن را سوخت می دهد. از آنجا که رابط های انسانی با رایانه ها همچنان از دکمه ها ، فرم ها و زبانهای خاص دامنه دور می شوند ، تقاضا برای رشد در پردازش زبان طبیعی همچنان افزایش می یابد. به همین دلیل ، Oracle Cloud Infrastructure متعهد است که با شکل ها و ابزارهای محاسباتی بهینه شده عملکرد ما ، عملکردی را در محل ارائه دهد. Oracle Cloud Infrastrast مجموعه ای از اشکال GPU را ارائه می دهد که می توانید در عرض چند دقیقه از آنها استفاده کنید تا آزمایش NLP را شروع کنید.

بازار رمزارزها...

ما را در سایت بازار رمزارزها دنبال می کنید

برچسب : نویسنده : محمود کیانوش بازدید : 30 تاريخ : جمعه 30 تير 1402 ساعت: 23:01

پردازش زبان طبیعی چیست؟

آخرین مطالب

امکانات وب