Spacy 101: هر آنچه شما باید بدانید

آخرین مطالب

امکانات وب

Spacy 101: هر آنچه شما باید بدانید

این که آیا شما در Spacy تازه کار هستید ، یا فقط می خواهید برخی از اصول اولیه NLP و جزئیات اجرای را مسواک بزنید - این صفحه باید شما را پوشش داده باشد. هر بخش یکی از ویژگی های Spacy را به صورت ساده و با مثال یا تصاویر توضیح می دهد. برخی از بخش ها همچنین به عنوان یک مقدمه سریع در راهنماهای استفاده ظاهر می شوند.

به ما در بهبود اسناد کمک کنید

آیا اشتباه کرده اید یا توضیحاتی را مشاهده کرده اید که نامشخص است؟ما همیشه از پیشنهادات بهبود قدردانی می کنیم

وادشما می توانید یک پیوند "پیشنهادی ویرایش" را در پایین هر صفحه پیدا کنید که شما را به منبع نشان می دهد.

دوره تعاملی رایگان را طی کنید

Advanced NLP with spaCy

در این دوره یاد می گیرید که چگونه از Spacy برای ساختن سیستم های پیشرفته درک زبان طبیعی استفاده کنید ، با استفاده از رویکردهای یادگیری مبتنی بر قانون و ماشین. این شامل 55 تمرین است که شامل تمرین برنامه نویسی تعاملی ، سؤالات چند گزینه ای و عرشه های اسلاید است.

Spacy چیست؟

Spacy یک کتابخانه منبع آزاد برای پردازش پیشرفته زبان طبیعی (NLP) در پایتون است.

اگر با متن زیادی کار می کنید ، در نهایت می خواهید در مورد آن اطلاعات بیشتری کسب کنید. به عنوان مثال ، در مورد چیست؟معنی کلمات در متن چیست؟چه کسی انجام می دهد چه کسی؟از چه شرکت ها و محصولات ذکر شده است؟کدام متون شبیه به یکدیگر هستند؟

Spacy به طور خاص برای استفاده از تولید طراحی شده است و به شما کمک می کند تا برنامه هایی را ایجاد کنید که پردازش و "درک" حجم زیادی از متن را درک کنید. این می تواند برای ایجاد استخراج اطلاعات یا سیستم های درک زبان طبیعی یا متن قبل از پردازش برای یادگیری عمیق استفاده شود.

فهرست مطالب

چه اسپیسی نیست

Spacy نرم افزار تحقیق نیست. این بر اساس آخرین تحقیقات ساخته شده است ، اما برای انجام کارها طراحی شده است. این منجر به تصمیمات طراحی نسبتاً متفاوت از NLTK می شود

امکانات

در مستندات ، شما از ویژگی ها و قابلیت های Spacy استفاده خواهید کرد. برخی از آنها به مفاهیم زبانی اشاره می کنند ، در حالی که برخی دیگر مربوط به عملکرد کلی یادگیری ماشین است.

نام	شرح
نشانه سازی	تقسیم متن به کلمات ، علائم سوراخ و غیره
برچسب زدن قسمت از گفتار (POS)	اختصاص انواع کلمات به نشانه ها ، مانند فعل یا اسم.
وابستگی تجزیه	اختصاص برچسب های وابستگی نحوی ، توصیف روابط بین نشانه های فردی ، مانند موضوع یا موضوع.
لیمت	اختصاص اشکال پایه کلمات. به عنوان مثال ، Lemma "WAS" "BE" است ، و Lemma "موش" "موش" است.
تشخیص مرز جمله (SBD)	یافتن و تقسیم جملات فردی.
نامگذاری شده به رسمیت شناختن (NER)	برچسب زدن به نام اشیاء "دنیای واقعی" ، مانند اشخاص ، شرکت ها یا مکان ها.
پیوند موجودیت (EL)	تفکیک موجودات متنی به شناسه های منحصر به فرد در یک پایگاه دانش.
مشابه	مقایسه کلمات ، دهانه ها و اسناد و چقدر آنها با یکدیگر مشابه هستند.
طبقه بندی متن	اختصاص دسته ها یا برچسب ها به یک سند کامل یا بخش هایی از یک سند.
تطابق مبتنی بر قانون	یافتن توالی نشانه ها بر اساس متون و حاشیه نویسی های زبانی ، مشابه عبارات منظم.
آموزش	به روزرسانی و بهبود پیش بینی های مدل آماری.
سریال سازی	ذخیره اشیاء در پرونده ها یا رشته های بایت.

مدلهای آماری

در حالی که برخی از ویژگی های Spacy به طور مستقل کار می کنند ، برخی دیگر نیاز به خطوط لوله آموزش دیده برای بارگیری دارند ، که باعث می شود Spacy بتواند حاشیه نویسی های زبانی را پیش بینی کند - به عنوان مثال ، آیا یک کلمه یک فعل است یا یک اسم. یک خط لوله آموزش دیده می تواند از چندین مؤلفه تشکیل شود که از یک مدل آماری آموزش داده شده بر روی داده های دارای برچسب استفاده می کنند. Spacy در حال حاضر خطوط لوله آموزش دیده را برای انواع زبانها ارائه می دهد ، که می توانند به عنوان ماژول های پایتون شخصی نصب شوند. بسته های خط لوله می توانند از نظر اندازه ، سرعت ، استفاده از حافظه ، دقت و داده های موجود در آن متفاوت باشند. بسته ای که انتخاب می کنید همیشه به مورد استفاده شما و متونی که با آنها کار می کنید بستگی دارد. برای یک مورد استفاده عمومی ، بسته های کوچک و پیش فرض همیشه شروع خوبی هستند. آنها به طور معمول شامل مؤلفه های زیر هستند:

وزنهای باینری برای برچسب بخش گفتار ، تجزیهگر وابستگی و شناسایی کننده نهاد برای پیش بینی این حاشیه نویسی ها در متن.
نوشته های واژگانی در واژگان ، یعنی کلمات و ویژگی های مستقل از متن آنها مانند شکل یا املا.
پرونده های داده مانند قوانین Lemmatization و جداول جستجو.
بردارهای کلمه ای ، یعنی بازنمایی معنی چند بعدی از کلمات که به شما امکان می دهد تعیین کنند که چقدر با یکدیگر مشابه هستند.
گزینه های پیکربندی ، مانند تنظیمات خط لوله زبان و پردازش و پیاده سازی های مدل برای استفاده ، برای قرار دادن Spacy در حالت صحیح هنگام بارگیری خط لوله.

حاشیه نویسی زبانی

Spacy انواع یادداشت های زبانی را برای شما فراهم می کند تا بینش در مورد ساختار دستوری یک متن را به شما ارائه دهد. این شامل انواع کلمات ، مانند بخش های گفتار و نحوه ارتباط کلمات با یکدیگر است. به عنوان مثال ، اگر شما در حال تجزیه و تحلیل متن هستید ، تفاوت زیادی ایجاد می کند که آیا یک اسم موضوع یک جمله است یا شیء - یا اینکه از "گوگل" به عنوان فعل استفاده می شود ، یا به وب سایت یا شرکت در یک خاص اشاره داردمتن نوشته.

خطوط لوله بارگیری

پس از بارگیری و نصب یک خط لوله آموزش دیده ، می توانید آن را از طریق spacy. load بارگیری کنید

وادبا این کار یک شیء زبانی حاوی کلیه مؤلفه ها و داده های مورد نیاز برای پردازش متن باز می گردد. ما معمولاً آن را NLP می نامیم. تماس با شیء NLP در یک رشته متن ، یک سند پردازش شده را برمی گرداند:

حتی اگر یک DOC پردازش شود - به عنوان مثالتقسیم به کلمات فردی و حاشیه نویسی - هنوز هم تمام اطلاعات متن اصلی مانند شخصیت های فضای سفید را در خود جای داده است. شما همیشه می توانید با پیوستن به نشانه ها و فضای سفید آنها ، جبران یک نشانه را به رشته اصلی یا بازسازی اصلی کنید. به این ترتیب ، شما هرگز هنگام پردازش متن با Spacy هیچ اطلاعاتی را از دست نخواهید داد.

نشانه سازی

در حین پردازش ، Spacy ابتدا متن را نشانه می گیرد ، یعنی آن را به کلمات ، نگارشی و غیره تقسیم می کند. این کار با استفاده از قوانین خاص برای هر زبان انجام می شود. به عنوان مثال ، نگارشی در پایان یک جمله باید تقسیم شود - در حالی که "U. K."باید یک نشانه باقی بماند. هر سند از نشانه های جداگانه تشکیل شده است ، و ما می توانیم بر آنها تکرار کنیم:

0	1	2	3	4	5	6	7	8	9	10
سیب	is	نگاه	at	خریداری کردن	انگلستان.	استارت آپ	برای	$	1	میلیارد

اول ، متن خام بر روی شخصیت های فضای سفید ، شبیه به Text. Split ('') تقسیم می شود. سپس ، Tokenizer متن را از چپ به راست پردازش می کند. در هر بستر ، دو چک انجام می دهد:

آیا بستر با یک قانون استثناء توکین ساز مطابقت دارد؟به عنوان مثال ، "نه" حاوی فضای سفید نیست ، بلکه باید به دو نشانه تقسیم شود ، "انجام دهید" و "نه" ، در حالی که "U. K."همیشه باید یک نشانه باقی بماند.

آیا می توان پیشوند ، پسوند یا infix را جدا کرد؟به عنوان مثال نگارشی مانند کاما ، دوره ها ، هیفن ها یا نقل قول ها.

اگر یک مسابقه وجود داشته باشد ، این قانون اعمال می شود و Tokenizer حلقه خود را ادامه می دهد ، با شروع از زیرزمین های تازه تقسیم شده. به این ترتیب ، Spacy می تواند نشانه های پیچیده و توخالی مانند ترکیبی از مخفف ها و علائم چند نگارشی را تقسیم کند.

استثناء Tokenizer: قانون خاص برای تقسیم یک رشته به چندین نشانه یا جلوگیری از تقسیم نشانه در هنگام اعمال قوانین نگارشی.
پیشوند: شخصیت (ها) در ابتدا ، به عنوان مثال$ ، (، "،.
پسوند: شخصیت (ها) در پایان ، به عنوان مثالکیلومتر ،) ، "،! واد
infix: شخصیت (ها) در بین ، به عنوان مثال- ، - ، / ، ...

در حالی که قوانین نگارشی معمولاً بسیار کلی هستند ، استثناء توکن ساز به شدت به مشخصات زبان فردی بستگی دارد. به همین دلیل است که هر زبان موجود دارای زیر کلاس خاص خود مانند انگلیسی یا آلمانی است که در لیست داده های کدگذاری شده و قوانین استثنا قرار دارد.

Spacy 101: هر آنچه شما باید بدانید

آخرین مطالب

امکانات وب