در همه ملل دنيا توجه به ابزار زباني مورد توجه خاص زبانشناسان هر منطقه مي باشد. با ورود دانش استفاده از ابزار رايانه اي در عمليات پيچيده زباني بخشي به عنوان پرداش زبان طبيعي در بين گرايش هاي محاسبات رايانه اي مطرح شده است. در واقع، پردازش زبان طبيعی يکی از زيرشاخههای با اهميت در حوزه گسترده هوش مصنوعی و دانش زبانشناسی است. تلاش عمده در اين زمينه، ماشينی کردن فرايند درک و برداشت مفاهيم بيان شده توسط يک زبان طبيعی انساني است. به تعريف دقيقتر پردازش زبانهای طبيعی عبارت است از استفاده از رايانه به منظور پردازش زبان گفتاری و نوشتاری. پردازش زبانها و مکالمات طبيعي يکي از اموري است که با ورود فناوري رايانهاي به زندگي بشر مورد توجه بسياري از دانشمندان قرار گرفته است.
هدف اصلي در پردازش زبان طبيعي، ايجاد تئوريهاي محاسباتي از زبان، با استفاده از الگوريتمها و ساختارهاي دادهاي موجود در علوم رايانهاي است. بديهي است كه در راستاي تحقق اين هدف، نياز به دانشي وسيع از زبان است و علاوه بر محققان علوم رايانهاي، نياز به دانش زبان شناسان نيز در اين حوزه ميباشد. كاربردهاي پردازش زبان طبيعي به دو دسته كلي قابل تقسيم است: كاربردهاي نوشتاري و كاربردهاي گفتاري. از كاربردهاي نوشتاري آن مي توان به استخراج اطلاعاتي خاص از يك متن، ترجمه يك متن به زباني ديگر و يا يافتن مستنداتي خاص در يك پايگاه داده نوشتاري (مثلا يافتن كتابهاي مرتبط به هم در يك كتابخانه) اشاره كرد. نمونههايي از كاربردهاي گفتاري پردازش زبان عبارتند از: سيستمهاي پرسش و پاسخ انسان با رايانه، سرويسهاي اتوماتيك ارتباط با مشتري از طريق تلفن و يا سيستم هاي كنترلي توسط صدا. در سالهاي اخير اين حوزه تحقيقاتي توجه دانشمندان را به خود جلب كرده است و تحقيقات قابل ملاحظهاي در اين زمينه صورت گرفته است.
پردازش زبان طبيعی يکی از زيرشاخههای با اهميت در حوزه گسترده هوش مصنوعی و دانش زبانشناسی است. تلاش عمده در اين زمينه، ماشينی کردن فرايند درک و برداشت مفاهيم بيان شده توسط يک زبان طبيعی انساني است. به تعريف دقيقتر پردازش زبان های طبيعی عبارت است از استفاده از رايانه به منظور پردازش زبان گفتاری و نوشتاری. پردازش زبان ها و مکالمات طبيعي يکي از اموري است که با ورود فناوري رايانه اي به زندگي بشر مورد توجه بسياري از دانشمندان قرار گرفته است. حتي انديشهاي که تورينگ از ماشين هوشمند خود و تعريفي که او از هوش مصنوعي داشت، در مرحله اول مربوط به پردازش زبان طبيعي ميشد.
به تعریف دقیقتر پردازش زبانهای طبیعی عبارت است از استفاده از رایانه برای پردازش زبان گفتاری و نوشتاری. با استفاده از آن میتوان به ترجمه زبانها پرداخت، از صفحات وب و بانکهای اطلاعاتی نوشتاری جهت پاسخ دادن به پرسشها استفاده کرد، یا با دستگاهها (مثلاً برای مشورت گرفتن) به گفتگو پرداخت.
پردازش زبان طبیعی چیست؟
پردازش زبانهای طبیعی زیرشاخهای از هوش مصنوعی است که با توسعه و استفاده از مدلهای رایانشی برای پردازش زبان سر و کار دارد. در این زمینه، دو حیطه اصلی پژوهش وجود دارد: ادراک، که با فرایندهایی سر و کار دارد که اطلاعات را از زبان استخراج میکنند (مانند درک زبان طبیعی، بازیابی اطلاعات) و تولید، که با فرایندهایی سر و کار دارد که با استفاده از زبان به انتقال اطلاعات میپردازند. معمولاً کارهای مرتبط با گفتار را تحت عناوین جداگانه تشخیص گفتار و تولید گفتار قرار میدهند.
با اینکه مجموعه گستردهای از روشها در پردازش زبان طبیعی بکار میروند، تکنیکهای بکار رفته را میتوان به سه دستۀ کلی تقسیم نمود: روشهای آماری، روشهای ساختاری/مبتنی بر الگو و روشهای مبتنی بر استنتاج. باید توجه داشت که این راهکارها لزوماً از هم جدا نیستند. در واقع، جامعترین مدلها از ترکیب هر سۀ این روشها استفاده میکنند. تفاوت این راهکارها در نوع عملیات پردازشی است که قادر به انجام آن هستند و میزان قواعدی که در مقابل آموزش/یادگیری خودکار از روی دادههای زبانی نیاز دارند.
سطوح تحلیل زبانی:
آواشناسی/واجشناسی
ساختواژه (صرف)
نحو
معنیشناسی
کاربردشناسی
گفتمان
تکنیکهای پردازش زبان طبیعی:
قطعهبندی و نرمالسازی متن:
برای پردازش متن در كاربردهایی مانند ترجمه ماشینی، بازیابی اطلاعات، تبدیل متن به گفتار و ... باید متن ورودی قطعه بندی و نرمالسازی شود.
قطعهبندی: تقطیع دنباله كاراكترهای تشكیل دهندة متن به دنبالهای از كلمات.
مشکلات:
علائم نقطهگذاری معمولاً به كلمۀ قبل از خود میچسبند.
پسوندها و پیشوندها: در فارسی پسوندها و پیشوندها در بسیاری مواقع با فاصله از كلمه اصلی نوشته میشوند.
كلمات مركب: بین اجزای كلمات مركب معمولاً فاصله گذاشته میشود.
نرمالسازی: یكدستسازی واحدهای متنی به طوری كه قابل پردازش توسط ماشین باشند.
مشکلات:
وجود encodingهای مختلف برای بعضی از كاراكترها مانند «ی» و «ك».
روشهای مختلف چسبیدن وندها به كلمات اصلی.
روشهای مختلف اتصال اجزای كلمات مركب.
كلمات چنداملایی.
تحلیل ساختواژی:
چگونه كلمات از واحدهای كوچكتر به نام تكواژ تشكیل می شوند.
تكواژ: كوچكترین واحد دربردارنده معنا در زبان.
ساختواژه تصریفی.
ساختواژه اشتقاقی.
برچسبزنی جزء کلام:
فرایند انتساب مقولۀ نحوی به هر کلمه در پیکره متنی.
جزء کلام: مقولۀ نحوی که هر کلمه به آن تعلق دارد.
کاربردها:
مدلسازی زبانی (در بازشناسی گفتار و ...): مقولۀ نحوی یک کلمه میتواند در پیشبینی کلمۀ بعدی کمک کند.
سنتز گفتار: مقولۀ نحوی یک کلمه میتواند اطلاعاتی در مورد نحوۀ تلفظ صحیح یک کلمه به ما بدهد.
بازیابی اطلاعات: دانستن مقولۀ نحوی کلمات میتواند به استخراج کلمات مهم در متن کمک کند.
رفع ابهام معنایی: دانستن مقولۀ نحوی کلمات میتواند به رفع ابهام معنایی کلمه کمک کند.
تجزیه یا پارس (تحلیل نحوی):
تجزیۀ جمله به ساختارهای نحوی تشكیلدهندۀ آن.
برای تعیین ساختارهای نحوی یك جمله به دو چیز نیاز داریم:
گرامر: دربردارندۀ توصیف رسمی از ساختارهای مجاز زبان.
تكنیك پارس: روش آنالیز جمله برای مشخص كردن ساختارهای نحوی آن بر اساس گرامر زبان.
تحلیل معنایی:
رفع ابهام از کلمه.
مطالعه در مورد معنای رخدادهای زبانی.
چگونه معنای یك جمله به معنای عبارات، كلمات و تكواژهای تشكیل دهندۀ آن مربوط می شود.
چهار روش متداول:
منطق مرتبه اول.
شبكه معنایی.
دیاگرام وابستگی مفهومی.
نمایش مبتنی بر قاب.
مدلسازی زبانی:یادگیری ماشین.
مدل زبانی نحوۀ رخداد توالی كلمات در زبان را مدلسازی میكند.
آماری.
ساختاری.
سطوح مختلف مدل سازی زبانی:
واژگانی محلی.
نحوی.
معنایی.
كاربردهای مدل زبانی:
پیشبینی كلمات.
بازشناسی گفتار.
درك زبان طبیعی.
ترجمة ماشینی.
بازشناسی نویسههای نوری.
کاربردهای پردازش زبان طبیعی:
درک زبان طبیعی:
درک زبان گفتاری.
پردازش متون:
استخراج اطلاعات.
خلاصهسازی.
تشخیص موضوع.
خوشهبندی متون.
بازیابی اطلاعات:
جستجوی اطلاعات در مستندات مختلف و بازیابی آنها.
از بین مجموعهای از مستندات، سندهایی را پیدا كنیم كه با درخواست كاربر منطبق باشند.
بازیابی متن.
بازیابی متون گفتاری.
بازیابی تصویر.
بازیابی موسیقی.
ترجمۀ ماشینی:تولید متن.
ترجمۀ خودکار جملات از یک زبان طبیعی به زبان طبیعی دیگر به گونهای که فرد بومی زبان مقصد همان مفهومی را دریافت کند که گوینده مدنظر داشته است.
سطوح مختلف ترجمه:
ترجمۀ ماشینی كاملاً اتوماتیك.
ترجمۀ ماشینی با كمك انسان.
ترجمۀ انسانی با كمك ماشین.
ترجمۀ كاملاً انسانی.
تصحیح املاء و دستور.
بازشناسی گفتار:ساخت گفتار از روی متن.
تشخیص گفتار انسان توسط ماشین و تبدیل آن به متن یا دستورالعمل معادل.
نكات مطرح در بازشناسی گفتار:
تعداد كلمات مورد بازشناسی.
پیوسته یا گسسته بودن ادای كلمات.
وابستگی یا استقلال از گوینده.
یک سیستم بازشناسی کامل:
قادر به بازشناسی گفتار پیوسته و محاورهای باشد.
گفتار افراد مختلف، حتی با لهجههای متفاوت را بازشناسی نماید.
در محیطهای شلوغ و نویزی هم جوابگو باشد.
بصورت بلادرنگ عمل کند.
قادر به فراگیری اطلاعات جدید نظیر کلمات، قوانین زبانی و . . . باشد.
بازشناسی نویسههای نوری.
سیستمهای مکالمه گفتاری.
سیستمهای پرسش و پاسخ.
ترجمه گفتار به گفتار.
برخی خدمات اختصاصی شرکت در زمنیه پردازش زبان های طبیعی:
هدف اصلي در پردازش زبان طبيعي، ايجاد تئوريهاي محاسباتي از زبان، با استفاده از الگوريتمها و ساختارهاي دادهاي موجود در علوم رايانهاي است. بديهي است كه در راستاي تحقق اين هدف، نياز به دانشي وسيع از زبان است و علاوه بر محققان علوم رايانهاي، نياز به دانش زبان شناسان نيز در اين حوزه ميباشد. كاربردهاي پردازش زبان طبيعي به دو دسته كلي قابل تقسيم است: كاربردهاي نوشتاري و كاربردهاي گفتاري. از كاربردهاي نوشتاري آن مي توان به استخراج اطلاعاتي خاص از يك متن، ترجمه يك متن به زباني ديگر و يا يافتن مستنداتي خاص در يك پايگاه داده نوشتاري (مثلا يافتن كتابهاي مرتبط به هم در يك كتابخانه) اشاره كرد. نمونههايي از كاربردهاي گفتاري پردازش زبان عبارتند از: سيستمهاي پرسش و پاسخ انسان با رايانه، سرويسهاي اتوماتيك ارتباط با مشتري از طريق تلفن و يا سيستم هاي كنترلي توسط صدا. در سالهاي اخير اين حوزه تحقيقاتي توجه دانشمندان را به خود جلب كرده است و تحقيقات قابل ملاحظهاي در اين زمينه صورت گرفته است.
پردازش زبان طبيعی يکی از زيرشاخههای با اهميت در حوزه گسترده هوش مصنوعی و دانش زبانشناسی است. تلاش عمده در اين زمينه، ماشينی کردن فرايند درک و برداشت مفاهيم بيان شده توسط يک زبان طبيعی انساني است. به تعريف دقيقتر پردازش زبان های طبيعی عبارت است از استفاده از رايانه به منظور پردازش زبان گفتاری و نوشتاری. پردازش زبان ها و مکالمات طبيعي يکي از اموري است که با ورود فناوري رايانه اي به زندگي بشر مورد توجه بسياري از دانشمندان قرار گرفته است. حتي انديشهاي که تورينگ از ماشين هوشمند خود و تعريفي که او از هوش مصنوعي داشت، در مرحله اول مربوط به پردازش زبان طبيعي ميشد.
به تعریف دقیقتر پردازش زبانهای طبیعی عبارت است از استفاده از رایانه برای پردازش زبان گفتاری و نوشتاری. با استفاده از آن میتوان به ترجمه زبانها پرداخت، از صفحات وب و بانکهای اطلاعاتی نوشتاری جهت پاسخ دادن به پرسشها استفاده کرد، یا با دستگاهها (مثلاً برای مشورت گرفتن) به گفتگو پرداخت.
پردازش زبان طبیعی چیست؟
پردازش زبانهای طبیعی زیرشاخهای از هوش مصنوعی است که با توسعه و استفاده از مدلهای رایانشی برای پردازش زبان سر و کار دارد. در این زمینه، دو حیطه اصلی پژوهش وجود دارد: ادراک، که با فرایندهایی سر و کار دارد که اطلاعات را از زبان استخراج میکنند (مانند درک زبان طبیعی، بازیابی اطلاعات) و تولید، که با فرایندهایی سر و کار دارد که با استفاده از زبان به انتقال اطلاعات میپردازند. معمولاً کارهای مرتبط با گفتار را تحت عناوین جداگانه تشخیص گفتار و تولید گفتار قرار میدهند.
با اینکه مجموعه گستردهای از روشها در پردازش زبان طبیعی بکار میروند، تکنیکهای بکار رفته را میتوان به سه دستۀ کلی تقسیم نمود: روشهای آماری، روشهای ساختاری/مبتنی بر الگو و روشهای مبتنی بر استنتاج. باید توجه داشت که این راهکارها لزوماً از هم جدا نیستند. در واقع، جامعترین مدلها از ترکیب هر سۀ این روشها استفاده میکنند. تفاوت این راهکارها در نوع عملیات پردازشی است که قادر به انجام آن هستند و میزان قواعدی که در مقابل آموزش/یادگیری خودکار از روی دادههای زبانی نیاز دارند.
سطوح تحلیل زبانی:
آواشناسی/واجشناسی
ساختواژه (صرف)
نحو
معنیشناسی
کاربردشناسی
گفتمان
تکنیکهای پردازش زبان طبیعی:
قطعهبندی و نرمالسازی متن:
برای پردازش متن در كاربردهایی مانند ترجمه ماشینی، بازیابی اطلاعات، تبدیل متن به گفتار و ... باید متن ورودی قطعه بندی و نرمالسازی شود.
قطعهبندی: تقطیع دنباله كاراكترهای تشكیل دهندة متن به دنبالهای از كلمات.
مشکلات:
علائم نقطهگذاری معمولاً به كلمۀ قبل از خود میچسبند.
پسوندها و پیشوندها: در فارسی پسوندها و پیشوندها در بسیاری مواقع با فاصله از كلمه اصلی نوشته میشوند.
كلمات مركب: بین اجزای كلمات مركب معمولاً فاصله گذاشته میشود.
نرمالسازی: یكدستسازی واحدهای متنی به طوری كه قابل پردازش توسط ماشین باشند.
مشکلات:
وجود encodingهای مختلف برای بعضی از كاراكترها مانند «ی» و «ك».
روشهای مختلف چسبیدن وندها به كلمات اصلی.
روشهای مختلف اتصال اجزای كلمات مركب.
كلمات چنداملایی.
تحلیل ساختواژی:
چگونه كلمات از واحدهای كوچكتر به نام تكواژ تشكیل می شوند.
تكواژ: كوچكترین واحد دربردارنده معنا در زبان.
ساختواژه تصریفی.
ساختواژه اشتقاقی.
برچسبزنی جزء کلام:
فرایند انتساب مقولۀ نحوی به هر کلمه در پیکره متنی.
جزء کلام: مقولۀ نحوی که هر کلمه به آن تعلق دارد.
کاربردها:
مدلسازی زبانی (در بازشناسی گفتار و ...): مقولۀ نحوی یک کلمه میتواند در پیشبینی کلمۀ بعدی کمک کند.
سنتز گفتار: مقولۀ نحوی یک کلمه میتواند اطلاعاتی در مورد نحوۀ تلفظ صحیح یک کلمه به ما بدهد.
بازیابی اطلاعات: دانستن مقولۀ نحوی کلمات میتواند به استخراج کلمات مهم در متن کمک کند.
رفع ابهام معنایی: دانستن مقولۀ نحوی کلمات میتواند به رفع ابهام معنایی کلمه کمک کند.
تجزیه یا پارس (تحلیل نحوی):
تجزیۀ جمله به ساختارهای نحوی تشكیلدهندۀ آن.
برای تعیین ساختارهای نحوی یك جمله به دو چیز نیاز داریم:
گرامر: دربردارندۀ توصیف رسمی از ساختارهای مجاز زبان.
تكنیك پارس: روش آنالیز جمله برای مشخص كردن ساختارهای نحوی آن بر اساس گرامر زبان.
تحلیل معنایی:
رفع ابهام از کلمه.
مطالعه در مورد معنای رخدادهای زبانی.
چگونه معنای یك جمله به معنای عبارات، كلمات و تكواژهای تشكیل دهندۀ آن مربوط می شود.
چهار روش متداول:
منطق مرتبه اول.
شبكه معنایی.
دیاگرام وابستگی مفهومی.
نمایش مبتنی بر قاب.
مدلسازی زبانی:یادگیری ماشین.
مدل زبانی نحوۀ رخداد توالی كلمات در زبان را مدلسازی میكند.
آماری.
ساختاری.
سطوح مختلف مدل سازی زبانی:
واژگانی محلی.
نحوی.
معنایی.
كاربردهای مدل زبانی:
پیشبینی كلمات.
بازشناسی گفتار.
درك زبان طبیعی.
ترجمة ماشینی.
بازشناسی نویسههای نوری.
کاربردهای پردازش زبان طبیعی:
درک زبان طبیعی:
درک زبان گفتاری.
پردازش متون:
استخراج اطلاعات.
خلاصهسازی.
تشخیص موضوع.
خوشهبندی متون.
بازیابی اطلاعات:
جستجوی اطلاعات در مستندات مختلف و بازیابی آنها.
از بین مجموعهای از مستندات، سندهایی را پیدا كنیم كه با درخواست كاربر منطبق باشند.
بازیابی متن.
بازیابی متون گفتاری.
بازیابی تصویر.
بازیابی موسیقی.
ترجمۀ ماشینی:تولید متن.
ترجمۀ خودکار جملات از یک زبان طبیعی به زبان طبیعی دیگر به گونهای که فرد بومی زبان مقصد همان مفهومی را دریافت کند که گوینده مدنظر داشته است.
سطوح مختلف ترجمه:
ترجمۀ ماشینی كاملاً اتوماتیك.
ترجمۀ ماشینی با كمك انسان.
ترجمۀ انسانی با كمك ماشین.
ترجمۀ كاملاً انسانی.
تصحیح املاء و دستور.
بازشناسی گفتار:ساخت گفتار از روی متن.
تشخیص گفتار انسان توسط ماشین و تبدیل آن به متن یا دستورالعمل معادل.
نكات مطرح در بازشناسی گفتار:
تعداد كلمات مورد بازشناسی.
پیوسته یا گسسته بودن ادای كلمات.
وابستگی یا استقلال از گوینده.
یک سیستم بازشناسی کامل:
قادر به بازشناسی گفتار پیوسته و محاورهای باشد.
گفتار افراد مختلف، حتی با لهجههای متفاوت را بازشناسی نماید.
در محیطهای شلوغ و نویزی هم جوابگو باشد.
بصورت بلادرنگ عمل کند.
قادر به فراگیری اطلاعات جدید نظیر کلمات، قوانین زبانی و . . . باشد.
بازشناسی نویسههای نوری.
سیستمهای مکالمه گفتاری.
سیستمهای پرسش و پاسخ.
ترجمه گفتار به گفتار.
برخی خدمات اختصاصی شرکت در زمنیه پردازش زبان های طبیعی:
- خلاصهسازی خودکار
[*]استخراج اطلاعات
[*]درک معنایی اطلاعات
[*]استخراج اطلاعات خاص از یک متن یا یک پایگاه داده بزرگ
[*]بازیابی اطلاعات
[*]ترجمه ماشینی
[*]تشخیص نوری نویسهها
[*]تشخیص گفتار
[*]ویرایش متون
[*]سيستم هاي پرسش و پاسخ انسان با كامپيوتر
[*]یافتن مستندات خاص در یک پایگاه داده (مثل يافتن كتاب هاي مرتبط به هم در يك كتابخانه)
[*]سیستم های اتوماتیک ارتباط با مشتری
[*]انواع ابزارهای پردازش زبان های طبیعی