پیکره دادگان معنایی

نخستین پیکرۀ دادگان معنایی زبان فارسی، مجموعه‎ای است شامل حدود ۳۰ هزار جمله برچسب‌خوردۀ زبان فارسی با اطلاعات معنایی/ نقش‌های معنایی. این پیکره می‌تواند به عنوان زیرساختی اساسی در پردازش رایانه‌ای زبان فارسی به کار رود. همچنین اطلاعات موجود در این پیکره می‌تواند در استفاده از محتوای فارسی در فضای مجازی به کار رود. بدین قرار در بررسی ماشینیِ زبانِ آدمی، با هدف استخراج، دسته‌بندی و پردازش اطلاعات، با هر انگیزۀ کاربردی اعم از ترجمه ماشینی، پرسش و پاسخ، مشابهت‌یابی، ویرایش متن و غیره، هدف نهایی دستیابی، به مفهوم است. برای این منظور دسترسی به اطلاعات موجود در لایه‌های مختلف متن (از هر نوع، شامل نوشتاری یا گفتاری) ضروری است. اما دست‌یابی به سطوح مختلف زبان در ارتباط با تجربه ماشین، منطبق با حوزه‌های مختلفی صورت می‌گیرد که دستور زایشی برای زبان قائل شده است. به عبارت دیگر بهترین نوع اطلاعات برای ماشین صوری‌ترینِ آن‌ها است و بر همین اساس از صوری‌ترین سطوح زبان استفاده می‌شود تا تجربه ماشین در برخورد با زبان آدمی افزایش پیدا کند و در نتیجه نهایتاً عالی‌ترین سطح یعنی معنی و مفهوم قابل دسترس شود. در نخستین سطح از سطوح زبان برچسب اجزاء سخن در مفهوم زبان‌شناختی و هر نوع اطلاعات منحصر به هر واژه در مفهوم ویژگی‌های منحصر به فرد هر زبان، مشخص می‌شود. در سطحی دیگر ما با جمله و سطوح نحوی مواجه می‌شویم به طور مثال در دو جمله «آن­ها داور را زدند» و « آن­ها موهایشان را زدند» ما با فعل زدن سروکار داریم در حالی که این فعل در دو جمله مذکور هرکدام معنای متفاوتی دارد و دقیقاً در همین جا ما به محتوا/مفهوم یا معنای دو فعل نیاز داریم که با ایجاد پیکره معنایی میسر می‌شود. داشتن پیکره‌های معنایی زبان فارسی می‌تواند به ما در فضای مجازی و هر آنچه با مفهوم در این فضا ارتباط دارد کمک کند. به طور مثال این پیکره‌ها در راستای ایجاد جویشگرهای معنایی و مفهومی در دنیا بسیار کارآمد هستند زیرا در آنجا ما با جستجوی صوری واژه‌ها مواجه نیستیم با هر محتوایی که مفهوم کلمه مورد نظر را دارا باشد مواجه خواهیم بود. هرجا که قرار است در فضای مجازی بدون دخالت انسان تحلیلی انجام شود و ماشین پاسخگو باشد نیز به دادگان معنایی نیاز است. مثال‌های ذکر شده لزوم دستیابی به پیکره‌های معنایی را مشخص می‌کند. به همین دلیل است که کشورهای بزرگ دنیا حتی با داشتن پیکره‌های نحوی، تولید پیکره‌های معنایی را در اولویت‌های پژوهشی خود قرار می­دهند و خوشبختانه به همت گروه مجربی از زبان‌شناسان برجسته و با حمایت سازمان فناوری اطلاعات ایران و مرکز تحقیقات کامپیوتری علوم اسلامی دادگان معنایی در زبان فارسی برای ۳۰۰۰۰جمله محقق شده است. که در اختیار عموم قرار می‌گیرد.

http://opensourceiran.ito.gov.ir/web/guest/-2

ارتباط با ما

  • نشانی:    تهران، خیابان کارگرشمالی، روبروی سازمان انرژی اتمی، پژوهشگاه ارتباطات و فناوری اطلاعات
  • تلفن تماس: ۸۴۹۷۷۱۹۴ و ۸۴۹۷۸۱۳۳
  • رایانامه: didras@itrc.ac.ir

خبرنامه

عضویت در خبر نامه دیدرس، جهت دریافت آخرین اخبار و وقایع در زمینه طرح جویشگر بومی

درباره طرح

به پایگاه اطلاع‌رسانی طرح جویشگر بومی خوش آمدید، این پایگاه در راستای اطلاع‌رسانی معرفی اهداف، رویکردها و دستاوردهای حوزه جویشگر بومی از تاریخ ۱۳۹۳/۱۱/۲۸ فعالیت خود را آغاز نموده است. با توجه به اینکه شناخت ظریفت‌ها در حوزه جویشگر همواره از اهم ماموریت‌های این طرح است، همواره پذیرای تماس‌های شما هستیم.