چرا هوش مصنوعی، فارسی را به‌خوبی نمی‌فهمد؟

در نشست «هوش مصنوعی و زبان فارسی؛ نگاهی به چالش‌های زبان فارسی در عصر هوش مصنوعی»، نبود داده‌های باکیفیت، پیچیدگی‌های خط فارسی و غیبت سرمایه‌گذاری کلان، سه مانع بزرگی بیان شد که جایگاه زبان فارسی را در اکوسیستم هوش مصنوعی تضعیف کرده و مدل‌های جهانی را از درک درست آن ناتوان ساخته است.
به گزارش خبرگزاری فارس به نقل از ستاد خبری هفتمین نمایشگاه مجازی کتاب تهران، نشست فرهنگی «هوش مصنوعی و زبان فارسی؛ نگاهی به چالش‌های زبان فارسی در عصر هوش مصنوعی» عصر امروز شنبه با حضور مریم مسگرخویی پژوهشگر ارشد گروه پژوهش‌های زبانی فرهنگستان زبان و ادب فارسی و امین رحمانی بنیان‌گذار ویراویراست در سرای اهل‌قلم خانه کتاب و ادبیات ایران برگزار شد. در این نشست، چالش‌های بنیادین خط فارسی برای پردازش رایانه‌ای، بحران داده‌های باکیفیت برای هوش مصنوعی، ضرورت ساخت مدل‌های بومی هوش مصنوعی و نقش حاکمیت در توسعه زیست‌بوم هوش مصنوعی فارسی مورد بحث قرار گرفت.مریم مسگرخویی در این نشست به تشریح چالش‌های ریشه‌دار خط فارسی در برابر فناوری‌های نوین پرداخت و گفت: مسائلی مانند فاصله و نیم‌فاصله، وجود نویسه‌های هم‌آوا با شکل‌های متفاوت و نبود تظاهر نوشتاری برای مصوت‌های کوتاه، پردازش رایانه‌ای زبان فارسی را به‌مراتب دشوارتر از زبان‌هایی مانند انگلیسی کرده است.وی ناهماهنگی در کاربرد نشانه‌های سجاوندی را مانعی دیگر برشمرد و افزود: متأسفانه در استفاده از نشانه‌هایی مانند ویرگول و نقطه‌ویرگول، سلیقه‌ای عمل شده و حتی در این مورد در کتاب‌های درسی هم یک‌دستی دیده نمی‌شود؛ همین آشفتگی، تشخیص بافت را برای مدل‌های هوش مصنوعی بسیار دشوار می‌کند.
مسگرخویی در ادامه به مشکل آمیختگی یونی‌کدهای عربی و فارسی در کیبوردهای رایج رایانه و تلفن همراه، اشاره کرد و ادامه داد: بسیاری از کاربران با کیبورد عربی تایپ می‌کنند. در این صورت متن تولیدی از نظر استانداردهای بین‌المللی، فارسی محسوب نمی‌شود؛ خوشبختانه استاندارد ملی ۶۲۱۹ برای یونی‌کدهای فارسی تدوین شده، اما هنوز فراگیر نشده است.این پژوهشگر فرهنگستان زبان و ادب فارسی درباره راهکارهای موجود برای حل این مشکلات گفت: اگر کاربران فارسی‌زبان، مصوبات فرهنگستان را در قالب یک دانش‌پایه به مدل‌های هوش مصنوعی بدهند، این مدل‌ها به‌تدریج می‌آموزند که متن را بر اساس همان ضوابط تولید و ویرایش کنند. هرچه متون ویرایش‌شده و منطبق با دستور خط مصوب بیشتری در فضای وب تولید شود، خوراک بهتری برای آموزش مدل‌های هوش مصنوعی فراهم می‌آید و این به نفع کلیت زبان فارسی خواهد بود.امین رحمانی؛ بنیان‌گذار ویراویراست، در ادامه این نشست با اشاره به اهمیت حضور زبان فارسی در اکوسیستم هوش مصنوعی گفت: اگر ما فارسی‌زبان‌ها نتوانیم زبان فارسی را در این فضا نجات دهیم، فضای دیجیتال ما روزبه‌روز کوچک‌تر خواهد شد؛ طبق آمارها، رتبه زبان فارسی در تولید محتوای وب از پنجم به هفتم یا هشتم نزول کرده است.وی بحران داده را بزرگ‌ترین چالش پیشرو دانست و ادامه داد: مدل‌های جهانی با داده‌های عمومی و بی‌کیفیت وب فارسی آموزش دیده‌اند؛ به همین دلیل است که همین مدل‌ها، با همان الگوریتم، زبان انگلیسی را بسیار بهتر از فارسی می‌فهمند و تولید می‌کنند.
رحمانی همچنین با تأکید بر ضرورت حرکت به سمت مدل‌های بومی هوش مصنوعی بیان کرد: مدل‌های جهانی در موضوعات فرهنگی دچار سوءگیری هستند و اگر فرزندان ما با این مدل‌ها تعامل کنند، ممکن است از نظر فرهنگی تأثیر بپذیرند؛ به‌همین دلیل چاره‌ای جز سرمایه‌گذاری بلندمدت روی مدل‌های بومی فارسی نداریم.بنیان‌گذار ویراویراست از پیچیدگی‌های خط فارسی به‌عنوان مانعی دیگر یاد کرد و ادامه داد: تعدد نویسه‌های هم‌آوا، مشکل فاصله و نیم‌فاصله، رواج گفتارنویسی در شبکه‌های اجتماعی و تفاوت زبان رسمی و محاوره در نوشتار، همه باعث پراکندگی داده‌ها و کاهش کیفیت خروجی مدل‌ها شده است.وی با اشاره به تجربه عملی خود در ساخت مدل بومی هوش مصنوعی ویراویراست گفت: ما در شرکت خودمان یک مدل کاملاً بومی برای طبقه‌بندی متون ساختیم که موفق هم بود، اما ساخت مدلی در مقیاس کلان و برای همه حوزه‌ها، از عهده یک شرکت خصوصی خارج است و نیاز به سرمایه‌گذاری کلان و زیرساخت عظیم دارد.رحمانی همچنین گره خوردن بخش عمده داده‌های باکیفیت کشور با نهادهای دولتی را از موانع جدی توسعه خواند و ادامه داد: تا زمانی که نظام حکمرانی داده در کشور مشخص نباشد و یک شرکت خصوصی نداند که اگر با داده‌های یک سازمان دولتی مدلی بسازد، عوایدش به چه کسی تعلق می‌گیرد، انگیزه‌ای برای ورود به این میدان وجود نخواهد داشت.
وی درباره نگرانی از تکرار تجربه حرکت به سوی موتورهای جست‌وجوی بومی به جای موتور جست‌وجو گوگل گفت: آن تجربه مربوط به دورانی بود که مدل پایه‌ای در کار نبود؛ اما امروز مدل‌های اوپن‌سورس قدرتمندی مانند دیپ‌سیک و کوئن در دسترس است که می‌توان با Fine-Tuning کردن آن‌ها با داده‌های فارسی، بدون نیاز به ساخت از صفر، به نتایج قابل قبولی رسید.در بخش دیگری از این نشست، مریم مسگرخویی در پاسخ به پرسشی درباره تفاوت چالش‌های فارسی و عربی در هوش مصنوعی توضیح داد: زبان عربی یک زبان قالبی است و جایگاه واژه‌ها در آن مشخص‌تر است، اما فارسی به دلیل برخورداری از ترتیب آزاد واژگان، برای تشخیص نحوی و معنایی جملات، مدل‌های هوش مصنوعی را با دشواری بسیار بیشتری روبه‌رو می‌کند.وی در پاسخ به پرسش یکی از حاضران درباره آینده شغل ویراستاری نیز گفت: هوش مصنوعی می‌تواند دستیار بسیار خوبی برای ویراستاران باشد، اما در آینده نیز جایگزین کامل نیروی انسانی نخواهد شد؛ همان‌طور که در پزشکی با وجود پیشرفت‌های چشمگیر، هنوز اعتماد کامل به ماشین شکل نگرفته است، در ویرایش نیز نقش انسان، دگرگون می‌شود اما از بین نمی‌رود.هفتمين نمايشگاه مجازی كتاب تهران از بيست‌وششم ارديبهشت تا دوم خرداد (۱۴۰۵) با شعار «بخوانيم برای ايران» در نشانی book.icfi.ir برگزار می‌شود.
19:09 - 26 اردیبهشت 1405
فرهنگ
کتاب و ادبیات

2 بازنشر6 واکنش
20٫1k بازدید