چرا هوش مصنوعی، فارسی را بهخوبی نمیفهمد؟
در نشست «هوش مصنوعی و زبان فارسی؛ نگاهی به چالشهای زبان فارسی در عصر هوش مصنوعی»، نبود دادههای باکیفیت، پیچیدگیهای خط فارسی و غیبت سرمایهگذاری کلان، سه مانع بزرگی بیان شد که جایگاه زبان فارسی را در اکوسیستم هوش مصنوعی تضعیف کرده و مدلهای جهانی را از درک درست آن ناتوان ساخته است.
به گزارش خبرگزاری فارس به نقل از ستاد خبری هفتمین نمایشگاه مجازی کتاب تهران، نشست فرهنگی «هوش مصنوعی و زبان فارسی؛ نگاهی به چالشهای زبان فارسی در عصر هوش مصنوعی» عصر امروز شنبه با حضور مریم مسگرخویی پژوهشگر ارشد گروه پژوهشهای زبانی فرهنگستان زبان و ادب فارسی و امین رحمانی بنیانگذار ویراویراست در سرای اهلقلم خانه کتاب و ادبیات ایران برگزار شد. در این نشست، چالشهای بنیادین خط فارسی برای پردازش رایانهای، بحران دادههای باکیفیت برای هوش مصنوعی، ضرورت ساخت مدلهای بومی هوش مصنوعی و نقش حاکمیت در توسعه زیستبوم هوش مصنوعی فارسی مورد بحث قرار گرفت.مریم مسگرخویی در این نشست به تشریح چالشهای ریشهدار خط فارسی در برابر فناوریهای نوین پرداخت و گفت: مسائلی مانند فاصله و نیمفاصله، وجود نویسههای همآوا با شکلهای متفاوت و نبود تظاهر نوشتاری برای مصوتهای کوتاه، پردازش رایانهای زبان فارسی را بهمراتب دشوارتر از زبانهایی مانند انگلیسی کرده است.وی ناهماهنگی در کاربرد نشانههای سجاوندی را مانعی دیگر برشمرد و افزود: متأسفانه در استفاده از نشانههایی مانند ویرگول و نقطهویرگول، سلیقهای عمل شده و حتی در این مورد در کتابهای درسی هم یکدستی دیده نمیشود؛ همین آشفتگی، تشخیص بافت را برای مدلهای هوش مصنوعی بسیار دشوار میکند.
مسگرخویی در ادامه به مشکل آمیختگی یونیکدهای عربی و فارسی در کیبوردهای رایج رایانه و تلفن همراه، اشاره کرد و ادامه داد: بسیاری از کاربران با کیبورد عربی تایپ میکنند. در این صورت متن تولیدی از نظر استانداردهای بینالمللی، فارسی محسوب نمیشود؛ خوشبختانه استاندارد ملی ۶۲۱۹ برای یونیکدهای فارسی تدوین شده، اما هنوز فراگیر نشده است.این پژوهشگر فرهنگستان زبان و ادب فارسی درباره راهکارهای موجود برای حل این مشکلات گفت: اگر کاربران فارسیزبان، مصوبات فرهنگستان را در قالب یک دانشپایه به مدلهای هوش مصنوعی بدهند، این مدلها بهتدریج میآموزند که متن را بر اساس همان ضوابط تولید و ویرایش کنند. هرچه متون ویرایششده و منطبق با دستور خط مصوب بیشتری در فضای وب تولید شود، خوراک بهتری برای آموزش مدلهای هوش مصنوعی فراهم میآید و این به نفع کلیت زبان فارسی خواهد بود.امین رحمانی؛ بنیانگذار ویراویراست، در ادامه این نشست با اشاره به اهمیت حضور زبان فارسی در اکوسیستم هوش مصنوعی گفت: اگر ما فارسیزبانها نتوانیم زبان فارسی را در این فضا نجات دهیم، فضای دیجیتال ما روزبهروز کوچکتر خواهد شد؛ طبق آمارها، رتبه زبان فارسی در تولید محتوای وب از پنجم به هفتم یا هشتم نزول کرده است.وی بحران داده را بزرگترین چالش پیشرو دانست و ادامه داد: مدلهای جهانی با دادههای عمومی و بیکیفیت وب فارسی آموزش دیدهاند؛ به همین دلیل است که همین مدلها، با همان الگوریتم، زبان انگلیسی را بسیار بهتر از فارسی میفهمند و تولید میکنند.
رحمانی همچنین با تأکید بر ضرورت حرکت به سمت مدلهای بومی هوش مصنوعی بیان کرد: مدلهای جهانی در موضوعات فرهنگی دچار سوءگیری هستند و اگر فرزندان ما با این مدلها تعامل کنند، ممکن است از نظر فرهنگی تأثیر بپذیرند؛ بههمین دلیل چارهای جز سرمایهگذاری بلندمدت روی مدلهای بومی فارسی نداریم.بنیانگذار ویراویراست از پیچیدگیهای خط فارسی بهعنوان مانعی دیگر یاد کرد و ادامه داد: تعدد نویسههای همآوا، مشکل فاصله و نیمفاصله، رواج گفتارنویسی در شبکههای اجتماعی و تفاوت زبان رسمی و محاوره در نوشتار، همه باعث پراکندگی دادهها و کاهش کیفیت خروجی مدلها شده است.وی با اشاره به تجربه عملی خود در ساخت مدل بومی هوش مصنوعی ویراویراست گفت: ما در شرکت خودمان یک مدل کاملاً بومی برای طبقهبندی متون ساختیم که موفق هم بود، اما ساخت مدلی در مقیاس کلان و برای همه حوزهها، از عهده یک شرکت خصوصی خارج است و نیاز به سرمایهگذاری کلان و زیرساخت عظیم دارد.رحمانی همچنین گره خوردن بخش عمده دادههای باکیفیت کشور با نهادهای دولتی را از موانع جدی توسعه خواند و ادامه داد: تا زمانی که نظام حکمرانی داده در کشور مشخص نباشد و یک شرکت خصوصی نداند که اگر با دادههای یک سازمان دولتی مدلی بسازد، عوایدش به چه کسی تعلق میگیرد، انگیزهای برای ورود به این میدان وجود نخواهد داشت.
وی درباره نگرانی از تکرار تجربه حرکت به سوی موتورهای جستوجوی بومی به جای موتور جستوجو گوگل گفت: آن تجربه مربوط به دورانی بود که مدل پایهای در کار نبود؛ اما امروز مدلهای اوپنسورس قدرتمندی مانند دیپسیک و کوئن در دسترس است که میتوان با Fine-Tuning کردن آنها با دادههای فارسی، بدون نیاز به ساخت از صفر، به نتایج قابل قبولی رسید.در بخش دیگری از این نشست، مریم مسگرخویی در پاسخ به پرسشی درباره تفاوت چالشهای فارسی و عربی در هوش مصنوعی توضیح داد: زبان عربی یک زبان قالبی است و جایگاه واژهها در آن مشخصتر است، اما فارسی به دلیل برخورداری از ترتیب آزاد واژگان، برای تشخیص نحوی و معنایی جملات، مدلهای هوش مصنوعی را با دشواری بسیار بیشتری روبهرو میکند.وی در پاسخ به پرسش یکی از حاضران درباره آینده شغل ویراستاری نیز گفت: هوش مصنوعی میتواند دستیار بسیار خوبی برای ویراستاران باشد، اما در آینده نیز جایگزین کامل نیروی انسانی نخواهد شد؛ همانطور که در پزشکی با وجود پیشرفتهای چشمگیر، هنوز اعتماد کامل به ماشین شکل نگرفته است، در ویرایش نیز نقش انسان، دگرگون میشود اما از بین نمیرود.هفتمين نمايشگاه مجازی كتاب تهران از بيستوششم ارديبهشت تا دوم خرداد (۱۴۰۵) با شعار «بخوانيم برای ايران» در نشانی book.icfi.ir برگزار میشود. 19:09 - 26 اردیبهشت 1405