جستجوی عین یک عبارت در موتور جستجو های ایرانی

وقتی در موتور جستجوی #گوگل عبارتی را جستجو می کنید، گوگل سعی می کند ترکیبات مختلف آن عبارت مورد جستجو را در پایگاه داده های خود بیابد.مثلا اگر جستجو کنید: «آمریکا و محاصره تنگه هرمز».گوگل ممکن است در پایگاه داده های خود به متنی که شامل این عبارت است، برسد: «تنگه هرمز در محاصره دریایی آمریکا»این دو عبارت در چهار کلمه اشتراک دارند: محاصره ،تنگه، هرمز، آمریکاگوگل چطور این شباهت را پیدا می کند، با روش ابداعی خودش (روش برت)یعنی یکی از نتایجی که گوگل برای جستجوی «آمریکا و محاصره تنگه هرمز » تایید می کند، جمله:«تنگه هرمز در محاصره دریایی آمریکا» است.( در موتور جستجوهای ایرانی بجای BERT از OR برای پیدا کردن عبارات مرتبط استفاده میشود که بشدت پرخطاست و حتی در سالهای ابتدای کار گوگل هم این روش بکار نرفت.)قطعا روش bert بود که موجب معروفیت بیشتر گوگل شد چرا که شما نه به فکرتان نمی رسید ونه فرصتش را داشتید که حالات مختلف جمله را جستجو کنید تا به هدفتان برسید.اما یک وقت هست اصرار دارید جستجوی عین عبارت برای شما انجام شود، از این نظر این امکان خوبه که می خواهی ببینی یک عبارت یا شعر و حتی شعار (مثلا می تونه شعار یک برند باشه) را کجاها میشه دید یا اینکه پی آیه ای از قران می گردید (می دانیم ه آیه قران فقط به شکل خودش نوشته میشود و دخل و تصرف در ان نداریم).در این مواقع موتور جستجوهای ایرانی کاری برای شما انجام نمی دهند.برای ا اثبات این موضوع من از یکی از دوستانم خواستم تستی را بر روی ذره بین انجام بده که فیلمش را برایتان می گذارم.و می بینیم که جستجوی عین عبارت در ذره بین (و احتمالا الباقی موتورجستجوهای ایرانی ،‌احتمال برای این می دهم که برای همه من بررسی نکردم) ما را بجایی نمی رسونه.
۲ MB

چرا این موضوع مهم است؟

اینکه چرا این موضوع مهم است که اصلا جای بحث ندارد،‌ چون ما برای یافتن یک شعر و یا تحقیق بر روی یک متن به ان نیاز داریم.اما سوال مهمتر:آیا می توان امیدی به رفع این ایراد اساسی داشت.پاسخ منفی است.چرا چون #گوگل این کار را با زیبایی هرچه تمامتر انجام می دهد. به اینصورت که شاید یک موتور جستجوی ایرانی بتواند این نقیصه را بصورت محدود برطرف کند و بتواند یکی دو نتیجه برگرداند اما گوگل این کار را هوشمندانه انجام می دهد یعنی خیلی بیش از یکی دو نتیجه را برمی گرداند.سوال اینکه که عملکرد گوگل برای جستجو عین عبارت چه ویژگی های برتری دارد که به دلیل برخورداری از سیستم IR‌ منحصر به فرد خود به آن رسیده و موتور جستجوهای دیگر دنیا از آن عاجز هستند.1) ابتدا عین عبارت مورد جستجوی شما لحاظ میشود حتی اگر با کلمه ای دارای غلط املایی نوشته شده باشد.2) عین عبارت مورد نظر جستجو میشود ولی با اصلاحات املایی انجام شده روی متنی که وارد کرده اید.3) مفهوم عبارت شما جستجو می شود و این شامل همراه بودن یا نبودن stop word می باشد یعنی می توانید علائم دستوری،‌ حروف ربط و اضافه و علامت جمع و کلمات توقف و.... در ان باشد یا نباشد که متن از این نظر شامل آن نباشد4) علاوه بر stop word و کموارد گفته شده گاها عبارتی را داریم که یک کلمه دیگری بین موارد اعلام شده شما را شامل میشود. ولی ترتیب کلمات عینا همان است که در این موارد هم نتیجه برگردانده میشود.می بینید گوگل چه دقتی در این کارش دارد،‌شاید موتور جستجوهای ایرانی بتوانند برایهرکدام ا ز این موارد یک الگوریتم ارایه بدهند که نتیجه برگردانده شود ولی به دلیل عدم برخورداری از سیستم سریع و کلان داده محور IR در انحصارگوگل،‌ نتیجه بجای چند ثانیه چندین دقیقه زمان ببرد.
11:04 - 24 فروردین 1405



6 پاسخ

@user1773774275361 روز پیش
در پاسخ به
پس نگین از برنامه های داخلی استفاده کنین وقتی نمیشه جایگزینش کرد!الان دیوار برنامه خوبیه دیگه سراغ اپ دیکه ای کسی نمیره! تمام

تصویر نمایه‌ی ‌الیس صبح بقریب‌
در پاسخ به
دوست عزیز،اول تشکر از توجه و جواب کارشناسی تون.دوم اینکه گفتید با جستجوی یک جمله، گوگل حالات مختلف جمله رو در پایگاه داده اش جستجو می کنه و این انحصارا در اختیار گوگل هست، به عنوان یک مهندس نرم افزار با سالها سابقه برنامه نویسی می خوام بهتون بگم اینطور نیست.

تصویر نمایه‌ی ‌الیس صبح بقریب‌
در پاسخ به
الگوریتم هایی که یک موتور جستجو استفاده می کنه مختص خودش هست ولی اینطور نیست که این مسائل قابل حل نباشه. همه اینها قابل حله. چیزی که باعث شده موتور های جستجوی ایرانی نتونند پا بگیرند اینه که یک موتور جستجو باید حتما به وسیله یک شرکت پویای خصوصی اداره بشه و نه بخش دولتی، چرا؟

تصویر نمایه‌ی ‌الیس صبح بقریب‌
برای اینکه ساختن یک موتور جستجوی اینترنتی نه یک کار یکباره، که یک فرایند دائمی است. هر موتور جستجو باید روز به روز عملکردش ارتقا پیدا کنه و قابلیت های جدید بهش اضافه بشه که اینکار از عهده بخش دولتی خارج هست. بخش خصوصی هم، برای تلاش دائم، باید خودکفا باشه و درآمد داشته باشه،

تصویر نمایه‌ی ‌الیس صبح بقریب‌
یعنی تعداد کاربرانش در حدی باشه که بتونه درامد داشته باشه و ادامه حیات بده. حرف بنده اینه که باید این فرصت رو به سکو ها و پلتفرم های نوپای داخلی داد.

@ostadfazel21 ساعت پیش
بعد از یه سری تست متوجه شدم بخشی از حرف های شما درسته اما من فکر میکنم ماجرا فقط الگوریتم جست و جو نیست...در هر صورت صفحات وبسایت من در ذره بین موجود نیستن اگرم باشن برای کاربر به راحتی قابل دسترس نیستن...و من و امثال من به گوکل نیاز داریم.