چکیده ها بیانیه ها داستان

فراوانی استفاده از حروف الفبای روسی. بهینه سازی متون برای موتورهای جستجو - فراوانی بهینه کلمات کلیدی و طول ایده آل آن

فرکانس استفاده

اسم، تعداد مترادف ها: 1

استفاده (10)


  • - واژگانی که به دلایل خاصی استفاده از آن محدود است. دلایل برون زبانی به L.o.u. عبارتند از: گویش ها، اصطلاحات و حرفه ای ها، اصطلاحات تخصصی، واژه ها و اصطلاحات محاوره ای، ابتذال...

    فرهنگ اصطلاحات زبانشناسی اجتماعی

  • زبان شناسی عمومی. زبان شناسی اجتماعی: فرهنگ لغت-کتاب مرجع

  • - ترجمه اصطلاح آلمانی Gebrauchstypen که توسط دلبروک برای تعیین کاربردهای رایج اشکال دستوری معرفی شد. به T. بالا. برای مثال، انواع مختلف کاربرد نحوی را شامل می شود...

    فرهنگ لغت دایره المعارف بروکهاوس و یوفرون

  • - واژگانی که استفاده از آن به دلایل برون زبانی محدود شده است: 1) دیالکتیک ها از نظر سرزمینی محدود می شوند. 2) اصطلاحات مورد استفاده در سبک علمی ...
  • فرهنگ اصطلاحات زبانشناسی T.V. کره اسب

  • فرهنگ اصطلاحات زبانشناسی T.V. کره اسب

  • - کاربردهایی که استفاده از تفاوت بین یک شی و شی دیگر را ممنوع می کند: موجودات زنده نمی توانند بدون ...
  • - کاربردهایی که با نمایندگان خاصی از یک کلاس معین از اشیاء مرتبط است: من باید این شخص را ببینم...

    اصطلاحات و مفاهیم مورفولوژی عمومی: کتاب فرهنگ لغت مرجع

  • - 1) گزینه های پیش بینی شده توسط قوانین برای قالب بندی جملات پیچیده غیر اتحاد: هنگام توضیح یا ایجاد انگیزه می توان به جای دو نقطه از خط تیره استفاده کرد: جدایی توهم است - به زودی با هم خواهیم بود ...

    نحو: فرهنگ لغت

  • - قید، تعداد مترادف: 1 پنهان ...

    فرهنگ لغت مترادف ها

  • - نام، تعداد مترادف ها: 10 منتشر شده، منسوخ شده، نیازهای مدرن را برآورده نمی کند، منسوخ شده، منسوخ شده، به قلمرو افسانه ...

    فرهنگ لغت مترادف ها

  • - سانتی متر ....

    فرهنگ لغت مترادف ها

  • - ادج، تعداد مترادف: 19 نابهنگام باستانی باستانی منسوخ، منسوخ، منسوخ، فرسوده، منسوخ، منسوخ، بازنشسته به منطقه...

    فرهنگ لغت مترادف ها

  • - اضافه، تعداد مترادف ها: 2 نامناسب برای استفاده غیر معمول ...

    فرهنگ لغت مترادف ها

  • - اضافه، تعداد مترادف ها: 3 مورد استفاده نشده رها شده کنار گذاشته شود زیر پوشش ...

    فرهنگ لغت مترادف ها

  • - 1) گزینه های پیش بینی شده توسط قوانین برای قالب بندی جملات پیچیده غیر اتحاد: هنگام توضیح یا ایجاد انگیزه می توان به جای دو نقطه از خط تیره استفاده کرد: جدایی توهم است - به زودی با هم خواهیم بود 2) با انزوا ...

    فرهنگ اصطلاحات زبانشناسی T.V. کره اسب

"تکرار استفاده" در کتاب ها

دفعات تغذیه

توسط هارمار هیلری

دفعات تغذیه

توسط هارمار هیلری

دفعات تغذیه تعداد مورد نیاز تغذیه در روز برای یک توله سگ به اندازه نژاد بستگی دارد. اکثر توله سگ ها با تغذیه هر سه ساعت در شبانه روز رشد می کنند، اما اگر زودتر از موعد به دنیا بیایند یا وزن آنها در بدو تولد کمتر از 85 گرم باشد، احتمالاً

دفعات تغذیه

برگرفته از کتاب پرورش سگ توسط هارمار هیلری

دفعات تغذیه تعداد مورد نیاز تغذیه در روز برای یک توله سگ به اندازه نژاد بستگی دارد. اکثر توله سگ ها با تغذیه هر سه ساعت در شبانه روز رشد می کنند، اما اگر زودتر از موعد به دنیا بیایند یا وزن آنها در بدو تولد کمتر از 85 گرم باشد، احتمالاً

دفعات تغذیه

برگرفته از کتاب سگ ها و پرورش آنها [پرورش سگ] توسط هارمار هیلری

دفعات تغذیه تعداد مورد نیاز تغذیه در روز برای یک توله سگ به اندازه نژاد بستگی دارد. اکثر توله سگ ها با تغذیه هر سه ساعت در شبانه روز رشد می کنند، اما اگر زودتر از موعد به دنیا بیایند یا وزن آنها در بدو تولد کمتر از 85 گرم باشد، احتمالاً

فرکانس

از کتاب املاک و مستغلات. چگونه آن را تبلیغ کنیم نویسنده الکساندر نازایکین

14.2.3. فرکانس تعامل

توسط دیمیتری نیکولا

14.2.3. فراوانی تعامل هر چه بیشتر همان گروه از رقبا تعامل داشته باشند، تبانی پایدارتر می شود، زیرا تخلفات سریعتر مجازات می شوند. به عنوان مثال، اگر شرکت ها کمتر رقابت کنند، توانایی آنها برای حفظ تبانی کمتر است.

15.4.6. فرکانس حراج

برگرفته از کتاب راهنمای خرید توسط دیمیتری نیکولا

15.4.6. فراوانی حراج ها همانطور که در بالا توضیح داده شد، برخی از حلقه های حراج ممکن است پس از حراجی که برای آن تبانی کرده اند، وجوهی را بین خود انتقال دهند، یا ممکن است فقط به صورت گهگاهی مبالغ سررسید را ثبت کنند.

8. فراوانی استفاده از کلمات تابعی ثابت می شود که یک نویسنده ثابت است

از کتاب کتاب 2. ما تاریخ را تغییر می دهیم - همه چیز تغییر می کند. [گاه شماری جدید یونان و کتاب مقدس. ریاضیات فریب زمان شناسان قرون وسطی را آشکار می کند] نویسنده فومنکو آناتولی تیموفیویچ

8. فراوانی استفاده از کلمات تابعی ثابت می شود که یک استثناء قابل توجه پارامتر 3 ما است - فراوانی استفاده از همه کلمات تابع - حروف اضافه، حروف ربط و ذرات. تکامل این پارامتر بسته به رشد اندازه نمونه نشان داده شده است

فرکانس

برگرفته از کتاب دایره المعارف بزرگ شوروی (CA) نویسنده TSB

فرکانس

نویسنده الکساندر نازایکین

فرکانس

برگرفته از کتاب برنامه ریزی رسانه برای 100 نویسنده الکساندر نازایکین

فرکانس کانال های تلویزیونی بر روی فرکانس های متر و دسی متر پخش می شوند. محدوده های متر اولین بار در تلویزیون تسلط یافتند. در دهه 90 قرن بیستم، کانال های دسی متری به طور فعال در مسکو شروع به کار کردند

فرکانس

برگرفته از کتاب برنامه ریزی رسانه برای 100 نویسنده الکساندر نازایکین

فرکانس فرکانس ارسال سیگنال کیفیت آن را تعیین می کند. این به میزان بیشتری در باندهای VHF (مدولاسیون فرکانس FM) ارائه می شود. شنوندگان صدای خوب را ترجیح می دهند، به همین دلیل است که ایستگاه های VHF رتبه بندی مخاطبان قابل توجهی دارند و ترجیح داده می شوند

3.2. فرکانس

نویسنده ایوانف دیمیتری اولگوویچ

3.2. فراوانی هنگامی که در مورد اهمیت هر آسیب شناسی در پزشکی بحث می شود، به نظر ما، نه تنها در مورد علت، پاتوژنز، تصویر بالینی و شدت صدمات و عوارضی که رخ داده یا ممکن است رخ دهد، مهم است. شیوع این آسیب شناسی به

4.2. فرکانس

برگرفته از کتاب اختلالات تعادل حرارتی در نوزادان نویسنده ایوانف دیمیتری اولگوویچ

4.2. هیپرترمی فرکانس در نوزادان احتمالاً بسیار کمتر از هیپوترمی است. این احتمالاً به دلیل این واقعیت است که مطالعات بسیار کمی در مورد هایپرترمی در نوزادان در متون علمی وجود دارد. Maayan-Metzger A. et al. (2003) 42313 گزارش موردی را تجزیه و تحلیل کرد

فرکانس

برگرفته از کتاب اختلالات متابولیسم گلوکز در نوزادان نویسنده ایوانف دیمیتری اولگوویچ

فرکانس Corblant M.، که هیپوگلیسمی را به عنوان غلظت گلوکز خون کمتر از 30 میلی گرم (1.67 میلی مول در لیتر) در 72 ساعت اول زندگی تعریف کرد، آن را در 4.4٪ از تمام تولدهای زنده در سال 1971، Lubchenco L. O. و Bard یافت N. با استفاده از معیار Corblant M. هیپوگلیسمی را در نوزادان با بیشتر شناسایی کرد

من می خواهم به شما هشدار دهم که اطلاعات ارائه شده در این مقاله تا حدودی قدیمی است. من آن را بازنویسی نکردم تا بعداً بتوانم نحوه تغییر استانداردهای سئو را در طول زمان مقایسه کنم. شما می توانید اطلاعات به روز در مورد این موضوع را در مطالب جدید بیابید:

با سلام خدمت خوانندگان محترم سایت وبلاگ. مقاله امروز دوباره به موضوعی مانند بهینه سازی وب سایت ها برای موتورهای جستجو اختصاص داده خواهد شد (). قبلاً ، ما قبلاً در مورد بسیاری از موضوعات مرتبط با چنین مفهومی صحبت کرده ایم.

امروز می خواهم در مورد سئوی داخلی گفتگو را ادامه دهم و در عین حال نکاتی را که قبلاً مطرح شد، روشن کنم و همچنین در مورد مواردی که هنوز در مورد آن صحبت نکرده ایم صحبت کنم. اگر بتوانید متون منحصربفرد خوبی بنویسید، اما به نحوه درک آنها توسط موتورهای جستجو توجه کافی نداشته باشید، در این صورت آنها نمی توانند به بالای نتایج جستجو برای سوالات مرتبط با موضوع فوق العاده شما راه پیدا کنند. مقالات

چه چیزی بر ارتباط متن با یک عبارت جستجو تأثیر می گذارد؟

و این بسیار ناراحت کننده است، زیرا به این ترتیب شما پتانسیل کامل پروژه خود را که می تواند بسیار چشمگیر باشد، درک نخواهید کرد. باید درک کنید که موتورهای جستجو در اکثر موارد برنامه های احمقانه و ساده ای هستند که قادر به فراتر رفتن از توانایی های خود نیستند و به پروژه شما با چشم انسان نگاه می کنند.

آنها چیز زیادی از همه چیز خوب و ضروری در پروژه شما (که برای بازدیدکنندگان آماده کرده اید) نخواهند دید. آنها فقط می دانند که چگونه یک متن را با در نظر گرفتن بسیاری از مؤلفه ها تجزیه و تحلیل کنند، اما هنوز از درک انسان بسیار دور هستند.

بنابراین، ما باید حداقل به طور موقت به کفش های ربات های جستجوگر برویم و بفهمیم که آنها هنگام رتبه بندی متون مختلف برای جست و جوهای مختلف توجه خود را روی چه چیزی متمرکز می کنند (). و برای این باید ایده ای در مورد آن داشته باشید، برای این کار باید مقاله ارائه شده را بخوانید.

معمولاً سعی می‌کنند از کلمات کلیدی در عنوان صفحه، در برخی از سرفصل‌های داخلی استفاده کنند و همچنین آنها را به طور یکنواخت و طبیعی تا حد امکان در سراسر مقاله توزیع کنند. بله، البته، می توان از کلیدهای برجسته در متن نیز استفاده کرد، اما نباید بهینه سازی بیش از حد را فراموش کرد که ممکن است نتیجه آن باشد.

تراکم کلیدها در متن نیز مهم است، اما اکنون این یک عامل مطلوب نیست، بلکه برعکس، یک هشدار است - نباید زیاده روی کرد.

تعیین تراکم وقوع یک کلمه کلیدی در یک سند بسیار ساده است. در واقع این تعداد دفعات استفاده از آن در متن است که با تقسیم تعداد دفعات آن در سند بر طول سند در کلمات مشخص می شود. پیش از این، موقعیت سایت در نتایج جستجو به طور مستقیم به این بستگی داشت.

اما احتمالاً متوجه شده اید که جمع آوری تمام مطالب فقط از روی کلیدها امکان پذیر نخواهد بود ، زیرا غیرقابل خواندن خواهد بود و خدا را شکر این لازم نیست. می پرسی چرا؟ بله، زیرا محدودیتی برای تعداد دفعات استفاده از یک کلمه کلیدی در متن وجود دارد، پس از آن ارتباط یک سند برای یک جستجوی حاوی این کلمه کلیدی دیگر افزایش نمی یابد.

آن ها رسیدن به فرکانس مشخص برای ما کافی خواهد بود و بنابراین آن را تا حد امکان بهینه خواهیم کرد. یا زیاده روی می کنیم و زیر فیلتر می افتیم.

باقی مانده است که دو سوال (و شاید سه) حل شود: این حداکثر چگالی وقوع کلمه کلیدی چقدر است، پس از آن افزایش آن و همچنین کشف آن خطرناک است.

واقعیت این است که کلمات کلیدی برجسته شده با برچسب های تاکیدی و محصور در یک برچسب TITLE نسبت به کلمات کلیدی مشابهی که به سادگی در متن ظاهر می شوند، وزن جستجوی بیشتری دارند. اما اخیراً وب مسترها شروع به استفاده از آن کرده اند و این فاکتور را کاملا اسپم کرده اند و به همین دلیل از اهمیت آن کاسته شده و حتی می تواند به دلیل سوء استفاده از نقاط قوت منجر به مسدود شدن کل سایت شود.

اما کلیدهای TITLE همچنان مرتبط هستند، بهتر است آنها را در آنجا تکرار نکنید و سعی نکنید بیش از حد در عنوان یک صفحه قرار دهید. اگر کلمات کلیدی در TITLE باشند، می‌توانیم تعداد آنها را به میزان قابل توجهی در مقاله کاهش دهیم (و بنابراین خواندن آن را آسان‌تر و برای افراد مناسب‌تر کنیم، نه برای موتورهای جستجو)، با دستیابی به همان ارتباط، اما بدون خطر قرار گرفتن در زیر. فیلتر

من فکر می کنم که همه چیز با این سوال روشن است - هر چه کلیدهای بیشتری در برچسب های لهجه و TITLE محصور شود، شانس از دست دادن همه چیز به یکباره بیشتر می شود. اما اگر به هیچ وجه از آنها استفاده نکنید، به هیچ چیز نیز نخواهید رسید. مهمترین معیار طبیعی بودن ورود کلمات کلیدی به متن است. اگر آنها وجود داشته باشند، اما خواننده با آنها برخورد نکند، پس همه چیز عالی است.

اکنون باقی مانده است که بفهمیم چه تعداد دفعات استفاده از یک کلمه کلیدی در یک سند بهینه است، که به شما امکان می دهد صفحه را تا حد امکان مرتبط کنید و مستلزم تحریم نیست. بیایید ابتدا فرمولی را به یاد بیاوریم که اکثر (حتی احتمالاً همه) موتورهای جستجو برای رتبه بندی از آن استفاده می کنند.

نحوه تعیین فرکانس مجاز استفاده از کلید

قبلاً در مقاله ای که در بالا ذکر شد در مورد مدل ریاضی صحبت کرده ایم. ماهیت آن برای این جستجوی خاص با یک فرمول ساده بیان شده است: TF * IDF. جایی که TF فراوانی مستقیم وقوع این پرس و جو در متن سند است (تکراری که کلمات در آن ظاهر می شوند).

IDF فراوانی معکوس وقوع (نادر بودن) یک پرس و جو در تمام اسناد اینترنتی دیگر فهرست شده توسط یک موتور جستجوی معین (در مجموعه) است.

این فرمول به شما امکان می دهد مطابقت (ارتباط) یک سند را با یک عبارت جستجو تعیین کنید. هرچه ارزش محصول TF*IDF بیشتر باشد، سند مرتبط تر خواهد بود و رتبه آن بالاتر خواهد بود، و همه چیزهای دیگر برابر هستند.

آن ها معلوم می شود که وزن سند برای یک جستار معین (انطباق آن) بیشتر خواهد بود، هرچه بیشتر از کلیدهای این پرس و جو در متن استفاده شود، و کمتر این کلیدها در سایر اسناد اینترنتی یافت می شوند.

واضح است که ما نمی‌توانیم بر ارتش اسرائیل تأثیر بگذاریم، مگر با انتخاب درخواست دیگری که برای آن بهینه‌سازی می‌کنیم. اما ما می‌توانیم و می‌توانیم بر TF تأثیر بگذاریم، زیرا می‌خواهیم سهم خود (و نه اندک) از ترافیک Yandex و نتایج جستجوی Google را در مورد سؤالات کاربران مورد نیاز خود بگیریم.

اما واقعیت این است که الگوریتم‌های جستجو مقدار TF را با استفاده از یک فرمول نسبتاً حیله‌گر محاسبه می‌کنند که افزایش فراوانی استفاده از کلمه کلیدی در متن را فقط تا حد معینی در نظر می‌گیرد و پس از آن رشد TF عملاً متوقف می‌شود، با وجود این این واقعیت است که شما فرکانس را افزایش می دهید. این یک نوع فیلتر ضد اسپم است.

نسبتاً مدت‌ها پیش (تا حدود سال 2005)، مقدار TF با استفاده از یک فرمول نسبتاً ساده محاسبه می‌شد و در واقع برابر با چگالی وقوع کلمه کلیدی بود. نتایج محاسبه ارتباط با استفاده از این فرمول کاملاً مورد پسند موتورهای جستجو قرار نگرفت، زیرا آنها به هرزنامه‌ها می‌پرداختند.

سپس فرمول TF پیچیده تر شد، مفهومی مانند حالت تهوع صفحه ظاهر شد و نه تنها به دفعات وقوع، بلکه به فراوانی استفاده از کلمات دیگر در همان متن نیز بستگی داشت. و اگر کلید پرکاربردترین کلمه باشد، می‌توان به مقدار TF بهینه دست یافت.

همچنین امکان افزایش مقدار TF با افزایش اندازه متن با حفظ درصد وقوع وجود داشت. هرچه حوله با مقاله با درصد کلیدهای یکسان بزرگتر باشد، سند رتبه بالاتری خواهد داشت.

اکنون فرمول TF پیچیده‌تر شده است، اما در عین حال، اکنون نیازی نیست که وقتی متن ناخوانا می‌شود، چگالی را به مقداری برسانیم. موتورهای جستجو تحمیل خواهند کردممنوعیت پروژه ما برای هرزنامه و اکنون نیز نیازی به نوشتن برگه های نامتناسب طولانی نیست.

در حالی که همان چگالی ایده آل را حفظ می کنیم (ما آن را درست در زیر نمودار مربوطه تعیین می کنیم)، افزایش اندازه مقاله در کلمات، موقعیت آن را در نتایج جستجو فقط تا یک طول مشخص بهبود می بخشد. هنگامی که طول ایده آل را داشتید، افزایش بیشتر آن بر ارتباط تأثیری نخواهد داشت (به طور دقیق تر، اما بسیار بسیار کم).

اگر بر اساس این TF (فرکانس وقوع مستقیم) یک نمودار بسازید، همه اینها به وضوح قابل مشاهده است. اگر در یک مقیاس از این نمودار TF وجود داشته باشد، و در مقیاس دیگر - درصد فراوانی وقوع کلمه کلیدی در متن، در نتیجه به اصطلاح هذلولی را دریافت خواهیم کرد:

البته نمودار تقریبی است، زیرا تعداد کمی از مردم فرمول TF واقعی را که Yandex یا Google استفاده می کنند، می دانند. اما از نظر کیفی می توان آن را تعیین کرد محدوده بهینه، که فرکانس باید در آن قرار گیرد. این تقریباً 2-3 درصد از تعداد کل کلمات است.

اگر در نظر داشته باشید که برخی از کلیدها را نیز در برچسب‌های تاکیدی و عنوان TITLE قرار می‌دهید، این محدودیتی است که پس از آن افزایش بیشتر تراکم ممکن است مملو از ممنوعیت باشد. دیگر اشباع و تغییر شکل متن با تعداد زیادی از کلمات کلیدی سودی ندارد، زیرا موارد منفی بیشتر از موارد مثبت وجود خواهد داشت.

چه طولی از متن برای تبلیغ کافی است؟

بر اساس همان TF مفروض، می توان مقدار آن را در مقابل طول در کلمات رسم کرد. در این حالت می توانید فرکانس کلمات کلیدی را برای هر طولی ثابت و مساوی مثلاً با هر مقداری از محدوده بهینه (از 2 تا 3 درصد) بگیرید.

آنچه قابل توجه است این است که نموداری دقیقاً به همان شکل مورد بحث در بالا دریافت می کنیم، فقط طول متن در هزاران کلمه در امتداد محور x تنظیم می شود. و از آن می توان نتیجه گیری کرد محدوده طول بهینه، که در آن تقریباً حداکثر مقدار TF قبلاً رسیده است.

در نتیجه معلوم می شود که در محدوده 1000 تا 2000 کلمه خواهد بود. با افزایش بیشتر ، ارتباط عملاً افزایش نمی یابد و با طول کوتاه تر به شدت کاهش می یابد.

که می توان نتیجه گرفت که برای اینکه مقالات شما در نتایج جستجو رتبه بالایی داشته باشند، باید از کلمات کلیدی در متن با فراوانی حداقل 2-3٪ استفاده کنید. این اولین و اصلی ترین نتیجه ای است که ما گرفتیم. خوب، مورد دوم این است که در حال حاضر برای رسیدن به تاپ اصلاً نیازی به نوشتن مقالات بسیار حجیم نیست.

کافی است از آستانه 1000 تا 2000 کلمه عبور کنید و 2-3٪ از کلمات کلیدی را در آن قرار دهید. فقط همین - همین دستور العمل برای متن کامل، که حتی بدون استفاده از بهینه‌سازی خارجی (خرید لینک‌های این مقاله با لنگرهایی که شامل کلیدها می‌شوند) می‌توانند برای یک مکان در بالا برای پرس و جوهای فرکانس پایین رقابت کنند. اگرچه، کمی اطراف را زیر و رو کنید Miralinkse , GGL، Rotapost یا GetGoodLink، می توانید، زیرا به پروژه شما کمک می کند.

اجازه دهید یک بار دیگر به شما یادآوری کنم که می توانید از طول متنی که نوشته اید و همچنین فراوانی استفاده از کلمات کلیدی خاص در آن، استفاده از برنامه های تخصصی یا استفاده از سرویس های آنلاین که در تجزیه و تحلیل آنها تخصص دارند، مطلع شوید. یکی از این خدمات است ISTIO، در مورد کار کردن با آنها صحبت کردم.

تمام آنچه در بالا گفتم صد در صد قابل اعتماد نیست، اما بسیار شبیه به حقیقت است. در هر صورت تجربه شخصی من این نظریه را تایید می کند. اما الگوریتم‌های Yandex و Google دائماً در حال تغییر هستند و افراد کمی می‌دانند فردا چگونه خواهد بود، به جز کسانی که به توسعه‌دهندگان یا توسعه‌دهندگان آنها نزدیک هستند.

موفق باشید برای شما! به زودی شما را در صفحات سایت وبلاگ می بینیم

ممکن است علاقه مند باشید

بهینه سازی داخلی - انتخاب کلمه کلیدی، بررسی حالت تهوع، عنوان بهینه، تکرار محتوا و لینک دادن تحت LF
کلمات کلیدی در متن و عنوان
چگونه کلمات کلیدی بر ارتقای وب سایت در موتورهای جستجو تأثیر می گذارند
خدمات آنلاین برای مدیران وب - همه چیزهایی که برای نوشتن مقاله، بهینه سازی موتور جستجو و تجزیه و تحلیل موفقیت آن نیاز دارید
روش هایی برای بهینه سازی محتوا و در نظر گرفتن موضوع سایت در هنگام ارتقاء لینک برای به حداقل رساندن هزینه ها
Yandex Wordstat و هسته معنایی - انتخاب کلمات کلیدی برای یک وب سایت با استفاده از آمار از سرویس آنلاین Wordstat.Yandex.ru
Anchor - چیست و چقدر در ارتقاء وب سایت اهمیت دارد؟
چه عواملی بهینه سازی موتورهای جستجو بر ارتقای وب سایت تاثیر می گذارد و تا چه حد؟
ارتقاء، ارتقاء و بهینه سازی سایت خودتان
با در نظر گرفتن مورفولوژی زبان و سایر مشکلات حل شده توسط موتورهای جستجو و همچنین تفاوت بین پرس و جوهای فرکانس بالا، متوسط ​​و فرکانس پایین
اعتماد به سایت - چیست، چگونه آن را در XTools اندازه گیری کنیم، چه چیزی بر آن تأثیر می گذارد و چگونه اعتبار سایت خود را افزایش دهیم

من یک اسکریپت خنده دار پی اچ پی نوشتم. تمام متن های روی Spectator را از طریق آن اجرا کردم تا زبان را بررسی کنم. در مجموع از 39110 شکل کلمه مختلف در متون استفاده شده است. دقیقا چند تا متفاوت؟ کلمات- تعیین آن بسیار دشوار است. برای اینکه حداقل تا حدودی به این رقم نزدیکتر شوم، فقط 5 حرف اول کلمه را برداشتم و آنها را با هم مقایسه کردم. نتیجه 14373 چنین ترکیبی بود. نامیدن این واژگان «تماشاگر» دشوار است.

سپس کلمات را برداشتم و آنها را از نظر فراوانی تکرار حروف بررسی کردم. در حالت ایده آل، برای تکمیل تصویر باید نوعی فرهنگ لغت بردارید. شما نمی توانید متون را اجرا کنید، فقط به کلمات منحصر به فرد نیاز دارید. در متن، برخی از کلمات بیشتر از بقیه تکرار می شوند. بنابراین، نتایج زیر به دست آمد:

o - 9.28٪
a - 8.66٪
e - 8.10٪
و - 7.45٪
n - 6.35٪
t - 6.30٪
p - 5.53٪
s - 5.45٪
l - 4.32٪
در - 4.19٪
k - 3.47٪
n - 3.35٪
متر - 3.29٪
y - 2.90٪
d - 2.56٪
I - 2.22٪
s - 2.11٪
b - 1.90٪
z - 1.81٪
b - 1.51٪
g - 1.41٪
th - 1.31٪
ساعت - 1.27٪
یو - 1.03٪
x - 0.92٪
f - 0.78٪
w - 0.77٪
ج - 0.52٪
sch - 0.49٪
f - 0.40٪
e - 0.17٪
ъ - 0.04٪

به کسانی که به میدان معجزه می روند توصیه می کنم این جدول را حفظ کنند. و کلمات را به ترتیب نام ببرید. بنابراین، به عنوان مثال، به نظر می رسد که چنین حرف "آشنا" "b" کمتر از حرف "نادر" "s" استفاده می شود. همچنین باید به یاد داشته باشیم که یک کلمه بیش از یک مصوت دارد. و اینکه اگر یک مصوت را حدس زدید، باید شروع به دنبال کردن صامت ها کنید. و علاوه بر این، کلمه دقیقاً توسط صامت های آن حدس زده می شود. مقایسه کنید: "**a**i*e" و "sr*vn*t*". در هر دو مورد، کلمه "مقایسه" است.

و یک ملاحظه دیگر چگونه انگلیسی را یاد گرفتید؟ یادت هست؟ قلم الکترونیکی، مداد الکترونیکی، میز الکترونیکی. چیزی که من می بینم چیزی است که درباره آن می خوانم. فایده چیست؟.. در زندگی عادی چقدر کلمه مداد را به زبان می آورید؟ اگر وظیفه آموزش نحوه صحبت کردن با بیشترین سرعت و کارآمدی است، پس باید بر این اساس آموزش دهید. ما زبان را تجزیه و تحلیل می کنیم و متداول ترین کلمات را برجسته می کنیم. و ما شروع به یادگیری از آنها می کنیم. برای صحبت کم و بیش انگلیسی فقط یک و نیم هزار کلمه کافی است.

یکی دیگر از نوازش: ایجاد کلمات از حروف به طور تصادفی، اما با در نظر گرفتن دفعات وقوع، به طوری که مانند کلمات عادی به نظر برسد. در ده کلمه چهار حرفی "تصادفی" اول، "خر" ظاهر شد. در پنجاه بعدی - کلمات "عجله" و "ناتو". اما، افسوس، بسیاری از ترکیبات ناهماهنگ، مانند "bltt" یا "nrro" وجود دارد.

بنابراین - مرحله بعدی. همه کلمات را به ترکیبات دو حرفی تقسیم کردم و شروع به ترکیب آنها به طور تصادفی کردم (اما با در نظر گرفتن دفعات تکرار). فولاد در مقادیر زیاد کلماتی شبیه به "عادی" تولید می کند. به عنوان مثال: "koivdiot"، "voabma"، "apy"، "depoid"، "debyako"، "orfa"، "poesnavy"، "ozza"، "چنیا"، "rhetoria"، "urdeed"، "utoichi" استیخ، ساپوت، گراودا، آباباب، اوبارتو، الیوت، لیارزی، مینی، برومومر و حتی تودبیست.

کجا باید درخواست داد ... گزینه هایی وجود دارد. به عنوان مثال، یک مولد از نام های بازیگوش مارک دار زیبا بنویسید. برای ماست. مانند "memoliso" یا "utororerto". یا - مولد شعرهای آینده نگر "Burliuk-php": "opeldiy miaton, linoaz okmiaya... deesopen odesson."

و یک گزینه دیگر وجود دارد. باید تلاش کنیم...

چند آمار در مورد استفاده از کلمات روسی:

  • میانگین طول کلمه 5.28 کاراکتر است.
  • میانگین طول جمله 10.38 کلمه است.
  • 1000 لم پرتکرار 64.0708 درصد متن را پوشش می دهند.
  • 2000 لم پرتکرار 71.9521 درصد متن را پوشش می دهد.
  • 3000 لم پرتکرار 76.5104 درصد متن را پوشش می دهند.
  • 5000 لم پرتکرار 82.0604 درصد متن را پوشش می دهند.

بعد از یادداشت این نامه را دریافت کردم:


سلام، دیمیتری!

پس از تجزیه و تحلیل مقاله "زبان شما را به کیف خواهد آورد" و بخشی که برنامه خود را توصیف می کنید، ایده ای به وجود آمد.
به نظر من فیلمنامه‌ای که نوشتید، نه برای «میدان معجزات»، بلکه برای چیز دیگری است.
اولین معقول ترین استفاده از نتایج اسکریپت شما، تعیین ترتیب حروف هنگام برنامه نویسی دکمه ها برای دستگاه های تلفن همراه است. بله، بله - در تلفن های همراه است که همه اینها مورد نیاز است.

من آن را در امواج توزیع کردم ()

توزیع بر اساس دکمه ها به شرح زیر است:
1. تمام حروف از موج اول به 4 دکمه در ردیف اول می رود
2. تمام حروف موج دوم نیز روی 4 دکمه باقی مانده در همان ردیف اول قرار دارند
3. تمام حروف از موج سوم به دو دکمه باقی مانده می رود
4. 4.5 و 6 موج به ردیف دوم می روند
5. موج های 7،8،9 به ردیف سوم می روند و موج 9 به طور کامل (با وجود تعداد به ظاهر زیاد حروف) به ردیف سوم دکمه نهم می رود، به طوری که دکمه 10 برای انواع علائم نگارشی باقی می ماند. علائم ( نقطه، کاما و غیره).

من فکر می کنم همه چیز همانطور که هست روشن است، بدون توضیح دقیق. اما با این حال، آیا می‌توانید متن‌های زیر را با اسکریپت خود (از جمله علائم نگارشی) پردازش کنید:

و سپس آمار را ارسال کنید؟ به نظرم رسید؟ که متن ها تا حد امکان بیانگر گفتار مدرن ما هستند و با این حال هم صحبت می کنیم و هم اس ام اس می نویسیم.

پیشاپیش از شما بسیار سپاسگزارم.

بنابراین، دو روش برای تجزیه و تحلیل فراوانی تکرار حروف وجود دارد. روش 1. یک متن را بردارید، شکل های کلمه منحصر به فرد (غیر تکراری) را در آن پیدا کنید و آنها را تجزیه و تحلیل کنید. این روش برای ایجاد آمار بر اساس کلمات در زبان روسی و نه بر اساس متون خوب است. روش 2. به دنبال کلمات منحصر به فرد در متن نباشید، بلکه مستقیماً به سراغ شمارش دفعات تکرار حروف بروید. فرکانس حروف را در متن روسی می گیریم، نه در کلمات روسی. برای ایجاد صفحه کلید و چیزهای دیگر، دقیقاً باید از این روش استفاده کنید: متون روی صفحه کلید تایپ می شوند.

صفحه کلیدها باید نه تنها فراوانی حروف، بلکه ماندگارترین کلمات (شکل های کلمه) را نیز در نظر بگیرند. حدس زدن اینکه کدام کلمات بیشترین استفاده را دارند چندان دشوار نیست: اولاً اینها عبارتند از: رسمیبخش هایی از گفتار، زیرا نقش آنها خدمت همیشه و همه جا، و ضمایر است که نقش آنها کم اهمیت نیست: جایگزین کردن هر چیز / شخص در گفتار (این، او، او). خوب، افعال اصلی (بودن، گفتن). بر اساس نتایج تجزیه و تحلیل متون ذکر شده در بالا، من کلمات "محبوب" زیر را دریافت کردم: "و، نه، در، که، او، من، در، با، او، چگونه، اما، او، این، به ، یک ، همه ، او ، بود ، پس ، پس ، گفت ، برای ، تو ، اوه ، در ، او ، من ، فقط ، برای ، من ، بله ، تو از ، بود ، وقتی ، از ، برای ، هنوز هم ، اکنون ، آنها ، گفتند ، قبلاً ، او ، نه ، بود ، او باشد ، خوب ، نه ، اگر ، خیلی ، هیچ چیز ، اینجا ، خودش ، به طوری که ، برای خودش ، این ، شاید ، آن ، قبل ، ما ، آنها آیا، بودند، هست، از، یا، او» و غیره.

با بازگشت به صفحه کلید، بدیهی است که در صفحه کلید ترکیب حروف "نه"، "چه"، "او"، "روشن" و دیگران باید تا حد امکان به یکدیگر نزدیک باشند، یا اگر نزدیک نباشند، در برخی موارد بهینه راه لازم است در مورد نحوه حرکت انگشتان در سراسر صفحه کلید تحقیق کنید، "راحت ترین" موقعیت ها را بیابید و متداول ترین حروف را در آنها قرار دهید، اما ترکیب حروف را فراموش نکنید.

مشکل، مثل همیشه، یکی است: حتی اگر امکان ایجاد یک صفحه کلید منحصر به فرد وجود داشته باشد، برای میلیون ها نفری که قبلاً به qwerty/ytsuken عادت کرده اند، چه اتفاقی می افتد؟

در مورد دستگاه های تلفن همراه ... احتمالا منطقی است. حداقل حروف "o"، "a"، "e" و "i" باید دقیقاً روی یک کلید باشند. علائم نگارشی به ترتیب دفعات استفاده: , . -؟ ! " ; :) (

فراوانی استفاده از حروف در روسی

آیا می دانید برخی از حروف الفبا بیشتر از سایرین در کلمات یافت می شوند... همچنین فراوانی استفاده از حروف صدادار در زبان بیشتر از حروف صامت است.

کدام حروف الفبای روسی بیشتر یا کمتر در کلماتی که برای نوشتن متن استفاده می شوند یافت می شود؟

آمار به شناسایی و مطالعه الگوهای عمومی می پردازد. با کمک این جهت علمی، می توانید با شمارش تعداد هر حرف از الفبای روسی، کلمات استفاده شده و انتخاب گزیده ای از آثار نویسندگان مختلف، به سوال مطرح شده در بالا پاسخ دهید. به خاطر علاقه خود و به خاطر کاری که از روی بی حوصلگی انجام شود، هر کسی می تواند این کار را به تنهایی انجام دهد. من به آمار یک مطالعه قبلاً انجام شده اشاره می کنم ...

الفبای روسی سیریلیک. در طول عمر خود اصلاحات متعددی را تجربه کرد که در نتیجه آن سیستم الفبای مدرن روسی شامل 33 حرف شکل گرفت.

o - 9.28٪
a - 8.66٪
e - 8.10٪
و - 7.45٪
n - 6.35٪
t - 6.30٪
p - 5.53٪
s - 5.45٪
l - 4.32٪
در - 4.19٪
k - 3.47٪
n - 3.35٪
متر - 3.29٪
y - 2.90٪
d - 2.56٪
I - 2.22٪
s - 2.11٪
b - 1.90٪
z - 1.81٪
b - 1.51٪
گرم - 1.41٪
هفتم - 1.31٪
ساعت - 1.27٪
یو - 1.03٪
x - 0.92٪
f - 0.78٪
وزن - 0.77٪
ج - 0.52٪
sch - 0.49٪
f - 0.40٪
e - 0.17٪
ъ - 0.04٪

حرف روسی با بیشترین فراوانی استفاده مصوت است. در مورد"، همانطور که قبلاً به درستی در اینجا پیشنهاد شده است. نمونه های معمولی مانند " دفاع(7 قطعه در یک کلمه و هیچ چیز عجیب و غریب یا تعجب آور نیست؛ بسیار رایج برای زبان روسی). محبوبیت بالای حرف "O" تا حد زیادی با چنین پدیده گرامری مانند مصوت کامل توضیح داده می شود. یعنی "سرد" به جای "سرما" و "یخبندان" به جای "فض".

و در همان ابتدای کلمات، حرف صامت "" بیشتر یافت می شود پ" این رهبری نیز مطمئن و بی قید و شرط است. به احتمال زیاد، توضیح با تعداد زیادی پیشوند با حرف "P" شروع می شود: pere-، pre-، pre-، pri-، pro- و دیگران.

فراوانی استفاده از حروف اساس تحلیل رمزی است.

بیان مختصر مشکل

مجموعه ای از فایل ها با متون روسی از داستان های ژانرهای مختلف تا گزارش های خبری وجود دارد. جمع آوری آمار در مورد استفاده از حروف اضافه با سایر بخش های گفتار ضروری است.

نکات مهم در کار

1. در میان حروف اضافه نه تنها وجود دارد درو به، اما ترکیبات پایدار کلماتی که به عنوان حرف اضافه استفاده می شوند، برای مثال در مقایسه بایا با وجود. بنابراین، شما نمی توانید به سادگی متن ها را با فاصله برش دهید.

2. تعداد زیادی متن، چندین گیگابایت وجود دارد، بنابراین پردازش باید بسیار سریع باشد، حداقل در عرض چند ساعت.

طرح راه حل و نتایج

با در نظر گرفتن تجربه موجود در حل مشکلات پردازش متن، تصمیم گرفته شد که به "راه واحد" اصلاح شده پایبند باشیم، یعنی پردازش را به چند مرحله تقسیم کنیم، به طوری که در هر مرحله نتیجه متن ساده باشد. برخلاف روش یونیکس خالص، به جای انتقال مواد خام متنی از طریق کانال، همه چیز را به عنوان فایل دیسک ذخیره می کنیم. خوشبختانه، هزینه یک گیگابایت بر روی هارد دیسک اکنون ناچیز است.

هر مرحله به عنوان یک ابزار مجزا، کوچک و ساده اجرا می شود که فایل های متنی را می خواند و محصولات عمر سیلیکونی آن را ذخیره می کند.

مزیت اضافی این رویکرد، علاوه بر سادگی برنامه ها، ماهیت افزایشی راه حل است - می توانید مرحله اول را اشکال زدایی کنید، تمام گیگابایت متن را از طریق آن اجرا کنید، سپس بدون اتلاف وقت شروع به اشکال زدایی مرحله دوم کنید. تکرار اولی

شکستن متن به کلمات

از آنجایی که متون مبدأ برای پردازش قبلاً به صورت فایل‌های مسطح در رمزگذاری utf-8 ذخیره می‌شوند، از مرحله صفر می‌گذریم - تجزیه اسناد، استخراج محتوای متن از آنها و ذخیره آنها به عنوان فایل‌های متنی ساده، و مستقیماً به کار توکن‌سازی می‌رویم.

همه چیز ساده و خسته کننده بود اگر این واقعیت ساده نبود که برخی از حروف اضافه در زبان روسی از چندین "خط" تشکیل شده است که با یک فاصله و گاهی اوقات یک کاما از هم جدا شده اند. برای جلوگیری از فرو ریختن چنین حروف اضافه، ابتدا تابع توکن سازی را در API دیکشنری وارد کردم. طرح در سی شارپ ساده و بدون پیچیدگی بود، به معنای واقعی کلمه صد خط. منبع اینجاست. اگر قسمت مقدماتی، بارگیری فرهنگ لغت و قسمت نهایی را با حذف آن کنار بگذاریم، همه چیز به چند ده خط می رسد.

همه اینها با موفقیت فایل ها را خرد می کند، اما آزمایشات یک اشکال قابل توجه را نشان داد - سرعت بسیار پایین. در پلتفرم x64 تقریباً 0.5 مگابایت در دقیقه بود. البته، توکنایزر انواع موارد خاص مانند " را در نظر می گیرد ع.س. پوشکین"، اما برای حل مشکل اصلی چنین دقتی غیر ضروری است.

به عنوان راهنمای سرعت ممکن، یک ابزار پردازش فایل آماری به نام Empirika وجود دارد. پردازش فرکانس 22 گیگابایت متون را در حدود 2 ساعت انجام می دهد. همچنین راه حل سریع تری برای مشکل حروف اضافه چند کلمه ای وجود دارد، بنابراین یک اسکریپت جدید اضافه کردم که با گزینه -tokenize در خط فرمان فعال شده است. نتایج اجرا تقریباً 500 ثانیه در هر 900 مگابایت بود، یعنی حدود 1.6 مگابایت در ثانیه.

نتیجه کار با این 900 مگابایت متن یک فایل تقریباً هم اندازه یعنی 900 مگابایت است. هر کلمه در یک خط جداگانه ذخیره می شود.

فراوانی استفاده از حروف اضافه

از آنجایی که نمی‌خواستم فهرستی از حروف اضافه را در متن برنامه تایپ کنم، دوباره یک فرهنگ لغت گرامری را به پروژه سی شارپ پیوست کردم، با استفاده از تابع sol_ListEntries یک لیست کامل از حروف اضافه، حدود 140 قطعه، دریافت کردم، و سپس همه چیز بی‌اهمیت است. متن برنامه در سی شارپ. فقط جفت‌های حرف اضافه + کلمه را جمع‌آوری می‌کند، اما گسترش آن مشکلی نخواهد داشت.

پردازش یک فایل متنی 1 گیگابایتی با کلمات تنها چند دقیقه طول می کشد که نتیجه آن یک جدول فرکانس است که دوباره به عنوان یک فایل متنی روی دیسک آپلود می کنیم. حرف اضافه، کلمه دوم و تعداد کاربردها در آن با یک کاراکتر تب جدا می شوند:

درباره شکسته 3
در مورد نمره 1
درباره فرم 1
در مورد NORM 1
درباره گرسنگی 1
در حقوق 9
از تراس 1
با وجود نوار 1
بالای کشو 14

در مجموع از 900 مگابایت متن اصلی تقریباً 600 هزار جفت به دست آمد.

تجزیه و تحلیل و مشاهده نتایج

تجزیه و تحلیل جدول با نتایج در اکسل یا اکسس راحت است. به دلیل عادت من به SQL، داده ها را در Access بارگذاری کردم.

اولین کاری که می توانید انجام دهید این است که نتایج را به ترتیب فرکانس نزولی مرتب کنید تا متداول ترین جفت ها را ببینید. حجم اولیه متن پردازش شده خیلی کم است، بنابراین نمونه بسیار معرف نیست و ممکن است با نتایج نهایی متفاوت باشد، اما ده مورد برتر در اینجا آمده است:

ما 29193 داریم
V TOM 26070
من 25843 دارم
درباره تام 24410
او 22768 دارد
در این 22502
در منطقه 20749
در طول 20545
درباره این 18761
با او 18411

اکنون می توانید نموداری بسازید که فرکانس ها در امتداد محور OY باشند و الگوها در امتداد OX به ترتیب نزولی ردیف شوند. این یک توزیع کاملاً مورد انتظار با دم بلند را ارائه می دهد:

چرا به این آمار نیاز است؟

علاوه بر این واقعیت که می توان از دو ابزار C# برای نشان دادن کار با یک API رویه ای استفاده کرد، هدف مهم دیگری نیز وجود دارد - تهیه مواد خام آماری برای مترجم و الگوریتم بازسازی متن. علاوه بر جفت کلمات، به تریگرام ها نیز نیاز خواهید داشت.