러시아 알파벳 문자 사용 빈도. 텍스트의 검색 엔진 최적화 - 키워드의 최적 빈도 및 이상적인 길이

사용빈도

명사, 동의어 수: 1

용법 (10)

- 특정 사유로 인해 사용이 제한되는 어휘입니다. 언어 외적인 이유. L.o.u에게 포함: 변증법, 용어 및 전문성, 전문 용어, 구어체 단어 및 표현, 저속한 표현...
사회언어학 용어 사전
일반언어학. 사회언어학: 사전 참고서
- 문법 형식의 확립된 사용을 지정하기 위해 Delbrück에 의해 도입된 독일어 용어 Gebrauchstypen의 번역입니다. T.까지. 예를 들어 다양한 유형의 구문 사용이 포함됩니다.
브록하우스와 유프론의 백과사전
- 언어외적 이유로 사용이 제한되는 어휘: 1) 영토적으로 제한된 방언법; 2) 과학적인 스타일로 사용되는 용어들...
언어 용어 사전 T.V. 낳다
언어 용어 사전 T.V. 낳다
- 한 물체와 다른 물체 사이의 차이를 사용하는 것을 금지하는 용도: 살아있는 유기체는...
- 특정 개체 클래스의 특정 대표자와 관련된 사용: 이 사람을 만나야 합니다...
일반 형태론의 용어 및 개념: 사전 참고서
- 1) 복잡한 비결합 문장 형식 지정 규칙에 따라 제공되는 옵션: 설명하거나 동기를 부여할 때 콜론 대신 대시를 사용할 수 있습니다. 분리는 환상적입니다. 우리는 곧 함께하게 될 것입니다...
구문: 사전
- 부사, 동의어 수 : 1개 숨김...
동의어 사전
- adj., 동의어 수: 10개 출판됨, 구식, 현대 요구 사항을 충족하지 않음, 구식, 구식, 전설의 영역으로 강등됨...
동의어 사전
- 씨엠....
동의어 사전
- adj., 동의어 수: 19 시대착오적 고풍 구식 절판 구식 구식 구식 구식 구식 구식 구식 은퇴 지역으로...
동의어 사전
- adj., 동의어 수: 2 사용하기에 적합하지 않음 흔하지 않음...
동의어 사전
- 형용사, 동의어 수 : 적용하지 않고 3개 남음, 옆으로 치워두다, 덮어두다...
동의어 사전
- 1) 복잡한 비결합 문장 형식 지정 규칙에 따라 제공되는 옵션: 설명하거나 동기를 부여할 때 콜론 대신 대시를 사용할 수 있습니다. 분리는 환상적입니다. 우리는 곧 함께하게 될 것입니다. 2) 분리를 사용하여...
언어 용어 사전 T.V. 낳다

책의 "사용 빈도"

먹이는 빈도

하마르 힐러리

먹이는 빈도

하마르 힐러리

급식 빈도 강아지에게 하루에 필요한 급식 횟수는 품종의 크기에 따라 다릅니다. 대부분의 강아지는 밤낮으로 3시간마다 먹이를 주어야 잘 자랍니다. 그러나 조산하거나 출생 시 체중이 85g 미만인 경우에는

먹이는 빈도

책 사육 개에서 하마르 힐러리

먹이는 빈도

개와 그들의 번식 책에서 [개 사육] 하마르 힐러리

빈도

부동산 책에서. 광고하는 방법 작가 나자이킨 알렉산더

14.2.3. 상호작용 빈도

디미트리 니콜라

14.2.3. 상호 작용 빈도 동일한 경쟁업체 그룹이 더 자주 상호 작용할수록 위반 사항이 더 신속하게 처벌되기 때문에 공모가 더욱 지속 가능해집니다. 예를 들어 기업의 경쟁 빈도가 낮아지면 담합을 유지하는 능력도 낮아집니다.

15.4.6. 경매 빈도

책 구매 가이드에서 디미트리 니콜라

15.4.6. 경매 빈도 위에서 논의한 바와 같이 일부 경매 조직은 공모한 경매 후에 그들 사이에 자금을 이체할 수 있거나 가끔씩만 지불 금액 기록을 보관할 수 있습니다.

8. 기능어의 사용 빈도는 저자의 불변임이 밝혀졌습니다.

책 2에서. 우리는 날짜를 변경합니다. 모든 것이 변경됩니다. [그리스와 성경의 새로운 연대기. 수학은 중세 연대학자들의 속임수를 드러낸다.] 작가 포멘코 아나톨리 티모페비치

8. 기능어의 사용 빈도는 저자의 불변인 것으로 밝혀졌습니다. 주목할만한 예외는 매개변수 3 - 모든 기능어의 사용 빈도 - 전치사, 접속사 및 분사입니다. 표본 크기의 증가에 따른 이 매개변수의 진화가 표시됩니다.

빈도

저자가 쓴 위대한 소비에트 백과사전(CA) 책에서 TSB

빈도

작가 나자이킨 알렉산더

빈도

100을 위한 미디어 계획 책에서 작가 나자이킨 알렉산더

주파수 텔레비전 채널은 미터 및 데시미터 주파수로 방송됩니다. 미터 범위는 텔레비전에서 처음으로 마스터되었습니다. 20세기 90년대에 모스크바에서는 데시미터 채널이 활발히 작동하기 시작했습니다. 이전에는 다양한 채널을 수신하기 때문에 주파수가 매우 중요했습니다.

빈도

100을 위한 미디어 계획 책에서 작가 나자이킨 알렉산더

주파수 신호 전송 주파수에 따라 품질이 결정됩니다. 이는 VHF 대역(주파수 변조 FM)에서 더 많이 제공됩니다. 청취자는 좋은 사운드를 선호합니다. 이것이 바로 VHF 방송국의 시청률이 높고 선호되는 이유입니다.

3.2. 빈도

작가 이바노프 드미트리 올레고비치

3.2. 빈도 의학에서 병리의 중요성을 논의할 때, 발생했거나 발생할 수 있는 부상 및 합병증의 원인, 병인, 임상상 및 심각도에 대해 이야기하는 것이 중요하다고 생각합니다. 이 병리의 유병률. 에게

4.2. 빈도

신생아의 열 균형 장애 책에서 작가 이바노프 드미트리 올레고비치

4.2. 빈도 신생아의 고열은 아마도 저체온증보다 훨씬 덜 일반적일 것입니다. 이는 아마도 과학 문헌에서 유아의 고열에 대한 연구가 극히 적기 때문일 것입니다. Maayan-Metzger A. et al. (2003)은 42,313건의 사례 보고서를 분석했습니다.

빈도

신생아의 포도당 대사 장애 책에서 작가 이바노프 드미트리 올레고비치

저혈당증을 생후 첫 72시간 동안의 혈당 농도가 30mg%(1.67mmol/l) 미만으로 정의한 빈도 Corblant M.은 1971년에 Lubchenco L.O.와 Bard가 모든 정상 출산의 4.4%에서 이를 발견했습니다. N.은 Corblant M. 기준을 사용하여 신생아의 저혈당증이 더 큰 것으로 확인되었습니다.

이 기사에 제시된 정보는 다소 오래된 정보임을 경고하고 싶습니다. 나중에 SEO 표준이 시간이 지남에 따라 어떻게 변하는지 비교할 수 있도록 다시 작성하지 않았습니다. 새로운 자료에서 이 주제에 대한 최신 정보를 찾을 수 있습니다.

안녕하세요, 블로그 사이트 독자 여러분. 오늘의 기사는 웹 사이트의 검색 엔진 최적화와 같은 주제를 다시 다룰 것입니다 (). 이전에 우리는 이미 그러한 개념과 관련된 많은 문제를 다루었습니다.

오늘은 내부 SEO에 대한 대화를 계속하면서 앞서 제기한 몇 가지 사항을 명확히 하고 아직 논의하지 않은 내용에 대해 이야기하고 싶습니다. 훌륭하고 독특한 텍스트를 작성할 수 있지만 검색 엔진에서 해당 텍스트가 어떻게 인식되는지에 충분한 주의를 기울이지 않으면 멋진 주제와 관련된 검색어에 대해 검색 결과 상단에 올 수 없습니다. 조항.

검색어에 대한 텍스트의 관련성에 어떤 영향을 미치나요?

그리고 이것은 매우 슬픈 일입니다. 왜냐하면 이런 식으로 당신은 프로젝트의 모든 잠재력을 깨닫지 못하여 매우 인상적일 수 있기 때문입니다. 검색 엔진은 대부분 자신의 능력을 뛰어넘어 인간의 눈으로 프로젝트를 볼 수 없는 어리 석고 간단한 프로그램이라는 점을 이해해야 합니다.

그들은 귀하의 프로젝트(방문객을 위해 준비한)에 좋고 필요한 모든 것을 많이 보지 못할 것입니다. 그들은 많은 구성 요소를 고려하여 텍스트를 분석하는 방법만 알고 있지만 여전히 인간의 인식과는 거리가 멀습니다.

따라서 우리는 적어도 일시적으로 검색 로봇의 입장에 서서 다양한 검색어에 대해 다양한 텍스트의 순위를 매길 때 그들이 무엇에 주의를 집중하는지 이해해야 합니다(). 이를 위해서는 제공된 기사를 읽어야 할 아이디어가 필요합니다.

일반적으로 그들은 페이지 제목과 일부 내부 제목에 키워드를 사용하고 기사 전체에 걸쳐 균등하고 자연스럽게 배포하려고 합니다. 예, 물론 텍스트의 강조 키도 사용할 수 있지만 과도한 최적화로 인해 발생할 수 있다는 점을 잊어서는 안 됩니다.

텍스트의 키 밀도도 중요하지만 이제는 이것이 바람직한 요소는 아니지만 반대로 과용해서는 안된다는 경고입니다.

문서에서 키워드 발생 밀도를 결정하는 것은 매우 간단합니다. 실제로 이것은 텍스트에서 사용되는 빈도이며 문서에서 발생 횟수를 문서의 단어 길이로 나누어 결정됩니다. 이전에는 검색 결과에서 사이트의 위치가 이에 직접적으로 의존했습니다.

그러나 당신은 아마도 읽을 수 없기 때문에 키에서만 모든 자료를 컴파일하는 것이 불가능하다는 것을 이해하고 이것이 필요하지 않다는 점에 감사드립니다. 왜요? 예, 텍스트에서 키워드를 사용하는 빈도에 제한이 있기 때문에 이 키워드가 포함된 쿼리에 대한 문서의 관련성은 더 이상 증가하지 않습니다.

저것들. 특정 빈도를 달성하는 것만으로도 충분하므로 최대한 최적화하겠습니다. 아니면 우리는 그것을 과도하게 사용하여 필터 아래로 떨어질 것입니다.

두 가지 질문(아마도 세 가지)을 해결해야 합니다. 키워드 발생의 최대 밀도는 얼마이며, 그 후에는 이를 늘리고 알아내는 것이 이미 위험합니다.

사실 강조 태그로 강조 표시되고 TITLE 태그로 묶인 키워드는 단순히 텍스트에 나타나는 유사한 키워드보다 검색 가중치가 더 높습니다. 그러나 최근에는 웹마스터들이 이를 악용하기 시작했고 이 요소를 완전히 스팸 처리해버렸기 때문에 그 중요성이 감소했으며 심지어 장점 남용으로 인해 전체 사이트가 금지될 수도 있습니다.

그러나 TITLE의 키는 여전히 관련성이 있으므로 키를 반복하지 않고 하나의 페이지 제목에 너무 많이 넣지 않는 것이 좋습니다. 키워드가 TITLE에 있으면 기사의 수를 크게 줄여(따라서 읽기 쉽고 검색 엔진이 아닌 사람에게 더 적합하게 만들 수 있음) 동일한 관련성을 달성하면서도 다음과 같은 위험에 빠질 위험이 없습니다. 필터.

이 질문으로 모든 것이 명확하다고 생각합니다. 악센트 및 TITLE 태그에 더 많은 키가 포함될수록 모든 것을 한 번에 잃을 가능성이 커집니다. 하지만 전혀 사용하지 않으면 아무 것도 얻을 수 없습니다. 가장 중요한 기준은 텍스트에 키워드를 도입하는 자연스러움입니다. 존재하지만 독자가 이를 발견하지 못한다면 모든 것이 훌륭합니다.

이제 문서에서 키워드를 사용하는 빈도가 최적인지 파악하는 것이 남아 있습니다. 이를 통해 페이지를 최대한 관련성있게 만들고 제재를 수반하지 않을 수 있습니다. 먼저 대부분의(아마도 모든) 검색 엔진이 순위를 매기는 데 사용하는 공식을 기억해 보겠습니다.

키 사용의 허용 빈도를 결정하는 방법

우리는 바로 위에서 언급한 기사에서 이미 수학적 모델에 대해 이야기했습니다. 이 특정 검색 쿼리의 본질은 하나의 단순화된 공식인 TF*IDF로 표현됩니다. 여기서 TF는 문서 텍스트에서 이 쿼리가 직접 발생하는 빈도(단어가 문서에 나타나는 빈도)입니다.

IDF는 특정 검색 엔진(컬렉션 내)에 의해 색인화된 다른 모든 인터넷 문서에서 특정 쿼리의 역발생 빈도(희귀성)입니다.

이 공식을 사용하면 문서와 검색어의 일치성(관련성)을 확인할 수 있습니다. TF*IDF 제품의 가치가 높을수록 문서의 관련성이 높아지고 순위도 높아지며 다른 모든 사항은 동일합니다.

저것들. 특정 쿼리(규정 준수)에 대한 문서의 가중치가 더 커질수록 이 쿼리의 키가 텍스트에 더 자주 사용되며 이러한 키가 다른 인터넷 문서에서 발견되는 빈도가 줄어듭니다.

최적화할 다른 요청을 선택하는 것 외에는 IDF에 영향을 미칠 수 없다는 것이 분명합니다. 그러나 우리는 Yandex 및 필요한 사용자 질문에 대한 Google 결과의 트래픽 공유(적지 않은)를 확보하고 싶기 때문에 TF에 영향을 미칠 수 있고 영향을 미칠 것입니다.

그러나 사실 검색 알고리즘은 텍스트에서 키워드 사용 빈도의 증가를 특정 한도까지만 고려하는 다소 교활한 공식을 사용하여 TF 값을 계산하고 그 이후에는 TF의 성장이 실제로 멈춥니다. 빈도를 높인다는 사실입니다. 이것은 일종의 스팸 방지 필터입니다.

비교적 오래전(2005년 정도까지)에는 상당히 간단한 공식으로 TF값을 계산했는데 실제로는 키워드의 출현밀도와 동일했다. 이 공식을 사용하여 관련성을 계산한 결과는 검색 엔진에서 완전히 마음에 들지 않았습니다. 왜냐하면 검색 엔진은 스패머에게 영합했기 때문입니다.

그런 다음 TF 공식은 더욱 복잡해졌습니다. 페이지 메스꺼움과 같은 개념이 나타나고 발생 빈도뿐만 아니라 동일한 텍스트에서 다른 단어의 사용 빈도에 따라 달라지기 시작했습니다. 그리고 그 키가 가장 자주 사용되는 단어로 밝혀지면 최적의 TF 값을 얻을 수 있습니다.

발생률을 유지하면서 텍스트 크기를 늘려 TF 값을 높이는 것도 가능했습니다. 키 비율이 동일한 기사가 포함된 타월이 클수록 문서의 순위가 높아집니다.

이제 TF 공식은 훨씬 더 복잡해졌지만 동시에 텍스트를 읽을 수 없게 되었을 때 밀도를 값으로 가져올 필요가 없습니다. 검색 엔진이 부과할 것입니다.스팸에 대한 우리 프로젝트를 금지합니다. 그리고 이제 너무 긴 시트를 작성할 필요도 없습니다.

동일한 이상적인 밀도를 유지하면서(해당 그래프 바로 아래에서 결정함) 기사의 크기를 말로 늘리면 검색 결과에서 특정 길이까지만 기사의 위치가 향상됩니다. 이상적인 길이를 확보한 후에는 이를 더 늘려도 관련성에 영향을 미치지 않습니다(보다 정확하게는 영향을 미치지만 매우 적습니다).

이 까다로운 TF(직접 발생 빈도)를 기반으로 그래프를 작성하면 이 모든 것을 명확하게 볼 수 있습니다. 이 그래프의 한 척도에는 TF가 있고 다른 척도에는 텍스트에서 키워드 발생 빈도의 백분율이 있으면 결과적으로 소위 과장법이 표시됩니다.

물론 그래프는 대략적인 것입니다. 왜냐하면 Yandex나 Google이 사용하는 실제 TF 공식을 아는 사람이 거의 없기 때문입니다. 그러나 질적으로는 결정될 수 있다 최적의 범위, 주파수가 위치해야합니다. 이는 전체 단어 수의 약 2-3%입니다.

악센트 태그와 TITLE 제목에 일부 키도 포함할 것이라고 생각하면 이것이 한계가 되며 그 이후에는 밀도를 더 높이면 금지될 수 있습니다. 장점보다 단점이 더 많기 때문에 많은 수의 키워드로 텍스트를 포화시키고 손상시키는 것은 더 이상 수익성이 없습니다.

홍보에는 어느 정도의 텍스트 길이가 충분합니까?

동일한 가정된 TF를 기반으로 해당 값과 길이를 단어로 표시할 수 있습니다. 이 경우 키워드의 빈도를 임의의 길이와 동일하게, 예를 들어 최적 범위(2~3%)의 임의 값으로 설정할 수 있습니다.

주목할만한 점은 위에서 논의한 것과 정확히 동일한 모양의 그래프를 받게 되며, 수천 단어 단위의 텍스트 길이만 x축을 따라 조정된다는 것입니다. 그리고 그것으로부터 다음과 같은 결론을 내릴 수 있을 것이다. 최적의 길이 범위, 거의 최대 TF 값이 이미 달성되었습니다.

결과적으로 1000~2000 단어 정도 되는 것으로 밝혀졌습니다. 더 증가해도 관련성은 실제로 증가하지 않으며 길이가 짧을수록 상당히 급격하게 떨어집니다.

저것. 귀하의 기사가 검색 결과에서 높은 순위를 차지하려면 최소한 2-3%의 빈도로 텍스트에 키워드를 사용해야 한다는 결론을 내릴 수 있습니다. 이것이 우리가 내린 첫 번째이자 주요 결론입니다. 글쎄, 두 번째는 이제 정상에 오르기 위해 매우 방대한 기사를 작성할 필요가 전혀 없다는 것입니다.

1000~2000 단어의 기준치를 초과하고 키워드의 2~3%를 포함하면 충분합니다. 그게 다야 - 그게 다야 완벽한 텍스트를 위한 레시피, 이는 외부 최적화를 사용하지 않고도(키가 포함된 앵커가 있는 이 기사에 대한 링크 구매) 빈도가 낮은 쿼리에 대해 최상위 위치를 놓고 경쟁할 수 있습니다. 그래도 조금 뒤져보면 미라링크스 , GGL, Rotapost 또는 GetGoodLink를 사용할 수 있습니다. 프로젝트에 도움이 되기 때문입니다.

작성한 텍스트의 길이와 특정 키워드의 사용 빈도, 전문 프로그램 사용 또는 분석 전문 온라인 서비스 사용을 확인할 수 있음을 다시 한 번 상기시켜드립니다. 이러한 서비스 중 하나는 ISTIO, 내가 이야기 한 사람과 일하는 것에 대해.

위에서 말한 모든 내용은 100% 신뢰할 수는 없지만 진실과 매우 유사합니다. 어쨌든 나의 개인적인 경험은 이 이론을 확증해 줍니다. 그러나 Yandex와 Google의 알고리즘은 끊임없이 변화하고 있으며 개발이나 개발자와 가까운 사람을 제외하고 내일이 어떻게 될지 아는 사람은 거의 없습니다.

행운을 빕니다! 블로그 사이트 페이지에서 곧 뵙겠습니다.

당신은 관심이 있을 수도 있습니다

내부 최적화 - 키워드 선택, 메스꺼움 체크, 최적의 제목, 컨텐츠 중복 및 LF 아래 링크
텍스트 및 제목의 키워드
키워드가 검색 엔진의 웹사이트 홍보에 미치는 영향
웹마스터를 위한 온라인 서비스 - 기사 작성, 검색 엔진 최적화 및 성공 분석에 필요한 모든 것
링크 홍보 시 사이트의 테마를 고려하여 콘텐츠를 최적화하고 비용을 최소화하는 방법
Yandex Wordstat 및 의미론적 핵심 - 온라인 서비스 Wordstat.Yandex.ru의 통계를 사용하여 웹사이트에 대한 키워드 선택
앵커 - 그것이 무엇이며 웹사이트 홍보에 얼마나 중요합니까?
어떤 검색 엔진 최적화 요소가 웹사이트 홍보에 영향을 미치며 어느 정도까지 영향을 미치나요?
사이트 홍보, 홍보 및 최적화
언어의 형태와 검색 엔진이 해결하는 기타 문제, 고주파, 중거리 및 저주파 쿼리의 차이를 고려합니다.
사이트 신뢰 - 정의, XTools에서 이를 측정하는 방법, 영향을 미치는 요소 및 사이트의 권한을 높이는 방법

나는 재미있는 PHP 스크립트를 작성했습니다. 언어를 확인하기 위해 Spectator의 모든 텍스트를 실행했습니다. 전체적으로 39,110개의 서로 다른 단어 형태가 본문에 사용되었습니다. 정확히 몇 개나 다른가요? 단어- 결정하기가 매우 어렵습니다. 이 수치에 조금 더 가까워지기 위해 단어의 처음 5글자만 가져와서 비교했습니다. 그 결과 14,373개의 조합이 나왔습니다. 이것을 "관중"이라는 용어라고 부르는 것은 무리일 것입니다.

그런 다음 단어를 가져와 글자의 반복 빈도를 조사했습니다. 이상적으로는 그림을 완성하려면 일종의 사전을 가져와야 합니다. 텍스트를 실행할 수 없으며 고유한 단어만 있으면 됩니다. 본문에서 일부 단어는 다른 단어보다 더 자주 반복됩니다. 그래서 다음과 같은 결과가 얻어졌다.

o - 9.28%
a - 8.66%
전자 - 8.10%
- 7.45%
n - 6.35%
티 - 6.30%
p - 5.53%
초 - 5.45%
l - 4.32%
in - 4.19%
k - 3.47%
n - 3.35%
m - 3.29%
y - 2.90%
d - 2.56%
나 - 2.22%
초 - 2.11%
b - 1.90%
z - 1.81%
b - 1.51%
g - 1.41%
일 - 1.31%
h - 1.27%
유 - 1.03%
x - 0.92%
f - 0.78%
승 - 0.77%
c - 0.52%
sch - 0.49%
f - 0.40%
전자 - 0.17%
ъ - 0.04%

나는 '기적의 장'에 가는 사람들에게 이 표를 외우라고 조언한다. 그리고 그 순서대로 단어의 이름을 지정하세요. 예를 들어, 이러한 "익숙한"문자 "b"는 "희귀"문자 "s"보다 덜 자주 사용되는 것처럼 보입니다. 우리는 또한 한 단어에 모음이 두 개 이상 있다는 것을 기억해야 합니다. 그리고 모음 하나를 추측했다면 자음을 따라야합니다. 게다가 그 단어는 자음으로 정확하게 추측됩니다. 비교: "**a**i*e" 및 "sr*vn*t*". 두 경우 모두 "비교"라는 단어가 사용됩니다.

그리고 한 가지 더 고려사항이 있습니다. 영어는 어떻게 배웠나요? 기억하다? E 펜, E 연필, E 테이블. 내가 보는 것은 내가 노래하는 것입니다. 요점이 뭐죠?.. 일상생활에서 '연필'이라는 단어를 얼마나 자주 말하시나요? 가능한 한 빠르고 효율적으로 말하는 방법을 가르치는 것이 과제라면 그에 따라 가르쳐야 합니다. 우리는 언어를 분석하고 가장 일반적으로 사용되는 단어를 강조합니다. 그리고 우리는 그들로부터 배우기 시작합니다. 영어로 말하려면 1500 단어이면 충분합니다.

또 다른 애지중지: 문자에서 무작위로 단어를 형성하되 발생 빈도를 고려하여 일반 단어처럼 보이도록 하는 것입니다. 처음 10개의 "무작위" 4글자 단어에는 "당나귀"가 나타났습니다. 다음 50에는 "돌진"과 "NATO"라는 단어가 있습니다. 하지만 아쉽게도 "bltt" 또는 "nrro"와 같은 불협화음 조합이 많이 있습니다.

따라서 - 다음 단계. 나는 모든 단어를 두 글자 조합으로 나누고 무작위로 결합하기 시작했습니다 (그러나 반복 빈도를 고려하여). 강철을 대량으로 섭취하면 "정상"과 유사한 단어가 생성됩니다. 예: "koivdiot", "voabma", "apy", "depoid", "debyako", "orfa", "poesnavy", "ozza", "chenya", "rhetoria", "urdeed", "utoichi" , "stikh", "sapot", "gravda", "ababap", "obarto", "eleuet", "lyarezy", "myni", "bromomer"및 "todebyst"까지.

신청할 곳... 옵션이 있습니다. 예를 들어, 아름다운 브랜드의 장난스러운 이름을 생성하는 프로그램을 작성해 보세요. 요구르트용. "memoliso"나 "utororerto" 같은 거죠. 또는 - 미래 지향적인 시 "Burliuk-php"의 생성기: "opeldiy miaton, linoaz okmiaya... deesopen odesson."

그리고 옵션이 하나 더 있습니다. 우리는 노력해야 해...

러시아어 단어 사용에 관한 일부 통계:

평균 단어 길이는 5.28자입니다.
평균 문장 길이는 10.38 단어입니다.
가장 자주 사용되는 1000개의 기본정리는 텍스트의 64.0708%를 차지합니다.
2000개의 가장 빈번한 기본정리는 텍스트의 71.9521%를 차지합니다.
3000개의 가장 빈번한 기본정리는 텍스트의 76.5104%를 차지합니다.
5000개의 가장 빈번한 기본정리는 텍스트의 82.0604%를 차지합니다.

그 메모 후에 나는 다음과 같은 편지를 받았습니다.

안녕, 드미트리!
"Language will take you to Kyiv"라는 기사와 프로그램을 설명하는 부분을 분석한 후 아이디어가 떠올랐습니다.
당신이 쓴 대본은 절대적으로 "기적의 들판"을 위한 것이 아니라 다른 것을 위한 것 같습니다.
스크립트 결과를 가장 합리적으로 사용하는 첫 번째 방법은 모바일 장치용 버튼을 프로그래밍할 때 문자 순서를 결정하는 것입니다. 예, 예 - 이 모든 것이 필요한 것은 휴대폰입니다.
파도에 나눠줬어요 ()
버튼별 분포는 다음과 같습니다.
1. 첫 번째 웨이브의 모든 문자는 첫 번째 행의 4개 버튼으로 이동합니다.
2. 두 번째 웨이브의 모든 문자는 동일한 첫 번째 행의 나머지 4개 버튼에도 있습니다.
3. 세 번째 물결의 모든 문자는 나머지 두 개의 버튼으로 이동합니다.
4. 4.5파와 6파가 두 번째 줄로 갑니다.
5. 7,8,9 파동은 3번째 줄로 가고, 9번째 파동은 (글자가 많아 보이는데도 불구하고) 9번 버튼의 3번째 줄까지 완전히 가므로 10번 버튼은 온갖 구두점을 남기게 된다. 표시(마침표, 쉼표 등).
자세한 설명 없이도 있는 그대로 모든 것이 명확하다고 생각합니다. 하지만 여전히 스크립트(구두점 포함)를 사용하여 다음 텍스트를 처리할 수 있습니까?
그리고 통계를 게시 하시겠습니까? 나에게 그런 것 같았나요? 텍스트는 가능한 한 우리의 현대 언어를 반영하지만 우리는 SMS를 말하고 씁니다.
미리 감사드립니다.

따라서 문자의 반복 빈도를 분석하는 방법에는 두 가지가 있습니다. 방법 1. 텍스트를 가져와서 그 안에서 고유한(반복되지 않는) 단어 형태를 찾아 분석합니다. 이 방법은 텍스트가 아닌 러시아어 단어를 기반으로 통계를 작성하는 데 적합합니다. 방법 2. 본문에서 독특한 단어를 찾지 말고 곧바로 글자의 반복 빈도를 세어보세요. 우리는 러시아어 단어가 아닌 러시아어 텍스트의 문자 빈도를 얻습니다. 키보드 및 기타 항목을 만들려면 정확히 이 방법을 사용해야 합니다. 텍스트는 키보드로 입력됩니다.

키보드는 문자의 빈도뿐만 아니라 가장 지속적인 단어(단어 형식)도 고려해야 합니다. 가장 일반적으로 사용되는 단어를 추측하는 것은 그리 어렵지 않습니다. 공식적인품사, 그 역할은 언제나 어디서나 봉사하는 것이고, 그 역할이 그다지 중요하지 않은 대명사: 말에서 사물/사람(이, 그, 그녀)을 대체하는 것입니다. 글쎄, 주요 동사 (to be, to say). 위에 나열된 텍스트를 분석한 결과 다음과 같은 "인기 있는" 단어를 받았습니다. "and, not, in, that, he, I, on, with, she, How, but, his, this, to , a, all, her, was, 그래서, 그때, 말했다, for, you, oh, at, he, me, only, for, me, yes, you, from, was, when, from, for, still, now , 그들은 말했다, 이미 그 사람, 아니, 그녀는, 음, 그리고 아주 아무것도 아니라면 여기 자신이 될 것입니다. 그래서 그녀 자신에게는 이것이, 아마도, 이전에 우리, 그들, 그랬는지, 그랬는지, 무엇인지, 아니면 그녀인지 등등.

키보드로 돌아가서, 키보드에서 문자 조합 "not", "what", "he", "on" 및 기타 문자 조합은 가능한 한 서로 가까워야 하며, 가깝지 않은 경우 최적의 위치에 있어야 한다는 것이 분명합니다. 방법. 키보드에서 손가락이 어떻게 움직이는지 정확히 조사하고, 가장 "편안한" 위치를 찾고, 가장 일반적으로 사용되는 문자를 그 안에 배치해야 하지만 문자 조합도 잊지 말아야 합니다.

언제나 그렇듯이 문제는 하나입니다. 고유한 키보드를 만드는 것이 가능하더라도 이미 qwerty/ytsuken에 익숙한 수백만 명의 사람들에게 무슨 일이 일어날까요?

모바일 장치의 경우... 아마도 그럴 것 같습니다. 최소한 문자 "o", "a", "e" 및 "i"는 정확히 동일한 키에 있어야 합니다. 사용빈도순으로 구두점 : , . - ? ! " ; :) (

러시아어 문자 사용 빈도

알파벳의 일부 문자가 다른 문자보다 단어에서 더 자주 발견된다는 것을 알고 계십니까?... 더욱이 언어에서 모음의 사용 빈도는 자음보다 높습니다.

텍스트를 작성하는 데 사용되는 단어에서 가장 자주 발견되거나 가장 적게 발견되는 러시아 알파벳 문자는 무엇입니까?

통계는 일반적인 패턴을 식별하고 연구하는 것을 다룹니다. 이 과학적 방향의 도움으로 러시아 알파벳의 각 문자 수, 사용된 단어를 세고 다양한 작가의 작품에서 발췌한 내용을 선택하여 위에 제기된 질문에 답할 수 있습니다. 자신의 이익을 위해 그리고 지루함에서 할 일을 위해 모든 사람이 스스로 할 수 있습니다. 이미 진행된 연구의 통계를 참고하겠습니다.

러시아 알파벳 키릴 문자. 존재하는 동안 여러 가지 개혁을 경험했으며 그 결과 33자를 포함하는 현대 러시아 알파벳 시스템이 형성되었습니다.

o - 9.28%
a — 8.66%
전자 - 8.10%
- 7.45%
n - 6.35%
t - 6.30%
p - 5.53%
s - 5.45%
l - 4.32%
에서 - 4.19%
k - 3.47%
n - 3.35%
m - 3.29%
y - 2.90%
d — 2.56%
나 - 2.22%
초 — 2.11%
b — 1.90%
z — 1.81%
b — 1.51%
g - 1.41%
일 — 1.31%
h — 1.27%
유 — 1.03%
x — 0.92%
f — 0.78%
승 — 0.77%
c — 0.52%
sch - 0.49%
f — 0.40%
전자 - 0.17%
ъ — 0.04%

가장 많이 사용되는 러시아 문자는 모음 " 에 대한", 여기서 이미 올바르게 제안된 바와 같습니다. "와 같은 전형적인 예도 있습니다. 방어"(한 단어에 7개의 조각이 있고 이국적이거나 놀라운 것은 없습니다. 러시아어에서는 매우 일반적입니다.) 문자 "O"의 높은 인기는 주로 완전 모음과 같은 문법적 현상으로 설명됩니다. 즉, "추위"대신 "추위", "쓰레기"대신 "서리"입니다.

그리고 단어의 시작 부분에는 자음 문자 ""가 가장 자주 발견됩니다. 피" 이 리더십은 또한 자신감 있고 무조건적입니다. 아마도 설명은 문자 "P"로 시작하는 많은 수의 접두사(pere-, pre-, pre-, pri-, pro- 등)로 제공됩니다.

문자 사용 빈도는 암호 분석의 기초입니다.

문제에 대한 간략한 설명

다양한 장르의 소설부터 뉴스 보도까지 러시아어로 된 텍스트가 포함된 파일 세트가 있습니다. 다른 품사와 함께 전치사 사용에 대한 통계를 수집하는 것이 필요합니다.

작업의 중요 포인트

1. 전치사 중에는 다음뿐만 아니라 ~에그리고 에게, 그러나 전치사로 사용되는 단어의 안정적인 조합(예: 비교하다또는 ~에도 불구하고. 따라서 단순히 공백으로 텍스트를 잘라낼 수는 없습니다.

2. 텍스트가 몇 GB에 달하므로 처리 속도는 적어도 몇 시간 내에 매우 빠릅니다.

솔루션 개요 및 결과

텍스트 처리 문제를 해결하는 기존 경험을 고려하여 수정된 "유닉스 방식"을 고수하기로 결정했습니다. 즉, 처리를 여러 단계로 나누어 각 단계에서 결과가 일반 텍스트가 되도록 하는 것입니다. 순수한 Unix-way와 달리 텍스트 원본 자료를 채널을 통해 전송하는 대신 모든 것을 디스크 파일로 저장합니다. 다행스럽게도 하드 드라이브의 1GB 비용은 이제 미미합니다.

각 단계는 텍스트 파일을 읽고 실리콘 수명의 제품을 저장하는 별도의 작고 간단한 유틸리티로 구현됩니다.

유틸리티의 단순성 외에도 이 접근 방식의 추가 보너스는 솔루션의 증분적 특성입니다. 첫 번째 단계를 디버깅하고 이를 통해 모든 기가바이트의 텍스트를 실행한 다음 시간 낭비 없이 두 번째 단계 디버깅을 시작할 수 있습니다. 첫 번째를 반복합니다.

텍스트를 단어로 나누기

처리할 소스 텍스트는 이미 utf-8 인코딩의 플랫 파일로 저장되어 있으므로 제로 단계(문서 구문 분석, 텍스트 콘텐츠 추출, 간단한 텍스트 파일로 저장)를 건너뛰고 바로 토큰화 작업으로 진행합니다.

러시아어의 일부 전치사는 공백과 때로는 쉼표로 구분된 여러 "줄"로 구성된다는 단순한 사실이 아니라면 모든 것이 단순하고 지루할 것입니다. 이러한 장황한 전치사가 무너지는 것을 피하기 위해 먼저 사전 API에 토큰화 기능을 포함시켰습니다. C#의 레이아웃은 문자 그대로 100줄로 간단하고 복잡하지 않은 것으로 나타났습니다. 출처는 다음과 같습니다. 소개 부분을 버리고 사전을 로드하고 마지막 부분을 삭제하면 모든 것이 수십 줄로 줄어듭니다.

이 모든 것이 파일을 성공적으로 분쇄했지만 테스트 결과 속도가 매우 느리다는 중요한 단점이 드러났습니다. x64 플랫폼에서는 분당 약 0.5MB로 나타났습니다. 물론 토크나이저는 " 처럼. 푸쉬킨"라고 말하지만 원래 문제를 해결하는 데는 이러한 정밀도가 필요하지 않습니다.

가능한 속도에 대한 안내로 Empirika라는 통계 파일 처리 유틸리티가 있습니다. 약 2시간 만에 22GB의 텍스트를 주파수 처리합니다. 여러 단어로 구성된 전치사 문제에 대한 더 빠른 솔루션도 있으므로 명령줄에서 -tokenize 옵션으로 활성화되는 새 스크립트를 추가했습니다. 실행 결과는 900MB당 약 500초, 즉 초당 약 1.6MB로 나타났다.

이 900MB의 텍스트로 작업한 결과는 거의 동일한 크기인 900MB의 파일입니다. 각 단어는 별도의 줄에 저장됩니다.

전치사 사용 빈도

프로그램 텍스트에 전치사 목록을 입력하고 싶지 않았기 때문에 sol_ListEntries 함수를 사용하여 C# 프로젝트에 문법 사전을 다시 연결했습니다. 약 140개의 전체 전치사 목록을 얻었고 모든 것이 간단해졌습니다. C#으로 작성된 프로그램의 텍스트입니다. 전치사+단어쌍만 모아서 확장하면 문제가 되지 않습니다.

단어가 포함된 1GB 텍스트 파일을 처리하는 데는 몇 분 밖에 걸리지 않습니다. 결과는 빈도 테이블이며 이를 다시 텍스트 파일로 디스크에 업로드합니다. 전치사, 두 번째 단어 및 사용 횟수는 탭 문자로 구분됩니다.

브로큰 3 소개
득점 1 소개
양식 1에 대하여
NORM 1에 대하여
헝그리 1 소개
법률 9에서
테라스 1에서
테이프 1에도 불구하고
서랍 위 14

전체적으로 원본 900MB의 텍스트에서 약 60만 쌍이 얻어졌습니다.

결과 분석 및 보기

Excel이나 Access에서 결과를 테이블로 분석하는 것이 편리합니다. SQL을 사용하는 습관 때문에 데이터를 Access에 로드했습니다.

가장 먼저 할 수 있는 일은 가장 일반적인 쌍을 보기 위해 결과를 빈도의 내림차순으로 정렬하는 것입니다. 처리된 텍스트의 초기 양이 너무 작아서 샘플이 그다지 대표성이 없으며 최종 결과와 다를 수 있지만 상위 10개는 다음과 같습니다.

우리는 29193을 가지고 있습니다
V 톰 26070
나는 25843을 가지고 있다
톰 24410 소개
그는 22768을 가지고 있습니다
이 22502에서
지역 20749 내
20545년 동안
이 18761에 대해
그 사람과 함께 18411

이제 빈도가 OY 축을 따라 있고 패턴이 OX를 따라 내림차순으로 정렬되도록 그래프를 작성할 수 있습니다. 그러면 긴 꼬리를 갖는 완전히 예상되는 분포가 제공됩니다.

왜 이러한 통계가 필요한가요?

두 가지 C# 유틸리티를 사용하여 절차적 API 작업을 시연할 수 있다는 사실 외에도 번역기 및 텍스트 재구성 알고리즘을 위한 통계적 원시 자료를 제공하는 또 다른 중요한 목표가 있습니다. 단어 쌍 외에도 트라이그램도 필요합니다. 이를 위해서는 언급된 유틸리티 중 두 번째를 약간 확장해야 합니다.