Закон Ципфа - работает ли он в Steemit?

in steemit •  8 years ago  (edited)

Если вы читали Буклет про Стим (White Paper), то вы непременно должны были найти в нем упоминание о Законе Ципфа. 

Image source

Чем интересен этот закон и как он может помочь рядовому Стимианцу?

В Буклете про Стим об этом законе дословно сказано следующее:

Закон Ципфа является эмпирической закономерностью, которая удивительно хорошо характеризует эту поразительную область феномена реального мира. Этот закон говорит о том, что если мы упорядочиваем какую нибудь коллекцию по размеру или популярности, то второй элемент в коллекции будет приблизительно в два раза меньше первого, третий будет примерно в три раза меньше первого элемента и так далее. Таким образом элемент «К» будет по рангу соответствовать примерно «1/К» по отношению к первому элементу в списке. 

Возможно с первого раза может показаться странным упоминание о нем. Может быть и понять его кому то не так то просто. Попробуем разобраться в этом.

Все началось с того, что в 1949 году социолог Джордж Кингсли Ципф, который был профессором и читал лекции в Гарвардском университете, опубликовал свой труд в котором изложил некоторые наблюдения. Опытным путем он обнаружил интересную особенность использования определенных слов любым человеком. Оказалось, что всего лишь небольшое количество слов используется людьми постоянно, в то время как подавляющее большинство других слов эти люди используют крайне редко. Если расставить слова по рангу популярности, или частоте использования, открывается удивительная закономерность: 

слово первого ранга всегда используется вдвое чаще, чем слово второго ранга и втрое чаще, чем слово третьего ранга. 

Если выразить это в виде математической формулы, то она будет выглядеть следующим образом:

F*R =C

где: F – частота появления слова в тексте; R – ранг слова (наиболее часто употребляемое слово получает ранг 1, следующее – 2 и т.д.); С – константа.

Если вы хотя бы немного помните алгебру, то в этой формуле вы можете узнать уравнение гиперболы. Ципф экспериментально определил, что С ≈ 0,1. 

Графически закон Ципфа выглядит примерно так

Джордж Кингсли Ципф (англ. George Kingsley Zipf)
7.01.1902 - 25.09.1950 - американский лингвист, занимавшийся изучением статистических закономерностей в естественных языках. 

Ципф не был математиком и не мог объяснить природу этой закономерности. Больше того, многие ученые математики вообще не принимали всерьез его труд. По этому поводу интересны воспоминания известного математика Бенуа Мандельброта, которые он описал в своей книге «(Не)послушные рынки: фрактальная революция в финансах». Приведу отрывок из этой книги.

Неожиданный степенной закон

В 1950 году я был молодым студентом-математиком Парижского университета, подыскивавшим тему для своей диссертации. Мои дядя Золем являл собою местный хрестоматийный образец профессора математики: глубокий теоретик, очень консервативный и, несмотря на то, что родится в Польше, столп французского научного сообщества. Уже в 31-летнем возрасте его избрали профессором на полной ставке престижного Французского колледжа.

То быта эра Николя Бурбаки; за этим собирательным псевдонимом скрывался математический «клуб», который, подобно Дада в искусстве или экзистенциализму в литературе, распространился из Франции и стал на некоторое время чрезвычайно влиятельным на мировой сцене. Абстракция и чистая математика, математика ради математики, были возведены в ранг культа; члены «клуба» презирали прагматизм, прикладную математику и даже математику как инструмент науки. Такой подход был для французских математиков догмой, а для меня, пожалуй, причиной уехать из Франции и поступить на работу в IBM. Я был, к ужасу моего дяди, молодым бунтарем. Работая над своей докторской диссертацией, я часто в конце дня заходил к нему в кабинет поболтать, и нередко эти разговоры перерастали в дискуссию. Однажды, пытаясь как-то скрасить предстоящую долгую и скучную поездку на метро домой, я попросил у него в дорогу что-нибудь почитать. Он сунул руку в мусорную корзину и извлек оттуда несколько скомканных листков бумаги.

– Вот, возьми, – буркнул дядя. – Глупейшая статья, из тех, какие ты любишь.

То был обзор книги социолога Джорджа Кингсли Ципфа. Ципф, достаточно богатый человек, чтобы не думать о куске хлеба насущного, читал в Гарвардском университете лекции по им же придуманной дисциплине, которую он назвал статистической человеческой экологией. В его книге Human Behavior and the Principle of Least Effort (Поведение человека и принцип наименьших усилий) степенные законы рассматривались как вездесущие структуры общественных наук. В фишке степенные законы вполне обычны и выступают формой того, что я ныне называю фрактальным самоповторением в масштабе. У сейсмологов есть математическая формула степенной зависимости количества землетрясений от их силы по знаменитой шкале Рихтера. Или, другими словами: слабые землетрясения обычны, тогда как сильные редки, а частота и сила землетрясений связаны точной формулой. В то время было немногих таких примеров, да и известны они были всего нескольким людям. Ципф, энциклопедист, был одержим навязчивой идеей, будто степенные законы действуют не только в физических науках; им подчиняются все проявления поведения, организации и анатомии человека – даже размеры половых органов.

К счастью, обзор книги, который мне дал дядя, ограничивался только одним необычно изящным примером: частотой слов. В тексте или речи некоторые слова, такие как английские the (определенный артикль) или this («это»), встречаются часто; другие, milreis или momus, появляются редко или вообще никогда (для самых любознательных: первое означает древнюю португальскую монету, второе – синоним слова «критик»). Ципф предложил следующее упражнение: взять любой текст и посчитать, сколько раз в нем появляется каждое слово. Затем присвоить каждому слову ранг: 1 — для самых часто употребляемых слов, 2 — для занимающих второе место по частоте появления и т.д. Наконец, построить график, на котором для каждого ранга указать количество появлении этого слова. Мы получим удивительный рисунок. Кривая не убывает равномерно от самого обычного слова в данном тексте к самому редкому. Сначала она обрушивается с головокружительной быстротой, после чего начинает убывать медленнее, повторяя траекторию лыжника, прыгнувшего с трамплина, а затем приземлившегося и спускающегося по относительно пологому склону заснеженной горы. Образец классической неравномерной шкалы. Ципф, подогнав под свои диаграммы кривую, придумал для нее формулу.

Я был ошеломлен. К концу моей долгой поездки на метро я уже имел тему для половины моей докторской диссертации. Я точно знал, как объяснить математические основания частотного распределения слов, чего Ципф, не будучи математиком, сделать не смог бы. В последующие месяцы меня ждали удивительные открытия. Используя упомянутое уравнение, можно создать мощный инструмент социальных исследований. Улучшенный вариант формулы Ципфа позволял количественно оценить и ранжировать богатство словарного запаса любого человека: высокое значение – богатый лексикон; низкое значение – бедный. Имея такую шкалу, можно измерять различия по словарному запасу между текстами или говорящими. Появляется возможность количественно оценить эрудицию. Правда, мои друзья и консультанты были в ужасе от моей решимости заняться этой странной темой. Ципф, говорили они мне, человек с причудами. Мне показали его книгу, и я согласился, что она отвратительна. Подсчет слов – это не настоящая математика, убеждали меня. Занявшись этой темой, я никогда не найду хорошую работу; и профессором стать мне тоже будет нелегко.

Но я оставался глух к мудрым советам. Мало того, я написал диссертацию вообще без консультантов и даже уговорит одного из университетских бюрократов заверить ее печатью. Я был исполнен решимости пройти избранный путь до конца и применить идеи Ципфа в экономике, ведь не только речь можно свести к степенному закону. Богаты мы или бедны, процветаем или голодаем — все это тоже казалось мне объектом степенного закона.

Мандельброт немного модифицировал формулу Ципфа:

F = C * R в степени -1/a

где a – коэффициент, характеризующий богатство словарного запаса; чем больше значение a, тем богаче словарный запас текста, поскольку кривая зависимости частоты появления каждого слова от его ранга убывает медленнее, и, например, редкие слова появляются чаще, чем при меньших значениях a. Именно это свойство Мандельброт предполагал использовать для оценки эрудиции

Ну и что из этого? - скажете вы. Все дело в том, что эта закономерность проявляется не только в языке. Ципф выяснил, что эта закономерность проявляется еще и в других областях.

  • Это же правило действует в распределении доходов людей в стране: самый богатый человек имеет вдвое больше денег, чем следующий богач и так далее. 
  • Этот закон также работает в отношении размера городов. Город с самым большим населением в любой стране в два раза больше, чем следующий по размеру город и так далее. 

Почему это должно интересовать Стимианца?

Как было сказано в самом начале статьи, этот закон имеет прямое отношение к Steemit. И дело не только в употреблении слов каждым из тех, кто публикует статьи на этом сайте. Речь пойдет о деньгах. Обратите внимание на следующую диаграмму.

В построении этой диаграммы использовались данные с steemwhales.com.  Была введена расчетная стоимость первых 100 учетных записей. Если быть точнее, то со 2 по 101 учетную запись. Так как аккаунт steemit является техническим. Как вы видите этот закон прекрасно работает здесь, и именно так, как это было заявлено в Буклете про Стим.

Математические законы всегда работают очень точно. Игнорировать их - верх безумия. Последнее время здесь, да и на других рессурсах, часто можно встретить комментарии относительно пожеланий "справедливого" распределения общего капитала Steemit. Если кто-то пытается говорить о том, что Киты должны раздать свое состояние другим или сформировать, так сказать, "средний класс", то принимайте, пожалуйста, во внимание вышеупомянутый закон. Игнорировать его не удастся никому. Распределение доходов и в будущем будет строго подчинено этому правилу.

Хотя, подождите!

Вы можете спросить про первый аккаунт. Что будет, если учесть и его? 

На самом деле, это очень интересный вопрос. Посмотрите, что получается, если добавить первый, как я его назвал, "технический" аккаунт  steemit

И вот тут начинается самое интересное. Аккаунт Номер Один, в какой то мере, на сегодня является большой проблемой в Steemit. Неужели Закон Ципфа не будет здесь действовать? Конечно же нет. Я не сомневаюсь в том, что @ned и @dantheman имеют свою стратегию в плане развития этой социальной сети. Они также прекрасно понимают, что игнорировать закон Ципфа у них не получится. Но вопрос - Что же они будут делать дальше?

Надеюсь, что скоро мы поймем это. А пока вникайте в Закон Ципфа.

Кстати очень интересный был этот человек - Джордж Кингсли Ципф (англ. George Kingsley Zipf)

Authors get paid when people like you upvote their post.
If you enjoyed what you read here, create your account today and start earning FREE STEEM!
Sort Order:  

Я пару месяцев назад тоже исследовал закон этот закон на Стиме, если интересно, можете посмотреть: Математика для стимеров: Принцип Парето или как зарабатывать в STEEM больше.

  ·  8 years ago (edited)

Спасибо. С интересом прочитал статью.
Закон Ципфа и Принцип Паретто хотя в чем то и схожи, но имеют некоторые отличия. Кроме того, мне было интересно узнать, что другие ученые, уже математики, стали развивать исследования в этом направлении и применять его в экономике.
Мне также было интересно провести небольшое исследование в этом направлении, так как именно на этот закон ссылались Разработчики в White Paper. У Steemit две составляющие, социальная и экономическая, развиваются и будут развиваться с учетом этого закона. С интересом буду наблюдать, какие действия предпримут разработчики и владельцы Steemit с Аккаунтом Номер Один.

Как всегда интересная статья. Весь вопрос в том, насколько толстым будет хвост))

  ·  8 years ago (edited)

О да! Это отдельная тема для разговора.
Вообще, с приходом новых пользователей, те кто сегодня в хвосте могут немного передвинуться и немного "потолстеть"

Как бы это ни было парадоксально, но похоже что это действительно работает. Я думаю можно попробовать применить к Steemit так же и закон Парето в виде

20 % усилий дают 80 % результата, а остальные 80 % усилий — лишь 20 % результата
Можно вспомнить и другие эмперические законы

Закон Ципфа и Закон Паретто где то работают одинаково.

Спасибо, классный текст! понравилось как Мандельброт вынул диссертацию из мусорной корзины =)

@steemit для того и создан, чтобы финансировать разработку, так что по идее он будет худеть со временем, пока не впишется в закон

Отличная статья. Спасибо!

Что значит "что они будут делать"? Избавятся от денег, чтобы у вас красивый график получился. Это же очевидно - нельзя же игнорировать закон Ципфа!

Избавятся как?
Если выйдут из игры, то тогда есть в Буклете про Стим еще и "История с Крабами в ведре"

Напишите, пожалуйста, про крабов. У вас хорошо получается. С удовольствием всегда читаю.

С крабами все просто, суть в том что если посадить 1 краба в ведро, то он легко сможет выбраться, если же крабов будет много, то другие крабы всегда будут цепляться за него и мешать ему выбраться. (Похоже на принцип "ни себе - ни людям")

Понятно. Напомнило старый анекдот про американцев, евреев и русских в аду.

Вы просили Историю про Крабов в ведре. Пожалуйста:

Теория ведра с крабами. Всего лишь теория или реальность жизни?

Про крабов у меня есть хорошая история в загашнике, насчёт того, что это все фуфня )
Но на английском, https://steemit.com/steemit/@jonno-katz/another-reading-of-the-crab-bucket-story

Всё правильно - крабы злые, потому что у них нет друзей.

Спасибо за интересную статью!

Спасибо, отличная статья!

Я бы хотел учесть, что некоторые аккаунты (напрмер val-a и val-b), это же один человек. Если их соединить, это как-то повлияет на график?

Это не сильно повлияет на график. У них суммарно около 2,5М, т.е. 4-е место будет.

Спасибо Вам за интересную статью?
Сижу гадаю как первый акк влияет на остальные....

Какую напишите формулу, такой и будет "закон".
Статья - желание притянуть осла за уши.