Архив Доброчана

[Burichan] [Futaba] [Gurochan] [Photon] [Tomorrow] - [Главная] [Управление]

Архив Доброчана — /u/

Ответ

report.tgz (0.0 KB, -1x-1)

Доклад «Частотный анализ интернет-диалектов русского языка и их взаимная корреляция» Профессор Добранонов 12 декабря 2009 (Сб) 11:14 No.5954

Введение
За прошедшие годы сообществом анонимных лингвистов неоднокрано высказывались различные теории о "упрощении" языка в различных "быдло"-сообществах, а также о их влиянии на культуру АИБ.
В частности в недавней дискуссии доцент Граммарнацевич [1] выдвинул в качестве критения примитивности объем активно используемого лексикона.
Отмечая недостаточный уровень изученности данной проблематики и отсутствие исследований с достаточной материальной базой, наш коллектив решил провести собственное исследование в данной области, поставив перед собой следующие задачи:
1. Построить корпус диалектов, применяемых на чанах и ряде не-анонимных ресурсов.
2. Построить частотный словарь для каждого корпуса, оценить объем активного лексикона.
3. Оценить корреляцию каждого из диалектов ряду эталонных частотных словарей русского языка.
4. Провести сравнительный анализ попарно каждого из диалектов.
5. Исследовать изменения в чановой лексике за последние 3 года.
6. Исследовать частотность отдельных лексем в разных диалектах.

Исследуемые образцы Профессор Добранонов 12 декабря 2009 (Сб) 11:15 No.5955

В качестве исследуемых экземпляров было принято взять следующие ресурсы:
1. Доброчан.ру
2. Иичан.ру
3. Вакачан.орг/уныл/
4. Автобус
5. Луркмор, страницы обсуждения (так как нас интересует лексикон обитателей в их "естественном" общении)
6. Тиреч
7. Нульчан
В качестве представителей "быдло"-ресурсов:
8. Баш.орг.ру, все аппрувленные цитаты
9. Анимефорум.ру, темы из раздела "общение", и по несколько тем из других разделов.
10. Удафф.ком, тексты и комментарии из "нетленки".
Для сравнительного анализа по времени:
11. Двач образца 2006 года
12. Двач образца 2007 года (представлен в двух версиях, оригинал и с удаленными вайп-постами)
13. Двач образца 2008 года

В качестве эталонов частотных словарей были взяты:
1. Список Сводеша для русского языка [2]
2. Первую тысячу слов из частотного словаря русского языка Штейнфельдт [3]
3. Первые 250 слов из частотного словаря Ру-вики [4]
4. Первые 1000 слов из частотного словаря на основе Национального Корпуса Русского Языка (НКРЯ-1000) [5]
5. Первые 5000 слов из частотного словаря на основе Национального Корпуса Русского Языка (НКРЯ-5000) [5]

Метод проведения исследования Профессор Добранонов 12 декабря 2009 (Сб) 11:15 No.5956

Для каждого ресурса был сформирован текстовый дамп (raw.txt).
Из текстового дампа были извлечены все кириллические слова (words.txt).
Каждому слову была сопоставлена лексема и записана лемма (lexems.txt).
Была подсчитана частота каждой леммы и составлен словарь частотности (freq.txt). В словаре мы указали как абсолютную частоту, так и относительную, в количестве на сто. Количество на миллион можно получить домножением на 10000.
Было рассчитано минимальное количество лексем для покрытия определенного количества текста (coverage.txt).
Для попарных корреляций брались первые н слов из каждого списка и рассчитывался процент совпадения этих двух множеств.
Особенности:
Для исследования Двача-2006 были использованы все сохранившиеся треды, но общая мощность ставит объективность результатов для этого периода под сомнение.
Для исследования Двача-2007 из-за сильных искажений, вносимых массовыми вайпами того периода, была рассчитана версия без таких вайп-постов.
Для исследования Луркмора из страниц обсуждения были вырезаны слова "Участник" и "января"-"декабря", так как они проставлялись автоматическими подписями.

Результаты Анонимус 12 декабря 2009 (Сб) 11:16 No.5957
tab1.summary.png (0.0 KB, -1x-1)

Объем каждого корпуса указан в таблице 1.
Вопреки теорям многих анонимных лингвистов, и согласно нашей теории о взаимоотношении правил деривации с количеством производных лексем, объем активного лексикона представителей ресурсов второй группы (анимефорум, башорг, удафф) оказался больше, чем соответствующий объем представителей АИБ.
Так, 50% текста на чанах было представлено в среднем 140-150 лексемами (110 на тирече, 160 на иичане), против 162 на анимефоруме, 192 на башорге и 268! на удаффком.
Данная тенденция сохраняется и для 75% текста, и для 90% текста, с превышением объема активного лексикона удаффкома над чановым в 2 раза.
Сопоставление частотных словарей эталонным показало достаточно стабильные результаты как для чановых диалектов, так и для диалектов второй группы. В среднем 44% текста на всех ресурсах представлено "чистыми" русскими словами, соотетствующими по своей частоте НКРЯ.
При этом наиболее высокую "чистоту" показали доброчан, иичан и, как ни странно, анимефорум.
Наименьший объем лексикона во всех представленных диалектах показали вайперы образца 2007 года. Общение на дваче в тот период сводилось к 60 наиболее частым лексемам, таким как "десу", "сосать", "хуй", "нахуй", "быдло" и "шлюха". Лидирование "десу" в этой гонке оказалось для нас достаточно неожиданным.

Попарная корреляция Профессор Добранонов 12 декабря 2009 (Сб) 11:17 No.5958
tab2.correlation_150.png (0.0 KB, -1x-1)

Результаты попарной корреляции опять же вполне соответствуют нашей теории. Сами данные можно найти в таблицах 2, 3 и 4.
При этом хотелось бы отметить ряд интересных моментов.
Из всех рассмотренных пар пара доброчан-иичан во всех трех случаях показала наибольший результат. Тем удивительней взаимная неприязнь между аудиториями данных ресурсов.
Как для доброчана, так и для иичана, анимефорум ближе, чем остальные чаны. Возможно Сырно все же не права в своей неприязни к анимефоруму.
Корреляция башорг-двач2007 оказалась крайне низкой, что явно опровергает популярную в те времена теорию "баннера луркмора".
Двач-2007 показал низкую корреляцию со всеми остальными представленными ресурсами, оказавшись наиболее похожим на Двач-2008, Тиреч и Нульч.
Двач-2006 оказался менее всего похож на Двач-2007/8, и наиболее похож на доброчан и иичан.
Двач-2008 оказался наиболее похож на тиреч, доброчан и иичан, что позволяет нам судить о распределении беженцев с погибшего.
Ресурсы второй группы показали общую попарную корреляцию выше, чем корреляцию с чановыми ресурсами.

Исследование частотности отдельных слов Профессор Добранонов 12 декабря 2009 (Сб) 11:18 No.5959
tab5.words.png (0.0 KB, -1x-1)

Результаты представлены в таблице 5.
Так как на иичане часть слов находится в вордфильтре [6], она не рассматривалась.
Прежде всего хотелось бы отметить, что на дваче 2006 слово "имиджборда" не встречается, зато есть упоминания слова "имажборда", что опровергает теорию о том, что первый вариант написания появился раньше и является основным.
Слово "тян" встречается на доброчане в два раза реже, чем в среднем по остальным бордам.
Слово "двач" встречается на тирече в полтора раза реже, чем на Дваче-2007, Дваче-2008 и нульчане. Частота на последних трех примерно равная.
Больше всего обеспокоены тортовостью на нульче и вакачане.
На анимефоруме нет ньюфагов, но есть 1.5 олдфага на миллион.
"Быдло" есть везде.
На Дваче-2006 не было ни рака, ни школьников, ни ньюфагов, ни олдфагов, и было в 5 раз меньше троллей.
Частота употребления слов "ньюфаг"/"олдфаг" на нульчане зашкаливает и превышает средние показатели в 7 раз.
В 2007м на дваче "ньюфаг" употреблялось в 10 раз реже, а "олдфаг" в 100 раз реже, чем в 2008м.
Частота употребления слова "тролль" на доброчане непростительно высока. Всем срочно рекомендуется подумать над своим поведением.
"Рака" на тирече в два раза больше, чем на нульчане, и в 4 раза больше, чем на дваче-2008, дваче-2007 и доброчане.
Интерес к мемам в целом заметно упал по сравнению с 2008. Больше всего к ним проявляют интереса, как и ожидалось, луркморцы.

Ссылки и архивы с данными Анонимус 12 декабря 2009 (Сб) 11:19 No.5960
2ch07.tar.bz2 (0.0 KB, -1x-1)

1. >>b/250452
2. http://ru.wiktionary.org/wiki/%D0%92%D0%B8%D0%BA%D0%B8%D1%81%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C:%D0%A1%D0%BF%D0%B8%D1%81%D0%BA%D0%B8%D0%A1%D0%B2%D0%BE%D0%B4%D0%B5%D1%88%D0%B0%D0%B4%D0%BB%D1%8F%D1%81%D0%BB%D0%B0%D0%B2%D1%8F%D0%BD%D1%81%D0%BA%D0%B8%D1%85%D1%8F%D0%B7%D1%8B%D0%BA%D0%BE%D0%B2
3. http://ru.wiktionary.org/wiki/%D0%9F%D1%80%D0%B8%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5:%D0%A1%D0%BF%D0%B8%D1%81%D0%BE%D0%BA_%D0%A8%D1%82%D0%B5%D0%B9%D0%BD%D1%84%D0%B5%D0%BB%D1%8C%D0%B4%D1%82
4. http://ru.wiktionary.org/wiki/%D0%9A%D0%BE%D0%BD%D0%BA%D0%BE%D1%80%D0%B4%D0%B0%D0%BD%D1%81:%D0%A0%D1%83%D1%81%D1%81%D0%BA%D0%BE%D1%8F%D0%B7%D1%8B%D1%87%D0%BD%D0%B0%D1%8F_%D0%92%D0%B8%D0%BA%D0%B8%D0%BF%D0%B5%D0%B4%D0%B8%D1%8F
5. http://ru.wiktionary.org/wiki/%D0%9F%D1%80%D0%B8%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5:%D0%A1%D0%BF%D0%B8%D1%81%D0%BE%D0%BA%D1%87%D0%B0%D1%81%D1%82%D0%BE%D1%82%D0%BD%D0%BE%D1%81%D1%82%D0%B8%D0%BF%D0%BE%D0%9D%D0%9A%D0%A0%D0%AF:%D0%A3%D1%81%D1%82%D0%BD%D0%B0%D1%8F_%D1%80%D0%B5%D1%87%D1%8C
6. http://iichan.ru/d/res/40629.html

>>	Профессор Добранонов 12 декабря 2009 (Сб) 11:19 No.5961 Будем рады ответить на ваши вопросы, господа.

>>	Анонимус 12 декабря 2009 (Сб) 11:23 No.5962 >>5961 в каком программе открывать файл из архива в оп-посте?

>>	Анонимус 12 декабря 2009 (Сб) 11:27 No.5963 >>5962 Это OO.o calc таблица.

>>	Анонимус 12 декабря 2009 (Сб) 11:42 No.5965 >>5961 > Будем рады ответить на ваши вопросы, господа. > наш коллектив решил провести собственное исследование ... Наш коллектив это кто? Можно подробнее?

>>	Анонимус 12 декабря 2009 (Сб) 11:49 No.5966 >>5965 Анонимусы Университета.

>>	Анонимус 12 декабря 2009 (Сб) 12:04 No.5967 robert-deniro-taxi-driver-photograph-c101033101246.jpg (0.0 KB, -1x-1) молодец, держи Шайкевича

>>	Анонимус 12 декабря 2009 (Сб) 12:05 No.5968 3-3.jpg (0.0 KB, -1x-1) >>5967 черт, не то кликнул

>>	Анонимус 12 декабря 2009 (Сб) 12:41 No.5971 какое-то говно. и что теперь?

>>	Анонимус 12 декабря 2009 (Сб) 12:45 No.5972 2a995e6159f8666805391b22901c79c9.gif (0.0 KB, -1x-1) Ух ты, спасибо вам, аноны, такую замечательную работу провели же. Это же просто какой-то гигантский кусок руды для бесконечного извлечения лулзов. Я думал, намного хуже будет это все.

>>	Анонимус 12 декабря 2009 (Сб) 12:51 No.5973 c71f319713415c27e5db5c50d05c4ad0.jpg (0.0 KB, -1x-1) схоронил поглубже тред :3

>>	Вакачанговская юккури 12 декабря 2009 (Сб) 12:57 No.5974 Молодцы, ребята.

Анонимус 12 декабря 2009 (Сб) 13:17 No.5975

>>5954
Восхитительно. Нет, серьёзно, это более чем интересно. Я два года хотел такое исследование. Давно уже перестал надеяться, что Анонимус способен на какую-нибудь мало-мальски серьёзную работу. Спасибо.
До архивов пока, конечно, основательно не добрался, но вопросы есть уже сейчас: как я понял, одним из выходных параметров оценки примитивности служило разнообразие лексем в верхушке частотного распределения -

> Так, 50% текста на чанах было представлено в среднем 140-150 лексемами (110 на тирече, 160 на иичане), против 162 на анимефоруме, 192 на башорге и 268! на удаффком.
Вывод о том, что разнообразие характерных лексем чановских диалектов меньше, вполне понятен. Но что будет, если обрезать эту верхушку и оценить разнообразие на неспецифическом словаре "чистых" слов русского языка? Да, я прочитал, что

> В среднем 44% текста на всех ресурсах представлено "чистыми" русскими словами, соотетствующими по своей частоте НКРЯ.
но насколько хорошо совпадают форм-факторы распределений?

>>	Анонимус 12 декабря 2009 (Сб) 13:31 No.5976 Отличное исследование. Оно проливает свет на многие неясности и разночтения в истории. Большое спасибо, Профессор!

>>	Анонимус 12 декабря 2009 (Сб) 13:38 No.5977 Мне не хватает сравнения Доброчанов образцов 2008 с 2009.

>>	Анонимус 12 декабря 2009 (Сб) 13:40 No.5978 >>5977 На доброчане-2008 слишком мало сообщений для полноценного анализа. Впрочем, посмотрим потом, когда будем делать повторный анализ месяцев через 6, дабы отследить динамику.

>>	Анонимус 12 декабря 2009 (Сб) 13:45 No.5979 1260374235136.jpg (0.0 KB, -1x-1) Молодцы, ребята. Сохранил архивы, пишу вот пару скриптов для изучения. Еще раз спасибо, даже гордо стало за наших анонимусов.

>>	Анонимус 12 декабря 2009 (Сб) 13:58 No.5980 Статист-куны, нет у кого-нибудь желания посчитать дисперсию и среднеквадратичное отклонение между списками? Простой процент совпадения не очень точный.

>>	Анонимус 12 декабря 2009 (Сб) 14:04 No.5982 Слушайте, робяты. Во-первых, молодцы. Во-вторых, есть небольшие подозрения насчёт результатов старых дващей(некачественная выборка), а также вопрос по поводу количества элементов выборки - я думаю, с ней надо поработать тщательней.

Анонимус 12 декабря 2009 (Сб) 14:06 No.5983

>>5982

> насчёт результатов старых дващей(некачественная выборка)
Про 2006й там об этом написано, сколько есть данных, столько и взяли. Больше, к сожалению, не сохранилось.
2007й взят почти целиком, кроме декабря (у нас его нет).
2008й взят равномерно по всему году, из всего, что сохранилось.

Анонимус 12 декабря 2009 (Сб) 14:34 No.5984

>>5983
Учитывая склонность к словообразованию на новоявленных старых дващах, высокий процент уникальности, боюсь, вызван канувшими в лету фейлофорсенными словами, благо к 2007му стандартный лексикон более-менее стабилизировался. Это, конечно, частное-мнение-очевидца.
Полагаю, следует исключить дващ06 из набора.
Также, по понятным причинам, было бы неплохо сделать объём выборки одинаковым для всех.
Для медленноборд (унылчан, например) это потребует медленносбора в течении нескольких месяцев (раз в усредненный цикл обновления тредов на доске).
Алсо, в разные разделы одной и той же борды тоже могут различаться.
Возможно, будет интересно сделать сравнение между одинаковыми тематическими досками разноборд, равно как и корелляция между внутриоднобордовыми досками.

>>	Анонимус 12 декабря 2009 (Сб) 14:57 No.5985 Профессора просто молодцы! анон нульча

Анонимус 12 декабря 2009 (Сб) 15:07 No.5986

>>5984

> Также, по понятным причинам, было бы неплохо сделать объём выборки одинаковым для всех.

> Для медленноборд (унылчан, например) это потребует медленносбора в течении нескольких месяцев (раз в усредненный цикл обновления тредов на доске).

Угу, как-то нехорошо, что на Двач06 такое маленькое количество слов же. Это моё мнение, как куна который когда-то учился на инженера.

> Возможно, будет интересно сделать сравнение между одинаковыми тематическими досками разноборд, равно как и корелляция между внутриоднобордовыми досками.
Таки да!

Ещё мне лично было бы крайне интересно ознакомиться с частотностью большего количества слов, и то что на ычане вордфильтр стоит это уже проблема ычана, а не наши.

Или например сравнить изменение количества "ло" в слове "ололо" и всё такое. Я бы и сам попробовал но к сожалению я никогда в жизни таким исследованием не занимался и боюсь пропустить что то важное по неопытности же, а товарищи ОПы умницы - я о таком треде не один месяц мечтал! Профессор Добранонов - мой бог :3

>>	Анонимус 12 декабря 2009 (Сб) 15:18 No.5988 Вопрос - почему был утаен архив двача за 2006 и 2007 годы до это времени? Также /r/ версию с html-разметкой.

>>	Анонимус 12 декабря 2009 (Сб) 15:36 No.5989 tables-with-style-after.png (0.0 KB, -1x-1) Да, выделяйте в следующий раз строки разными цветами, а то легко потерять ведь нужную строку с таким количеством колонок... Пикрилейтед.

Анонимус 12 декабря 2009 (Сб) 15:45 No.5991

>>5988
Архив эпичных тредов двача 2007 некоторое время висел онлайн, некоторые кусочки двача 2006 тоже, плюс до сих пор можно посмотреть несколько страниц через web.archive.org

Например:
http://web.archive.org/web/20060430013222/http://2ch.ru/b/
http://web.archive.org/web/20060503155355/2ch.ru/d/
http://web.archive.org/web/20060503155526/2ch.ru/dg/

Там кстати полно лулзов ололол.

Анонимус 12 декабря 2009 (Сб) 16:48 No.5993

Исследование - говно. Статистические исследования, да будет вам известно, проводятся так: выдвигается некоторая гипотеза, для неё противоречащая ей нулевая гипотеза, она опровергается статистическим тестом с какой-то достоверностью, из чего делается вывод о верности исходной посылки.
Материалы по теме: http://en.wikipedia.org/wiki/Statisticalhypothesistesting

Резюме: Работу принимать к публикации не рекомендую до устранения указанных выше существенных недостатков.

>>	Анонимус 12 декабря 2009 (Сб) 21:08 No.5997 2426314_f16052a.jpg (0.0 KB, -1x-1) >>5993 0/10 Статлингвистика рулит, а ты хуй :3 Олсо, твой пост тоже тупой!

>>	Анонимус 12 декабря 2009 (Сб) 21:10 No.5998 >>5997 В твоём исследовании статистики нет вообще.

>>	Анонимус 12 декабря 2009 (Сб) 21:11 No.5999 >>5998 > "исследовании" самопочин

>>	Анонимус 12 декабря 2009 (Сб) 21:23 No.6000 >>5998 1. исследование не моё, я даже не оп 2. Да иди ты нахуй, оп няшечка же!

>>	Анонимус 12 декабря 2009 (Сб) 21:26 No.6001 А у кого-то сохранились архивы Двача 2006-2007 годов, но с картинками?

>>	Анонимус 12 декабря 2009 (Сб) 21:40 No.6003 >>6001 > Слово "тян" встречается на доброчане в два раза реже, чем в среднем по остальным бордам. Вы говорите так, как будто это что-то хорошее

>>	Анонимус 12 декабря 2009 (Сб) 21:46 No.6004 >>6001 А у кого они есть хотя бы без картинок? Только полные, а не фрагменты, как на webarchive.

>>	Анонимус 12 декабря 2009 (Сб) 22:37 No.6005 >>6004 В >>5960 ссылка на файл, содержащий полные (насколько могу судить) архивы, пусть и в малочитаемом виде.

>>	Анонимус 12 декабря 2009 (Сб) 23:28 No.6007 >>6005 Действительно, только однозначно восстановить треды по такому дампу не представляется возможным => не подходит, увы.

>>	Анонимус 12 декабря 2009 (Сб) 23:45 No.6008 >>6007 Ну там хоть что-то есть, вспомнил и перечитал один свой тред из 2007 года, когда я был ньюфагом.

Анонимус 13 декабря 2009 (Вс) 00:12 No.6010

Бессмысленное исследование. Было бы больше толку, если бы оп сделал график изменения скорости и посещаемости аиб, лурки, баша итд во времени с описании таких или иных крупных событий(причем не забывая о популярности некоторых мемов). Алсо форчан бы в графике не помешал.

Анонимус 13 декабря 2009 (Вс) 02:02 No.6011

>>5984

> Также, по понятным причинам, было бы неплохо сделать объём выборки одинаковым для всех.
По этому вопросу есть разные мнения. В начале делали равные выборки, по 700000, так как на башорге больше нет, но потом решили, что тот-же двач разумней исследовать целиком, все равно ведь сравниваем частоту, а не абсолютные количества.
Для разных по скорости чанов равные объемы будут означать совершенно разные периоды. Возможно объективней таки рассматривать, скажем, по 1 последнему году каждого чана, чем по последним х словам.

> одинаковыми тематическими досками разноборд, равно как и корелляция между внутриоднобордовыми досками
Угу, правда опять же, вопрос в объеме, на многих тематиках постов слишком мало.
>>5988
Он не утаен, он не доступен в онлайне по техническим причинам.
>>5993
А где ты в теме нашел слова "статистическое исследование"? Там же ясно написаны задачи и методы, это корпусная лингвистика, а не статистика.
>>6001
Картинки у нас тоже есть. Когда-нибудь опубликуем, там 500000 файлов и с ними надо разбираться.

>>	Анонимус 13 декабря 2009 (Вс) 02:07 No.6012 http://iichan.ru/sci/res/10219.html - ОП, а что ты думаешь об этом?

>>	Анонимус 13 декабря 2009 (Вс) 02:21 No.6013 >>6012 Я думаю, что привязка к какому-то чану - эпичный фейл. Ксенофобия во все поля. Если и пилить издание, то межчановое.

>>	Анонимус 13 декабря 2009 (Вс) 02:41 No.6014 >>6012 Я не ОП, но я подумал следующее: "О, меня на ычане разбанили!"

>>	Анонимус 13 декабря 2009 (Вс) 02:42 No.6015 >>6013 Тогда уж хотя бы общерунетовское

>>	Анонимус 13 декабря 2009 (Вс) 02:44 No.6016 >>6015 Для не-анонимусов и так существует дохрена и больше научных изданий.

>>	Анонимус 13 декабря 2009 (Вс) 03:29 No.6017 >>6011 Надеюсь, вы опубликуете полные архивы Двача поскорее. Выложите их на отдельном сайте с поиском и анонсируете на всех известных АИБ.

>>	Анонимус 13 декабря 2009 (Вс) 03:31 No.6018 >>6017 Так уже выкладывали же, с поиском и прочими хренями. У нас просто софт под него сейчас сильно устаревший, переписывать все надо.

>>	Анонимус 13 декабря 2009 (Вс) 05:23 No.6019 >>6018 оно сохранилось где-то? можно ссылочку?

>>	Анонимус 13 декабря 2009 (Вс) 09:49 No.6022 >>6018 Куку~ц?

>>	Анонимус 13 декабря 2009 (Вс) 11:31 No.6023 >>6019 Люто-бешено удваиваю запрос. Большим и жирным архивом голые html-ки тредов(или в каком формате они у вас хранятся?), без какого-либо поиска, можно и без картинок.

>>	Анонимус 13 декабря 2009 (Вс) 12:05 No.6025 этому треду не хватает звукового сопровождения http://rghost.ru/700725

>>	Анонимус 13 декабря 2009 (Вс) 13:26 No.6027 А почему про Шитстрим ничего не написали?

>>	Анонимус 13 декабря 2009 (Вс) 15:16 No.6030 >>6018 А, 2.0ч я хорошо помню. И буду очень вам благодарен, если он заработает опять.

Анонимус 14 декабря 2009 (Пн) 12:36 No.6069

Тред - луч света на этой доске.
Большинство файлов в архиве имеют неизвестный мне формат, но даже без этого выглядит впечатляюще.
В свою очередь хотел бы попросить простым языком изложить теорию, которая взята на проверку и дать определения специальным терминам таким как Лексема.
Прошу это я с учетом того, что большинство читателей не знакомо с тематикой и специфичными терминами. Дать список определений вначале или в конце текста намного удобнее, чем каждого по отдельности искать определения.

>>	Анонимус 14 декабря 2009 (Пн) 12:36 No.6070 >>6069 > Большинство файлов в архиве имеют неизвестный мне формат Там текстовые файлы же.

>>	Анонимус 14 декабря 2009 (Пн) 13:42 No.6071 > определения специальным терминам таким как Лексема Да-да, не мешало бы. Алсо посмотрев исходник старого 2ча хочется задать вопрос: можно ли применять методы исследования текстов к собственно содержимому АИБ т.е. 1. анонимной 2.картинко- 3.доски

Анонимус 14 декабря 2009 (Пн) 13:44 No.6072

>>6071

> можно ли применять методы исследования текстов к собственно содержимому АИБ
А почему, собственно, нет? Сопоставляются лексические компоненты каждой доски. Да, конечно, какая-то прагматика при этом теряется, но это все равно не семантический анализ, это частотный анализ.

Анонимус 14 декабря 2009 (Пн) 14:04 No.6073

>>6072
Ну хотя-бы потому, что часть текста написана на картинках

> это все равно не семантический анализ, это частотный анализ.
точность такого анализа вызывает сомнения, тащемта она явно не 0,01 процента
И расскажите больше про методы анализа же, можно с примерами

Анонимус 14 декабря 2009 (Пн) 16:10 No.6076

Порадовало. Есть пара вопросов:
1.

> Корреляция башорг-двач2007 оказалась крайне низкой, что явно опровергает популярную в те времена теорию "баннера луркмора".
Башорг за какой отчетный период рассматривался?
2. Для каждого чана действительно не помешал бы список досок, на которых собиралась статистика.

Анонимус 14 декабря 2009 (Пн) 22:50 No.6082

>>6076

> Башорг за какой отчетный период рассматривался?
За весь. Все аппрувленные цитаты, от первой до последней. Там и так в результате всего 700000 слов набралось, по периодам будет не показательно (разве что бездну дампать).

> список досок
Со всех только /b/ же.

>>	Анонимус 17 декабря 2009 (Чт) 12:08 No.6114 >>6013 > Я думаю, что привязка к какому-то чану - эпичный фейл. Ксенофобия во все поля. > Если и пилить издание, то межчановое. Конечно же межчановое. Ссылка на Ичан просто потому что там уже все написано, чтобы не копипастить и не плодить треды.

>>	Анонимус 20 декабря 2009 (Вс) 13:53 No.6198 Бамп эпичнейшему треду

Анонимус 21 декабря 2009 (Пн) 01:15 No.6231

Мда, занимательная мулька, но я так и не понял четкой цели исследования. Кто умнее, кто тупее? Здесь одной статистической лингвистикой не обойтись. Ну да ладно, у меня баттхерт. Два небольших замечания, которые чистая статистика объяснить не может.

> Так, 50% текста на чанах было представлено в среднем 140-150 лексемами (110 на тирече, 160 на иичане), против 162 на анимефоруме, 192 на башорге и 268! на удаффком
На удаффе такой завышенный показатель связан с художественностью текстов, особенно нетленки. Кстати, как там решался вопрос со спетсыфичисгай арфаграфией хуяторов?

> Корреляция башорг-двач2007 оказалась крайне низкой, что явно опровергает популярную в те времена теорию "баннера луркмора".
Нифига не опровергло. Я бы не стал делать такие выводы, основываясь на лингвистической статистике. Теория доказана практикой и фактами. (на собственной шкуре, и в тредах о том, кто как попал на двач). А нестыковка заключается в том, что неофиты с баша быстро переключаются на скупую, но емкую терминологию двачей. Более того, проходит инкубационный период, в течении которого личинка двачера окукливается на лурке, впитывая в себя новые знания, а вместе с ними и новый язык. Лурк по своей доставляемости заменяет баш, а его потом заменяют имиджборды. Посещение баша, как поведенческий рудимент, отсыхает сам спустя приблизительно месяц-два.
И по традиции, видимо, сей борды всем добра, вы все классные, проффесор вы мой новый идол и кумир, чмаффки вас всех, лаффки :3333 <33333 Действиельно впечатляющая работа, но "комментарии" разочаровали. Я серьезно. Все пакусики!! цалую всех в щечку, чмафф ^^

Анонимус 21 декабря 2009 (Пн) 01:20 No.6233

>>6231

> Кто умнее, кто тупее?
Нет, конечно. Я вообще не сторонник мнения, что население АИБ чем-то лучше остального интернета. Закомплексованней, да. Не более.
На чанах постоянно выдвигают теории о том, какой бедный язык у всех этих "башорков". Я попытался проверить эту теорию научными методами. Результаты опубликовал. Ну а в дополнение, раз уж на руках все равно были частотные списки и корпусы, посчитал всякие корреляции.

> Кстати, как там решался вопрос со спетсыфичисгай арфаграфией хуяторов?
"Ебаться" "Ипаццо" "Ибатся" три разные лексемы. Там, где прослеживается инфлекция, одна лексема.

Анонимус 23 декабря 2009 (Ср) 07:16 No.6271

> Так, 50% текста на чанах было представлено в среднем 140-150 лексемами (110 на тирече, 160 на иичане), против 162 на анимефоруме, 192 на башорге и 268! на удаффком.

Слово "подонок" на удаффкоме может быть представлено в виде "падонак", "падонок", "падоног" и т.д. Не говоря уже об уравни граматнасти носиления (на любом ресурсе). По сути дела, это статистика вариантов написания слов, а не словарного запаса.

Анонимус 23 декабря 2009 (Ср) 07:22 No.6272

>>6271
Я же там указал причину, побудившую проводить исследования.
Собственно в том треде я и доказывал, что при более свободных правилах деривации у нас будет больше лексем в основном лексиконе, в том числе за счет синонимов, образованных деривацией в виде искажения.

> а не словарного запаса
А что такое по-твоему "словарный запас"?

>>	Анонимус 23 декабря 2009 (Ср) 07:29 No.6273 > А что такое по-твоему "словарный запас"? Запас используемых слов. Очевидно, что "подонак" и "падонок" - это одно и то же слово.

Анонимус 23 декабря 2009 (Ср) 07:34 No.6274

>>6273
Кому очевидно?
"Слово" это вообще форма. "Падонак" "Падонка" и все остальные инфлекции лексемы "падонак" - это разные слова.
"Падонок" "подонок" и "падонак" с точки зрения языка это разные лексемы, образованные от лексемы "падонок", и при этом имеющие разные коннотации.

>>	Анонимус 23 декабря 2009 (Ср) 17:39 No.6282 Извиняюсь, если неправильно употребляю термины. А "дабрачан" (неграмотное написание) прибавляет +1 к словарному запасу?

Анонимус 23 декабря 2009 (Ср) 18:11 No.6284

>>6282
Ну я потому выше и спросил, что такое словарный запас? Если измерять просто объем лексикона, то да. Но, надо учитывать, что я считал только самые частотные слова. Т.е. чтобы твой "дабрачан" имел "вес", ты должен использовать его часто, и при этом использовать также часто и "доброчан".

Плюс, я еще проверял корреляцию с НКРЯ. Т.е. словами, заведомо написанными правильно. И прошу обратить внимание, корреляция у чанов и у ресурсов второй группы достаточно схожи, т.е. количество активно используемых чистых слов русского языка и там и там примерно одинаково.

Анонимус 23 декабря 2009 (Ср) 21:35 No.6299

> "Падонок" "подонок" и "падонак" с точки зрения языка это разные лексемы, образованные от лексемы "падонок", и при этом имеющие разные коннотации

Что, правда? А можно объяснить, в чём разница (особенно между 1-м и 3-м, с примерами)?
Вот например между доброчаном, дабурочаном, боброчаном разница понятна (но это не лексемы. или нет?) Между доброчаном и доброчонгом разницы уже меньше.

Анонимус 23 декабря 2009 (Ср) 21:40 No.6301

>>6299

> но это не лексемы
Лексемы.
Как бы обеснить. Вот есть "слово", его можно "склонять"/"спрягать" (по падежам, числам, временам, родам и т.д.)
Вот весь набор склонений/спряжений образует лексему.
Т.е. лексема, выраженная леммой ДОБРОЧАН это набор следующих инфлекций: "доброчан" "доброчаны" "доброчану" "доброчанам" "доброчане" "доброчанах" и т.д.
С точки зрения формальной лингвистики "дабурочан" "боброчан" и т.д. образуют другие наборы инфлекций и выражены другими леммами, а значит это другие лексемы.

> А можно объяснить, в чём разница
Деривации не имеют негативного оттенка, скорее наоборот.

Анонимус 23 декабря 2009 (Ср) 22:28 No.6304

>>6301
А в чём разница между деривациями? Мне почему-то кажется что "падонок", "падонок" и "падонаг" - это просто разные варианты написания, в рамках падонковской субкультуры употребляющиеся одинаково (аналогия- написание слов в british english и "американском английском"). Или если есть достаточно частые разные употребления- это уже лексема?

>>	Анонимус 23 декабря 2009 (Ср) 22:30 No.6305 > "падонок", "падонак" и "падонаг" фикс.

Анонимус 21 января 2010 (Чт) 22:36 No.7175
untitled-19.png (0.0 KB, -1x-1)

Добрый вечер!

Я, как правило, АИБ не читаю - муж показал этот тред, посчитав, что мне как лингвисту будет интересно. Cразу показалось, что делал статистику профессионал. Если я не ошиблась и автор/авторы доклада действительно занимаются компьютерной или прикладной лингвистикой, то я очень хочу познакомиться. Есть одно полуделовое предложение, не имеющее отношения к имиджбордам, но имеющее отношение к сбору данных по словоупотреблению в русском языке. Уважаемый автор/авторы/сочувствующие, пишите на адрес nyrestein-собака-gmail.com.

>>	Анонимус 21 января 2010 (Чт) 23:04 No.7177 >>7175 Мой Доброчан превращается в арену деловых переговоров и сириоуз бизнесса. С одной стороны, я должен испытывать гордость, с другой - грустно всё это.

>>	Анонимус 22 января 2010 (Пт) 00:50 No.7179 0003.jpg (0.0 KB, -1x-1) >>7175 > Если я не ошиблась [,] и автор/авторы доклада Лингвист, говоришь? Хех!

>>	Анонимус 22 января 2010 (Пт) 01:21 No.7182 >>7179 яка страна таки теракты…

>>	Анонимус 14 февраля 2010 (Вс) 21:25 No.7646 Ненавижу, сука, из-за этой хуйни я и не пошёл в аспирантуру филфака СПбГУ; скучно и нет места для фантазии брат умер, а ты говоришь, что она безвредная!

>>	Анонимус 08 марта 2010 (Пн) 13:34 No.8172 >>5954 Реквестирую научную статью по мотивам исследования проф. Доброанонова. Подробности тут: http://groups.google.com/group/stsgrad/browse_thread/thread/26201babe22137fd

>>	Анонимус 08 марта 2010 (Пн) 15:31 No.8173 >>7179 Да ладно доебываться то. Доброчан же. Не лингвист.

>>	Анонимус 25 апреля 2010 (Вс) 18:52 No.9166 15812963.jpg (0.0 KB, -1x-1)

>>	Анонимус 18 августа 2011 (Чт) 20:54 No.37266 >>5957 > Общение на дваче в тот период сводилось к 60 наиболее частым лексемам, таким как "десу", "сосать", "хуй", "нахуй", "быдло" и "шлюха". Проиграл в голос

>>	Анонимус 18 августа 2011 (Чт) 21:08 No.37268 >>37266 Быстрый ты какой.

>>	Анонимус 19 августа 2011 (Пт) 02:31 No.37287 >>7179 Нет ошибки же, > я не ошиблась и > автор/авторы доклада действительно занимаются компьютерной или прикладной лингвистикой - однородные придаточные, относящиеся к "если". мимопроходил

>>	Анонимус 19 августа 2011 (Пт) 03:46 No.37291 >>37287 c:лютый неудобно Спасибо тебе, крокодил-некромант! Огромное спасибо. Без тебя я бы не узнал о таком-то виновом тредище.

>>	Анонимус 20 октября 2011 (Чт) 16:45 No.41263 Danbooru-539977-animal_ears-bell-cat_ears-choker-e.jpg (0.0 KB, -1x-1) Бампаю няшей эпичный тред.

Анонимус 20 октября 2011 (Чт) 17:29 No.41264

> Интерес к мемам упал

А как мерили интерес? Учитывали разнообразие мемов или частоту? Что же, сотня разных мемов, использованная единожды не так интересна, как один, повторяющийся сто раз?
Алсо было бы неплохо посмотреть архив Спидометра Имиджборд (Думаю, тамошний админ поделится) и уделить большее внимание отдельным "пиковым" периодам вроде каникул, Нового Года, начала учебного года, выходных дней. Так "славич" употребляется лишь в редкие короткие периоды форса, в то время как "бочка" будет в ходу всегда стабильно.

>>	Анонимус 21 октября 2011 (Пт) 00:44 No.41279 >>37266 Пожалуйста, не надо тащить сюда всякие игры с помойки. Пусть говно будет в одном месте.

>>	Анонимус 21 октября 2011 (Пт) 00:49 No.41280 >>41279 Что за тупой игрохейтер завёлся в моих интернетах? Уже который раз за два дня наблюдаю, и не на одной борде причём.

>>	Анонимус 21 октября 2011 (Пт) 03:04 No.41283 >>41280 Меня больше интересует, откуда взялись тупые никогда не выигрывающие игроки?

>>	Анонимус 21 октября 2011 (Пт) 04:15 No.41286 12661615756903.png (0.0 KB, -1x-1) >>41283 > тупые никогда не выигрывающие игроки И во что они играют?

Анонимус 21 октября 2011 (Пт) 07:45 No.41287

>>41283
Это еще ничего. В природе встречаются, вы не поверите, люди, у которых смешные картинки вызывают непроизвольное испражнение, о чём они радостно сообщают об этом окружающим на анонимных форумах. На некоторых форумах комментарий "обосрался" является высшей похвалой и признанием собеседника как оригинального шутника.

>>	Анонимус 21 октября 2011 (Пт) 07:52 No.41288 >>41287 Да, но что за игра имеется в виду?

>>	Анонимус 21 октября 2011 (Пт) 08:02 No.41290 Лол, надо же, кто-то воскресил мой тред. У меня, кстати, всё это время делались копии тиречей-нульчей (забыл убрать скрипт из крона и он так уже два года пашет), можно посмотреть на изменения за прошедший период.

>>	Анонимус 21 октября 2011 (Пт) 09:20 No.41295 >>41290 Ждем с нетерпением новый отчет.

>>	Анонимус 21 октября 2011 (Пт) 17:01 No.41307 >>41288 "Засмеялся-проиграл", вестимо. Объяснять, думаю, более ничего не надо? А ещё - http://en.wikipedia.org/wiki/The Game (mind_game)

>>	Анонимус 21 октября 2011 (Пт) 18:18 No.41315 http://www.looo.ch/2011-10/692-text_atlas

Удалить сообщение [только файл]
Пароль

Имя
E-mail
Тема
Сообщение
Файл
Подтверждение
Пароль	(для удаления файлов и сообщений)
Supported file types are: GIF, JPG, PNG Maximum file size allowed is 1000 KB. Images greater than 200x200 pixels will be thumbnailed.