Как сделать частотный словарь в excel?

Каков размер вашего семантического ядра? 1000 фраз? 10.000 фраз? А может, это число с шестью или более, нулями?Настоящий директолух, исходя из специфики своих задач, просто обязан работать с семантическими ядрами. И чем больше ядро, тем выше его самооценка.

Однако, при работе с объемами уже более 1000 фраз ручная работа становится

нерентабельной, особенно, если вы специалист на стороне агентства и получаете лишь свой процент от небольшого процента агентства от прибыли клиента, которую приносит ваша работа. Нужно автоматизировать. Но автоматизировать работу умеет далеко не каждый директолух.Директолух, который не автоматизирует свою работу

К чему это приводит в общем случае?Как специалист, проводивший не один аудит проработки семантики рекамных кампаний, могу сказать, что ситуации с плохой проработкой встречаются каждый первый раз. Дайте мне доступы к вашему аккаунту, и я покажу, где проблемы у вас 😉

Более того, я не могу похвастаться, что мои аккаунты являются идеальными. Везде есть пространство для улучшений. Я люблю говорить, что контекстная реклама сама по себе — один большой набор ошибок.

И что в итоге делать, как их избежать? Ответ таков, что избежать ошибок невозможно, но их можно минимизировать, если ранжировать от большего к меньшему.

Кто знаком с правилом Парето? 20% усилий дают 80% результата. Правило Парето в моих проектах работает идеально — 20% ключевых слов приносят 80% конверсий. Но это мне известно уже постфактум, а по каким показателям ранжировать на этапе проектирования архитектуры аккаунта и первичного запуска, и как?

Общеизвестными при сборе семантического ядра ключевыми факторами для слов и фраз являются релевантность семантики, частотность фраз, их коммерциализация и геозависимость.

Какой из факторов наиболее влиятельный — предмет споров, но в первую очередь поговорим о частотности как самом очевидном.

Что такое частотность? В целом это синоним слова «частота». Количество упоминаний какой-то сущности в рамках некого множества. В рамках анализа семантики используется частотность фраз по Вордстату, иначе говоря, статистическая информация от Яндекса по количеству запросов пользователей, содержащих слова фраз в той или иной форме.

Но при анализе семантики специалисты смотрят в первую очередь не на всю фразу целиком, а на ее составляющие — отдельные слова и их сочетания. Это и позволяет разложить семантику «по полочкам» — какие запросы релевантны, а какие — нет.

Так вот, чтобы в первую очередь проработать самые важные слова, нужно проанализировать их на предмет их встречаемости во всем массиве фраз — это простой путь, но сильно повышающий эффективность.

Как бы это делалось вручную? Фразы были бы разбиты на слова, собраны в один столбец, и затем была бы построена сводная таблица, содержащая уникальные значения и их количество напротив каждого. В целом несложная процедура, но все же занимает время, т.к. фразы могут быть совершенно разной длины.

Есть ли способы упростить задачу? Конечно же. Есть множество программных решений, автоматизирующих этот процесс. И одно из них доступно прямо в Excel, как макрос надстройки !SEMTools. Это был один из первых макросов, который я написал и внедрил в надстройку.

Здесь находится данный макрос в надстройке

Приведу пример, как будет выглядеть частотный словарь семантического ядра, собранного путем парсинга поисковых подсказок гугл по фразе «купить собаку».Производим сбор указанным на скриншоте макросом (ниже показан уже результат выдачи):

Выделяем полученное семантическое ядро и вызываем макрос выше. Результат после сортировки по частотности будет выглядеть так. В топе популярных пород — хаски, терьер, шпиц и бульдог:

Видно, что наиболее упоминаемая и подсказываемая порода — хаски, затем идут терьер, шпиц и бульдог. Еще заметно, что очень популярны щенки (всех пород).

Но с простым упоминанием фразы в массиве решение не совсем подходит для анализа фраз с уже известной частотностью. А дело в том, что часто бывают ситуации, когда в семантическое ядро попадают фразы с кардинально разной частотностью, но при этом упомянутые одинаковое количество раз.

Для того, чтобы избежать данной ситуации, я разработал макрос, который берет на вход 2 столбца — массив фраз в левом столбце, и их частотность — в правом. Для начала нужно собрать известную частотность фразы. Я рекомендую собирать через прогноз бюджета Яндекса — т.к.

он учитывает истинную частотность, с учетом кросс-минусовки фраз. Однако картина не будет кардинально отличаться, если собирать данные через кейколлектор и подобные инструменты и собранные базы частотностей.

Выделяем столбцы ключевых слов и частотностей (заголовки не нужно):

И жмем макрос:

В отличие от первого, данный макрос для каждого слова считает и суммирует не факт его встречаемости в ядре, а факт его запрашиваемости в Яндексе, как составной части поискового запроса пользователя. Наблюдаем, что, в отличие от поисковых подсказок

Источник: https://zen.yandex.ru/media/id/5b08ff40c71a92e0c09300a2/5b5cc3ebf5c3ac00a94e48f5

Народ.Ру: Частотные словари. Frequency_dictionaries

Проект “МИР-2050” посвящен изучению языков. ___ (возврат на главную страницу).
Также мы создаем и ищем файлы, ускоряющие изучение языка: разговорники, книги с параллельным переводом, грамматику, БЫСТРЫЕ словари и т.д.

… Под “быстрыми” словарями мы имеем в виду:
а) словари, позволяющие быстро (быстрее 4-х секунд) найти перевод слова.
б) словари, позволяющие быстро набрать словарный запас (запоминать по 1000 слов/месяц) ДРУЗЬЯ! Мы предлагаем всем желающим делать такие словари!
БУДЬТЕ СОЗДАТЕЛЯМИ, а не только перекачивателями-потребителями этих файлов.

Мы делаем не только СЛОВАРИ ДЛЯ КОМПЬЮТЕРА в формате word и excel (поиск в меню “НАЙТИ”),
но и БУМАЖНЫЕ СЛОВАРИ, где 1000-3000 слов находятся на 4-16 стр. (листать 8 разворотов).
Например, вся 1000 слов по теме КУХНЯ-ЕДА занимает 6 страниц,
а большинство слов по теме БИЗНЕС занимают 14 cтр.

: быстро искать, легко запоминать… ДВЕ ИДЕИ:
а) Начинать учить язык лучше не со случайных слов, а с 1000-2000 самых встречаемых слов. А запомнив за первые 2-4 месяца эти 2000 слов, ученик сможет понимать без словаря несложные книги. Ведь ему будет понятно ДВА слова из ТРЕХ, т.е до 70% текста.

А неизвестное слово – или неважно, или понятно из контекста, или его можно перевести толстым словарем.

В н и м а н и е : словарь 1000 СЛОВ занимает ЛИШЬ 5 СТРАНИЦ со шрифтом 11 (ёмко и крупно)


ОБРАЗЕЦ словаря 1000 слов в одном взоре, на пяти страницах. [1][2][3][4][5]
Кстати, авторы учебников учат наоборот: берут случайные тексты с редкими словами, пишут перевод этих случайных слов (“Воробей чистил перышки в луже”). А самые частые слова проходят мимо. И ученик удивляется, что в новой книге почти все слова незнакомы… б) Магазинные тематические словари (технические, экономические, юридические и т.д.),
содержащие 500-1000 страниц – это очень тормозные словари. Медленно искать, трудно учить.
Реально их можно ужать в 30 страниц с тем же объемом слов: ведь 95% словаря – это словосочетания с очевидным переводом (где каждое слово переводится дословно). И вот 15 страниц (3000 слов) специалист (инженер, юрист и т.д.) выучит за полгода, когда будет переводить тексты с помощью этого БЫСТРОГО словаря. _________________________________________________________ Часть 1. ЧАСТОТНЫЕ СЛОВАРИ Эти словари составляет компьютер, сосчитавший слова в тысячах текстов данного языка:
в художественных книгах, в субтитрах фильмов, в газетах и в E-mail переписке.
В итоге, слово встретившееся чаще всего, получает номер 1. А реже всего – последний номер,
Кстати, продаваемые в магазинах словари типа «500 слов N-языка» являются профанацией.
Их авторы на свой вкус набирают не самые встречаемые слова, обычно про еду, т.к. турист в первую очеред хочет есть и отдыхать. Набор слов в них не совпадает с частотным словарем 500 слов, и многих частых слов там нет. Например, компьютерно-вычисленные частотные словари
для РУССКОГО языка имеют ряд: и (1), в (2), не (3), он (4), на (5), я (6), что (7), … дом(100)… возникать (1000)… робко(5000).
Для английского языка:
the (1), of (2), and (3), a (4), in (5), to, (6), is (7), … , way (100)… developed (1000)… legitimate (5000). Для китайского языка – это иероглифы со смыслом:
-ный(1), один(2), да,есть(3), нет(4), был(5), человек(6)…высоко(100)…связать(1000)…глубоко(3000). ПРИМЕНЕНИЕ ЧАСТОТНЫХ СЛОВАРЕЙ
Напрямую трудно по частотным словарям учить язык и искать слова. Но с помощью этих словарей можно 1) изготовить алфавитные словари 1000 “первых” слов, для начального изучения языка,
2) или выделить незнакомые тебе слова из первых 5000 слов и напечатать их на 8 стр. бумаги.
Знай, что почти все слова, которые ты не понимаешь в книгах, находятся на этих 8 стр. Кстати, 5000 слов – это лексион “среднестатистического” иностранца-носителя языка.
Некоторым людям вроде и знать больше не надо… И поэтому на них можно закончить учить язык.
Но если у вас есть высшее образование, то вы успокоетесь, выучив 15-20 тысяч слов…

Читайте также:  Как сделать чтобы excel считал время?

Ниже скачайте ЧАСТОТНЫЕ СЛОВАРИ РАЗНЫХ ЯЗЫКОВ :


1) Частотный словарь РУССКОГО языка 5000 слов (с переводом на 12языков) и с транскрипцией рус.слов. 520кб
языки: англ.,фран.,нем.,итал.,исп.,порт-браз.,китай.,южно-китай.,япон.,корей.,украин.,польск.
__ поможет составить русско-иностранный словарь 1000 самых частых слов (для иностранцев),
__ поможет составить иностранно-русский словарь 1000 слов (для вашего старта в изучении языка),

_______ если вы в интернете не нашли иностранный частотный список слов.


2) Частотный список 32 000 РУССКИХ СЛОВ ( 260 кбайт )
Кстати, здесь приведены не такие и уж незнакомые слова даже в конце списка.
(слова с номерами из 32-й тысячи:
бесчувствие 32440, приобщать 32442, окрас 32444, распить 32445, безотрадный 32446,…)
Это подтверждает мысль о том, что мы обладаем словарным запасом в 20-40 тысяч слов.

.


3) Частотный словарь АНГЛИЙСКОГО языка ( 10.000 слов, 1Мбайт).. С “кривым” компьютерным переводом.
(недостаток компьютерного перевода: иногда даны ложные переводы, и никогда не написаны переводы 2-го, 3-го и 4-го смыслов.).

Поэтому составляя свой словарь, проверяйте правильность перевода по толстому словарю…


4) Частотные словари РОМАНСКИХ ЯЗЫКОВ по 10.000 слов: французского, испанского, португаль., итальян.
с “кривым” компьютерным переводом на русский язык (программой-переводчиком PROMT).

5) Частотный словарь (5000 слов) ИТАЛЬЯНСКОГО языка с переводом 4 РОМАНСКИХ языка: фр, исп, порт, ( 380 кбайт)
Просьба прислать нам частотные словари диалектов романских языков: сицилийского, неаполетанского, каталонского, аргентинского, мексиканского и т.д.

6) Частотные словари НЕМЕЦКОГО, ГОЛЛАНДСКОГО, НОРВЕЖСКОГО и ФИНСКОГО языков.
С “кривым” компьютерным переводом. Просьба прислать нам частотные словари других
СЕВЕРО-ЕВРОПЕЙСКИХ ЯЗЫКОВ: шведского, датского, литовского, исланского, шотландского.

10) Частотные словари СЛАВЯНСКИХ языков. Скачайте перевод на 8 языков 3000 самых встречаемых русских слов.
украинского, польского, сербского, чешского, словацкого, словенского, болгарского.
Внимание: пока прямые словари этих языков не найдены! Если найдете — пришлите нам.

.


8) Частотный словарь 3400 КИТАЙСКИХ ИЕРОГЛИФОВ (с “кривым” компьютер-переводом на русский язык.)
Увы, компьютер не может проанализировать встречаемость китайских слов, т.к. китайские слова состоят из 2-3 иероглифов и пишутся без пробела между словами. Как же выяснить самые частые китайские слова? Просто:
А) возьмите первые 500 иероглифов из частотного списка иероглифов, Б) выпишите с бумажного словаря РУССКИЕ слова, переводимые через эти 500 иероглифов,

В) и вытащите из словаря LINGVO китайские слова-переводы выписанных русских слов.


9) Частотный словарь ЯПОНСКОГО языка (словарь еще не найден). Если найдете — пришлите нам.
.

10) Частотный словарь АРАБСКОГО языка (словарь еще не найден). Если найдете — пришлите нам.
с колонками общего (языка фильмов и теледикторов) и основных диалектов: марокканского, алжирского, египетского, аравийского, иракского и т.д.)

.


11) Частотный словарь языков ИНДИИ (словарь еще не найден). Если найдете — пришлите нам.
индоевропейских (хинди, бенгали, орисса, …) и дравидских (тамильский, керала, карнатака …)

12)
13)
14) Частотный cловарь 36 языков, составленный из текста Библии.
(этот словарь удобен, чтобы вычислить частые слова, если не нашли современных частотных словарей).
.
Если вы не нашли в Интернете частотный словарь ВАШЕГО РЕДКОГО ЯЗЫКА (вдруг такого нет вообще),

то самостоятельно сделайте ЭТОТ ЧАСТОТНЫЙ СЛОВАРЬ,


Введя много-много текстов программу-счетчик слов __ FrequencyDictionary_COUNTER_mir2050.exe
Установите на своем компьютере эту программу, а несколько файлов формата блокнот*.txt и кодировки Unicode (не менее 100 страниц текстов вставьте в конкертную папку, о которой спросит программа-счетчик слов при её запуске.
тексты можете взять:
а) из сайта субтитров на 120 языках http://www.all4divx.com ___(если хотите получить частотный словарь УСТНОЙ РЕЧИ)
б) из сайта-библиотеки на 100 языках ЛОГОС http://www.logoslibrary.eu
___ (если хотите получить частотный словарь ДЛЯ ЧТЕНИЯ КНИГ)
в) из сайта-энциклопедии ВИКИПЕДИЯ, 180 языков http://ru.wikipedia.org

___ (если хотите получить частотный словарь научной лексики)


.
.
_________________________________________________________ Часть 2. ТЕМАТИЧЕСКИЕ СЛОВАРИ, оформляемые для печати на принтере (1000-4000 слов на 5-20 страницах),
ПОМОГУТ вам перебраться через «непреодолимую» черту лексикона 5000 слов.
Для многих людей эта черта действительно непреодолима из-за неэффективного метода накопления слов в голову: перевод книжек с помощью медленных бумажных словарей…
Изучая слова по группам (слова «В ДОМЕ», слова «В ГОРОДЕ», можно их визуализитровать
и тем самым выучивать сотнями. А затем и заговорить ими… (пока это не словари, а лишь СПИСКИ слов по ТЕМАМ. Переведите их – будет словарь).

**** списки еще оформляются***


На странице «ПРИШЛИ ФАЙЛ » (кликни!) находятся черновики этих словарей (в конце разоворников).
список слов 1. СЕМЬЯ, ХОББИ, О ЛИЧНОСТИ
список слов 2. ТЕЛО ЧЕЛОВЕКА
список слов 3. ДОМ, ГОСТИ, БЫТ
список слов 4. ГОРОД, ПРОГУЛКИ
список слов 5. ЭМОЦИИ, ЛЮБОВЬ
список слов 6. УЧЕБА, ЧТЕНИЕ, ЯЗЫКИ
список слов 7. ЛЕСНОЙ ТУРЛАГЕРЬ
список слов 8. БИЗНЕС, ТОРГОВЛЯ
список слов 9. ТЕЛЕВИДЕНИЕ, ФИЛЬМЫ, МУЗЫКА
список слов 10. ПРАЗДНИКИ и ХОББИ
список слов 11. ТЕЛЕФОН, ИНТЕРНЕТ, РАДИОСВЯЗЬ
список слов 12. ИСКУССТВО
список слов 13. ДЕНЬГИ, БАНКИ, МАГАЗИНЫ
список слов 14. ПУТЕШЕСТВИЯ, ОТПУСКА
список слов 15. ОДЕЖДА, ШИТЬЕ
список слов 16. ЕДА, КУХНЯ, РЕСТОРАН
список слов 17. СПОРТ
список слов 18. ДЕТИ, СЕМЬЯ
список слов 19. МЕДИЦИНА
список слов 20. ГОСУДАРСТВО И ВЛАСТЬ
список слов 21. ВОЕННЫЕ, ПОЛИЦИЯ, КРИМИНАЛ
список слов 22. ТЕХНИКА, ИНЖЕНЕРЫ
список слов 23. РАБОТА В ОФИСЕ, МЕНЕДЖЕРЫ
список слов 24. ЭКОНОМИКА, ФИНАНСЫ
список слов 25. ПРОМЫШЛЕННОСТЬ, РАБОЧИЕ
список слов 26. СЕЛЬСКОЕ ХОЗЯЙСТВО, КРЕСТЬЯНЕ
список слов 27. КОСМОС, АСТРОНОМИЯ
список слов 28. РЕЛИГИИ МИРА
список слов 29. ЭЗОТЕРИКА
список слов 30. ФИЗИКА, МАТЕМАТИКА, ХИМИЯ
список слов 31. БИОЛОГИЯ, ГЕОГРАФИЯ, ПРИРОДА
список слов 32. ИСТОРИЯ, ЮРИСПРУДЕНЦИЯ
список слов 33. ПСИХОЛОГИЯ, ФИЛОСОФИЯ Изучая язык по системе, а не стихийно-случайно, вы достигнете больших результатов.
Пусть эти словари помогут вам.

Читайте также:  Как сделать чтобы в excel печаталась строка на каждой странице?

Успехов!


Проект “МИР-2050” посвящен изучению языков. ___ (возврат на главную страницу).
. 1 дек. 2008 = 440 посетителей
1 дек. 2009 = 6.080 посетителей (за год 5640 человек)
1 июня 2010 = 9.470 посетителей 1 дек. 2010 = 13.450 посетителей (за год 7370 человек) 1 марта 2011 = 15.560 посетителей 1 июня 2011 = 16.930 посетителей
1 дек. 2011 = 19.150 посетителей (за год 5700 человек) Добро пожаловать учить язык! Если хотите помочь с составлением частотных словарей,

то пишите нам Felds@narod.ru

Источник: http://mir2050.narod.ru/freqdict.html

Проект «Исходные коды» — Частотный словарь

Назад…   К содержанию…   Далее…

Программа построения

Программа «Частотный словарь» («freqdic.exe») предназначена для анализа частоты и порядка встречаемости слов, написанного кириллицей и латиницей, в проверяемом тексте (в формате text/plain и других текстовых форматах) в каждой из словоформ.

Она позволяет:

  1. Находить «редкие» ошибки, не выявляемые штатной программой проверки орфографии. Например, штатная программа проверки орфографии не проверяет следующее слово: «дезоксирибонуклеиновая». Однако сделать ошибку в этом слове легко (из-за своей длины и сложности произношения). Поэтому, если слово появляется несколько раз в списке слов, полученном после обработке текста программой «частотный словарь», это должно Вас насторожить – где-то возможна ошибка!
  2. Рассчитывать «семантическую близость» слов в документе (сравнивается частота употребления ключевых слов и расстояние между ними в документе);
  3. Корректировать стиль изложения текста автором (путем исключения слов паразитов и увеличения словарного запаса). Например, Вы пишете бумагу, выдержанную в определенном стиле. Этот стиль предполагает частое использование в тексте одних слов и запрет на использование других слов. Проверить это ограничение на слова и выявить его нарушение программой «частотный словарь».
  4. Определять авторство работы. Стиль каждого автора уникален в смысле частого употребления одних слов и исключения из своего лексикона других слов. Частотный словарь поможет Вам создать «частотную базу слов» текста. С помощью других алгоритмов (прежде всего – визуализации этой базы) можно будет с очень высокой вероятностью определять авторство текстов – исходные данные уже собраны программой «частотный словарь».
  5. Первичная индексация текста. Часто для облегчения полнотекстового поиска ключевых слов используются первичные индексы. Эти индексы позволяют:
    • быстро находить присутствие и отсутствие слов в документе при первичном и повторном поиске;
    • сортировать документы по частоте встречаемости в них ключевых слов.
    • использовать их как вспомогательный модуль в информационно-поисковых системах полнотекстового поиска и систем «индексации документов».
    • рассчитывать «расстояние», на котором отстоят друг от друга ключевые слова. (После обработки текста программой «частотный словарь» эта задача решается сама собой).
  6. Эта программа может помочь при автоматическом реферировании текста, поскольку вместе с частотой встречаемости слов в тексте программа запоминает «первую позицию» встречи слова в тексте.
  7. Программа может использоваться для пополнения словарной базы данных для автоматического перевода теста разными программами.
  8. Программа поможет в поиске неологизмов, устаревших и специальных слов.
  9. Также эта программа может стать основой более сложных алгоритмов анализа данных.

Все указанное выше предполагает рекомендовать эту программу для иллюстрации процесса создания программного продукта для целей датамайнинга.

Программа работает в командном интерфейсе с технологией командной строки. Это значит, что при ее применении пользователь должен открыть окно терминала и набрать имя программы и параметры в командной строке.

II. Преимущества и новизна данной программы

Данная реализация программы основана на идее алгоритма, приведенной в работе «128 советов начинающему программисту» (авторы: Очков В.Ф., Пухначев Ю.В.), которая переработана авторам, и адаптирована для языка Си.

Хотя на рынке находится много программ – частотных словарей, эта программа имеет следующие преимущества:

  1. Она распространяется по лицензии GNU GPL. Это значит, что любой пользователь может не только пользоваться этой программой на условиях Copyleft (т.е. распространение продукта на условиях его приобретения), но и на тех же условиях модифицировать код и создавать новые продукты.
  2. Эта программа изначально лишена эвристических алгоритмов и алгоритмов анализа словоформ. Это значит, что слово «моя» запишется в словарь именно как слово «моя», а не «мыть», «мой» или даже «мы» (как это делают более «продвинутые» частотные словари). Эти слова могут анализироваться впоследствии более точными методами. Кроме того, используя разные словоформы можно более точно определять «расстояния между словами» в исходном тексте.
  3. Выходной файл имеет простую структуру, что позволяет его легко использовать для последующей обработки в других программах (в частности, средствами электронных таблиц OpenOffice Calc и Microsoft Excel).

III. Краткие сведения о формате файлов программы «Частотный словарь»

Программа работает с текстами, представленными в кодировке text/plain. Поддержка формата text/html не корректна. Другие форматы текстовых процессоров (Word, Writer, AbiWord и т.п.) не поддерживаются.

Программа «частотный словарь» анализирует текст в кодировке ASCII и в любой 8-ми битной кодировке, включая кодировки MS-DOS OEM 866, Windows ANSI cp 1251, UNIX KOI8-R. Кодировки Unicode и UTF-8 пока не поддерживаются, что делает программу («теоретически», на практике не применял) не переносимой на Linux.

Программа может анализировать тексты: text/plain, text/html, исходные файлы программ на языке Assembler и на языках высокого уровня, скриптов и макросов на любых языках, файлы с разметкой на основе xml и SGML.

Эта программа на выходе выводит на экран дисплея таблицу, содержащие следующие элементы:

  • номер слова по-порядку его появления в тексте;
  • слово в его уникальной словоформе;
  • количество слов, встретившихся в тексте в указанной словоформе;
  • (резервный столбец) приблизительно часть речи у указанного слова. В настоящее время выводит значения 512 для однобуквенных слов и 0 для всех остальных слов.

IV. Стандартные расширения файлов

Программа на входе распознает любые кодировки файлов. Только необходимо, чтобы они были текстовыми файлами.

На выходе также можно задавать также любые файлы. Однако для работы программы «в связке» с Excel расширение файлов должно быть .txt .

V. Кодировки текстовых файлов

Программа работает с 8-ми битными кодировками символов, характерные для текстов в операционных системах корпорации Microsoft.

Читайте также:  Как сделать корреляцию в excel 2007?

Для анализа слов текстовый файл должен представлять либо «чисто текстовый файл» с кодами ASCII 32 – ASCII 126 (для текстов на английском языке), либо файл в расширенной ASCII-кодировке с кодами ASCII 32 — ASCII 255, в котором могут быть представлены и кириллические символы. Поддержка символов в формате UNICODE, UTF-8, UTF-16 (пока) не предусмотрена.

VI. Установка программы: freqdic

Программа не требует установки. Просто скопируйте файл с программой в каталог, указанный в переменной окружения «PATH» (например: C:WINDOWS). Далее Вы будете вызывать программу из командной строки.

VII. Синтаксис программы freqdic.exe

Данная программа предназначена для работы в командной строке Microsoft Windows.

Для запуска программы необходимо:

  1. Прейти в директорию, в которой находятся тестируемые файлы;
  2. В командной строке необходимо набрать:
    • freqdic «имя анализируемого файла» > «имя файла со списком слов»
    • где «имя анализируемого файла» – исходный текстовый файл (с любым расширением);
    • «имя файла со списком слов» – файл со списком слов частотного словаря (желательно с разрешением .TXT);
    • > знак перенаправления вывода на экран в файл.
  3. После этого новый файл можно обрабатывать другими программами.

Если не указан результирующий файл и символ перенаправления, список слов частотного словаря будет выведен на экран дисплея.

Примечание: «имя файла со списком слов» должно быть уникальным именем. При записи в него результатов работы программы «частотный словарь» его прежнее содержимое теряется безвозвратно!

Имена файлов для программы freqdic для MS-DOS должны быть в формате 8.3, для Win32 версии – в оригинальном формате. Желательно длинные имена файлов с расширением заключать в двойные кавычки.

После формирования таблицы программой freqdic с ней для ее дальнейшей обработки необходимо выполнить следующие действия:

  • преобразовать текст таблицы в кодировку Windows ANSI cp1251;
  • импортировать этот файл в программу Microsoft Excel или OpenOffice Calc для дальнейшей обработки (пересортировки, объединения словоформ и т.п.).

VIII. Формат результирующего файла

В качестве выходного файла программа выдает список встречающихся в документе слов в следующем формате:

    1-ый столбец. Порядок первого появления слова в тексте; 2-ой столбец. Найденное слово (в оригинальной словоформе). Внимание! Слова в разных словоформах являются отдельными словами (иначе говоря, словоформы не обрабатываются и не объединяются в одно слово). 3-ий столбец. Частота встречаемости слова в данной словоформе в тексте. 4-ый столбец. Часть речи слова.

В настоящее время в 4-ом столбце присутствует только два значения:

  • 0 – часть речи не определена;
  • 512 – слово из одной буквы, не несущее семантического значения.

В качестве первой строки выводится заголовок списка слов (на английском языке).

Данный формат файла легко импортируется в программу Microsoft Excel 2003 для последующей обработки (с помощью мастера импорта текстовых документов).

IX. Download

    Скачать программу freqdic.exe (версия MS-DOS); Скачать программу freqdic.exe (версия Win32); Скачать исходные тексты программ и документацию (файл source-freqdic-0.1.zip); Скачать программу freqdic.exe с макросом VBScript для получения частотных словарей (билингвы и «чисто английского текста», в формате Excel) из текстовой билингвы (файл bin-freqdic-0.1.zip, 43 395 байтов, 17.04.2012 11:30);

На взгляд автора, разработанная программа является полезным инструментом для анализа текста и может применяться в целях обучения программированию гуманитариев.

Данная программа является прекрасным учебным примером построения на языке Си интеллектуальной системы поиска слов и словоформ – «частотный словарь».

Автор понимает, что его функциональности не достаточно для того, чтобы на его основе создать полноценную интеллектуальную систему.

Однако гибкость алгоритма, использованного в программе, позволяет использовать эту программу в качестве инструмента в создании более сложных систем интеллектуального поиска.

Успехов Вам в использование программы! Good Luck! Dankon!

  1. Назад…   К содержанию…   Далее…
  2. Copyright © Юрий А. Денисов(yudenisov)
  3. 2006-2012. Все права защищены

Версия 0.2. Alpha от 19.04.2012

Источник: http://www.yudenisov.narod.ru/SOURCECODE/freqdic.htm

Как создать СУПЕР англо-русский словарь в экселе и пользоваться им

Инструкция

Это словарь по системе, придуманной Татьяной Камяновой (далее – Т.К.). Он позволяет значительно (как минимум в 2 раза) повысить эффективность пополнения лексики. Попробуйте и очень быстро в этом убедитесь.

Уровень сложности: Несложно

1 шаг

ОСОЗНАЙТЕ, что это не просто словарь, а СУПЕР словарь, построенный не просто по алфавиту, а по частям речи. С точки зрения современного менеджмента это означает, что в словаре применяется своего рода «разделение труда» между словами

2 шаг

ОТКРОЙТЕ ТАБЛИЦУ ЭКСЕЛЬ – это мое техническое дополнение к центральной идее Т.К.

3 шаг

Каждый лист таблицы посвятите одной части речи: существительным, глаголам, прилагательным и т.д.

4 шаг

По мере чтения английских текстов или изучения ИНГЛИШ по учебнику заполняйте эту таблицу новыми словами – каждое слово – в свой лист.

5 шаг

Перед глаголами обязательно ставьте частицу to (этого нет в обычных словарях) – это тоже идея Т.К., увидите сами что она полезна.

6 шаг

Перед существительными ставьте обязательно артикль. Перед теми существительными, где артикль не ставится – конечно же не ставьте – это помогает запоминанию сложных случаев использования артиклей.

7 шаг

Система заполнения словаря (уже опять мое «изобретение») следующая: нашли новое слово, перевели, написали перевод на русский в соответствующий лист. Например, глагол to go – идти. Пишем в лист с глаголами в один столбец «Идти».

8 шаг

Затем по прошествии времени (от 1 дня) делаем перевод напротив этого столбца (ясно в ту же строчку) русского слова в другой столбец «to go». Запись по памяти позволяет лучше запомнить слово.

9 шаг

Пользуясь возможностями эксель, отсортируйте слова по английскому алфавиту

10 шаг

В первое время можно словарь использовать и как Русско-английский, если с помощью возможностей эксель отсортировать данные по русскому алфавиту русских слов (то есть по столбцу)

11 шаг

Однако очень скоро в столбце с русским переводом появится много вариантов такого перевода и словарь станет только англо-русский.

12 шаг

Если одно слово без изменений является и существительным и глаголом – пишите его в 2 листа – в существительные и глаголы

13 шаг

Обязательно там, где у нас неправильные глаголы, заполняйте глаголы еще в 2 столбца – прошедшее время и причастие прошедшего времени – так вы быстрее запомните все неправильные глаголы (я еще использую окраску строчек – удобно).

14 шаг

Т.К. советует через некоторое время переходить полностью на обычный словарик по алфавиту. Я этого не советую, имея большую практику пользования таким словарем, смело оставайтесь с ним на всю жизнь

15 шаг

Т.К. пишет, что изучив до высокого уровня 8 иностранных языков, она всегда пользуется такой системой составления словарей – она самая эффективная на сегодня (для запоминания слов – «в голове»)

Советы и предупреждения:

  • Понятно, что также можно составить словарик не только для английского, но и другого иностранного языка.

С уважением,

директор ООО «КЦ «Русский менеджмент»к.т.н. Владимир Токаревтел. (831) 462-95-93,

тел./факс (831) 466-37-06,

м.т. +7-902-686-31-72http://www.consultnn.nnov.ru

v1954@yandex.ru

Источник: https://subscribe.ru/group/know-how-ya-znayu-kak/49822/

Ссылка на основную публикацию
Adblock
detector