Как сделать электронный словарь на диске. История создания толковых словарей в россии. Когда под рукой нет утилит

_____ ‎(1)‎.ppt

Лексикогра́фия (др.-греч. λεξικόν, lexikon - «словарь» и γράφω, grapho - «пишу») - раздел языкознания , занимающийся вопросами составления словарей и их изучения; наука, изучающая семантическую структуру слова, особенности слов, их толкование. Однако лексикографией называют и непосредственно процесс создания словарей. Наука о принципах «словарного дела» называется еще теоретической лексикографией, а ее применения- практической .

Практическая лексикография выполняет общественно важные функции, обеспечивая обучение языку , описание и нормализацию языка, межъязыковое общение, научное изучение языка. Лексикография стремится найти наиболее оптимальные и допустимые для восприятия способы словарного представления всей совокупности знаний о языке.

Теоретическая лексикография охватывает комплекс проблем, связанных с разработкой макроструктуры (отбор лексики, объём и характер словника , принципы расположения материала) и микроструктуры словаря (структура словарной статьи, типы словарных определений, соотношение разных видов информации о слове, типы языковых иллюстраций и т. п.), созданием типологии словарей , с историей лексикографии.

Различаются словари двух типов: энциклопедические и филологические (лингвистические) . В первых объясняются реалии (предметы, явления), сообщаются сведения о различных событиях: Большая советская энциклопедия. Литературная энциклопедия, Детская энциклопедия, политический словарь, философский словарь. Во вторых объясняются слова, толкуются их значения. Лингвистические словари в свою очередь подразделяются на два типа: двуязычные (реже многоязычные) , т. е. переводные, которыми мы пользуемся при изучении иностранного языка, в работе с иноязычным текстом (русско-английский словарь, польско-русский словарь и т. п.), и одноязычные.

ИСТОКИ И ТРАДИЦИИ РУССКОЙ ЛЕКСИКОГРАФИИ

В истории формирования российской лексикографии выделяют несколько периодов:

1. Дословарный период (до XVI в.).

2. Ранний словарный период (конец XVI - начало XVIII в.)

3. Период развитой лексикографии.

1. ДОСЛОВАРНЫЙ ПЕРИОД (до XVI в.).

Начальный период в истории русской лексикографии относится к XI в. Первые словарные труды возникли на ранних этапах развития письмен ности. Основная их функция - объяснение малопонятных («неразумных») слов в древних рукописных книгах.

Толкование или перевод непонятного слова назывались глоссой (греч. glōssa - язык, речь). Глоссы чаще всего делались на полях и между строк в тексте рукописи. В результате сведения глосс в единые перечни и появились первые словарики, присоединяемые к тому или иному произведению, полу чившие название глоссарии .

Наиболее древний из русских глоссариев - словарь, насчитывающий 174 слова, приложенный к Кормчей книге , памятнику 1282 г. Автор данного глоссария объясняет греческие и древнееврейские слова из священных книг. В позднейших списках число слов увеличивается до 344.

Не меньший интерес представляет так называемый Новгородский словарь 1431 г., вначале насчитывавший 61 слово, затем до 200. В нем толкуются слова из большего количества языков по сравнению с Кормчей книгой. Эти словари отличались синкретичных характером: содержали разнообразную информацию о слове (типы и виды словарей выделились позднее), были своего рода энциклопедическими справочниками.

Глоссировка текстов в древнерусской рукописной традиции XI - XV вв. обусловлена активной переводческой деятельностью, многочисленными правками, переработкой, редактированием рукописных текстов. Древнерусские книжники стремились перевести иноязычные слова, истолковать значения непонятных слов, обозначающих чуждые реалии, неизвестные понятия, объяснить собственные имена, упоминаемые в данном памятнике, раскрыть символику текста, сообщить иную информацию, необходимую для понимания смысла памятника.

Древнерусские глоссарии по характеру толкуемых слов делятся на 4 вида:

1) словари-ономастиконы , т.е. словари собственных имен.

Например: «Речь жидовськаго языка » (XIII в.),

«А се имена жидовськая руськы тълкована » (XIII в.), « О именах глаголемых жидовьскым языком »

(XIII - XIV вв.).

2) словари-приточники , т.е. словари символики - сборники слов, в которых толковались слова с символическим значением (в древнерусской культуре были широко распространены символические толкования ряда явлений природы, исторических событий и преданий), раскрывались иносказания, метафоры, образы, содержащиеся в текстах Священного Писания.

Например: «Толк о неразумных словесах » и «Се же приточне речеся » (старшие списки относятся к XV в.).

3) словари-произвольники - славяно-русские словари, толкующие непонятные слова книжной речи (преимущественно из церковно-славянских книг). Подобные словари составлялись по лексическим разночтениям, возникавшим при исправлении древнеболгарского перевода церковных текстов.

Например: «Тлъкованиy неудобь познаваемомъ въ писаныхъ рhчемь, понеже положены суть рhчи въ книгахъ отъ начальныхъ прhводникъ ово словhнски и ино сръбскы и другаа блъгарскы, их же не удоволищася прhложити на рускыи» (древнейший из списков находится в сборнике Чудова монастыря XIV в.). Такие словари дают перевод типа «милотарь - кожа, овчина», отмечают контекстное употребление «мыто - сребро, мыто - посул». Разночтения были не только в церковнославянских книгах, но и в русских оригинальных текстах.

4) словари-разговорники - первые переводные словари. Подобные словари давали описание чужой разговорной речи, содержали записи диалогов, перевод тематических групп слов, необходимых для общения. Кроме этого, словари-разговорники вводили в лексикографию обиходную русскую лексику.

Например: «Се татарскый языкъ» (XV-XVI вв.) «Рhчь тонкословия греческаго» (XV в.), «Толкование языка половецкого» (XVI в.).

Данные виды древнерусских словарей представлены в многочисленных редакциях и списках, в которых варьировались и состав слов, и их объяснения.

Структура глоссариев постепенно совершенствовалась. Слова располагались в алфавитном порядке. Значение слов, их перевод стали дополнять исторические, этимологические данные.

2. РАННИЙ СЛОВАРНЫЙ ПЕРИОД (конец XVI - начало XVIII в.)

В XVI - XVII вв. названные лексикографические направления продолжают развиваться. И в конце XVI в. окончательно оформляется особый жанр русской книжности - азбуковники .

Азбуковники объединили в своем составе грамматические и словарные опыты средневековья. Словари всех четырех направлений русской лексикографии средневековья - ономастиконы, приточники, произвольники, разговорники - вошли в состав азбуковников. Однако азбуковники ни в своих источниках, ни в характере разработки словарных статей не повторяют словарных текстов более ранней поры. Это новый, своеобразный тип словарного труда. Наиболее актуальным становится тип свободного словаря, в котором слова располагались по алфавиту, указывалось их происхождение, перевод и разъяснение. Азбуковник представлял собой смесь словаря иностранных и непонятных слов с энциклопедией, куда вносились разные любопытные сведения. Так, широкой известностью пользовался азбуковник «Толкование имен греческих и еврейских и римских по алфавиту » писателя и публициста XVI в. Максима Грека.

В этот же период начинает формироваться и учебная лексикография - создаются учебные азбуковники . Учебные азбуковники отличались тем, что в них помимо сведений по русской и частично по греческой грамматике встречались статьи по русской и всеобщей истории, арифметике, географии, естествознанию, а также религиозно-нравственные поучения. По этим азбуковникам учили родному языку. Они предназначались и для домашнего чтения. Азбуковники, пользующиеся наибольшим спросом, неоднократно копировались и перерабатывались и даже получали новое название. Так, « Книга, глаголемая алфавит » имела еще названия «Книга, глаголемая азбуковник или буквы», «Лексис неудобъ разумеваемым речем».

Первым печатным изданием является азбуковник философа и священника Лаврентия Зизания Тустановского «Лексис, сиречь речения вкраце собранныя и из словенского языка на просты русский диялект истолкованы» , помещенный в приложении к «Славянской грамматике» (1596 г.). В нем в алфавитном порядке приводятся и объясняются только старославянские или славянизированные слова. Общее количество слов - 1061.

Другим печатным изданием был «Лексикон словеноросский и имен толкование» Пимвы Берынды , поэта, филолога, изданный в Киеве в 1627 г. Лексикон содержал 6982 слова. В словаре объяснялись все старославянские слова, отличные от современного употребления: друг - "друг, приятель", бисер - " перла, жемчуг ". Давались толкования и иностранным словам: гигант -"зри исполин", лира - "скрипица", онагр - "дикий осел, животное, подобное лосю", поета - " творец ". Труд П. Берынды оказал значительное влияние наразвитие лексикографии в России. Словник «Лексикона» стал источником для других словарей XVII в., в том числе и двуязычных.

До настоящего времени сохранилось более 200 списков азбуковников. Их разнообразные названия (азбуковник, азбука, алфавит, буквы, лексис, лексикон) свидетельствуют об отсутствии в начальный период создания словарей единого для них наименования, об авторском поиске подходящего слова. В. П. Вомперский, определяя роль азбуковников в истории российской лексикографии, пишет: «В азбуковниках можно видеть прообраз будущих словарей различного типа - толковых, этимологических, исторических, иностранных слов и др., которые появились в современную эпоху в связи с развитием науки о языке, теории и практики» [Вомперский В.П. Словари XVIII века. - М., 1986 г. - С. 18].

Исследователи о лексикографии XVI - XVIII вв. (Б. А. Ларин, Л. С. Ковтун, В. В. Нимчук, С. Люнден) намечают несколько лексикографических традиций, по которым строились словари этого периода.

Наиболее существенны две развивавшиеся традиции: алфавитная и тематическая.

1. Алфавитное построение словника. Алфавитная организация материала способствовала утрате связей с определенными текстами, осознанию самодовлеющей важности словарей и словарного дела. Наращивание словника через суммирование словников предыдущих словарей, постепенное расширение задач готовили почву для появления особого типа лексикографического издания - толкового словаря.

2. Тематическое построение словника. Тематическая лексикографическая традиция ориентировалась на живой разговорный язык. Создавались словари-разговорники, составленные с практическими целями и имеющие довольно четкое построение: тематические группы слов (хотя и неозаглавленные) и диалоги. Тематический принцип распределения материала в словарях свидетельствовал о стремлении к дифференциации лексических единиц и о поиске способов их описания по понятийным категориям (в дальнейшем этот принцип будет реализован в лексикографических описаниях отдельных пластов лексики, а также найдет воплощение в идеографических, или понятийный, словарях).

Вообще XVIII в. стал поворотным в истории отечественной лексикографии.

С начала века происходит переход к книгопечатанию. Словарное дело развивается чрезвычайно интенсивно. Словари становятся более доступными. Известно 277 лексикографических трудов, изданных в России в XVIII в. Они относятся к 4 основным направлениям:

1. Переводные словари .

Многие из переводных словарей были учебного направения. Большой

известностью пользовался изданный в 1704 г. в Москве «Лексикон треязычный, еллиногреческих и латинских сокровище, из древних и новых книг собранное и по славенскому алфавиту в чин расположенное » Ф. П. Поликарпова-Орлова , директора московского Печатного двора. Адресованный «славено-российским отрокам», этот словарь содержал главным образом книжную и церковно-славянскую лексику (более 19 тысяч слов).

2. Словари иностранных и непонятных слов .

3. Терминологические словари и энциклопедические словари .

Данные словари объясняли те слои лексики, которые были в каком-то отношении непонятны (церковно-славянская, заимствованная, специальная лексика и терминология). Это такие словари, как « Немецко-российско-русский лексикон » Вейсмана (1731 г.), « Церковный словарь, или Истолкование славенских, также мало вразумительных древних и иноязычных речений, положенных без перевода в Священном Писании и содержащихся в других церковных и духовных книгах », составленный протоиреем П. А. Алексеевым, преподавателем Московского университета (1-е издание вышло в 1773 г.)

4. Толковые словари .

Во второй половине XVIII в. все сильнее ощущается потребность в более активном развитии гуманитарных наук, отечественной филологии. «Для изучения русского языка и словесности» создается Российская Академия. 21 октября 1783 г. состоялось торжественное ее открытие. Одной из основных задач в уставе Академии была задача составить толковый словарь русского языка. 6-томный « Словарь Академии Российской » (СПб., 1789 - 1794) был подготовлен и выпущен в свет за поразительно короткий срок - с 1783 по 1794 г. Словарь содержал 43 257 слов, был нормативным, устанавливающим нормы русского литературного языка второй половины XVIII в. В русской филологической науке он расценивается как первый академический словарь русского языка. Этот словарь стал основным пособием для составления последующих словарей.

3. ПЕРИОД РАЗВИТОЙ ЛЕКСИКОГРАФИИ

В XIX веке лексикография продолжает интенсивно развиваться: создаются разные типы словарей - исторические, областные, этимологические, а также словари жаргонных, профессиональных, иностранных слов. Но самый большой общественный резонанс получил « Толковый словарь живого великорусского языка» В.И.Даля , вышедший в 1863-1866 гг. в 4-х томах. Петербургская Академия наук присудила автору этого выдающегося труда Ломоносовскую премию и избрала почетным академиком.

В XIX-XX вв. интенсивно развиваются следующие типы словарей:

толковые словари

диалектные словари

исторические словари.

Основу современных словарей составили толковые словари русского литературного языка (слово «толковый» в названии такого типа словарей взято из «Толкового словаря» В. И. Даля, где оно было впервые автором употреблено в этом новом значении). Начиная с 20-30-х годов, словарное дело в России развивается очень активно. Этапным в изучении лексики современного русского языка стали четыре толковых словаря, каждый из которых внес вклад в последующее становление русской и национальных лексикографий.

1) «Толковый словарь русского языка» под редакцией Д. Н. Ушакова , вышедший в 1934-1940 гг. В его четырех томах содержится более 85 тысяч слов.

2) «Словарь русского языка» С. Н. Ожегова. Первое его издание вышло под редакцией С. П. Обнорского в 1949 г. Однотомник включил 50 тысяч наиболее употребительных слов.

3) «Словарь современного русского литературного языка» (1948- 1965) - Большой академический словарь (БАС), содержащий в 17 томах более 20 тысяч слов.

4) Почти одновременно с 17-томным Словарем готовился «Словарь русского языка» в 4-х томах под редакцией А. П. Евгеньевой - Малый академический словарь (МАС). Он вышел в свет в 1957-1961 гг.

Особый интерес к диалектным словарям появляется в русском обществе в конце XVIII - начале XIX в, в период зарождения национального самосознания и проявления неприязни к иноязычным словам и выражениям, хлынувшим в русский язык в Петровскую эпоху. Учитывая эти веяния, Петербургская АН по инициативе И. И. Срезневского начала подготовку для диалектного словаря, в результате чего в 1852-м и 1858 гг. под редакцией А. Х. Востокова вышел в свет «Опыт областного великорусского словаря» (более 18 тысяч слов) с «Дополнением» к нему (более 20 тысяч слов). Это был первый сводный словарь областных говоров всей России. выход этих трудов положил начало научному изучению русских народных говоров. В течение XIX и XX вв. издано много разных областных словарей - общих и региональных, есть даже словари говора одной деревни, села и уезда (архангельские, вятские, московские, псковские, рязанские, сибирские, смоленские, уральские и мн. др.

С 1965 г. выходит «Новый Даль» - «Словарь русских народных говоров ». Над его созданием трудится коллектив словарников-диалектологов Института лингвистических исследований РАН (Петербург). К настоящему времени издание словаря еще не закончено.

Исторический словарь как жанр лексикографии начал складываться на рубеже XIX-XX вв. Из этого типа словарей наиболее известен труд И. И. Срезневского «Материалы для словаря древнерусского языка по письменным памятникам» (1-е изд. 1893-1912).

В 1974 г. в издательстве «Наука» начал выходить «Этимологический словарь славянских языков», который готовит коллектив учёных под руководством академика РАН О. Н. Трубачёва. Словарь даёт описание древнейших слов (праславянский лексический фонд), 15 живых и мертвых славянских языков (значительная часть всего материала представлена русским языком). Задача составителей - восстановить (реконструировать) живой праславянский язык, на котором говорили наши предки-славяне еще до того времени, как они разделились на три группы: восточную, западную, южную. К настоящему моменту издание словаря еще не завершено.

С 1975 года издается «Словарь русского языка XI-XVII вв.». Предполагается, что во всем многотомнике будет 100 тысяч статей, при этом значительная часть лексики XV-XVII вв. получает описание впервые.

С 1984 года издается «Словарь русского языка XVIII в.» (главный редактор - доктор филологических наук Ю. С. Сорокин). Словарь создается коллективом ученых Словарного отдела Института лингвистических исследований РАН (Петербург).

Традиции академических словарей, сложившиеся в русской лексикографии-XIX вв, продолжаются ив настоящее время.

Задание к занятию:

Как Вы думаете, почему у людей возникает потребность в создании словарей?

Предшественниками современных словарей были рукописные, а затем и печатные словари эпохи средневековья. Первые подобия словарей появились в XXV веке до нашей эры у шумеров. Это были так называемые глоссы: на полях рукописей выписывались значения незнакомых слов. А первый известный полноценный словарь, представляющий собой отдельную книгу, появился в Китае в XX веке до нашей эры. Называется он Erya и состоит из 2094 словарных статей. Всего в нём растолковывается 13113 иероглифов, написанных на 19 пянях - связках из 20-30 бамбуковых планок, размером 1 см на 20-40 см. Современные наиболее полные словари китайского языка содержат толкования около 60000 иероглифов, а образованные носители китайского языка за свою жизнь выучивают в среднем около 10000 иероглифов. Так что (несмотря на древность) словарь Erya можно назвать достаточно полным. Так как в китайском языке нет алфавита, словарные статьи в нём упорядочены по тематике: термины родства, жилища, утварь, музыкальные инструменты, небесные тела, территории, возвышенности, горы, воды, травы, деревья, насекомые, рыбы, птицы, дикие животные, домашние животные. Примерно в 100 году до нашей эры появился первый словарь, где иероглифы были разбиты по ключам: группировка производится по базовым графическим элементам иероглифов, что упрощает поиск толкований иероглифов в тех случаях, когда даже примерное значение слова неизвестно. Словарь содержит 9353 иероглифов, известен его автор - Сюй Шень.

Самым древним из словарей русского языка было приложение к новгородской Кормчей книге 1282 года. В нём помещено 174 греческих, древнееврейских и церковно-славянских слов, включая некоторые библейские имена собственные. В XVI - XVIII в.в. появились азбуковники большего (по сравнению с прежними) объёма, с алфавитным расположением и систематизацией слов. Первый печатный словарь, появился в 1596 году, как приложение к грамматике известного филолога того времени священника Лаврентия Зизания. В нём содержится 1061 слово, расположенное по алфавиту. Толкование старославянизмов и заимствований из западноевропейских языков даётся в нём при посредстве слов живого белорусского, украинского и русского языков того времени.

Виды словарей.

В наше время существует несколько сотен словарей, посвящённых самым разным областям человеческой жизни и деятельности. Перечислю некоторые из них:

1. Энциклопедические словари - представляют информацию по разным областям знаний, объясняют не значения слов, а понятия, термины.
2. Толковые словари - предоставляют слова, которые могут быть необходимы в той или иной ситуации; именно толковый словарь может внушить уверенность в правильности того или иного речевого действия.
3. Словари иностранных слов - это вид толкового словаря, в котором объясняются значения слов иностранного происхождения. Словари такого типа включат информацию о том, из какого языка пришло слово и его иноязычный аналог.
4. Этимологические словари - дают нам информацию о том, как образовалось слово, каков его морфемный состав, с какими другими словами русского и иных языков оно связано. А если слово заимствовано, то когда и из какого языка оно пришло к нам.

И это далеко не всё. Существует ещё множество словарей, например: терминологические, фразеологические, орфографические словари, словари трудностей, синонимов, антонимов и омонимов, а так же философские, политические, музыкальные и другие.

Генерация паролей с Hashcat и maskprocessor

Если у вас не работает Hashcat (она требует установку драйверов видеокарты), то вы можете использовать программу maskprocessor .

Maskprocessor — это высокопроизводительный генератор слов (словарей), упакованный в отдельный исполняемый файл, в котором можно настроить символы для каждой позиции.

Использование maskprocessor:

Maskprocessor [опции]... маска

Маска составляется из встроенного набора символов и (или) пользовательского набора символов.

Встроенные наборы символов:

L = abcdefghijklmnopqrstuvwxyz ?u = ABCDEFGHIJKLMNOPQRSTUVWXYZ ?d = 0123456789 ?s = !"#$%&"()*+,-./:;<=>?@[\]^_`{|}~ ?a = ?l?u?d?s ?b = 0x00 - 0xff

Все символы, кроме тех, которые означает набор (?l , ?u , ?d и т.д.) попадают в пароль без изменения.

Если вы хотите составить словарь, который содержит пароли из шести цифр:

Maskprocessor ?d?d?d?d?d?d

Если вы хотите, чтобы в четырёх символьных паролях чередовались большие и маленькие буквы:

Maskprocessor ?u?l?u?l

Пароль начинается со слова voro, затем идут четыре цифры, а затем два больших буквы:

Maskprocessor voro?d?d?d?d?u?u

Пользовательские наборы символов:

1, --custom-charset1=CS Пользовательские наборы символов -2, --custom-charset2=CS Пример: -3, --custom-charset3=CS --custom-charset1=?dabcdef -4, --custom-charset4=CS устанавливает для?1 символы 0123456789abcdef

К примеру, в первой позиции должны быть цифры от 1 до 3, во второй позиции буквы AbCd, в третьей позиции любая цифра или маленькая буква, а последними двумя символами должны быть большие буквы:

Maskprocessor -1 123 -2 AbCd -3 ?l?d ?1?2?3?u?u

-1 123 - первый пользовательский набор символов, включающий символы 123
-2 AbCd - второй пользовательский набор символов, включающий символы AbCd
-3 ?l?d - третий пользовательский набор символов, включающий символы?l?d, т.е. все маленькие буквы и цифры
?1?2?3?u?u - маска, составленная из пользовательских и стандартных наборов символов.

Дополнительные полезные опции:

* Приращение: -i, --increment=ЧИСЛО:ЧИСЛО Включить режим приращения. Первое ЧИСЛО=начало, второе ЧИСЛО=конец Пример: -i 4:8 интересующая длинна 4-8 (включая) * Разное: --combinations Посчитать количество комбинаций --hex-charset Предположить, что символы даны в шестнадцатеричном виде -q, --seq-max=ЧИСЛО Максимальное число одинаковых повторяющиеся символов -r, --occurrence-max=ЧИСЛО Максимальное число вхождения одного символа * Ресурсы: -s, --start-at=СЛОВО Начать с конкретной позиции -l, --stop-at=СЛОВО Закончить на конкретной позиции * Файлы: -o, --output-file=ФАЙЛ Файл вывода

Hashcat VS maskprocessor

Хотя, в целом, для генерации паролей maskprocessor и Hashcat являются взаимозаменяемыми, нужно помнить, что для выбора режима брутфорса/атаки по маске нужно указывать опцию -a 3 (поскольку Hashcat поддерживает различные режимы атаки, а не только по маске). Также нужно использовать опцию --stdout , которая означает показывать кандидаты в пароли (без взлома хеша).

Hashcat не позволяет задать максимальное число одинаковых повторяющиеся символов, максимальное число вхождения одного символа, начать или закончить на конкретной позиции.

С запуском Hashcat на Linux системах могут быть проблемы из-за необходимости иметь проприетарные драйвера.

Приращение длины пароля делается другими опциями:

Заключение

Crunch - очень гибкая программа для генерации словарей. Из минусов можно отметить некоторую запутанность назначения пользовательского набора символов, а также то, что пользовательские наборы символов перезаписывают стандартные наборы.

Hashcat не имеет некоторых опций, связанных с регулированием количества повторяющихся символов в пароле.

(54.1%)

(RANDOM - 51.4%)

Хотите создать свой собственный словарь для reword? Тогда Вам необходим Компилятор словарей!

Как пользоваться компилятором? (reword compiler)

reword compiler — это программа, с помощью которой можно создавать словари для программы ReWord . Как же это сделать? Очень просто.

Перво-наперво откроем любой текстовый редактор (настойчиво рекомендую использовать Notepad++), создадим новый текстовый файл.

Первой строчкой у нас будет само слово

Второй строчкой у нас будет определение этого слова

Затем необходимо пропустить одну строку и писать уже следующее слово

Таким образом всё будет выглядеть так:

АЗ первая буква алфавита БУКИ вторая буква алфавита ВЕДИ третья буква алфавита

Итак, у нас готов свой небольшой словарь. Теперь нам необходимо сохранить файл на жёсткий диск и запустить программу Reword Compiler.

Нажимаем на кнопку "выбрать файл" и выбираем созданый нами только что файл.

Затем, заполняем поля ниже. В поле "автор(ы) словаря" пишем авторов словаря (например, В. Даль). В поле "полное название словаря" пишем как можно более полное название (например, "большой советский энциклопедический словарь"). В поле "короткое название словаря" пишем его короткое название (например, "энциклопедический словарь"). В поле "символы ввода" записываем сокращенные обозначения наборов символов. Так, для русскоязычных словарей необходимо написать "ru". Если в Вашем словаре встречаются, например, еще и символы латинского (английского) алфавита, то пишем в это поле "ru, en". С символами вывода аналогичная ситуация. В поле "кодировка исходного файла" необходимо указать кодировку созданного Вами файла. Как правило, если Вы не меняли настроек в Notepad++, это будет ANSI. В поле "Ваше имя" вы вписываете Ваше имя. В поле "о словаре" Вы вписываете всю дополнительную информацию, которая, как Вы считаете, является полезной.

Внимание! Из всех полей обязательными для заполнения являются только "выбрать файл", "полное название словаря", "короткое название словаря", "символы ввода" и "кодировка исходного файла".

Как только мы убедились, что все необходимые поля заполнены корректно, мы можем запускать компиляцию, нажав кнопку "компилировать".

В итоге, если всё было сделано верно, программа создаст новый словарь reword и выдаст сообщение о том, что всё готово.

Словарь будет находиться в папке dictionaries, а папка эта находится в рабочей папке reword compiler.

Чтобы увидеть, как работает наш словарь, скопируем файл из папки компилятора dictionaries в папку со словарями программы-словаря reword (тоже dictionaries).

После запуска программы-словаря reword мы видим свой словарь самым первым и радуемся:)

Обязательно необходимо заметить, что определения слов поддерживают базовую разметку HTML.

Создание словарей с мультимедиа

Создавать словари с мультимедиа несложно. Необходимо лишь в определении слова указать с помощью специального обозначения имя файла с мультимедиа. Делается это так:

АЗ первая буква алфавита БУКИ вторая буква алфавита <5>buki.jpg ВЕДИ третья буква алфавита

Как Вы видите, нужно всего-лишь обнести специальным знаком (тегом) название файла, и reword compiler воспримет buki.jpg как файл мультимедиа (рисунок) и включит его в словарь. Необходимо заметить, что для корректного создания словарей с мультимедиа файл с мультимедиа должен находиться в той же папке, что и текстовый файл, указанный в поле "выбрать файл".

Если у Вас есть какие-либо вопросы, связанные с использованием компилятора словарей, задавайте их на страничке "Контакт" . Я Вам обязательно отвечу.

Информационная безопасность

Использование подходящих словарей во время проведения тестирования на проникновение во многом определяет успех подбора учетных данных. В данной публикации я расскажу, какие современные инструменты можно использовать для создания словарей, их оптимизации для конкретного случая и как не тратить время на перебор тысяч заведомо ложных комбинации.

Инструменты

crunch

Пожалуй, один из самых известных инструментов для быстрого создания словарей. Он по умолчанию входит в популярный дистрибутив для проведения пентеста Kali Linux.

Инструмент работает в нескольких режимах:

Создание словаря, состоящего из перечисленных символов, например чисел

Crunch 4 5 1234567890 -o all_numbers_from_4_to_5.txt

Создается словарь длиной от четырех до пяти цифр.

Создание словаря по шаблону

Crunch 10 10 qwe RTY 123 \#\@ -t P^@@,ord%% -o Password_template.txt

Сперва указывается длина пароля - 10 символов. Затем перечисляются наборы символов: буквы в нижнем регистре, буквы в верхнем регистре, цифры и спецсимволы. Ключ -t задает шаблон, где

^ - спецсимволы
@ - буквы в нижнем регистре
, - буквы в верхнем регистре
% - цифры

И третий режим работы crunch - перестановки.

Crunch 1 1 -p Alex Company Position

Словарь состоит из всех возможных комбинаций слов Alex, Company и Position.

Подробнее изучить инструмент можно через стандартные man страницы, они достаточно подробные.

maskprocessor

Иногда требуется указать не только наборы под конкретный тип символов, а вообще свой набор, включающий и буквы, и цифры, и спецсимволы. В этом случае можно воспользоваться утилитой maskprocessor от брутфорсера hashcat. Скачать ее можно с официального гитхаба hashcat .

Вы можете задать до четырех собственных наборов символов и использовать готовые наборы

L = abcdefghijklmnopqrstuvwxyz ?u = ABCDEFGHIJKLMNOPQRSTUVWXYZ ?d = 0123456789 ?s = !"#$%&"()*+,-./:;<=>?@[\]^_`{|}~ ?a = ?l?u?d?s ?b = 0x00 - 0xff
Пример использования

Mp64.bin -1 Pp -2 \@\#\$ ?1assw?2r?d

Или можно задать набор из цифр, но добавить к нему еще несколько спецсимволов так

Mp64.bin -1 Qq -2 ?d\@\#\$ ?1werty_12?2
Получаем такой результат

John the Ripper

Популярный брутфорсер John the Ripper (JTR) тоже позволяет генерировать словари на основе правил. Делается это при помощи ключа --rules, а сами правила описываются в файле john.conf

Вот так выглядит стандартное правило, используемое для взлома NTLM хэша

: -c T0Q -c T1QT -c T2QTT -c T3QTTT -c T4QTTTT -c T5QTTTTT -c T6QTTTTTT -c T7QTTTTTTT -c T8QTTTTTTTT -c T9QTTTTTTTTT -c TAQTTTTTTTTTT -c TBQTTTTTTTTTTT -c TCQTTTTTTTTTTTT -c TDQTTTTTTTTTTTTT
В первой строчке сказано, что нужно изменить регистр символа на нулевой позиции (T0), символ Q позволяет не допустить дубликатов в результирующем словаре. Во второй строке символ на первой позиции меняет свой регистр, затем скобки задают препроцессор, чтобы были сгенерированы пароли и с измененным нулевым символом и так далее.

Предположим, вы успешно провели брутфорс LM хэша и получили значение QWERTY123, так как для LM регистр не важен.
Но для авторизации вам нужно провести брутфорс NTLM хэша, где регистр имеет значение. Воспользовавшись правилом, описанным выше, можно получить следующий словарь

John -w:QWERTY123.dict --stdout --rules:NT

JTR по умолчанию содержит множество готовых правил, но можно написать и свои, либо взять за основу уже написанное и скорректировать под текущую ситуацию.
Подробно про синтаксис правил можно почитать .

hashcat-tools

Еще одним полезным инструментом является набор утилит от популярного брутфорсера hashcat.

Рассмотрим некоторые их них. Описания всех утилит на английском языке можно найти .

Combinanor.bin - позволяет генерировать словарь из слов, входящих в два других словаря.

Combinanor3.bin делает то же самое, но на вход принимает три файла, вместо двух.

Combipow.bin - создает все возможные комбинации из слов, перечисленных в файле (похоже на ключ -p в crunch)

Cutb.bin - обрезает слова в словаре до указанной длины. Можно указывать смещение (offset)

Expander.bin - получает на ввод слова, разбирает их на символы, комбинирует и отправляет в STDOUT

Permute.bin - создает словарь, который используется hashcat при атаке типа Permutation attack . Перед использованием словарь нужно пропустить через утилиту prepare.

Gate.bin - разбивает словарь на несколько частей для параллельной обработки несколькими ядрами или несколькими машинами. В примере ниже мы разбиваем стандартный словарь JTR на две части. В первую часть попадают слова под номером 0, 2, 4, 6,…. Во вторую 1, 3, 5, 7,…

Len.bin - оставляет в словаре только слова определенной длины от min до max

Mli2.bin - объединяет два словаря.

Req-include.bin - крайне полезный инструмент, который убирает из словаря все, что не подходит под заданные правила. Например, вы знаете, что по парольной политике в пароле обязательно присутствует буква в верхнем регистре, цифра и спецсимвол.

Число выбрано исходя из таблицы

Если таким образом нормализовать известный словарь rockyou, то можно сократить его размер в 270 раз! и не тратить ресурсы на заведомо ложные комбинации.

Req-exclude.bin делает то же самое, что req-include, но с точностью до наоборот.

Rli.bin - эта утилита удаляет значения из первого словаря, если они встречаются во втором. Полезно использовать, если вы создаете один словарь из нескольких.

Когда под рукой нет утилит

Может оказаться так, что воспользоваться набором hashcat-utils или crunch нет возможности, а нужно срочно создать словарь или нормализовать его. Некоторые алгоритмы довольно сложны в реализации, но базовые операции можно выполнить просто в командной строке.

Простой словарь с датами можно создать серией подобных команд

Echo 0{1..9}0{1..9}19{60..99} | tr " " "\n" >> dates

Если нужно разбить словарь на части для параллельной обработки, можно воспользоваться командой split

Split -d -l 1000 password.lst splitted_

Быстро объединить два словаря можно так

Cat dict1 dict2 > combined_dict

Чтобы сделать заглавной первую или последнюю буквы в каждом слове, нужно выполнить, соответственно, команды

Sed "s/^./\u&/" dict_file sed "s/.$/\u&/" dict_file
Для перевода регистра в нижний нужно заметить «u» на «l»

Дописать что-то в начало каждого слова из словаря можно так

Sed "s/^./word/" dict_file
А так можно дописать слово в конец

Sed "s/.$/word/" dict_file
Следующей командой можно добавить в начало число от 0 до 99 к каждому слову в словаре

For i in $(cat dict_file) ; do seq -f %02.0f$i 0 99 ; done > numbers_dict_file
Можно очистить словарь от значений, в которых не присутствует хотя бы 2 числа так

Nawk "gsub("","&",$0)==2" password.lst
Получаем

Это лишь некоторые примеры. Можно писать более сложные обработки на Python и других скриптовых языках. Но всегда нужно помнить, что создание качественного словаря и его нормализация под целевой протокол - важный этап при проведении тестирования на проникновение.