Научная работа

А.Н. Каширин.
ЭКСПЕРТНЫЙ АНАЛИЗ ТЕКСТА НА АНГЛИЙСКОМ ЯЗЫКЕ Физико-математический факультет, 2003 год.

Скачать презентацию (архив winrar)

В настоящее время, идет тенденция увеличения репетиторских школ по иностранным языкам, и как следствие создание собственных методических наработок, поиска и создание методических пособий для изучения иностранных языков (в данном случае английского), где учащиеся должны заниматься и чтением, всякого рода художественной, литературы… И тут встает проблема создание и поиска текстов для переводов. Все стандартные тексты еще давно «приелись» со школьной скамьи и хочется читать не что-то стандартное, а что-то интересное и увлекательное. Современный мир интернета позволяет нам искать и скачивать достаточное большое количество текстов на всех языках мира, но… но именно тут и встает вопрос дифференцирования текстов по сложности. Не подготовленному человеку мы не можем предложить художественный текст большой сложности, даже при полном знание грамматики и правил использование различных словарных конструкций, но не зная большего количества ему будет очень затруднительно прочитать его, тем более, что это не доставит удовольствия чтения книги, и может оттолкнуть от предмета. Так же, если дать грамотному человеку очень легкий текст, то даже в случае его большой интересности и сюжетности мы не получим эффекта обучения.
Производить отбор текста в ручную конечно же можно, и нужно, но… это требует большого времени, при таком образе подготовке придется потратить не один час на отбор текстов, и нужным может оказаться лишь один из 10-ти прочитанных. Что существенно снижает производительность и увиливает затрачиваемые силы на подготовку текста.
Передо мной была поставленная задача именно такого анализа текста. Первоначально нужно было сделать программу анализатор, выдающие лишь количество различных слов текста. Задача была очень быстро осуществлена, но… потом задача стала изменяться и модифицироваться вплоть до полного аналитического разбора текста относительно количества дифференцируемых слов, и их сложности.

Таким образом простая задача отбора повторяющихся элементов переросла в «экспертную систему анализа текста на английском языке».
Сама по себе экспертная система - это вычислительная система, в которую включены знания специалистов о некоторой конкретной проблемной области и которая в пределах этой области способна принимать экспертные решения. В рамках экспертных систем к настоящему моменту достигнуты успехи в таких областях, как медицинская диагностика, геологическая разведка, органическая химия и обнаружение неисправностей в электронном оборудовании, а так же решении математических задач. Существуют следующие подходы к проектированию экспертных систем:

В своей работе я выбрал подход основанный на Базах Данных. Он может осуществляться без собственного абсолютного знания английского языка, пользуясь минимальными и достаточными знаниями в грамматике.

Характеристик экспертных систем:
1. Экспертная система ограничена определенной сферой экспертизы.
2. Она способна рассуждать при сомнительных данных.
3. Она способна объяснить цепочку рассуждений понятным способом.
4. Факты и механизм вывода четко отделены друг от друга. ( Знания не кодируются в дедуктивные процедуры.)
5. Она строится так, чтобы имелась возможность постепенного наращивания системы.
6. Чаще всего она основана на использовании правил.
7. На выходе она выдает совет - не таблицы из цифр, не красивые картинки на экране, а четкий совет.
8. Она экономически выгодна. (Это требование к ее работе.)

Таким образом все подходило к полному рассмотрения программирования экспертных систем.
III. Обоснование работы программы.
Пусть А - множество неповторяющихся слов исходного текста.
А Vi - множества словарей, где i - вес словаря (i=1..n)
Таким образом, конечная сложность d текстового состава текста мы получим по формуле
, где
Где n - количество словарей (каждому из которых сопоставлен определенный вес).
Первому - вес 1, второму - два и т.д.
m- количество неповоторяющихся слов в исходном тексте.
Таким образом, мы получим конечную сложность текста в баллах.
IV. Практическая реализация
1. Отбор разных слов по написанию
2. Отбор слов с учетом окончаний либо алгоритмом неявного сравнения строк
3. Запись различных слов в tmp файлы
4. Сравнение со «словарем», суммирование «веса» слов
5. Сохранение в файл, слов не вошедших в словарь
6. Вывод в шкалах сложность текста