bannerbannerbanner
logo
Войти

Эффективные алгоритмы

В данной статье рассматриваются прикладные задачи, для решения которых ранее предлагался метод динамического программирования, разработанный Р. Беллманом в середине прошлого века. Этот метод, основанный на принципе оптимальности и вытекающих из него рекуррентных уравнениях, позволил свести решение многих сложных прикладных задач к решению последовательности более простых однотипных задач. К настоящему времени с помощью динамического программирования решены многие практически важные задачи. Однако при решении задач большой размерности, особенно при разработке систем, в которых алгоритм динамического программирования встроен в многократно повторяющийся цикл расчётов, время счёта оказывается неприемлемо велико даже с учётом мощностей современных компьютеров. Проблема повышения эффективности динамического программирования продолжает оставаться актуальной. В этом состоит цель настоящей работы. Установлено, что возможны различные реализации динамического программирования при решении одних и тех же прикладных задач. В статье анализируются возможности повышения эффективности применения динамического программирования при детальном учёте специфических особенностей прикладных задач, из которых некоторые допускают получение рекуррентных формул для вычисления оптимальной траектории на основе принципа оптимальности Р. Беллмана без перебора вариантов. Показано, что многие прикладные задачи, для решения которых предлагался метод динамического программирования с отбраковкой вариантов путей, приводящих в конкретное состояние, допускают дополнительно и отбраковку бесперспективных состояний в процессе счёта. Это резко повышает эффективность динамического программирования как с точки зрения используемого объёма памяти, так и с точки зрения времени счёта. Это утверждение основано на использовании специально разработанных экспериментальных программ для выполнения расчётов с целью оценки эффективности нового алгоритма применительно к решению практических задач как однокритериальных, так и двухкритериальных. Приводятся примеры таких задач и соответствующий алгоритм их решения.
Добавлено
Год выхода: 2020
Язык: Английский
Одним из ключевых направлений информатизации деятельности органов государственной власти является ра…
Одним из ключевых направлений информатизации деятельности органов государственной власти является разработка и внедрение систем автоматизированной обработки электронных обращений (заявлений, жалоб, предложений) физических и юридических лиц, поступающих на официальные веб-сайты и порталы органов власти федеральных округов, администраций областей и других территориальных образований. Важную роль при решении данной задачи играет рубрицирование, которое заключается в распределении обращений по тематическим рубрикам, определяющих направления деятельности департаментов, осуществляющих их обработку и подготовку соответствующего ответа. Результаты анализа специфических особенности таких текстовых сообщений (небольшой размер, отсутствие разметки, наличие ошибок, нестационарность тезауруса и т. п.) подтвердили невозможность применения традиционных подходов к рубрицированию и обосновали целесообразность применения методов интеллектуального анализа данных. В статье предложен новый подход к анализу и рубрицированию электронных неструктурированных текстовых документов, поступающих на официальные веб-сайты и порталы органов государственной власти. Он предполагает формирование древовидной структуры рубричного поля, основанной на нечетких отношениях различия между синтаксическими характеристиками документов. Анализ основывается на определении нечеткого соответствия этих документов по синтаксическим характеристикам со значениями центров кластеров, проводимого последовательно от корня к листьям построенного нечеткого дерева решений. Предлагаемый метод рубрицирования программно реализован и апробирован при автоматизированной обработке и анализе обращений (заявлений, жалоб и предложений) граждан, поступающих в Администрацию Смоленской области. Это позволило обеспечить оперативную и качественную актуализацию рубрик и анализ документов в условиях нестационарности состава тезауруса и значимости слов рубрик.
Актуальность вопроса интероперабельности автоматизированных систем управления определяется тем, что применение прикладных программ в их составе обеспечивается с использованием формализованной информации об управляемых процессах и объектах, формируемой на основе системы классификации и кодирования, работа которой сильно осложняется при увеличении масштаба управляемых систем и номенклатуры применяемых программных средств. По существующим нормативным документам, взаимодействие между автоматизированными системами управления организуется через специализированные протоколы взаимодействия: технического, организационного, информационного, программного. С ростом масштабов управляемых систем появляется проблема поддержания наборов протоколов в актуальном состоянии, углубляющаяся с увеличением общего количества и типов взаимодействующих агентов в сети управления. В рамках используемой в настоящее время «жесткой» системы кодирования, решить указанную проблему проблематично. Целью исследования является поиск путей решения проблемы интероперабельности, основанных на других, отличных от организационных принципах. Для решения этой проблемы в статье сформулирована постановка задачи обеспечения интероперабельности в распределённых мультиагентных средах на основе методов «нечеткой» классификации и кодирования. С использованием общенаучного метода системного анализа, синтезированы предложения по разделению систем автоматизированного управления на два кластера, в одном из которых совместимость может быть обеспечена с использованием алгоритмических методов на основе методов «нечеткого» информационного обеспечения. Учитывая, что таких систем в практике управления большинство, теоретически возможно использование указанного метода для решения проблемы взаимодействия. Полученные результаты не противоречат принципам создания единого информационного пространства, а дополняют их за счет перехода от организационных методов обеспечения взаимодействия систем к технологическим.
Алгоритмы – это сердце и душа computer science. Без них не обойтись, они есть везде – от сетевой маршрутизации и расчетов по геномике до криптографии и машинного обучения. «Совершенный алгоритм» превратит вас в настоящего профи, который будет ставить задачи и мастерски их решать как в жизни, так и на собеседовании при приеме на работу в любую IT-компанию. Если вы уже достаточно прокачались в асимптотическом анализе, жадных алгоритмах и динамическом программировании, самое время рассмотреть понятие NP-трудности, которое часто вызывает неподдельный страх. Тим Рафгарден покажет, как распознать NP-трудную задачу, расскажет, как избежать решения с нуля, и поможет найти эффективные пути решения. Серия книг «Совершенный алгоритм» адресована тем, у кого уже есть опыт программирования, и основана на онлайн-курсах, которые регулярно проводятся с 2012 года. Вы перейдете на новый уровень, чтобы увидеть общую картину, разобраться в низкоуровневых концепциях и математических нюансах. Познакомиться с дополнительными материалами и видеороликами автора (на английском языке) можно на сайте www.algorithmsilluminated.org. Тим Рафгарден – профессор Computer Science и Management Science and Engineering в Стэнфордском университете. Он изучает связи между информатикой и экономикой и занимается задачами разработки, анализа, приложений и ограничений алгоритмов. Среди его многочисленных наград – премии Калая (2016), Гёделя (2012) и Грейс Мюррей Хоппер (2009). После покупки предоставляется дополнительная возможность скачать книгу в формате epub.
В учебном пособии рассмотрены матричные методы решения классических и вырожденных задач линейного программирования транспортной логистики: минимальный остов сети, кратчайшие пути и маршруты, задача о назначениях, векторная оптимизация плана грузовой работы, экспертиза транспортных систем, конфликтные задачи мультимодальных перевозок. Приведены необходимые сведения из линейной алгебры, матричного анализа, теории игр и теории графов. Изучаемые задачи сопровождаются практическими примерами, которые решаются в общедоступной электронной среде табличного процессора MS Excel. В Приложениях даны варианты практических заданий для самостоятельного решения задач транспортной логистики студентами 2–3 курса технологических направлений подготовки. Представляет интерес для широкого круга специалистов, чья профессиональная деятельность связана с логистикой транспортных систем.
Рассматриваются основы объектно-ориентированного программирования на С++ задач на графах – от создания класса до разработки иерархии классов, основанной на классификации способов задания графов. Пособие предназначено для студентов вузов, обучающихся по направлениям «Информатика и вычислительная техника» и «Информационные системы и технологии». Пособие может быть полезным для специалистов, занятых программированием алгоритмов решения задач на графах и сетях.
Монография посвящена практическим и прикладным аспектам развития российской системы обращения с отходами производства и потребления на основе экономики замкнутого цикла, исследованию возможностей применения методов, ориентированных на повышение экологичности процессов переработки отходов, внедрению цифровых технологий, совершенствованию нормативно-правовой базы. Монография ориентирована на широкий круг читателей, представителей государственного и муниципального управления, руководителей организаций, осуществляющих деятельность в сфере управления отходами производства и потребления, научных работников, аспирантов, студентов и других лиц, изучающих проблемы повышения эффективности менеджмента отходов производства и потребления.
Нужно решить конкретную задачу, а перед вами куча непонятных данных, в которой черт ногу сломит? «Байесовская статистика» расскажет, как принимать правильные решения, задействуя свою интуицию и простую математику. Пора забыть про заумные и занудные университетские лекции! Эта книга даст вам полное понимание байесовской статистики буквально «на пальцах» – с помощью простых объяснений и ярких примеров. Чтобы узнать, как применить байесовские подходы к реальной жизни, вы отправитесь на охоту за НЛО, поиграете в «Лего», рассчитаете вероятность выживания Хана Соло при полете через поле астероидов, а также узнаете, как оценить вероятность того, что вы не заболели (ковидом?!), несмотря на то, что нагуглили все симптомы родильной горячки. Прикладные задачи и упражнения помогут закрепить материал и заложить фундамент для работы с широким спектром задач: от невероятных текущих событий до ежедневных сюрпризов делового мира.
В статье предлагается алгоритм автоматизированного поиска и первичного анализа социологической информации для исследования территориальной идентичности жителей районов крупных городов в интернет-источниках. В качестве основного источника информации рассматриваются сообщества в социальных сетях (на примере социальной сети «Вконтакте»), в качестве вспомогательных – интернет-порталы о топографических объектах, находящихся на исследуемых территориях. Показано, что с точки зрения информационного обеспечения наибольшим потенциалом обладают публичные страницы и группы с открытой и ограниченной «стеной». Разработанный алгоритм предполагает выделение релевантных для решаемой задачи групп, выявление содержащихся в них записей по районной тематике и определение показателей активности участников сообщества при обсуждении территориальных проблем. Извлечение требуемой информации осуществляется посредством взаимодействия с сервером социальной сети с использованием официального программного интерфейса приложения (API). Для идентификации сообществ и записей предлагается использовать методы морфологического анализа текстовой информации. Описана программная реализация указанного алгоритма на языке Python 3.8.5, которая включает оригинальные функции для получения данных о сообществах по их идентификационным номерам, для формирования набора урбанонимов для заданного района и др. С использованием разработанной программы проведен анализ территориальных групп трех районов г. Москвы. Определена погрешность результатов работы программы относительно результатов, полученных вручную.
В статье рассматривается проблема обнаружения и фильтрации шелл-кодов (shellcode) – вредоносного исполняемого кода, способствующего появлению уязвимостей при работе программных приложений с памятью. Основными такими уязвимостями являются переполнение стека, переполнение баз данных, а также некоторых других служебных процедур операционной системы. В настоящее время существует несколько десятков систем обнаружения шелл-кодов, использующих как статический, так и динамический анализ программ. Мониторинг существующих систем показал, что методы, обладающие невысокой вычислительной сложностью, характеризуются большим процентом ложных срабатываний. При этом методы с невысоким процентом ложных срабатываний характеризуются повышенной вычислительной сложностью. Однако ни одно из существующих на настоящий момент решений не в состоянии обнаруживать все существующие классы шелл-кодов. Это делает существующие системы обнаружения шелл-кодов слабо применимыми к реальным сетевым каналам. Таким образом, в статье рассмотрена задача анализа систем обнаружения шелл-кодов, обеспечивающих полное обнаружение существующих классов шелл-кодов и характеризующихся приемлемой вычислительной сложностью и малым количеством ложных срабатываний. Представлены классификации шелл-кодов и комплексный метод их обнаружения, основанный на эмуляции кода. Этот подход расширяет диапазон детектирования классов шелл-кодов, которые могут быть обнаружены, за счет параллельной оценки нескольких эвристик, которые соответствуют низкоуровневым операциям на CPU во время выполнения различных классов шелл-кода. Представленный метод позволяет эффективно обнаруживать простой и метаморфический шелл-код. Это достигается независимо от использования самомодифицируемого кода или генерации динамического кода, на которых основаны существующие детекторы полиморфного шелл-кода на основе эмуляции.
Широкое распространение веб-ориентированных систем в сфере бизнеса, маркетинга, электронного обучения и др. вызывает необходимость учета и анализа информационных потребностей пользователя в целях оптимизации взаимодействия с ним. Одной из основных проблем создания адаптивных веб-ориентированных систем является задача классификации информационных ресурсов (страниц) портала, описывающих предлагаемый товар или услугу, для последующего формирования профилей пользователей и персонализации предоставления услуг. Для ее решения могут быть использованы методы интеллектуального анализа данных и машинного обучения. В статье представлен новый подход к созданию адаптивных веб-ориентированных информационных систем, основанный на использовании алгоритмов обучения с подкреплением в целях классификации информационных ресурсов и выдачи персонализированных рекомендаций пользователям с учетом их предпочтений. Предложен и обоснован адаптивный подход, основанный на использовании алгоритмов обучения с подкреплением (Reinforcement Learning), позволяющий автоматически находить в процессе работы системы наиболее эффективные стратегии, необходимые для правильной классификации веб-ресурсов сайта и формирования групп пользователей с однотипными запросами и предпочтениями. Предложенная схема позволяет создать процедуры для оценки и ранжирования информационных ресурсов системы на основе анализа поведения пользователей на сайте в режиме онлайн. Используемые алгоритмы обучения с подкреплением дают возможность оценить релевантность каждой страницы сайта запросам и предпочтениям пользователей из разных категорий, с тем чтобы оптимизировать структуру и контент сайта, а также построить эффективную систему рекомендаций в соответствии с интересами пользователя для возможности выбора наиболее подходящих товаров или услуг.
В статье рассматриваются метод, математическая модель и компьютерная программа эксплуатационной диагностики электромеханической системы (ЭМС). В ходе эксплуатации ЭМС в результате эксплуатационного старения изменяются свойства параметрических матриц обмоток и, как результат, свойства векторного пространства ЭМС. Периодическое тестирование векторного пространства позволяет получить актуальные и достоверные сведения о текущем техническом состоянии ЭМС, о его изменениях в ходе эксплуатации и о рисках потери работоспособности. В качестве объекта исследования в статье рассматривается асинхронный электродвигатель (АЭД). Автоматизация процесса оценки текущего состояния АЭД, а также организация хранения информации о его состояниях на различных этапах жизненного цикла является актуальной задачей. Для ее решения на языке Python было разработано программное обеспечение (ПО), позволяющее осуществлять накопление эксплуатационной информации и производить оценку основных технических показателей АЭД. В основу работы данного ПО заложен топологический подход к диагностике, который основан на анализе токовых реакций обмоток ротора двигателя на импульсные воздействия фазных напряжений. Указанное ПО позволяет определять показатели темпа эксплуатационного старения изделия, вероятности сохранения работоспособности и остаточного ресурса изделия, получать доступ к историческим данным предыдущих диагностик, а также визуализировать динамику изменения указанных технических показателей в ходе эксплуатации. Разработанное ПО может быть использовано для повышения эффективности применения АЭД, планирования технологических и ремонтных работ.
В статье рассмотрены информационно-технические аспекты управления инновационной автономной комплексной энергетической установкой, включающей в себя альтернативные источники энергии и дизель-генераторную установку, а также управляемые инверторы, обеспечивающие энергообеспечение потребителей различных категорий приоритета, которая может быть использована в арктических районах РФ. Рассмотрены основные аспекты создания инновационных систем и определено, что создание комплексных энергетических систем требует существенного углубления кооперации национальных производителей с целью обеспечения масштабируемости комплексных энергетических систем путем обеспечения единства информационных средств обмена данных между отдельными модулями и системой управления. Показано, что специфическим требованием к системам управления комплексными энергетическими установками является требование высокой автономности, в том числе способность обеспечивать потребителей электроэнергией при переменных условиях окружающей среды без непосредственного вмешательства оперативного персонала. Обосновано разбиение информационно-алгоритмического обеспечения системы управления комплексной энергетической установкой на два модуля – аналитический и управляющий. Для аналитического модуля предложен алгоритм, обеспечивающий выработку управляющих решений в комплексной энергетической системе, обеспечивающий стабильность обеспечения энергией наиболее важных потребителей. Одновременно алгоритм обеспечивает повышение надежности используемого в системе накопителя энергии на базе Li-Ion аккумуляторов не только на основе исключения избыточного заряда и глубокого разряда, но также путем сокращения количества циклов заряд/разряд. Решение задачи автономности системы обеспечивается многовариантным алгоритмом прогнозирования погодных условий с использованием статистических данных и методов анализа нечетких временных рядов.
Статья посвящена моделированию участков и элементов электрических сетей для тестирования логики работы терминалов релейной защиты и автоматики с целью их проверки, настройки и дальнейшего ввода в эксплуатацию. При большом разнообразии устройств появляется проблема наладки их взаимодействия в реальных условиях. Авторами предлагается решение данной проблемы путем создания верифицированной модели на базе цифрового двойника участка электроэнергетической сети в программном комплексе MatLab и изучения функционирования исследуемых комплектов защит в номинальных, ремонтных, аварийных и послеаварийных режимах работы оборудования. Для выбранной подстанции была создана модель, отображающая все требуемые для исследования свойства оригинала, и произведен анализ требований к работе основного и резервного комплектов защит для трехобмоточных трансформаторов. В качестве основного комплекта использована дифференциальная релейная защита трансформатора, а резервного – максимальная токовая защита в количестве трех комплектов на один защищаемый объект: в цепи высшего, среднего и низшего напряжений. Модель позволяет производить анализ селективности работы релейных защит путем проверки текущих уставок, загружая их из XML-документов, выгруженных из действующих терминалов, а также благодаря оценке правильности расчета новых уставок с возможностью их ручного ввода в модель. В результате моделирования для исследуемого объекта был проведен трехэтапный анализ работы дифференциальной и максимальной токовой защит, который показал их селективную работу как в случае номинальных, так и ненормальных режимов, в том числе и при неисправности основного комплекта защиты трансформатора. Данная методика может быть распространена на другие объекты электроэнергетической сети.
Учебное пособие содержит описание алгоритмов сжатия данных без потерь, включающее классификацию этих алгоритмов, их обсуждение на концептуальном уровне и на уровне программной реализации, сравнительный анализ результатов их практического применения, рекомендации по выполнению курсового проекта по данной теме. Также обсуждаются смежные вопросы: особенности работы с двоичными данными, формирования заголовочной части сжатого файла, применение вспомогательных алгоритмов, повышающих эффективность сжатия, и объектно ориентированного подхода к реализации алгоритмов сжатия. Пособие предназначено для бакалавров направления «Программная инженерия».
Это исчерпывающее руководство поможет вам правильно разрабатывать бенчмарки, измерять ключевые метри…
Это исчерпывающее руководство поможет вам правильно разрабатывать бенчмарки, измерять ключевые метрики производительности приложений .NET и анализировать результаты. В книге представлены десятки кейсов, проясняющих сложные аспекты бенчмаркинга. Ее изучение позволит вам избежать распространенных ошибок, проконтролировать точность измерений и повысить производительность своих программ. После покупки предоставляется дополнительная возможность скачать книгу в формате epub.
Данная статья является продолжением статьи, опубликованной в № 1 журнала «Прикладная информатика» в 2019 году [1]. В ней задачи компьютерного проектирования трасс различных линейных сооружений (новые и реконструируемые железные и автомобильные дороги, трубопроводы различного назначения, каналы и др.) рассматриваются с единых позиций – как задачи аппроксимации последовательности точек на плоскости гладкой кривой, состоящей из элементов заданного вида, т. е. сплайном. Принципиальное отличие от других задач аппроксимации, рассматриваемых в теории сплайнов и ее приложениях, состоит в том, что границы элементов сплайна и даже их число неизвестны. Поэтому предложена двухэтапная схема поиска решения. На первом этапе с помощью динамического программирования определяется число элементов сплайна и их параметры. Для некоторых задач этот этап является единственным. В более сложных случаях результат первого этапа используется как начальное приближение для оптимизации параметров сплайна с помощью нелинейного программирования. Другим осложняющим обстоятельством является наличие многочисленных ограничений на параметры сплайна, которыми учитываются проектные нормативы и условия строительства и последующей эксплуатации сооружения. В статье рассмотрены особенности математических моделей соответствующих проектных задач. Для сплайна, состоящего из дуг окружностей, сопрягаемых отрезками прямых, используемого в проектировании продольного профиля как новых, так и реконструируемых железных и автомобильных дорог и трубопроводов, построена математическая модель и использован нестандартный алгоритм решения задачи нелинейного программирования с учетом структурных особенностей системы ограничений. В отличие от стандартных алгоритмов нелинейного программирования используется построение базиса в нуль-пространстве матрицы активных ограничений и его модификация при изменении набора активных ограничений. При этом для поиска направления спуска на каждой итерации не требуется решение вспомогательных систем уравнений вообще. Рассмотрены два варианта организации итерационного процесса оптимизации: спуск по группам переменных при наличии участков независимого построения направления спуска и традиционное изменение всех переменных в одной итерации.
Эволюционное моделирование – это одно из направлений искусственного интеллекта, сущностью которого является интерпретация вычислительных процессов и построение конечных форм целостных вычислительных алгоритмов с точки зрения их существования, изменчивости и развития в природных системах. По причине использования в своей основе принципов теории естественного отбора все методы эволюционного моделирования носят оптимизационный характер. Одним из наиболее распространенных методов эволюционного моделирования является генетический алгоритм (ГА) – метод адаптивного поиска решений, основанный на принципах теории эволюции и теории естественного отбора с сохранением биологической терминологии в упрощенном виде, сущностью которого является определение наиболее приспособленной особи (решения) по значению функции ее приспособленности в ходе эволюции с учетом анализа влияний факторов наследственности и внешней среды. Несмотря на биологическую терминологию, ГА являются универсальным вычислительным средством, с помощью которого можно решать широкий круг сложных задач, в том числе и в отрасли электроэнергетики. Авторами был рассмотрен вопрос о применении генетического алгоритма в рамках расчета установившегося режима электрической сети (УР ЭС), так как математическая модель электрической сети представляет собой систему нелинейных уравнений высокого порядка, в которой учтены все ограничения, накладываемые физическими свойствами рассматриваемого объекта, и решение которой ввиду сложности реально действующих электрических сетей – достаточно трудоемкая оптимизационная задача. Корректное решение данной системы является наиболее ответственным этапом расчета УР ЭС. Именно по этой причине поиск оптимальных методов расчета УР ЭС является важной и актуальной задачей. В данной работе представлены результаты разработки аналитического аппарата, позволившего осуществить поиск решения задачи расчета установившихся режимов электрических сетей методом генетического алгоритма посредством специального программного обеспечения.
Использование глобальных порогов бинаризации при обработке изображений не всегда дает корректный результат. Это особенно часто наблюдается при обработке изображений с неравномерной освещенностью. На одних участках изображения автоматически определяемый порог бинаризации позволяет получить достаточно хорошо визуализируемые объекты, тогда как на других участках необходимые для анализа объекты становятся «засвеченными» или, наоборот, «затененными». Бинаризация играет очень важную роль в тех случаях, когда необходимо локализовать на изображении все объекты интереса, особенно когда объект интереса содержит в себе информацию, которая будет использоваться на следующих этапах обработки. Многоградационные изображения могут содержать в себе множество объектов интереса, таких как номерные знаки автомобилей, номера вагонов поезда, лица людей, дефекты производимой продукции. Каждый из этих случаев требует качественной обработки для последующего распознавания. Если на обрабатываемом изображении присутствуют шумы или показатели яркости распределены неравномерно, то процесс бинаризации может привести к потере важной информации – потере части символа, обрыву контура объекта или, наоборот, возникновению новых областей, ошибочно прибавляемых к объекту интереса, – тени других объектов, грязь на номерном знаке. Поэтому процесс бинаризации требует очень точной предварительной калибровки под все возможные условия съемки – светлое и темное время суток, учет возможной зашумленности (помехи при передаче сигнала), экстремальные ситуации (сильный град или дождь). В данной статье авторы исследуют процесс бинаризации изображений с неравномерной освещенностью с использованием нескольких локальных порогов бинаризации вместо одного глобального. Предлагается проверять гистограммы полученных фрагментов на количество пиков или «мод». Если гистограмма бинаризованного фрагмента является одномодальной, то данный фрагмент не подлежит дальнейшей обработке и порог бинаризации на нем определен правильно.
Все предприятия, осуществляющие геологоразведочные работы на территории РФ, сталкиваются с необходимостью формирования задач для маркшейдерской службы и контроля выполнения поставленных задач. Это отражается в процессах документооборота предприятий. В данной связи существует проблема организации эффективной обработки документов в системах электронного документооборота – своевременного выявления документов, содержащих маркшейдерские данные. В статье представлено возможное решение указанной проблемы – автоматизированная система классификации документов в СЭД в виде рекомендательной надстройки над системой 1С:Документооборот. В рамках создания системы классификации был разработан и реализован сценарий предварительной обработки первичных текстов документов, включающий очистку, лемматизацию и удаление стоп-слов, а также подготовку входных признаков для классификатора. Исследована применимость различных алгоритмов машинного обучения к решению рассматриваемой задачи классификации, определены значения гиперпараметров, обеспечивающие наибольшее значение метрики ROC AUC. Выполнена оценка качества всех полученных моделей с использованием метрик Precision, Recall и F-меры, исследована устойчивость качества классификации к изменению входных данных. Выявленная проблема нестабильности результатов классификации решалась путем построения модели машинного обучения в виде ансамбля классификаторов. Обученная модель (ансамбль классификаторов) тестировалась на наборе реальных документов ООО «Газпром недра»; качество классификации на тестовой выборке по метрике ROC AUC составило 0,91. Кроме собственно модуля классификации разработанная система включает базу данных хранения результатов обучения, библиотеку функций для организации работы с базой данных, а также API-интерфейсы, позволяющие обрабатывать запросы на классификацию, приходящие из внешних систем. В API-интерфейсах, в частности, реализованы возможности загрузки сохраненных обученных моделей, валидации данных, приходящих из внешних систем, предварительной обработки входных текстовых документов, обучения новых моделей и оценки их качества, сохранение как обученных моделей, так и результатов их тестирования. Реализована возможность дообучения сохраненных моделей на новых данных.
Популярные книги