<?xml version="1.0"?>
<!DOCTYPE article
PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.4 20190208//EN"
       "JATS-journalpublishing1.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" article-type="research-article" dtd-version="1.4" xml:lang="en">
 <front>
  <journal-meta>
   <journal-id journal-id-type="publisher-id">Bulletin of the Angarsk State Technical University</journal-id>
   <journal-title-group>
    <journal-title xml:lang="en">Bulletin of the Angarsk State Technical University</journal-title>
    <trans-title-group xml:lang="ru">
     <trans-title>Вестник Ангарского Государственного Технического Университета</trans-title>
    </trans-title-group>
   </journal-title-group>
   <issn publication-format="print">2686-777X</issn>
  </journal-meta>
  <article-meta>
   <article-id pub-id-type="publisher-id">56027</article-id>
   <article-id pub-id-type="doi">10.36629/2686-777X-2022-1-16-98-100</article-id>
   <article-categories>
    <subj-group subj-group-type="toc-heading" xml:lang="ru">
     <subject>ТЕХНИЧЕСКАЯ КИБЕРНЕТИКА</subject>
    </subj-group>
    <subj-group subj-group-type="toc-heading" xml:lang="en">
     <subject>TECHNICAL CYBERNETICS</subject>
    </subj-group>
    <subj-group>
     <subject>ТЕХНИЧЕСКАЯ КИБЕРНЕТИКА</subject>
    </subj-group>
   </article-categories>
   <title-group>
    <article-title xml:lang="en">BIG DATA PROCESSING TECHNOLOGY</article-title>
    <trans-title-group xml:lang="ru">
     <trans-title>ТЕХНОЛОГИЯ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ (BIG DATA)</trans-title>
    </trans-title-group>
   </title-group>
   <contrib-group content-type="authors">
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Засухина</surname>
       <given-names>Ольга Александровна</given-names>
      </name>
      <name xml:lang="en">
       <surname>Zasuhina</surname>
       <given-names>Ol'ga Aleksandrovna</given-names>
      </name>
     </name-alternatives>
    </contrib>
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Ершов</surname>
       <given-names>Егор Витальевич</given-names>
      </name>
      <name xml:lang="en">
       <surname>Ershov</surname>
       <given-names>Egor Vitalievich</given-names>
      </name>
     </name-alternatives>
    </contrib>
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Головатюков</surname>
       <given-names>Леонид Константинович</given-names>
      </name>
      <name xml:lang="en">
       <surname>Golovatiukov</surname>
       <given-names>Leonid Konstantinovich</given-names>
      </name>
     </name-alternatives>
    </contrib>
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Шитенков</surname>
       <given-names>Григорий Александрович</given-names>
      </name>
      <name xml:lang="en">
       <surname>Shitenkov</surname>
       <given-names>Grigory Alexandrovich</given-names>
      </name>
     </name-alternatives>
    </contrib>
   </contrib-group>
   <pub-date publication-format="print" date-type="pub" iso-8601-date="2022-12-27T05:45:14+03:00">
    <day>27</day>
    <month>12</month>
    <year>2022</year>
   </pub-date>
   <pub-date publication-format="electronic" date-type="pub" iso-8601-date="2022-12-27T05:45:14+03:00">
    <day>27</day>
    <month>12</month>
    <year>2022</year>
   </pub-date>
   <volume>1</volume>
   <issue>16</issue>
   <fpage>98</fpage>
   <lpage>100</lpage>
   <history>
    <date date-type="received" iso-8601-date="2022-12-23T00:00:00+03:00">
     <day>23</day>
     <month>12</month>
     <year>2022</year>
    </date>
   </history>
   <self-uri xlink:href="https://angtu.editorum.ru/en/nauka/article/56027/view">https://angtu.editorum.ru/en/nauka/article/56027/view</self-uri>
   <abstract xml:lang="ru">
    <p>Рассмотрены описание больших данных, технологии обработки больших данных (big data), системы хранения больших данных Hadoop</p>
   </abstract>
   <trans-abstract xml:lang="en">
    <p>The description of big data, big data processing technologies (big data), Hadoop big data storage systems are considered</p>
   </trans-abstract>
   <kwd-group xml:lang="ru">
    <kwd>большие данные</kwd>
    <kwd>объем</kwd>
    <kwd>разнообразие</kwd>
    <kwd>скорость</kwd>
    <kwd>noSQL</kwd>
    <kwd>система хранения данных</kwd>
    <kwd>бизнес-операции</kwd>
   </kwd-group>
   <kwd-group xml:lang="en">
    <kwd>big data</kwd>
    <kwd>volume</kwd>
    <kwd>variety</kwd>
    <kwd>speed</kwd>
    <kwd>NoSQL</kwd>
    <kwd>data storage system</kwd>
    <kwd>business operations</kwd>
   </kwd-group>
  </article-meta>
 </front>
 <body>
  <p>Одно из стремительно развивающихся направлений IT-технологий — это большие данные — Big Data. Основным способом описания больших данных является аббревиатура 3 V — volume, velocity, variety (рисунок 1) [1]. Объем (Volume). В самом простом определении большие данные — это данные, которые слишком велики для работы на компьютере. Однако данное определение — относительное, поскольку то, что является большим для одной системы, может быть пустяком для другой системы в другое время. Это закон Мура — хорошо известное наблюдение в области информатики о том, что физическая емкость и производительность компьютеров удваиваются каждые два года. То, что занимало весь диск компьютера 10 лет назад легко помещается на флэшку сейчас. С другой стороны, размеры файла с современной кинокамеры достигают до 18 гигабайт в минуту и эти объемы проблема для обычного компьютера.Рисунок 1 - Три преимущества больших данных Скорость (Velocity). Скорость обработки тоже относительное понятие. Есть научные исследования, которые получают в течении продолжительных исследований, а затем заносятся и не меняются годами, но есть и другие данные, например, сообщения в социальных сетях — это десятки и сотни миллионов строк в день. Даже съем данных температуры с прибора учета каждую миллисекунду приведет к большому потоку изменяемых данных, которые нужно успевать обработать в реальном времени. Разнообразие (Variety). Первых два V это по сути обычные современные большие базы данных или Data Warehouse. И обработка таких данных уже традиционные и привычные технологии. Проблема возникает при добавлении третьей V — разнообразия данных. Здесь речь идет не только о строках и столбцах хорошо отформатированных данных. У вас может быть неструктурированный текст, например, книги и сообщения в блогах, а также комментарии к новостям и твитам. Исследования оценили, что 80 процентов корпоративных данных могут быть неструктурированными. Сюда также могут входить фотографии, видео и аудио. Исследование компании Forrester Research показывает, что разнообразие является важнейшим фактором для создания технологии Big Data. Фактически, при разговоре о Big Data, разнообразие упоминается в четыре раза чаще, чем объем данных или скорость. Необходимость обработки больших данных привело к развитию новых технологий [2]. Хранение и обработка данных происходит в огромных кластерах объединенных вместе компьютеров. Такие кластеры могут насчитывать тысячи и даже десятки тысяч узлов. На сегодняшний день существуют множество Big Data-инструментов для анализа данных. Анализ данных представляет собой процесс проверки, очистки, преобразования и моделирования данных с целью получения полезной информации, выводов и обоснований для принятия решений. Такие кластеры легко наращиваются (масштабирование вширь), позволяя решить проблему объемов хранения и увеличения вычислительных мощностей. Проблема хранения неструктурированных данных решается при помощи хранения первичных данных в виде файлов в специальной распределенной файловой системе (например, HDFS) или не реляционных базах данных (например, древовидных или сетевых). Такое хранение данных еще называют noSQL базы данных. Для запросов к таким данным разработаны языки запросов доступа и поиска — noSQL языки запросов. Это быстро развивающееся направление обработки данных. Здесь постоянно идет исследование и доработка математического аппарата и моделей. Пока еще нет общих стандартов, они находятся на стадии наработок и обсуждений. Слишком разнообразны способы хранения и виды хранимой информации. Кроме того, здесь могут быть и реляционные данные. И если изначально noSQL расшифровывалось как — не SQL, то сейчас под этим термином подразумевают — не только SQL. Еще одна проблема Big Data — преобразование данных. Технология ETL — это процесс транспортировки данных, при котором информацию из разных мест преобразуют и кладут в новое место. ETL расшифровывается как extract, transform, load, то есть «извлечь, трансформировать, загрузить». Один из основных процессов в управлении хранилищами данных, который включает в себя: извлечение данных из внешних источников; трансформация и проверка данных, чтобы они соответствовали потребностям бизнес-модели баз данных; загрузка их в хранилище данных. В Big Data изначально невозможно очистить, проверить и преобразовать данные, поэтому здесь применяется технология ELT. Данные извлекаются и загружаются все, а процесс трансформации и проверки на соответствие происходит при запросе к ним. Еще одним большим пластом науки и технологии Big Data, является развитие семантических анализаторов (СА). СА пытается вытянуть информацию по запросу из различных текстов. Этот раздел науки находится в непрерывном развитии. В настоящее время такие анализаторы есть только для самых распространенных языков в мире. Для английского языка анализаторы наиболее отработаны. Достоверность их распознавания достигает 80–90 %, для русского 60–70 %. Ученые говорят, что необходимо достижение рубежа распознавания в 1–2 % ошибочной информации. Еще Big Data активно использует самообучающиеся автоматы — программы, которые в ходе своей работы на основе множественных данных учатся составлять оптимальные алгоритмы поиска и нахождения решения. После определенного времени работы такой программы, даже ее разработчику почти невозможно разобрать как достигнуто программой то или иное конечное решение. Одна из самых распространённых в настоящее время технологий — фреймворк Hadoop — проект фонда Apache Software Foundation [3]. Apache Hadoop занимает первое место в списке. Большие данные будет сложно обрабатывать без Hadoop, и специалисты по данным хорошо это знают. Hadoop — это не только полностью открытая и бесплатная система хранения больших данных, но и сопутствующий набор утилит, библиотек, фреймворков, дистрибутивов для разработки. Эта основополагающая технология хранения и обработки больших данных является проектом верхнего уровня Apache Software Foundation. Hadoop состоит из четырех частей:HDFS - распределенная файловая система, предназначенная для работы на стандартном оборудовании;MapReduce - модель распределённых вычислений, представленная компанией Google, используемая для параллельных вычислений;YARN - технология, предназначенная для управления кластерами;библиотеки для работы остальных модулей с HDFS.KNIME Analytics Platform ведущий open source фреймворк для инноваций, зависящих от данных. Он помогает раскрыть скрытый потенциал, найти новые свежие идеи, или предсказать будущие тенденции. KNIME Analytics Platform содержит в себе более 1000 модулей, сотни готовых к запуску примеров, широкий спектр интегрированных инструментов и широкий выбор современных доступных алгоритмов, определённо, это идеальный набор инструментов для любого специалиста в data science. OpenRefine (ранее Google Refine) мощный инструмент для работы с сырыми данными: их очистки, преобразования из одного формата в другой и расширения с помощью веб-сервисов и внешних данных. OpenRefine помогает с легкостью исследовать большие наборы данных; R-Programming открытая среда программирования для статистических вычислений и графики. Язык R широко используется среди майнеров данных для разработки статистического программного обеспечения и анализа данных. Простота его использования и расширяемость значительно повысили популярность R в последние годы. Помимо интеллектуального анализа данных, он предоставляет статистические и графические методы анализа, включая линейное и нелинейное моделирование, классические статистические тесты, анализ временных рядов, классификацию, кластеризацию. Существует широкий спектр инструментов для работы с большими данными, которые помогают хранить, анализировать, составлять отчеты и делать с данными намного больше. Это программное обеспечение превращает скудные биты данных в мощное топливо, которое стимулирует глобальные бизнес-процессы и способствует принятию решений, основанных на знаниях. Когда-то использование больших данных произвело революцию в области информационных технологий. Сегодня компании используют ценные данные и внедряют инструменты больших данных, чтобы превзойти своих конкурентов. На конкурентном рынке как устоявшиеся компании, так и новички применяют стратегии, опираясь на обработанные данные, чтобы зафиксировать сигнал, отследить пожар и получить прибыль. Большие данные позволяют организациям определять новые возможности и создавать новые типы компаний, которые могут комбинировать и анализировать отраслевые данные. Таким образом, чистые, актуальные и наглядные данные предоставляют полезную информацию о продуктах, оптимизируют бизнес-операции и влекут за собой значительные экономические преимущества.</p>
 </body>
 <back>
  <ref-list>
   <ref id="B1">
    <label>1.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Laney D. 3D Data Management: Controlling Data Volume, Velocity, and Variety. META group Inc., 2001.</mixed-citation>
     <mixed-citation xml:lang="en">Laney D. 3D Data Management: Controlling Data Volume, Velocity, and Variety. META group Inc., 2001.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B2">
    <label>2.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Фрэнк Б. Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с помощью операционной аналитики: Альпина Паблишер - 2017, 320 с.</mixed-citation>
     <mixed-citation xml:lang="en">Frenk B. Revolyuciya v analitike. Kak v epohu Big Data uluchshit' vash biznes s pomosch'yu operacionnoy analitiki: Al'pina Pablisher - 2017, 320 s.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B3">
    <label>3.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Самойлова, И. А. Технологии обработки больших данных / И. А. Самойлова. - Текст : непосредственный // Молодой ученый. - 2017. - № 49 (183). - С. 26-28. - URL: https://moluch.ru/archive/183/46957/ (дата обращения: 26.10.2022).</mixed-citation>
     <mixed-citation xml:lang="en">Samoylova, I. A. Tehnologii obrabotki bol'shih dannyh / I. A. Samoylova. - Tekst : neposredstvennyy // Molodoy uchenyy. - 2017. - № 49 (183). - S. 26-28. - URL: https://moluch.ru/archive/183/46957/ (data obrascheniya: 26.10.2022).</mixed-citation>
    </citation-alternatives>
   </ref>
  </ref-list>
 </back>
</article>
