Выгрузка данных из 1С в Greenplum: архитектура записи, ограничения и промышленная реализация

Выгрузка данных из 1С в Greenplum начинается одинаково почти у всех.
Но от выбранного способа записи зависит, станет ли master узким местом и выдержит ли контур рост данных.
26 февраля 2026
Автор: Пыстин Степан
Время чтения: 8 мин.

Когда возникает задача выгрузить данные из 1С в Greenplum, её часто воспринимают как техническую операцию: подключиться по PostgreSQL-драйверу и начать передавать таблицы.

На практике интеграция 1С и Greenplum — это архитектурное решение. От выбранного механизма загрузки зависит:

  • станет ли master узким местом,

  • будет ли запись масштабироваться вместе с кластером,

  • выдержит ли контур рост объёма данных,

  • потребуется ли позже перестраивать архитектуру DWH.

Greenplum — распределённая MPP-СУБД (Massively Parallel Processing). Данные в ней физически распределяются по сегментам. При чтении это даёт почти линейное ускорение: сегменты обрабатывают свои части таблицы параллельно.

Но при записи поведение системы определяется тем, каким способом данные попадают в кластер.

Именно здесь возникает главный архитектурный выбор.

Какие способы выгрузки из 1С в Greenplum существуют

На практике используются два принципиально разных механизма:

  1. Запись через PostgreSQL-интерфейс (через master-узел).

  2. Нативная параллельная загрузка через gpfdist.

Это не просто разные инструменты — это разные модели взаимодействия с распределённой архитектурой Greenplum.


Запись через PostgreSQL: стандартная схема через master

Базовая интеграция 1С и Greenplum чаще всего выглядит так:

1С → PostgreSQL-драйвер → master → сегменты Greenplum

Master — это точка входа в кластер. Через него проходят соединения и транзакции. После приёма данных master распределяет строки по сегментам в соответствии с ключом дистрибуции.


В чём архитектурное ограничение

При такой модели запись начинается с одной входной точки.

Даже если в кластере восемь или шестнадцать сегментов, поток данных сначала проходит через master. Он распределяет записи дальше, но вход остаётся один.

Это означает:

  • пропускная способность ограничена входной точкой,

  • при росте объёма master может становиться узким местом,

  • запись масштабируется хуже, чем чтение.

При умеренных объёмах это работает стабильно и предсказуемо.
Проблемы начинаются при росте нагрузки.


Два типа параллельности: их важно не путать

В фактической архитектуре есть два разных уровня параллельности.

1. Параллельность на уровне извлечения и передачи данных

Её реализует Экстрактор 1С:

  • инкрементальная модель (CDC),

  • многопоточная выгрузка,

  • параллельная запись в таблицы,

  • последующее объединение.

Этот механизм универсальный. Он одинаково работает с PostgreSQL, MSSQL, ClickHouse и другими СУБД.

Но это не нативная сегментная параллельность Greenplum.

Параллельность реализуется на стороне передачи данных, а не на уровне сегментов кластера.


2. Параллельность на уровне сегментов Greenplum

Это нативная модель работы Greenplum.
Каждый сегмент может получать данные напрямую и выполнять запись независимо от других.

Именно эта модель обеспечивает линейное масштабирование записи.

Разница принципиальная:

  • в первом случае параллельность — на стороне источника и передачи;

  • во втором — на стороне распределённой СУБД.


Когда записи через master достаточно

Запись через PostgreSQL-интерфейс оправдана, если:

  • требуется регулярная инкрементальная загрузка,

  • объёмы умеренные,

  • нет жёстких требований к скорости full-load,

  • проект находится на этапе запуска.

Во многих проектах DWH именно с этого механизма и начинается.


Нативная массовая загрузка через gpfdist

Greenplum поддерживает собственный механизм массовой загрузки — gpfdist.

Модель работы выглядит иначе:

  1. Формируются файлы с данными.

  2. Файлы передаются в gpfdist.

  3. Сегменты Greenplum считывают данные напрямую.

  4. Загрузка выполняется параллельно.

В этой архитектуре:

  • master не является точкой ограничения,

  • сегменты получают данные напрямую,

  • скорость записи масштабируется вместе с количеством сегментов.

Этот механизм используется для:

  • исторической инициализации,

  • крупных batch-загрузок,

  • высоконагруженных контуров.


Почему 1С не может напрямую работать с gpfdist

Платформа 1С не поддерживает работу с gpfdist напрямую.

Причина архитектурная: gpfdist — отдельный файловый сервер, требующий формирования файлов и управления процессом загрузки. Стандартная запись из 1С осуществляется через PostgreSQL-интерфейс и master.

Для использования нативной модели требуется отдельный ETL-контур.


Когда вообще нужен Greenplum

До определённого масштаба аналитические задачи можно решать на других СУБД, например ClickHouse.

Но когда объём данных растёт и требуется:

  • хранение больших исторических слоёв,

  • параллельная обработка массивов,

  • сложные трансформации,

  • масштабирование вычислений,

распределённая архитектура становится необходимой.

Greenplum используется там, где критична масштабируемость хранения и обработки.

Это инструмент для определённого класса задач, а не универсальная замена любой СУБД.


Типовой промышленный сценарий: Greenplum + ClickHouse

В зрелой архитектуре Greenplum часто выполняет роль:

  • слоя хранения больших объёмов,

  • зоны переработки,

  • промежуточного хранилища.

После трансформации данные могут передаваться:

  • в витрины,

  • в ClickHouse,

  • в BI-платформы.

Один из типовых сценариев выглядит так:


Экстрактор 1С (инкрементальная выгрузка)
→ Greenplum (Raw + переработка)
→ витрины в ClickHouse
→ BI



В такой модели:

  • Greenplum отвечает за масштабируемое хранение и переработку,

  • ClickHouse — за быстрые витрины и работу BI,

  • слои чётко разделены по задачам.

Промышленная реализация через ETL-контур

Если требуется использовать нативную параллельную загрузку Greenplum, необходим отдельный ETL-слой.

В экосистеме Denvic эту роль выполняет DVT (Denvic Visual Transformer):

  • работает на Python,

  • формирует файлы для массовой загрузки,

  • управляет пайплайнами,

  • оркестрирует процессы,

  • обеспечивает централизованный мониторинг.

Типовая архитектура:


→ Экстрактор 1С (CDC)
→ Greenplum (Raw)
→ DVT (трансформация и массовая загрузка)
→ витрины
→ BI



Что учитывать при проектировании

При выборе механизма загрузки важно оценить:

  • объём данных,

  • частоту загрузки,

  • требования к SLA,

  • перспективу масштабирования,

  • нагрузку на 1С.

Если задача — регулярная синхронизация изменений, записи через PostgreSQL достаточно.

Если проектируется промышленный DWH с большими объёмами и историческими загрузками, потребуется ETL-контур и нативные механизмы Greenplum.


Вывод

Выгрузка данных из 1С в Greenplum — выбор архитектуры.

Существует два механизма записи:

  • через PostgreSQL-интерфейс,

  • через нативную параллельную загрузку gpfdist (реализуется в ETL-контуре.

Разница между ними — в уровне параллельности и масштабируемости.

Greenplum раскрывает потенциал только тогда, когда механизм загрузки соответствует его распределённой модели.



Автор:
Технический директор и руководитель отдела внедрения и поддержки в Денвик Аналитика
Редактор:
Контент-маркетолог, автор и новостной редактор компании Денвик Аналитика

Возникли вопросы?

Напишите нам — мы подскажем и поможем подобрать лучшее решение под вашу задачу.
Оставьте заявку

Другие статьи

Выгрузка данных из 1С в Insight: как обеспечить актуальные данные для принятия решений
Выгрузка данных из 1С в Insight: как обеспечить актуальные данные для принятия решений
Почему устаревшие данные тормозят согласования и процессы в Insight. Сравниваем способы выгрузки из 1С и показываем, как обеспечить а...
Подробнее
Переход с SAP на 1С и миграция данных ERP: профессиональная методология, инструменты и практический опыт проектов
Переход с SAP на 1С и миграция данных ERP: профессиональная методология, инструменты и практический опыт проектов
Переход с SAP на 1С ERP — это комплексный проект трансформации корпоративного учета. Успех ERP-переезда определяется не выбором платформы...
Подробнее
Что такое витрина данных (Data Mart) и зачем она бизнесу
Что такое витрина данных (Data Mart) и зачем она бизнесу
Почему при наличии десятков отчётов сложно понять, что на самом деле происходит с маржинальностью и эффективностью маркетинга? Проблема...
Подробнее
От быстрой аналитики и первых дашбордов к масштабному контуру данных
От быстрой аналитики и первых дашбордов к масштабному контуру данных
Тернистый путь от View к Экстрактору 1С.
История начинается одинаково почти у всех
В компании появляется запрос на аналитику,...
Подробнее
Все статьи