Выгрузка данных из 1С в Greenplum: архитектура и масштабирование

Когда возникает задача выгрузить данные из 1С в Greenplum, её часто воспринимают как техническую операцию: подключиться по PostgreSQL-драйверу и начать передавать таблицы.

На практике интеграция 1С и Greenplum — это архитектурное решение. От выбранного механизма загрузки зависит:

станет ли master узким местом,
будет ли запись масштабироваться вместе с кластером,
выдержит ли контур рост объёма данных,
потребуется ли позже перестраивать архитектуру DWH.

Greenplum — распределённая MPP-СУБД (Massively Parallel Processing). Данные в ней физически распределяются по сегментам. При чтении это даёт почти линейное ускорение: сегменты обрабатывают свои части таблицы параллельно.

Но при записи поведение системы определяется тем, каким способом данные попадают в кластер.

Именно здесь возникает главный архитектурный выбор.

Какие способы выгрузки из 1С в Greenplum существуют

На практике используются два принципиально разных механизма:

Запись через PostgreSQL-интерфейс (через master-узел).
Нативная параллельная загрузка через gpfdist.

Это не просто разные инструменты — это разные модели взаимодействия с распределённой архитектурой Greenplum.

Запись через PostgreSQL: стандартная схема через master

Базовая интеграция 1С и Greenplum чаще всего выглядит так:

1С → PostgreSQL-драйвер → master → сегменты Greenplum

Master — это точка входа в кластер. Через него проходят соединения и транзакции. После приёма данных master распределяет строки по сегментам в соответствии с ключом дистрибуции.

В чём архитектурное ограничение

При такой модели запись начинается с одной входной точки.

Даже если в кластере восемь или шестнадцать сегментов, поток данных сначала проходит через master. Он распределяет записи дальше, но вход остаётся один.

Это означает:

пропускная способность ограничена входной точкой,
при росте объёма master может становиться узким местом,
запись масштабируется хуже, чем чтение.

При умеренных объёмах это работает стабильно и предсказуемо.
Проблемы начинаются при росте нагрузки.

Два типа параллельности: их важно не путать

В фактической архитектуре есть два разных уровня параллельности.

1. Параллельность на уровне извлечения и передачи данных

Её реализует Экстрактор 1С:

инкрементальная модель (CDC),
многопоточная выгрузка,
параллельная запись в таблицы,
последующее объединение.

Этот механизм универсальный. Он одинаково работает с PostgreSQL, MSSQL, ClickHouse и другими СУБД.

Но это не нативная сегментная параллельность Greenplum.

Параллельность реализуется на стороне передачи данных, а не на уровне сегментов кластера.

2. Параллельность на уровне сегментов Greenplum

Это нативная модель работы Greenplum.
Каждый сегмент может получать данные напрямую и выполнять запись независимо от других.

Именно эта модель обеспечивает линейное масштабирование записи.

Разница принципиальная:

в первом случае параллельность — на стороне источника и передачи;
во втором — на стороне распределённой СУБД.

Когда записи через master достаточно

Запись через PostgreSQL-интерфейс оправдана, если:

требуется регулярная инкрементальная загрузка,
объёмы умеренные,
нет жёстких требований к скорости full-load,
проект находится на этапе запуска.

Во многих проектах DWH именно с этого механизма и начинается.

Нативная массовая загрузка через gpfdist

Greenplum поддерживает собственный механизм массовой загрузки — gpfdist.

Модель работы выглядит иначе:

Формируются файлы с данными.
Файлы передаются в gpfdist.
Сегменты Greenplum считывают данные напрямую.
Загрузка выполняется параллельно.

В этой архитектуре:

master не является точкой ограничения,
сегменты получают данные напрямую,
скорость записи масштабируется вместе с количеством сегментов.

Этот механизм используется для:

исторической инициализации,
крупных batch-загрузок,
высоконагруженных контуров.

Почему 1С не может напрямую работать с gpfdist

Платформа 1С не поддерживает работу с gpfdist напрямую.

Причина архитектурная: gpfdist — отдельный файловый сервер, требующий формирования файлов и управления процессом загрузки. Стандартная запись из 1С осуществляется через PostgreSQL-интерфейс и master.

Для использования нативной модели требуется отдельный ETL-контур.

Когда вообще нужен Greenplum

До определённого масштаба аналитические задачи можно решать на других СУБД, например ClickHouse.

Но когда объём данных растёт и требуется:

хранение больших исторических слоёв,
параллельная обработка массивов,
сложные трансформации,
масштабирование вычислений,

распределённая архитектура становится необходимой.

Greenplum используется там, где критична масштабируемость хранения и обработки.

Это инструмент для определённого класса задач, а не универсальная замена любой СУБД.

Типовой промышленный сценарий: Greenplum + ClickHouse

В зрелой архитектуре Greenplum часто выполняет роль:

слоя хранения больших объёмов,
зоны переработки,
промежуточного хранилища.

После трансформации данные могут передаваться:

в витрины,
в ClickHouse,
в BI-платформы.

Один из типовых сценариев выглядит так:

1С
→ Экстрактор 1С (инкрементальная выгрузка)
→ Greenplum (Raw + переработка)
→ витрины в ClickHouse
→ BI

В такой модели:

Greenplum отвечает за масштабируемое хранение и переработку,
ClickHouse — за быстрые витрины и работу BI,
слои чётко разделены по задачам.

Промышленная реализация через ETL-контур

Если требуется использовать нативную параллельную загрузку Greenplum, необходим отдельный ETL-слой.

В экосистеме Denvic эту роль выполняет DVT (Denvic Visual Transformer):

работает на Python,
формирует файлы для массовой загрузки,
управляет пайплайнами,
оркестрирует процессы,
обеспечивает централизованный мониторинг.

Типовая архитектура:

1С
→ Экстрактор 1С (CDC)
→ Greenplum (Raw)
→ DVT (трансформация и массовая загрузка)
→ витрины
→ BI

Что учитывать при проектировании

При выборе механизма загрузки важно оценить:

объём данных,
частоту загрузки,
требования к SLA,
перспективу масштабирования,
нагрузку на 1С.

Если задача — регулярная синхронизация изменений, записи через PostgreSQL достаточно.

Если проектируется промышленный DWH с большими объёмами и историческими загрузками, потребуется ETL-контур и нативные механизмы Greenplum.

Вывод

Выгрузка данных из 1С в Greenplum — выбор архитектуры.

Существует два механизма записи:

через PostgreSQL-интерфейс,
через нативную параллельную загрузку gpfdist (реализуется в ETL-контуре.

Разница между ними — в уровне параллельности и масштабируемости.

Greenplum раскрывает потенциал только тогда, когда механизм загрузки соответствует его распределённой модели.

Автор:

Пыстин Степан Технический директор

Технический директор и руководитель отдела внедрения и поддержки в Денвик Аналитика

Редактор:

Климова Софья Контент-маркетолог

Контент-маркетолог, автор и новостной редактор компании Денвик Аналитика

Возникли вопросы?

Напишите нам — мы подскажем и поможем подобрать лучшее решение под вашу задачу.

Оставьте заявку

Другие статьи

Все статьи

Выгрузка данных из 1С в Insight: как обеспечить актуальные данные для принятия решений

Почему устаревшие данные тормозят согласования и процессы в Insight. Сравниваем способы выгрузки из 1С и показываем, как обеспечить а...

Подробнее

Переход с SAP на 1С и миграция данных ERP: профессиональная методология, инструменты и практический опыт проектов

Переход с SAP на 1С ERP — это комплексный проект трансформации корпоративного учета. Успех ERP-переезда определяется не выбором платформы...

Подробнее

Что такое витрина данных (Data Mart) и зачем она бизнесу

Почему при наличии десятков отчётов сложно понять, что на самом деле происходит с маржинальностью и эффективностью маркетинга? Проблема...

Подробнее

От быстрой аналитики и первых дашбордов к масштабному контуру данных

Тернистый путь от View к Экстрактору 1С.
История начинается одинаково почти у всех
В компании появляется запрос на аналитику,...

Подробнее

От хаоса в 1С к инкрементальному DWH на Postgres, Airflow и dbt: Как мы перестроили data-платформу и дали аналитикам скорость

В статье — реальный опыт построения DWH на PostgreSQL, Airflow, Kafka и dbt:
инкрементальные з...

Подробнее

Все статьи

Назад к списку

Выгрузка данных из 1С в Greenplum: архитектура записи, ограничения и промышленная реализация

Какие способы выгрузки из 1С в Greenplum существуют

Запись через PostgreSQL: стандартная схема через master

В чём архитектурное ограничение

Два типа параллельности: их важно не путать

1. Параллельность на уровне извлечения и передачи данных

2. Параллельность на уровне сегментов Greenplum

Когда записи через master достаточно

Нативная массовая загрузка через gpfdist

Почему 1С не может напрямую работать с gpfdist

Когда вообще нужен Greenplum

Типовой промышленный сценарий: Greenplum + ClickHouse

Промышленная реализация через ETL-контур

Что учитывать при проектировании

Вывод

Возникли вопросы?

Другие статьи