Helpex - Trao đổi & giúp đỡ Đăng nhập

Xây dựng Đường ống ETL với Kết nối Kafka thông qua Trình kết nối JDBC

Hướng dẫn: Khám phá cách xây dựng một đường ống dẫn với Kafka tận dụng trình điều khiển JDBC DataDirect PostgreQuery để chuyển dữ liệu từ PostgreQuery sang HDFS. Hãy phát trực tuyến!

Apache Kafka là một nền tảng phát trực tuyến phân tán mã nguồn mở cho phép bạn xây dựng các đường truyền dữ liệu giữa các ứng dụng khác nhau. Bạn cũng có thể xây dựng các ứng dụng phát trực tuyến thời gian thực tương tác với các luồng dữ liệu, tập trung vào việc cung cấp một nền tảng có khả năng mở rộng, thông lượng cao và độ trễ thấp để tương tác với các luồng dữ liệu.

Đầu năm nay, Apache Kafka đã công bố một công cụ mới có tên Kafka Connect, có thể giúp người dùng dễ dàng di chuyển các bộ dữ liệu vào và ra khỏi Kafka bằng các trình kết nối và nó có hỗ trợ cho các đầu nối JDBC ra khỏi hộp! Một trong những lợi ích chính cho khách hàng DataDirect là giờ đây bạn có thể dễ dàng xây dựng một đường ống ETL bằng cách sử dụng Kafka tận dụng trình điều khiển JDBC DataDirect của bạn . Giờ đây, bạn có thể dễ dàng kết nối và nhận dữ liệu từ các nguồn dữ liệu của mình vào Kafka và xuất dữ liệu từ đó sang nguồn dữ liệu khác.

Xây dựng Đường ống ETL với Kết nối Kafka thông qua Trình kết nối JDBC

Hình ảnh từ https://kafka.apache.org/

Thiết lập môi trường

Trước khi tiếp tục với hướng dẫn này, hãy đảm bảo rằng bạn đã cài đặt các mục sau và được cấu hình đúng. Hướng dẫn này được viết với giả định rằng bạn cũng đang làm việc trên Ubuntu 16.04 LTS, bạn đã cài đặt PostgreSQL, Apache Hadoop và Hive.

  1. Cài đặt Apache Kafka và các công cụ cần thiết Để giúp quá trình cài đặt dễ dàng hơn cho những người dùng thử lần đầu tiên, chúng tôi sẽ cài đặt Confluent Platform. Điều này đảm nhiệm việc cài đặt Apache Kafka, Schema Registry và Kafka Connect, bao gồm các trình kết nối để di chuyển tệp, trình kết nối JDBC và trình kết nối HDFS cho Hadoop.
    1. Để bắt đầu, hãy cài đặt khóa chung của Confluent bằng cách chạy lệnh: wget -qO - http://packages.confluent.io/deb/2.0/archive.key | sudo apt-key add -
    2. Bây giờ thêm kho lưu trữ vào nguồn.list của bạn bằng cách chạy lệnh sau: sudo add-apt-repository "deb http://packages.confluent.io/deb/2.0 stable main"
    3. Cập nhật danh sách gói của bạn và sau đó cài đặt nền tảng Confluent bằng cách chạy các lệnh sau: sudo apt-get updatesudo apt-get install confluent-platform-2.11.7
  2. Cài đặt trình điều khiển JDBC DataDirect PostgreSQL
    1. Tải xuống trình điều khiển JDBC DataDirect PostgreSQL bằng cách truy cập tại đây .
    2. Cài đặt trình điều khiển JDBC PostgreSQL bằng cách chạy lệnh sau: java -jar PROGRESS_DATADIRECT_JDBC_POSTGRESQL_ALL.jar
    3. Làm theo các hướng dẫn trên màn hình để cài đặt trình điều khiển thành công (bạn có thể cài đặt trình điều khiển trong chế độ đánh giá, nơi bạn có thể dùng thử trong 15 ngày hoặc ở chế độ cấp phép, nếu bạn đã mua trình điều khiển)  
  3. Định cấu hình nguồn dữ liệu cho Kafka Connect
    1. Tạo một tệp mới gọi là postgres.properies, dán cấu hình sau và lưu tệp. Để tìm hiểu thêm về các chế độ đang được sử dụng trong tệp cấu hình bên dưới, hãy truy cập trang này .name=test-postgres-jdbcconnector.class=io.confluent.connect.jdbc.JdbcSourceConnectortasks.max=1connection.url=jdbc:datadirect:postgresql://<;server>:;User=;Password=;Database=mode=timestamp+incrementingincrementing.column.name=timestamp.column.name=topic.prefix=test_jdbc_table.whitelist=actor
    2. Tạo một tệp khác gọi là hdfs.properies, dán cấu hình sau và lưu tệp. Để tìm hiểu thêm về trình kết nối HDFS và các tùy chọn cấu hình được sử dụng, hãy truy cập trang này .name=hdfs-sinkconnector.class=io.confluent.connect.hdfs.HdfsSinkConnectortasks.max=1topics=test_jdbc_actorhdfs.url=hdfs://<;server>:flush.size=2hive.metastore.uris=thrift://<;server>:hive.integration=trueschema.compatibility=BACKWARD
    3. Lưu ý rằng postgres.properies và hdfs.properies về cơ bản có các chi tiết cấu hình và hành vi của các trình kết nối JDBC và HDFS.  
    4. Tạo một liên kết tượng trưng cho trình điều khiển JDBC DataDirect Postgres trong thư mục Hive lib bằng cách sử dụng lệnh sau: ln -s /path/to/datadirect/lib/postgresql.jar /path/to/hive/lib/postgresql.jar
    5. Đồng thời cung cấp trình điều khiển JDBC DataDirect Postgres trên CLASSPATH của quy trình Kafka Connect bằng cách chạy lệnh sau: export CLASSPATH=/path/to/datadirect/lib/postgresql.jar
    6. Bắt đầu cụm Hadoop bằng cách chạy các lệnh sau: cd /path/to/hadoop/sbin./start-dfs.sh./start-yarn.sh
  4. Cấu hình và chạy Dịch vụ Kafka
  5. Tải xuống các tệp cấu hình cho Kafka , người quản lý vườn thú và dịch vụ đăng ký lược đồ
  6. Bắt đầu dịch vụ Zookeeper bằng cách cung cấp đường dẫn tệp zookeeper.properIES làm tham số bằng cách sử dụng lệnh: zookeeper-server-start /path/to/zookeeper.properties
  7. Bắt đầu dịch vụ Kafka bằng cách cung cấp đường dẫn tệp server.properIES làm tham số bằng cách sử dụng lệnh: kafka-server-start /path/to/server.properties
  8. Bắt đầu dịch vụ đăng ký Schema bằng cách cung cấp đường dẫn tệp giản đồ -regology.properIES làm tham số bằng cách sử dụng lệnh:               schema-registry-start /path/to/ schema-registry.properties

Nhập dữ liệu vào HDFS bằng Kafka Connect

Để bắt đầu nhập dữ liệu từ PostgreSQL, điều cuối cùng bạn phải làm là bắt đầu Kafka Connect. Bạn có thể bắt đầu Kafka Connect bằng cách chạy lệnh sau:

connect-standalone /path/to/connect-avro-standalone.properties \ /path/to/postgres.properties /path/to/hdfs.properties

Điều này sẽ nhập dữ liệu từ PostgreSQL sang Kafka bằng trình điều khiển JDBC DataDirect PostgreQuery và tạo một chủ đề với tên test_jdbc_actor. Sau đó, dữ liệu được xuất từ ​​Kafka sang HDFS bằng cách đọc chủ đề test_jdbc_actor thông qua trình kết nối HDFS. Dữ liệu ở lại Kafka, vì vậy bạn có thể sử dụng lại để xuất sang bất kỳ nguồn dữ liệu nào khác.

Bước tiếp theo

Chúng tôi hy vọng hướng dẫn này đã giúp bạn hiểu về cách bạn có thể xây dựng một đường ống ETL đơn giản bằng cách sử dụng Kafka Connect tận dụng trình điều khiển JDBC DataDirect PostgreQuery . Hướng dẫn này không giới hạn ở PostgreSQL. Trong thực tế, bạn có thể tạo đường ống ETL tận dụng bất kỳ của chúng tôi DataDirect JDBC driver mà chúng tôi cung cấp cho cơ sở dữ liệu quan hệ như Oracle , DB2  và  SQL Server , nguồn đám mây như Salesforce  và  Eloqua nguồn hoặc BigData như CDH Hive , Spark SQL  và  Cassandra bằng cách làm theo các bước tương tự . Ngoài ra, đăng ký vào blog của chúng tôi qua  email  hoặc  nguồn cấp dữ liệu RSS  cho các hướng dẫn tuyệt vời hơn.

5 hữu ích 0 bình luận 13k xem chia sẻ

Có thể bạn quan tâm

loading