View Single Post
  #4  
Old 20-08-2019, 15:06
hninja222 hninja222 is offline
K.I.A
 
Join Date: 12-2010
Posts: 2,730
Re: Hướng đi nào cho Data Engineer, BI, Data Warehouse, Big Data.

Quote:
Originally Posted by zzchaolegionzz View Post
Nếu làm theo hướng thực dụng thì trước mắt bác có thể đọc dữ liệu từ prod database rồi xuất ra report, sếp có cái nhìn trước mắt, done.
Nhưng về lâu dài thì dữ liệu report cần được làm sạch rồi mới lưu lại (ware house) rồi còn trích xuất theo quãng thời gian (time series), rồi real time, xong có những report còn phải reduce, aggregate data. Nên là đọc trực tiếp từ prod db sẽ gây ảnh hưởng tới hệ thống.

Trong trường hợp trên các sếp không quan tâm thì càng vui, sếp chỉ cần kết quả, bạn cần môi trường học tập và làm việc, vậy thì cứ triển khai thôi, 1000$ với bạn là lớn nhưng với sếp có thể không là gì. Mình khuyên bạn nên triển khai, làm proposal rồi báo cáo sếp, duyệt là làm thôi.
P/S: Mình từng làm trong 1 team làm BI nhưng chuyên môn không phải là data engineer, mình là dev thôi nhưng có chút kiến thức lượm lặt được từ team chia sẻ tạm cho bạn chứ không phải ý kiến từ chuyên gian nhé )
Các điều bác nói đúng như những ý mà mình đang hiểu. Hoàn toàn có thể làm report (ít nhất là với các yêu cầu report hiện tại mà team mình đang nhận) mà ko cần đến DWH. Còn cái về lâu dài mà bác nói thì mình hoàn toàn nhận thức được việc đó. Đọc trực tiếp từ production gây ảnh hưởng chính là điều 1 mà mình ghi (cách li khỏi hệ thống online), tập trung làm sạch trước khi lưu lại là điều 2, còn trích xuất theo quãng thời gian là điều 3 (ghi lại history). Tuy nhiên mình chỉ sợ cái dự án này sẽ không kéo dài quá xa cái giai đoạn... "lâu dài" kia.

Bản thân mình cảm thấy dự án này không được bên trên thực sự quan tâm. Người làm dự án này toàn là tay mơ, gồm có mình và 1 anh nữa. Anh kia thì đang quá bận với những yêu cầu report thủ công hiện tại nên vấn đề research và thiết kế, solution 95% sẽ là do tay mình quyết định. Mình thấy, nếu bên trên thực sự quan tâm, mình nghĩ họ sẽ mời architect xịn về thiết kế (công ty mình đợt tái cơ cấu này có team thuê hẳn Solution Architect riêng), hoặc là ít nhất sẽ mời senior về guide đội. Budget cao quá mình e sẽ dùng dằng rồi dẹp tiệm luôn khỏi làm. Chuyện này theo mình biết ở công ty mình đã có tiền lệ. Công ty không quá quan tâm cũng tốt, chủ yếu là mình hi vọng sẽ có được một nơi mình tự học, tự thực nghiên cứu, được làm từ A-Z.

Vấn đề là cái 1000$ kia mới chỉ là cái Data Warehouse thôi, còn 1 đống thứ phải nuôi như Analysis Service (để host semantic model), Data Factory (Để extract), Data lake, Databricks (để chạy Spark transform), Power BI Embed (để publish report). Chưa kể sau có thể mình vẽ thêm cả HD Insight để chạy Hadoop Kafka, scale lên 1 tí thôi thì cứ xác định là tiền tấn. Ông chủ tịt nói với mình là budget cho cục này là 20k EUR 1 năm. Vậy chắc khoảng 1k7 EUR 1 tháng. Mình e số này không đủ.

Để giảm tiền có thể mình sẽ dùng Azure SQL server thường thay cho Azure Data Warehouse. Theo như mình biết thì khác biệt giữa 2 cái này chỉ là xử lý song song và dung lượng tối đa. Sau này cùng lắm move qua hàng xịn chắc cũng ko có gì khó.

Mà cho mình hỏi, cái vụ reduce, aggregate data theo mình nên dùng Semantic model (OLAP) làm hơn là làm trong Data Warehouse. Khái niệm reduce, aggregate theo như mình hiểu từ trước đến giờ là thay đổi độ hạt lên mức tổng quát hơn, vd có 3 transaction, được thực hiện vào lúc 1:03AM, 1:20AM, 2:55AM, thì khi aggregate sẽ có

[Hour: 1AM, Number of transaction: 2,
Hour: 2AM, Number of transaction: 1].

Mình hiểu như vậy có đúng không nhỉ.

Dĩ nhiên là đối với dữ liệu cực lớn kiểu stream real time bằng Kafka chẳng hạn thì chắc chỉ ghi vào DWH hàng đã được aggregate rồi. Còn raw sẽ được lưu ở Data lake, cần thì dùng Spark chọc vô để xem chi tiết hơn.

Quote:
Originally Posted by CloneBayernVsChelsea View Post
cty mình đang tuyển dataware house senior upto 3k min 4 năm kinh nghiệm mà ko ra đây nè.

vấn đề report mà bác đang làm là gì ? có cần đến dataware house hay ko.

có những report mà ko có dataware house thì chạy tới mùa quít mới ra được kết quả.
Mình thực sự chưa tưởng tượng được sẽ có những scenario nào thì nếu ko có Data Warehouse mà chỉ dùng 1 cái database đc replicate lại từ production db thì mùa quýt mới chạy ra cả, chắc là do mình newbie. Mình nghiên cứu thì thấy Semantic Model như SSAS tabular model hoặc tabular model nội tại trong PowerBI hiện giờ quá nhanh quá mạnh, muốn tạo bảng ảo, cột ảo, muốn tính toán, aggreate gì cũng làm được ầm ầm.

Hiện tại thì mình thấy các yêu cầu report của bên mình hoàn toàn có thể giải quyết bằng Semantic Tabular model + Power BI.

Cái câu hỏi có thực sự cần đến Data Warehouse không thì chủ yếu là các nguyên nhân mà mình kể trên thôi.
Reply With Quote