ما هو الفرق بين مهندس البيانات ، مطور قاعدة البيانات ، مهندس البيانات ، ومطور ETL؟


الاجابه 1:

كلها تسميات وأدوار تحددها المنظمة الفردية والطريقة التقليدية. اسمحوا لي أن أجيب على الدور والمسؤولية التقليديين لهذه الأدوار وما يجري الآن:

بدأ مطور ETL - الذي يكتب تعيين البيانات وتحويلها ، وسير العمل ، وتدفق العمليات في وظائف ETL بشكل أساسي في الأداة مثل Informatica و PL / SQL و Datastage و ODI و Ab Initio

مطور قاعدة البيانات - من يكتب SQL أو PL / SQL أو الإجراءات المخزنة أو المشغلات لأداء مهمة محددة ضمن برمجة نصية لقواعد البيانات وقذائف وتشغيلها من خلال جدولة أو وظائف CRON

مهندس البيانات - الذي يصمم نموذج البيانات ، والهندسة المعمارية ، واستراتيجية إدارة البيانات للمؤسسة ؛ عادة لأي أدوات إدارة البيانات عبر الصناعة

المصطلح الحالي هو مهندس البيانات - وهو خبير في الحصول على البيانات من مصادر مختلفة (منظمة أو غير منظمة) ، وأنواع مختلفة من تنسيق البيانات ، وحدات التخزين والسرعة ، وتخزين البيانات في منصة البيانات الكبيرة / منصة بحيرة البيانات (منصة Relational أو Hadoop أو بأي طريقة أخرى) ، إجراء تكامل البيانات باستخدام مصادر ETL / Open ، وضمان جودة البيانات وجدولة إدارة ومشاركة البيانات في الوقت الحقيقي. هذا هو 60-70 ٪ من الجهد في منصة التحليل التنظيمي.

نأمل أن يكون هذا واضح


الاجابه 2:

يقوم مهندس البيانات بتصميم التدفق من النهاية إلى النهاية للرسائل من المصدر إلى الوجهة. ما هو البروتوكول الذي يجب استخدامه ، وما هي ميزات الأمان التي يجب مراعاتها ، وجميع التقارير المالية القومية مثل التوفر العالي ، DR وما إلى ذلك - يقرر المهندس المعماري.

يتعامل مطور قواعد البيانات مع إنشاء قاعدة البيانات والجداول والمخططات وما إلى ذلك مع قيود الوصول والصيانة وما إلى ذلك.

مهندس البيانات يدير تدفق البيانات من المصدر إلى الوجهة ، عندما تكون البيانات كبيرة. يساعدون في وظائف الحوسبة الموزعة (مثل الشرارة على hadoop) للتعامل مع تدفق البيانات الكبيرة إلى جانب التنظيف وتحويل وتخزينها في hdfs وقواعد البيانات.

يستخدم مطورو ETL أدوات متطورة لمعايير الصناعة (تأتي في الغالب بتكلفة ترخيص عالية) مثل abinitio ، و datastage لاستخراج البيانات من المصدر -> تحويل البيانات إلى الهيكل المطلوب -> التحميل إلى وجهة محددة.