DP-900のサンプル問題(本番形式・解説付き)
DP-900(Microsoft・Azure Data Fundamentals)の出題形式を、実際の問題で確かめられます。ここに掲載する5問は、無料の会員登録ですぐ解ける模試 第1回(50問)の冒頭から抜粋したオリジナル問題です。当サイトは全389問を本番CBT準拠の形式で収録しており、この5問はそのごく一部にあたります。
設問1
顧客マスタを「行=顧客、列=氏名・住所・電話番号」という固定された表形式で管理している。このデータは構造化・半構造化・非構造化のどれに分類されるか。
- バイナリデータ
- 半構造化データ
- 非構造化データ
- 構造化データ(正解)
解説
あらかじめ決まったスキーマ(列の定義)を持ち、行と列の表に収まるデータは構造化データです。JSON/XMLのように構造を持つが固定スキーマでないものが半構造化、画像・動画・音声のように内部構造を持たないものが非構造化データです。
他の選択肢が誤りである理由
- 「バイナリデータ」バイナリデータは画像・音声・実行ファイルなど機械向けのビット列を指し、行と列で整理された表形式データとは概念が異なります。
- 「半構造化データ」半構造化データはJSONやXMLのように構造のヒントを持つが固定スキーマはないもので、列が事前定義された表形式とは性質が異なります。
- 「非構造化データ」非構造化データは画像・音声・自然文のように内部に決まった構造を持たないもので、行列が固定された表形式とは正反対の性質です。
設問2
ECサイトで「商品をカートに入れて購入する」処理を、1件ずつ高速・確実に確定させたい。このワークロードはどちらに分類されるか。
- データウェアハウジング
- OLAP(オンライン分析処理)
- バッチ処理
- OLTP(オンライントランザクション処理)(正解)
解説
個々の取引(購入・在庫更新など)を即時に少量ずつ処理し、整合性を最優先するのはOLTPです。OLAPは蓄積した大量データを集計・分析する読み取り中心のワークロードで、目的が異なります。
他の選択肢が誤りである理由
- 「データウェアハウジング」データウェアハウジングは分析目的でデータを統合・蓄積する仕組みで、1件ずつのリアルタイム取引処理とは用途が根本的に異なります。
- 「OLAP(オンライン分析処理)」OLAPは蓄積済みの大量データをまとめて集計・分析する操作で、1件の購入を即時確定させる処理とは目的が逆です。
- 「バッチ処理」バッチ処理はデータをまとめて一括処理する方式で、購入が発生するたびに即時確定させる要件には合いません。
設問3
IoTセンサーから届く温度データを、到着するそばから連続的に処理して即座に異常を検知したい。最も適した処理方式はどれか。
- ELT処理
- バッチ処理
- OLAP処理
- ストリーム処理(正解)
解説
データが到着するたびに低遅延で連続処理するのがストリーム処理です。バッチ処理は一定量・一定間隔でまとめて処理する方式で、リアルタイム性が必要な異常検知には向きません。
他の選択肢が誤りである理由
- 「ELT処理」ELTはデータをまずロードしてから変換するデータ統合手法で、センサーデータのリアルタイム連続処理とは目的が異なります。
- 「バッチ処理」バッチ処理はまとまったデータを一定間隔で処理する方式で、到着直後に異常を検知するリアルタイム要件には対応できません。
- 「OLAP処理」OLAP処理は蓄積された大量データの集計・分析に使うもので、データが到着するたびに即時処理するリアルタイム用途には向きません。
設問4
次のうち、データエンジニアの主な役割として最も適切なものはどれか。
- 本番データベースの可用性・バックアップ・パフォーマンスを維持する
- Power BIで売上ダッシュボードを作成し、傾向を可視化する
- データの取り込み・変換・統合(パイプライン)基盤を構築・運用する(正解)
- 機械学習モデルを設計し予測精度を高める
解説
データエンジニアはデータの取り込み・変換・統合のパイプラインを設計・運用します。可視化はデータアナリスト、データベース運用はDBA(データベース管理者)の役割で、職務の境界を問う典型問題です。
他の選択肢が誤りである理由
- 「本番データベースの可用性・バックアップ・パフォーマンスを維持する」データベースの可用性・バックアップ管理はDBA(データベース管理者)の役割で、パイプライン構築を担うデータエンジニアとは担当領域が異なります。
- 「Power BIで売上ダッシュボードを作成し、傾向を可視化する」Power BIでのダッシュボード作成や傾向の可視化はデータアナリストの役割で、データエンジニアの主業務ではありません。
- 「機械学習モデルを設計し予測精度を高める」機械学習モデルの設計・精度向上はデータサイエンティストの役割で、データエンジニアとは職務が明確に分かれています。
設問5
列指向の圧縮フォーマットで、ビッグデータ分析の読み取り効率に優れるファイル形式はどれか。
- YAML
- CSV
- XML
- Parquet(正解)
解説
Parquetは列指向(カラムナ)で圧縮効率と分析時の読み取り性能に優れ、ビッグデータ分析で広く使われます。CSV/XML/YAMLは行指向またはテキストベースで、列単位の集計には最適化されていません。
他の選択肢が誤りである理由
- 「YAML」YAMLは人間が読みやすい設定ファイル用のテキスト形式で、列指向の圧縮や大規模分析への最適化はされていません。
- 「CSV」CSVはテキストの行指向フォーマットで列単位の圧縮ができず、大規模な列集計には非効率です。
- 「XML」XMLはタグを使った冗長なテキスト形式で、ビッグデータ分析向けの列指向圧縮には対応していません。
続きは無料の会員登録ですぐ解けます。第1回模試(50問)は、これから先もずっと無料です。
第1回模試(無料)を解く