thumbnail

Ôn Luyện Môn Dữ liệu lớn Big Data - Đại Học Bách Khoa Hà Nội Miễn Phí, Có Đáp Án

Bạn đang tìm kiếm tài liệu ôn luyện môn Big Data từ Đại Học Bách Khoa Hà Nội? Chúng tôi cung cấp bộ tài liệu ôn tập môn Big Data với đầy đủ câu hỏi lý thuyết, bài tập thực hành và đáp án chi tiết, hoàn toàn miễn phí. Tài liệu giúp sinh viên nắm vững kiến thức về các hệ thống lưu trữ và xử lý dữ liệu lớn, các thuật toán, và kỹ thuật phân tích Big Data. Phù hợp cho sinh viên ngành Công nghệ Thông tin, tài liệu này sẽ giúp bạn chuẩn bị tốt cho kỳ thi và nắm vững các khái niệm quan trọng về Big Data. Tải ngay và bắt đầu ôn luyện để đạt điểm cao trong kỳ thi sắp tới.

Từ khoá: ôn luyện Big DataBig Data Đại Học Bách Khoa Hà Nộiđề thi Big Data có đáp ántài liệu Big Data miễn phíôn tập Big Data Bách Khoahọc Big Datađề thi Big Data kèm đáp ánlập trình Big Dataxử lý dữ liệu lớnBig Data Bách Khoatài liệu ôn luyện Big Data

Số câu hỏi: 68 câuSố mã đề: 3 đềThời gian: 1 giờ

14,740 lượt xem 1,131 lượt làm bài


Chọn mã đề:


Bạn chưa làm Mã đề 1!!!

 

Xem trước nội dung:

Câu 1: 0.4 điểm
Chọn phát biểu sai
A.  
NoSQL yêu cầu lược đồ CSDL phải được định nghĩa trước khi thêm dữ liệu
B.  
NoSQL cho phép thêm vào dữ liệu mà không cần định nghĩa trước lược đồ dữ liệu
C.  
NoSQL được đưa ra nhằm bổ sung các giải pháp mà CSDL truyền thống không đáp ứng tốt
Câu 2: 0.4 điểmchọn nhiều đáp án
Ưu điểm của kiến trúc NAS (Network attached Storage)?
A.  
Đơn giản hoá việc chia sẻ dữ liệu.
B.  
Tính khả mở cao.
C.  
Máy khách có thể kết nối tới NAS bằng đường truyền Ethernet thông thường (Chuẩn kết nối TCP/IP).
Câu 3: 0.4 điểm
HDFS giải quyết bài toán một điểm hỏng hóc duy nhất (single-point-of-failure) cho Namenode bằng cách nào?
A.  
Sử dụng thêm secondary namenode theo cơ chế active-active. Cả Namenode và Secondary namenode cùng online trong hệ thống
B.  
Sử dụng Secondary namenode theo cơ chế active-passive. Secondary namenode chỉ hoạt động khi có vấn đề với Namenode.
Câu 4: 0.4 điểmchọn nhiều đáp án
Siêu dữ liệu (metadata) trong hệ thống quản lý tệp tin là gì?
A.  
Là các tệp tin kích thước lớn hơn nhiều kích thước tệp tin phổ biến (từ vài GB tới TB).
B.  
Là dữ liệu mô tả về tệp tin bao gồm thời gian khởi tạo, thông tin phân quyền người dùng
C.  
Ánh xạ từ tệp tin tới vị trí lưu trữ vật lý của tệp tin.
Câu 5: 0.4 điểm
Đâu là đặc điểm của RDD (Resilient distributed dataset) của Spark
A.  
Được thiết kế để tối ưu cho các biến đổi thô, theo lô
B.  
Được thiết kế hỗ trợ các cập nhật đơn lẻ tới mức từng bản ghi
C.  
Có khả năng tự động tái tạo lại khi bị lỗi qua cơ chế nhân bản
Câu 6: 0.4 điểm
Các đặc điểm của virtual node trên AmazonDB. Chọn phương án sai
A.  
Mỗi node vật lý có thể được ánh xạ thành nhiều node ảo, nằm liên tiếp nhau trong vòng tròn không gian khoá.
B.  
Số lượng các node ảo đối với mỗi node vật lý là khác nhau tùy vào từng node vật lý.
C.  
Số lượng các node ảo bắt buộc cần phải căn cứ vào khả năng lưu trữ của node vật lý.
D.  
Node ảo đóng vai trò quan trọng trong bài toán cân bằng tải và hiệu năng khi một node vật lý ra hoặc kết nối vào cụm.
Câu 7: 0.4 điểm
Giữa Pig và Hive, công cụ nào có giao diện truy vấn gần với ANSI SQL hơn?
A.  
Pig
B.  
Hive
C.  
Pig và Hive đều không có giao diện truy vấn gần với SQL.
Câu 8: 0.4 điểmchọn nhiều đáp án
Đâu là ưu điểm của Spark so với MapReduce?
A.  
Hỗ trợ tốt cho xử lý chuỗi các biến đổi
B.  
Có thể khai phá dữ liệu trong thời gian tương tác
C.  
Khai thác bộ nhớ trong thay vì sử dụng hệ thống lưu trữ ngoài như HDFS
D.  
Có khả năng chịu lỗi
Câu 9: 0.4 điểm
Phát biểu nào sai về Kafka?
A.  
Kafka producer quyết định message sẽ được gửi đến partition nào trong topic.
B.  
Thứ tự của message trong mỗi partition do key của message quyết định.
C.  
Kafka producer có thể gửi message đến nhiều broker khác nhau.
Câu 10: 0.4 điểmchọn nhiều đáp án
Ưu điểm của hệ thống tệp tin phân tán là gì?
A.  
Đơn giản hoá việc chia sẻ dữ liệu.
B.  
Tập trung hoá việc quản trị.
C.  
Cho phép người dùng có cái nhìn hợp nhất (như nhau) về toàn bộ dữ liệu trong hệ thống
Câu 11: 0.4 điểm
Phát biểu sau đây đúng hay sai: Trong cụm Kafka, 1 server đóng vai trò leader, các server còn lại đóng vai trò follower.
A.  
Đúng
B.  
Sai
Câu 12: 0.4 điểmchọn nhiều đáp án
Các biến đổi (transformation) trên Spark có đặc điểm gì?
A.  
Thực hiện theo cơ chế lười biếng, khi nào một hành động (action) cần tới phép biến đổi trước đó phải thực hiện thì mới phải thực hiện
B.  
Mỗi phép biến đổi trên RDD được thực thi bởi một hay nhiều Spark worker
C.  
Các biến đổi (transformation) luôn tạo ra RDD mới có cùng số partition với RDD đầu vào
Câu 13: 0.4 điểm
Đâu là cơ chế chịu lỗi của Apache Spark?
A.  
Chịu lỗi qua cơ chế huyết thống
B.  
Chịu lỗi qua cơ chế nhân bản
C.  
Chịu lỗi qua cơ chế lưu lại lịch sử nhiều phiên bản
Câu 14: 0.4 điểm
Phát biểu nào sau sai về Kafka?
A.  
Kafka quản lý các luồng thông điệp (messages) thành các nhóm gọi là các Topics.
B.  
Tiến trình quảng bá message lên cụm Kafka gọi là publishers.
C.  
Tiến trình đăng ký theo dõi các topics gọi là consumers
D.  
Các máy chủ chạy Kafka gọi là các brokers.
Câu 15: 0.4 điểm
Hadoop giải quyết bài toán khả mở bằng cách nào? Chọn đáp án sai.
A.  
Thiết kế hướng phân tán ngay từ đầu, mặc định triển khai trên cụm máy chủ
B.  
Các node tham gia vào cụm Hadoop được gán vai trò hoặc là node tính hoán hoặc là node lưu trữ dữ liệu
C.  
Các node tham gia vào cụm đóng cả 2 vai trò tính toán và lưu trữ
D.  
Các node thêm vào cụm cần có cấu hình, độ tin cậy cao
Câu 16: 0.4 điểmchọn nhiều đáp án
Đâu là đặc điểm của Spark streaming?
A.  
Có thể nhận đầu vào là các luồng dữ liệu từ Kafka
B.  
Có thể nhận đầu vào là các tệp tin trên HDFS
C.  
Không thể thực hiện các truy vấn SQL
Câu 17: 0.4 điểm
Đâu là kỹ thuật có thể được dùng để thích nghi các giải thuật học máy cho dữ liệu lớn?
A.  
Sub-sampling, principal component analysis, feature extraction và feature selection
B.  
Song song hóa trên Mapreduce hay Spark
C.  
Các kiến trúc mới xử lý luồng liên tục như mini-batch, complex event processing
D.  
Tất cả các ý (1), (2), (3)
E.  
Các ý (2) và (3)
Câu 18: 0.4 điểmchọn nhiều đáp án
Tình huống triển khai nào phù hợp với NoSQL
A.  
Khi cần đáp ứng về tính toàn vẹn của dữ liệu (data integrity)
B.  
Khi cần đáp ứng cao về vấn đề bảo mật dữ liệu
C.  
Khi cần lưu trữ hiệu quả dữ liệu lớn
D.  
Khi lược đồ dữ liệu không quá phức tạp
Câu 19: 0.4 điểm
Mô tả cách thức một client đọc dữ liệu trên HDFS.
A.  
Client truy vấn Namenode để biết được vị trí các chunks. Namenode trả về vị trí các chunks. Client kết nối song song tới các datanode để đọc các chunk
B.  
Client thông báo tới namenode để bắt đầu quá trình đọc sau đó client truy vấn các datanode để trực tiếp đọc các chunks
C.  
Client truy vấn Namenode để đưa thông tin về thao tác đọc. Namenode kết nối song song tới các datanode để lấy dữ liệu, sau đó trả về cho client.
D.  
Client truy vấn Namenode để biết được vi trí các chunks. Nếu Namenode không biết về vị trí các chunk thì namenode sẽ hỏi các datanode. Sau đó Namenode gửi lại thông tin vị trí các chunk cho client. Client kết nối song song tới các datanode để đọc các chunk.
Câu 20: 0.4 điểm
CSDL nào phù hợp với dữ liệu mạng xã hội, dữ liệu có sự liên kết
A.  
Key-value
B.  
Document store
C.  
Graph store
D.  
Columnar store
Câu 21: 0.4 điểmchọn nhiều đáp án
Spark structured streaming có đặc điểm gì?
A.  
Vẫn xử lý luồng dữ liệu như là chuỗi các lô RDD nhỏ
B.  
Về mặt logic, coi luồng như một bảng dữ liệu liên tục tăng thêm các bản ghi
C.  
Định kỳ, truy vấn trên luồng chỉ trả ra kết quả của việc thực hiện truy vấn cho trên các bản ghi mới xuất hiện
Câu 22: 0.4 điểm
Điều gì xảy ra nếu chúng ta chọn Hbase row key là timestamp tại thời điểm insert dữ liệu?
A.  
Insert sẽ nhanh hơn so với row key là dữ liệu khác
B.  
Insert sẽ chậm hơn so với row key là dữ liệu khác
C.  
Tùy trường hợp
D.  
Việc sử dụng timestamp làm row key có thể dẫn đến hiện tượng hot spot (điểm nóng) trong HBase. Hot spot xảy ra khi các dữ liệu mới được insert vào bảng HBase đồng thời với timestamp giống nhau hoặc gần nhau, khiến cho các dòng dữ liệu mới đều được lưu trữ trên cùng một Region Server.
Câu 23: 0.4 điểm
Phát biểu nào sau đây sai về Kafka?
A.  
Nhiều consumer có thể cùng đọc 1 topic.
B.  
1 message chỉ có thể được đọc bởi 1 consumer trong 1 consumer group.
C.  
1 message có thể được đọc bởi nhiều consumer khác nhau.
D.  
Số lượng consumer phải ít hơn hoặc bằng số lượng partitions.
Câu 24: 0.4 điểm
Chọn phát biểu đúng về NoSQL
A.  
Không hỗ trợ các truy vấn SQL
B.  
Không thể được sử dụng kết hợp với các CSDL quan hệ
C.  
Rất phù hợp cho các tập dữ liệu phân tán quy mô lớn
D.  
Đáp ứng khả năng xử lý giao dịch với tính nhất quán chặt
Câu 25: 0.4 điểm
Cơ chế mà NoSQL sử dụng để tăng khả năng chịu lỗi
A.  
Phân mảnh và phân tán dữ liệu ra nhiều máy chủ
B.  
Nhân bản (Replication)
C.  
Giao diện truy vấn đơn giản hơn so với CSDL quan hệ truyền thống

Đề thi tương tự

Ôn luyện môn Nghiên cứu khoa học 301Khoa học

4 mã đề 88 câu hỏi 1 giờ

87,3026,711

Đề Trắc Nghiệm Ôn luyện môn Kỹ Thuật Đo Lường Điện EPUĐại học - Cao đẳng

6 mã đề 223 câu hỏi 1 giờ

142,22810,935

Đề Trắc Nghiệm Ôn Luyện Môn Quản Trị Chiến Lược HUBTĐại học - Cao đẳng

2 mã đề 100 câu hỏi 1 giờ

91,2467,013