Ôn Luyện Môn Dữ liệu lớn Big Data - Đại Học Bách Khoa Hà Nội Miễn Phí, Có Đáp Án

Bạn đang tìm kiếm tài liệu ôn luyện môn Big Data từ Đại Học Bách Khoa Hà Nội? Chúng tôi cung cấp bộ tài liệu ôn tập môn Big Data với đầy đủ câu hỏi lý thuyết, bài tập thực hành và đáp án chi tiết, hoàn toàn miễn phí. Tài liệu giúp sinh viên nắm vững kiến thức về các hệ thống lưu trữ và xử lý dữ liệu lớn, các thuật toán, và kỹ thuật phân tích Big Data. Phù hợp cho sinh viên ngành Công nghệ Thông tin, tài liệu này sẽ giúp bạn chuẩn bị tốt cho kỳ thi và nắm vững các khái niệm quan trọng về Big Data. Tải ngay và bắt đầu ôn luyện để đạt điểm cao trong kỳ thi sắp tới.

Từ khoá: ôn luyện Big DataBig Data Đại Học Bách Khoa Hà Nộiđề thi Big Data có đáp ántài liệu Big Data miễn phíôn tập Big Data Bách Khoahọc Big Datađề thi Big Data kèm đáp ánlập trình Big Dataxử lý dữ liệu lớnBig Data Bách Khoatài liệu ôn luyện Big Data

Số câu hỏi: 68 câuSố mã đề: 3 đềThời gian: 1 giờ

14,740 lượt xem 1,131 lượt làm bài

Chọn mã đề:

Bạn chưa làm Mã đề 1!!!

Xem trước nội dung:

Câu 1: 0.4 điểm

Chọn phát biểu sai

NoSQL yêu cầu lược đồ CSDL phải được định nghĩa trước khi thêm dữ liệu

NoSQL cho phép thêm vào dữ liệu mà không cần định nghĩa trước lược đồ dữ liệu

NoSQL được đưa ra nhằm bổ sung các giải pháp mà CSDL truyền thống không đáp ứng tốt

Câu 2: 0.4 điểmchọn nhiều đáp án

Ưu điểm của kiến trúc NAS (Network attached Storage)?

Đơn giản hoá việc chia sẻ dữ liệu.

Tính khả mở cao.

Máy khách có thể kết nối tới NAS bằng đường truyền Ethernet thông thường (Chuẩn kết nối TCP/IP).

Câu 3: 0.4 điểm

HDFS giải quyết bài toán một điểm hỏng hóc duy nhất (single-point-of-failure) cho Namenode bằng cách nào?

Sử dụng thêm secondary namenode theo cơ chế active-active. Cả Namenode và Secondary namenode cùng online trong hệ thống

Sử dụng Secondary namenode theo cơ chế active-passive. Secondary namenode chỉ hoạt động khi có vấn đề với Namenode.

Câu 4: 0.4 điểmchọn nhiều đáp án

Siêu dữ liệu (metadata) trong hệ thống quản lý tệp tin là gì?

Là các tệp tin kích thước lớn hơn nhiều kích thước tệp tin phổ biến (từ vài GB tới TB).

Là dữ liệu mô tả về tệp tin bao gồm thời gian khởi tạo, thông tin phân quyền người dùng

Ánh xạ từ tệp tin tới vị trí lưu trữ vật lý của tệp tin.

Câu 5: 0.4 điểm

Đâu là đặc điểm của RDD (Resilient distributed dataset) của Spark

Được thiết kế để tối ưu cho các biến đổi thô, theo lô

Được thiết kế hỗ trợ các cập nhật đơn lẻ tới mức từng bản ghi

Có khả năng tự động tái tạo lại khi bị lỗi qua cơ chế nhân bản

Câu 6: 0.4 điểm

Các đặc điểm của virtual node trên AmazonDB. Chọn phương án sai

Mỗi node vật lý có thể được ánh xạ thành nhiều node ảo, nằm liên tiếp nhau trong vòng tròn không gian khoá.

Số lượng các node ảo đối với mỗi node vật lý là khác nhau tùy vào từng node vật lý.

Số lượng các node ảo bắt buộc cần phải căn cứ vào khả năng lưu trữ của node vật lý.

Node ảo đóng vai trò quan trọng trong bài toán cân bằng tải và hiệu năng khi một node vật lý ra hoặc kết nối vào cụm.

Câu 7: 0.4 điểm

Giữa Pig và Hive, công cụ nào có giao diện truy vấn gần với ANSI SQL hơn?

Pig

Hive

Pig và Hive đều không có giao diện truy vấn gần với SQL.

Câu 8: 0.4 điểmchọn nhiều đáp án

Đâu là ưu điểm của Spark so với MapReduce?

Hỗ trợ tốt cho xử lý chuỗi các biến đổi

Có thể khai phá dữ liệu trong thời gian tương tác

Khai thác bộ nhớ trong thay vì sử dụng hệ thống lưu trữ ngoài như HDFS

Có khả năng chịu lỗi

Câu 9: 0.4 điểm

Phát biểu nào sai về Kafka?

Kafka producer quyết định message sẽ được gửi đến partition nào trong topic.

Thứ tự của message trong mỗi partition do key của message quyết định.

Kafka producer có thể gửi message đến nhiều broker khác nhau.

Câu 10: 0.4 điểmchọn nhiều đáp án

Ưu điểm của hệ thống tệp tin phân tán là gì?

Đơn giản hoá việc chia sẻ dữ liệu.

Tập trung hoá việc quản trị.

Cho phép người dùng có cái nhìn hợp nhất (như nhau) về toàn bộ dữ liệu trong hệ thống

Câu 11: 0.4 điểm

Phát biểu sau đây đúng hay sai: Trong cụm Kafka, 1 server đóng vai trò leader, các server còn lại đóng vai trò follower.

Đúng

Sai

Câu 12: 0.4 điểmchọn nhiều đáp án

Các biến đổi (transformation) trên Spark có đặc điểm gì?

Thực hiện theo cơ chế lười biếng, khi nào một hành động (action) cần tới phép biến đổi trước đó phải thực hiện thì mới phải thực hiện

Mỗi phép biến đổi trên RDD được thực thi bởi một hay nhiều Spark worker

Các biến đổi (transformation) luôn tạo ra RDD mới có cùng số partition với RDD đầu vào

Câu 13: 0.4 điểm

Đâu là cơ chế chịu lỗi của Apache Spark?

Chịu lỗi qua cơ chế huyết thống

Chịu lỗi qua cơ chế nhân bản

Chịu lỗi qua cơ chế lưu lại lịch sử nhiều phiên bản

Câu 14: 0.4 điểm

Phát biểu nào sau sai về Kafka?

Kafka quản lý các luồng thông điệp (messages) thành các nhóm gọi là các Topics.

Tiến trình quảng bá message lên cụm Kafka gọi là publishers.

Tiến trình đăng ký theo dõi các topics gọi là consumers

Các máy chủ chạy Kafka gọi là các brokers.

Câu 15: 0.4 điểm

Hadoop giải quyết bài toán khả mở bằng cách nào? Chọn đáp án sai.

Thiết kế hướng phân tán ngay từ đầu, mặc định triển khai trên cụm máy chủ

Các node tham gia vào cụm Hadoop được gán vai trò hoặc là node tính hoán hoặc là node lưu trữ dữ liệu

Các node tham gia vào cụm đóng cả 2 vai trò tính toán và lưu trữ

Các node thêm vào cụm cần có cấu hình, độ tin cậy cao

Câu 16: 0.4 điểmchọn nhiều đáp án

Đâu là đặc điểm của Spark streaming?

Có thể nhận đầu vào là các luồng dữ liệu từ Kafka

Có thể nhận đầu vào là các tệp tin trên HDFS

Không thể thực hiện các truy vấn SQL

Câu 17: 0.4 điểm

Đâu là kỹ thuật có thể được dùng để thích nghi các giải thuật học máy cho dữ liệu lớn?

Sub-sampling, principal component analysis, feature extraction và feature selection

Song song hóa trên Mapreduce hay Spark

Các kiến trúc mới xử lý luồng liên tục như mini-batch, complex event processing

Tất cả các ý (1), (2), (3)

Các ý (2) và (3)

Câu 18: 0.4 điểmchọn nhiều đáp án

Tình huống triển khai nào phù hợp với NoSQL

Khi cần đáp ứng về tính toàn vẹn của dữ liệu (data integrity)

Khi cần đáp ứng cao về vấn đề bảo mật dữ liệu

Khi cần lưu trữ hiệu quả dữ liệu lớn

Khi lược đồ dữ liệu không quá phức tạp

Câu 19: 0.4 điểm

Mô tả cách thức một client đọc dữ liệu trên HDFS.

Client truy vấn Namenode để biết được vị trí các chunks. Namenode trả về vị trí các chunks. Client kết nối song song tới các datanode để đọc các chunk

Client thông báo tới namenode để bắt đầu quá trình đọc sau đó client truy vấn các datanode để trực tiếp đọc các chunks

Client truy vấn Namenode để đưa thông tin về thao tác đọc. Namenode kết nối song song tới các datanode để lấy dữ liệu, sau đó trả về cho client.

Client truy vấn Namenode để biết được vi trí các chunks. Nếu Namenode không biết về vị trí các chunk thì namenode sẽ hỏi các datanode. Sau đó Namenode gửi lại thông tin vị trí các chunk cho client. Client kết nối song song tới các datanode để đọc các chunk.

Câu 20: 0.4 điểm

CSDL nào phù hợp với dữ liệu mạng xã hội, dữ liệu có sự liên kết

Key-value

Document store

Graph store

Columnar store

Câu 21: 0.4 điểmchọn nhiều đáp án

Spark structured streaming có đặc điểm gì?

Vẫn xử lý luồng dữ liệu như là chuỗi các lô RDD nhỏ

Về mặt logic, coi luồng như một bảng dữ liệu liên tục tăng thêm các bản ghi

Định kỳ, truy vấn trên luồng chỉ trả ra kết quả của việc thực hiện truy vấn cho trên các bản ghi mới xuất hiện

Câu 22: 0.4 điểm

Điều gì xảy ra nếu chúng ta chọn Hbase row key là timestamp tại thời điểm insert dữ liệu?

Insert sẽ nhanh hơn so với row key là dữ liệu khác

Insert sẽ chậm hơn so với row key là dữ liệu khác

Tùy trường hợp

Việc sử dụng timestamp làm row key có thể dẫn đến hiện tượng hot spot (điểm nóng) trong HBase. Hot spot xảy ra khi các dữ liệu mới được insert vào bảng HBase đồng thời với timestamp giống nhau hoặc gần nhau, khiến cho các dòng dữ liệu mới đều được lưu trữ trên cùng một Region Server.

Câu 23: 0.4 điểm

Phát biểu nào sau đây sai về Kafka?

Nhiều consumer có thể cùng đọc 1 topic.

1 message chỉ có thể được đọc bởi 1 consumer trong 1 consumer group.

1 message có thể được đọc bởi nhiều consumer khác nhau.

Số lượng consumer phải ít hơn hoặc bằng số lượng partitions.

Câu 24: 0.4 điểm

Chọn phát biểu đúng về NoSQL

Không hỗ trợ các truy vấn SQL

Không thể được sử dụng kết hợp với các CSDL quan hệ

Rất phù hợp cho các tập dữ liệu phân tán quy mô lớn

Đáp ứng khả năng xử lý giao dịch với tính nhất quán chặt

Câu 25: 0.4 điểm

Cơ chế mà NoSQL sử dụng để tăng khả năng chịu lỗi

Phân mảnh và phân tán dữ liệu ra nhiều máy chủ

Nhân bản (Replication)

Giao diện truy vấn đơn giản hơn so với CSDL quan hệ truyền thống

Đề thi tương tự

Đề Thi Ôn Luyện Môn Cơ Sở Dữ Liệu Hướng Đối Tượng HUBT Đại Học Kinh Doanh và Công Nghệ Hà Nội - Miễn Phí Có Đáp ÁnĐại học - Cao đẳng

1 mã đề 62 câu hỏi 1 giờ

82,6556,355

Tổng Hợp Đề Ôn Luyện Thi Môn Quản Lý Nhân Lực 2 - Bản Đầy Đủ - Đại Học Điện Lực (EPU) Miễn Phí, Có Đáp Án Chi TiếtĐại học - Cao đẳng

5 mã đề 244 câu hỏi 1 giờ

13,3061,019

Ôn luyện môn Nghiên cứu khoa học 301Khoa học

4 mã đề 88 câu hỏi 1 giờ

87,3026,711

Đề Ôn Luyện Môn Kiến Thức Vi Điều Khiển Đại Học Cần Thơ - Miễn Phí, Có Đáp ÁnĐại học - Cao đẳng

1 mã đề 36 câu hỏi 1 giờ

57,9514,456

Đề Trắc Nghiệm Ôn luyện môn Kỹ Thuật Đo Lường Điện EPUĐại học - Cao đẳng

6 mã đề 223 câu hỏi 1 giờ

142,22810,935

Đề Thi Trắc Nghiệm ôn luyện Môn Y Học Cổ Truyền VUTM - Học Viện Y Dược Học Cổ Truyền Việt Nam (Miễn Phí, Có Đáp Án)Đại học - Cao đẳng

2 mã đề 79 câu hỏi 1 giờ

88,8916,831

Đề Trắc Nghiệm Ôn Luyện Môn Quản Trị Chiến Lược HUBTĐại học - Cao đẳng

2 mã đề 100 câu hỏi 1 giờ

91,2467,013

Đề Cương Ôn Luyện Môn Tiền Tệ Quốc Tế - Đại Học Kinh Doanh Và Công Nghệ Hà Nội (HUBT) Miễn Phí, Có Đáp ÁnĐại học - Cao đẳng

1 mã đề 24 câu hỏi 1 giờ

85,1306,543

Tổng Hợp Đề Thi Ôn Luyện Môn Quy Trình Kinh Doanh Điện | Đại Học Điện Lực (EPU) Miễn Phí Có Đáp ÁnĐại học - Cao đẳng

3 mã đề 117 câu hỏi 1 giờ

71,2005,470

LetQA - Ôn luyện đề thi trắc nghiệm online miễn phí

Về chúng tôi

LetQA là công cụ hỗ trợ học sinh, sinh viên, giáo viên, tổ chức trong việc ôn luyện, kiểm tra kiến thức online; website được cung cấp miễn phí cho tất cả người dùng.
LetQA KHÔNG cung cấp dịch vụ mạng xã hội, không cung cấp thông tin tổng hợp và không thu phí người dùng.

Thông tin liên hệ & hỗ trợ

Email: hotro@letqa.com

Facebook: LetQA (fb.com/letqavn)

Liên kết phổ biến

Yêu cầu bổ sung đề thi

Đóng góp đề thi

Website liên kết

Phần mềm kiểm tra trùng lặp đạo văn Kiểm Tra Tài Liệu

Phần mềm xuất bản tạp chí điện tử VOJS

Công cụ kiểm tra chính tả và thể thức Viver

Công cụ hỗ trợ trích dẫn và phân tích khoa học Scholar Hub