thumbnail

Ôn Luyện Môn Dữ liệu lớn Big Data - Đại Học Bách Khoa Hà Nội Miễn Phí, Có Đáp Án

Bạn đang tìm kiếm tài liệu ôn luyện môn Big Data từ Đại Học Bách Khoa Hà Nội? Chúng tôi cung cấp bộ tài liệu ôn tập môn Big Data với đầy đủ câu hỏi lý thuyết, bài tập thực hành và đáp án chi tiết, hoàn toàn miễn phí. Tài liệu giúp sinh viên nắm vững kiến thức về các hệ thống lưu trữ và xử lý dữ liệu lớn, các thuật toán, và kỹ thuật phân tích Big Data. Phù hợp cho sinh viên ngành Công nghệ Thông tin, tài liệu này sẽ giúp bạn chuẩn bị tốt cho kỳ thi và nắm vững các khái niệm quan trọng về Big Data. Tải ngay và bắt đầu ôn luyện để đạt điểm cao trong kỳ thi sắp tới.

Từ khoá: ôn luyện Big DataBig Data Đại Học Bách Khoa Hà Nộiđề thi Big Data có đáp ántài liệu Big Data miễn phíôn tập Big Data Bách Khoahọc Big Datađề thi Big Data kèm đáp ánlập trình Big Dataxử lý dữ liệu lớnBig Data Bách Khoatài liệu ôn luyện Big Data

Thời gian làm bài: 1 giờ


Chọn mã đề:


Bạn chưa làm Mã đề 1!!!

Hãy bắt đầu chinh phục nào!



 

Xem trước nội dung:

Câu 1: 0.4 điểm
Chọn phát biểu sai
A.  
NoSQL yêu cầu lược đồ CSDL phải được định nghĩa trước khi thêm dữ liệu
B.  
NoSQL cho phép thêm vào dữ liệu mà không cần định nghĩa trước lược đồ dữ liệu
C.  
NoSQL được đưa ra nhằm bổ sung các giải pháp mà CSDL truyền thống không đáp ứng tốt
Câu 2: 0.4 điểmchọn nhiều đáp án
Ưu điểm của kiến trúc NAS (Network attached Storage)?
A.  
Đơn giản hoá việc chia sẻ dữ liệu.
B.  
Tính khả mở cao.
C.  
Máy khách có thể kết nối tới NAS bằng đường truyền Ethernet thông thường (Chuẩn kết nối TCP/IP).
Câu 3: 0.4 điểm
HDFS giải quyết bài toán một điểm hỏng hóc duy nhất (single-point-of-failure) cho Namenode bằng cách nào?
A.  
Sử dụng thêm secondary namenode theo cơ chế active-active. Cả Namenode và Secondary namenode cùng online trong hệ thống
B.  
Sử dụng Secondary namenode theo cơ chế active-passive. Secondary namenode chỉ hoạt động khi có vấn đề với Namenode.
Câu 4: 0.4 điểmchọn nhiều đáp án
Siêu dữ liệu (metadata) trong hệ thống quản lý tệp tin là gì?
A.  
Là các tệp tin kích thước lớn hơn nhiều kích thước tệp tin phổ biến (từ vài GB tới TB).
B.  
Là dữ liệu mô tả về tệp tin bao gồm thời gian khởi tạo, thông tin phân quyền người dùng
C.  
Ánh xạ từ tệp tin tới vị trí lưu trữ vật lý của tệp tin.
Câu 5: 0.4 điểm
Đâu là đặc điểm của RDD (Resilient distributed dataset) của Spark
A.  
Được thiết kế để tối ưu cho các biến đổi thô, theo lô
B.  
Được thiết kế hỗ trợ các cập nhật đơn lẻ tới mức từng bản ghi
C.  
Có khả năng tự động tái tạo lại khi bị lỗi qua cơ chế nhân bản
Câu 6: 0.4 điểm
Các đặc điểm của virtual node trên AmazonDB. Chọn phương án sai
A.  
Mỗi node vật lý có thể được ánh xạ thành nhiều node ảo, nằm liên tiếp nhau trong vòng tròn không gian khoá.
B.  
Số lượng các node ảo đối với mỗi node vật lý là khác nhau tùy vào từng node vật lý.
C.  
Số lượng các node ảo bắt buộc cần phải căn cứ vào khả năng lưu trữ của node vật lý.
D.  
Node ảo đóng vai trò quan trọng trong bài toán cân bằng tải và hiệu năng khi một node vật lý ra hoặc kết nối vào cụm.
Câu 7: 0.4 điểm
Giữa Pig và Hive, công cụ nào có giao diện truy vấn gần với ANSI SQL hơn?
A.  
Pig
B.  
Hive
C.  
Pig và Hive đều không có giao diện truy vấn gần với SQL.
Câu 8: 0.4 điểmchọn nhiều đáp án
Đâu là ưu điểm của Spark so với MapReduce?
A.  
Hỗ trợ tốt cho xử lý chuỗi các biến đổi
B.  
Có thể khai phá dữ liệu trong thời gian tương tác
C.  
Khai thác bộ nhớ trong thay vì sử dụng hệ thống lưu trữ ngoài như HDFS
D.  
Có khả năng chịu lỗi
Câu 9: 0.4 điểm
Phát biểu nào sai về Kafka?
A.  
Kafka producer quyết định message sẽ được gửi đến partition nào trong topic.
B.  
Thứ tự của message trong mỗi partition do key của message quyết định.
C.  
Kafka producer có thể gửi message đến nhiều broker khác nhau.
Câu 10: 0.4 điểmchọn nhiều đáp án
Ưu điểm của hệ thống tệp tin phân tán là gì?
A.  
Đơn giản hoá việc chia sẻ dữ liệu.
B.  
Tập trung hoá việc quản trị.
C.  
Cho phép người dùng có cái nhìn hợp nhất (như nhau) về toàn bộ dữ liệu trong hệ thống
Câu 11: 0.4 điểm
Phát biểu sau đây đúng hay sai: Trong cụm Kafka, 1 server đóng vai trò leader, các server còn lại đóng vai trò follower.
A.  
Đúng
B.  
Sai
Câu 12: 0.4 điểmchọn nhiều đáp án
Các biến đổi (transformation) trên Spark có đặc điểm gì?
A.  
Thực hiện theo cơ chế lười biếng, khi nào một hành động (action) cần tới phép biến đổi trước đó phải thực hiện thì mới phải thực hiện
B.  
Mỗi phép biến đổi trên RDD được thực thi bởi một hay nhiều Spark worker
C.  
Các biến đổi (transformation) luôn tạo ra RDD mới có cùng số partition với RDD đầu vào
Câu 13: 0.4 điểm
Đâu là cơ chế chịu lỗi của Apache Spark?
A.  
Chịu lỗi qua cơ chế huyết thống
B.  
Chịu lỗi qua cơ chế nhân bản
C.  
Chịu lỗi qua cơ chế lưu lại lịch sử nhiều phiên bản
Câu 14: 0.4 điểm
Phát biểu nào sau sai về Kafka?
A.  
Kafka quản lý các luồng thông điệp (messages) thành các nhóm gọi là các Topics.
B.  
Tiến trình quảng bá message lên cụm Kafka gọi là publishers.
C.  
Tiến trình đăng ký theo dõi các topics gọi là consumers
D.  
Các máy chủ chạy Kafka gọi là các brokers.
Câu 15: 0.4 điểm
Hadoop giải quyết bài toán khả mở bằng cách nào? Chọn đáp án sai.
A.  
Thiết kế hướng phân tán ngay từ đầu, mặc định triển khai trên cụm máy chủ
B.  
Các node tham gia vào cụm Hadoop được gán vai trò hoặc là node tính hoán hoặc là node lưu trữ dữ liệu
C.  
Các node tham gia vào cụm đóng cả 2 vai trò tính toán và lưu trữ
D.  
Các node thêm vào cụm cần có cấu hình, độ tin cậy cao
Câu 16: 0.4 điểmchọn nhiều đáp án
Đâu là đặc điểm của Spark streaming?
A.  
Có thể nhận đầu vào là các luồng dữ liệu từ Kafka
B.  
Có thể nhận đầu vào là các tệp tin trên HDFS
C.  
Không thể thực hiện các truy vấn SQL
Câu 17: 0.4 điểm
Đâu là kỹ thuật có thể được dùng để thích nghi các giải thuật học máy cho dữ liệu lớn?
A.  
Sub-sampling, principal component analysis, feature extraction và feature selection
B.  
Song song hóa trên Mapreduce hay Spark
C.  
Các kiến trúc mới xử lý luồng liên tục như mini-batch, complex event processing
D.  
Tất cả các ý (1), (2), (3)
E.  
Các ý (2) và (3)
Câu 18: 0.4 điểmchọn nhiều đáp án
Tình huống triển khai nào phù hợp với NoSQL
A.  
Khi cần đáp ứng về tính toàn vẹn của dữ liệu (data integrity)
B.  
Khi cần đáp ứng cao về vấn đề bảo mật dữ liệu
C.  
Khi cần lưu trữ hiệu quả dữ liệu lớn
D.  
Khi lược đồ dữ liệu không quá phức tạp
Câu 19: 0.4 điểm
Mô tả cách thức một client đọc dữ liệu trên HDFS.
A.  
Client truy vấn Namenode để biết được vị trí các chunks. Namenode trả về vị trí các chunks. Client kết nối song song tới các datanode để đọc các chunk
B.  
Client thông báo tới namenode để bắt đầu quá trình đọc sau đó client truy vấn các datanode để trực tiếp đọc các chunks
C.  
Client truy vấn Namenode để đưa thông tin về thao tác đọc. Namenode kết nối song song tới các datanode để lấy dữ liệu, sau đó trả về cho client.
D.  
Client truy vấn Namenode để biết được vi trí các chunks. Nếu Namenode không biết về vị trí các chunk thì namenode sẽ hỏi các datanode. Sau đó Namenode gửi lại thông tin vị trí các chunk cho client. Client kết nối song song tới các datanode để đọc các chunk.
Câu 20: 0.4 điểm
CSDL nào phù hợp với dữ liệu mạng xã hội, dữ liệu có sự liên kết
A.  
Key-value
B.  
Document store
C.  
Graph store
D.  
Columnar store
Câu 21: 0.4 điểmchọn nhiều đáp án
Spark structured streaming có đặc điểm gì?
A.  
Vẫn xử lý luồng dữ liệu như là chuỗi các lô RDD nhỏ
B.  
Về mặt logic, coi luồng như một bảng dữ liệu liên tục tăng thêm các bản ghi
C.  
Định kỳ, truy vấn trên luồng chỉ trả ra kết quả của việc thực hiện truy vấn cho trên các bản ghi mới xuất hiện
Câu 22: 0.4 điểm
Điều gì xảy ra nếu chúng ta chọn Hbase row key là timestamp tại thời điểm insert dữ liệu?
A.  
Insert sẽ nhanh hơn so với row key là dữ liệu khác
B.  
Insert sẽ chậm hơn so với row key là dữ liệu khác
C.  
Tùy trường hợp
D.  
Việc sử dụng timestamp làm row key có thể dẫn đến hiện tượng hot spot (điểm nóng) trong HBase. Hot spot xảy ra khi các dữ liệu mới được insert vào bảng HBase đồng thời với timestamp giống nhau hoặc gần nhau, khiến cho các dòng dữ liệu mới đều được lưu trữ trên cùng một Region Server.
Câu 23: 0.4 điểm
Phát biểu nào sau đây sai về Kafka?
A.  
Nhiều consumer có thể cùng đọc 1 topic.
B.  
1 message chỉ có thể được đọc bởi 1 consumer trong 1 consumer group.
C.  
1 message có thể được đọc bởi nhiều consumer khác nhau.
D.  
Số lượng consumer phải ít hơn hoặc bằng số lượng partitions.
Câu 24: 0.4 điểm
Chọn phát biểu đúng về NoSQL
A.  
Không hỗ trợ các truy vấn SQL
B.  
Không thể được sử dụng kết hợp với các CSDL quan hệ
C.  
Rất phù hợp cho các tập dữ liệu phân tán quy mô lớn
D.  
Đáp ứng khả năng xử lý giao dịch với tính nhất quán chặt
Câu 25: 0.4 điểm
Cơ chế mà NoSQL sử dụng để tăng khả năng chịu lỗi
A.  
Phân mảnh và phân tán dữ liệu ra nhiều máy chủ
B.  
Nhân bản (Replication)
C.  
Giao diện truy vấn đơn giản hơn so với CSDL quan hệ truyền thống

Xem thêm đề thi tương tự

thumbnail
Tổng Hợp Đề Ôn Luyện Thi Môn Quản Lý Nhân Lực 2 - Bản Đầy Đủ - Đại Học Điện Lực (EPU) Miễn Phí, Có Đáp Án Chi TiếtĐại học - Cao đẳng
Quản lý nhân lực 2 là môn học chuyên sâu tại Đại học Điện Lực (EPU), tập trung vào các chiến lược và kỹ thuật quản lý nguồn nhân lực trong tổ chức. Tổng hợp các đề ôn luyện thi bản đầy đủ, miễn phí, kèm đáp án chi tiết, giúp sinh viên kiểm tra, củng cố kiến thức và rèn luyện kỹ năng thực tiễn. Tài liệu được biên soạn sát với chương trình học, hỗ trợ tối đa cho việc học tập và ứng dụng thực tế.

244 câu hỏi 5 mã đề 1 giờ

13,270 lượt xem 7,133 lượt làm bài

Chưa chinh phục!!!
thumbnail
Ôn luyện môn Nghiên cứu khoa học 301Khoa học
EDQ #88058

88 câu hỏi 4 mã đề 1 giờ

87,286 lượt xem 46,977 lượt làm bài

Chưa chinh phục!!!
thumbnail
Đề Trắc Nghiệm Ôn Luyện Môn Quản Trị Chiến Lược - Đại Học Kinh Doanh Và Công Nghệ Hà Nội (HUBT) Miễn Phí, Có Đáp ÁnĐại học - Cao đẳng

Ôn luyện hiệu quả môn Quản Trị Chiến Lược tại Đại Học Kinh Doanh Và Công Nghệ Hà Nội (HUBT) với bộ câu hỏi trắc nghiệm miễn phí, có đáp án chi tiết. Tài liệu giúp sinh viên nắm vững các khái niệm quan trọng trong quản trị chiến lược, bao gồm phân tích môi trường kinh doanh, định hình chiến lược công ty và triển khai các kế hoạch chiến lược. Đề thi bám sát chương trình học, hỗ trợ sinh viên chuẩn bị tốt cho các kỳ thi.

100 câu hỏi 2 mã đề 1 giờ

91,188 lượt xem 49,070 lượt làm bài

Chưa chinh phục!!!
thumbnail
Đề Cương Ôn Luyện Môn Tiền Tệ Quốc Tế - Đại Học Kinh Doanh Và Công Nghệ Hà Nội (HUBT) Miễn Phí, Có Đáp ÁnĐại học - Cao đẳng

Tổng hợp đề cương và câu hỏi trắc nghiệm môn Tiền Tệ Quốc Tế dành cho sinh viên Đại Học Kinh Doanh Và Công Nghệ Hà Nội (HUBT). Tài liệu giúp sinh viên nắm vững kiến thức về các hệ thống tiền tệ quốc tế, chính sách tỷ giá hối đoái, và các yếu tố ảnh hưởng đến thị trường tiền tệ toàn cầu. Bộ đề thi gồm câu hỏi trắc nghiệm kèm đáp án chi tiết, hỗ trợ sinh viên ôn tập hiệu quả và chuẩn bị tốt nhất cho các kỳ thi. Tài liệu miễn phí, bám sát chương trình học.

 

24 câu hỏi 1 mã đề 1 giờ

85,086 lượt xem 45,801 lượt làm bài

Chưa chinh phục!!!
thumbnail
Tổng Hợp Đề Thi Ôn Luyện Môn Quy Trình Kinh Doanh Điện | Đại Học Điện Lực (EPU) Miễn Phí Có Đáp ÁnĐại học - Cao đẳng

Tổng hợp đề thi ôn luyện môn Quy Trình Kinh Doanh Điện dành cho sinh viên Đại học Điện lực (EPU) với các câu hỏi đa dạng và đáp án chi tiết. Bộ đề thi miễn phí này giúp sinh viên ôn tập hiệu quả các kiến thức về quản lý và vận hành quy trình kinh doanh điện, từ lý thuyết đến thực tiễn. Tài liệu phù hợp cho những ai đang chuẩn bị cho kỳ thi môn Quy Trình Kinh Doanh Điện, cung cấp cơ hội kiểm tra và cải thiện kiến thức một cách nhanh chóng và dễ dàng.

117 câu hỏi 3 mã đề 1 giờ

71,169 lượt xem 38,290 lượt làm bài

Chưa chinh phục!!!
thumbnail
Đề Cương Ôn Luyện Môn Tổ Chức Và Quản Lý Y Tế: Chăm Sóc Sức Khỏe Ban Đầu - Khoa Y Dược, Đại Học Đà Nẵng Miễn Phí, Có Đáp ÁnĐại học - Cao đẳng

Tổng hợp đề cương và bộ câu hỏi trắc nghiệm ôn luyện môn Tổ Chức Và Quản Lý Y Tế: Chăm Sóc Sức Khỏe Ban Đầu tại Khoa Y Dược, Đại Học Đà Nẵng. Tài liệu giúp sinh viên nắm vững các khái niệm về hệ thống y tế, các cấp chăm sóc sức khỏe, quản lý dịch vụ y tế và chăm sóc sức khỏe ban đầu. Bộ đề thi gồm câu hỏi trắc nghiệm kèm đáp án chi tiết, phù hợp cho việc ôn thi và chuẩn bị cho kỳ thi cuối kỳ. Tài liệu miễn phí, bám sát chương trình học.

 

37 câu hỏi 1 mã đề 1 giờ

84,882 lượt xem 45,689 lượt làm bài

Chưa chinh phục!!!
thumbnail
Đề Cương Ôn Luyện Môn Logic Học - Đại Học Kinh Doanh Và Công Nghệ Hà Nội (HUBT) Miễn Phí, Có Đáp ÁnĐại học - Cao đẳng

Tổng hợp đề cương và bộ câu hỏi trắc nghiệm ôn luyện môn Logic Học dành cho sinh viên Đại Học Kinh Doanh Và Công Nghệ Hà Nội (HUBT). Tài liệu giúp sinh viên củng cố các kiến thức về tư duy logic, các quy luật suy luận, lập luận, và phương pháp giải quyết vấn đề trong các tình huống phức tạp. Đề thi kèm đáp án chi tiết, phù hợp cho việc ôn thi và chuẩn bị cho các kỳ kiểm tra tại trường.

 

100 câu hỏi 2 mã đề 1 giờ

89,592 lượt xem 48,230 lượt làm bài

Chưa chinh phục!!!
thumbnail
Đề Cương Ôn Luyện Môn Nghiệp Vụ Ngoại Thương - Đại Học Điện Lực (EPU) Miễn Phí, Có Đáp ÁnĐại học - Cao đẳng

Tổng hợp bộ câu hỏi và đề cương ôn luyện môn Nghiệp Vụ Ngoại Thương dành cho sinh viên Đại Học Điện Lực (EPU). Tài liệu giúp sinh viên nắm vững kiến thức về quy trình xuất nhập khẩu, thanh toán quốc tế, hợp đồng ngoại thương và các quy định liên quan đến thương mại quốc tế. Bộ câu hỏi trắc nghiệm và tự luận kèm đáp án chi tiết, hỗ trợ sinh viên trong việc ôn thi và chuẩn bị tốt cho kỳ thi cuối kỳ. Tài liệu miễn phí và bám sát chương trình học.

 

101 câu hỏi 3 mã đề 1 giờ

84,409 lượt xem 45,416 lượt làm bài

Chưa chinh phục!!!
thumbnail
Đề Trắc Nghiệm Ôn Luyện Môn Phân Tích Tài Chính Các Hoạt Động Kinh Doanh 12 - Đại Học Kinh Tế Quốc Dân Miễn Phí, Có Đáp ÁnĐại học - Cao đẳng

Ôn luyện hiệu quả môn Phân Tích Tài Chính Các Hoạt Động Kinh Doanh 12 tại Đại Học Kinh Tế Quốc Dân với bộ đề trắc nghiệm miễn phí, có đáp án chi tiết. Tài liệu giúp sinh viên củng cố các kiến thức quan trọng về phân tích tài chính, quản lý hiệu quả hoạt động kinh doanh, đánh giá lợi nhuận và hiệu suất tài chính. Bộ đề bao gồm các câu hỏi sát thực tế, phù hợp cho kỳ thi và kiểm tra tại trường, hỗ trợ sinh viên trong việc nắm vững kiến thức chuyên ngành.

25 câu hỏi 1 mã đề 1 giờ

51,009 lượt xem 27,447 lượt làm bài

Chưa chinh phục!!!