thumbnail

Đề Thi Ôn Luyện Big Data Mở Rộng - Đại Học Bách Khoa Hà Nội Miễn Phí, Có Đáp Án

Bạn đang tìm kiếm đề thi ôn luyện Big Data mở rộng từ Đại Học Bách Khoa Hà Nội? Tại đây, chúng tôi cung cấp tài liệu ôn tập chuyên sâu và đề thi Big Data mở rộng với đầy đủ đáp án chi tiết, hoàn toàn miễn phí. Bộ tài liệu giúp sinh viên nắm vững kiến thức từ cơ bản đến nâng cao về Big Data, từ xử lý dữ liệu lớn, phân tích dữ liệu đến các thuật toán phức tạp. Đây là tài liệu lý tưởng để ôn luyện và làm quen với cấu trúc đề thi mở rộng. Phù hợp cho sinh viên ngành Công nghệ Thông tin và những người muốn nâng cao kiến thức về Big Data. Tải ngay để chuẩn bị tốt nhất cho kỳ thi sắp tới.

Từ khoá: đề thi Big Data mở rộngôn luyện Big Data mở rộngtài liệu Big Data Đại Học Bách Khoađề thi Big Data có đáp ántài liệu ôn tập Big Data miễn phíBig Data mở rộng Bách Khoahọc Big Data mở rộngôn thi Big Data mở rộng Bách Khoaxử lý dữ liệu lớn mở rộngđề thi Big Data mở rộng kèm đáp án

Số câu hỏi: 26 câuSố mã đề: 1 đềThời gian: 1 giờ

92,220 lượt xem 7,090 lượt làm bài


Bạn chưa làm đề thi này!!!

 

Xem trước nội dung:

Câu 1: 1 điểm
Trong hệ sinh thái của Spark không có công cụ hay thành phần nào sau đây:
A.  
MLib
B.  
GraphX
C.  
Sqoop
D.  
Cluster Managers
Câu 2: 1 điểm
Spark Streaming trừu tượng hóa cũng như thao tác với các dòng dữ liệu (data stream) dựa trên khái niệm nào:
A.  
shared variable
B.  
RDD
C.  
DStream
D.  
DataFrame
Câu 3: 1 điểm
Spark hỗ trợ các cluster manager nào
A.  
Standalone Cluster manager
B.  
MESOS
C.  
YARN
D.  
tất cả đáp án trên
Câu 4: 1 điểm
Đáp án nào không phải là một “output operation ” khi thao tác với DStream
A.  
saveAsTextFile
B.  
foreachRDD
C.  
saveasHadoopFile
D.  
reduceByKeyAndWindow
Câu 5: 1 điểm
Đáp án nào không phải là một “Transformation” khi thao tác với DStream
A.  
reduceByWindow
B.  
window
C.  
foreachWindow
D.  
countByWindow
Câu 6: 1 điểm
Mục đích của sử dụng sparkML là gì ?
A.  
chạy MapReduce
B.  
chạy các thuật toán dự đoán
C.  
tính toán phân toán
D.  
cả b và c
Câu 7: 1 điểm
dữ liệu đầu vào được gán là feature và dự đoán được gán vào label
A.  
dữ liệu đầu vào được gán là label và kết quả của dữ liệu đầu vào đó được gán vào feature
B.  
dữ liệu đầu vào được gán là feature và kết quả của dữ liệu đầu vào được gán
C.  
vào label
D.  
dữ liệu đầu vào được gán là label và kết quả dự đoán được gán vào feature
Câu 8: 1 điểm
Đâu là lệnh lưu trữ dữ liệu ra ngoài chương trình Spark:
A.  
input.saveAsTextFile(‘file:///usr/momoinu/mon_loz/hihi.txt’)
B.  
input.saveAsTextFile(‘/usr/momoinu/mon_loz/hihi.txt’)
C.  
input.saveAs (‘file:///usr/momoinu/mon_loz/hihi.txt’)
D.  
input.saveAsTextFile: ‘file:///usr/momoinu/mon_loz/hihi.txt’
Câu 9: 1 điểm
Đâu là cách submit đúng 1 job lên Spark cluster hoặc chế độ local
A.  
./spark-submit wordcount.py README.md
B.  
./spark-submit README.md wordcount.py
C.  
spark-submit README.md wordcount.py
D.  
phương án a và c
Câu 10: 1 điểm
Câu lệnh MapReduce trong Spark dưới đây, chia mỗi dòng thành từ dựa vào
A.  
delimiter nào : input.flatMap( lambda x: x.split(“\t”) ).map(lambda x: (x, 1)).reduceByKey(add)
B.  
Tab
C.  
Dấu cách
D.  
Dấu hai chấm
E.  
Dấu phẩy
Câu 11: 1 điểm
Cơ chế chịu lỗi của datanode trong HDFS
A.  
dử dụng ZooKeeper để quản lý các thành viên datanode trong cụm
B.  
sử dụng cơ chế heartbeat, định kỳ các datanode thông báo về trạng thái cho Namenode
C.  
sử dụng cơ chế heartbeat, Namenode định kỳ hỏi các datanode về trạng thái tồn tại của datanode
Câu 12: 1 điểm
Cơ chế tổ chức dữ liệu của Datanode trong HDFS
A.  
các chunk là các tệp tin trong hệ thống tệp tin cục bộ của máy chủ datanode
B.  
các chunk là các vùng dữ liệu liên tục trên ổ cứng của máy chủ data node
C.  
các chunk được lưu trữ tin cậy trên datanode theo cơ chế RAID
Câu 13: 1 điểm
Bản chất DStream:
A.  
là một chuỗi liên tục RDD
B.  
Là một chuỗi liên tục DataFrame
C.  
Là một chuỗi liên tục DataSet
D.  
ko có đáp án đúng
Câu 14: 1 điểm
Đầu vào dữ liệu cho chương trình Spark có thể là:
A.  
Local file
B.  
HDFS, NFS
C.  
Amazon S3, Elasticsearch
D.  
Cả 3 phương án trên
Câu 15: 1 điểm
Đâu là lệnh lưu dữ liệu ra ngoài chương trình Spark:
A.  
input.saveAsTextFile('file:///usr/zeppelin/notebook/dataset/new.txt')
B.  
input.saveAsTextFile('/usr/zeppelin/notebook/dataset/new.txt')
C.  
input.saveAs('file:///usr/zeppelin/notebook/dataset/new.txt')
D.  
input.saveAsTextFile:'file:///usr/zeppelin/notebook/dataset/new.txt'
Câu 16: 1 điểm
Đâu là cách submit đúng một job lên Spark cluster hoặc chế độ local:
A.  
./spark-submit wordcount.py README.md
B.  
./spark-submit README.md wordcount.py
C.  
spark-submit README.md wordcount.py
D.  
Phương án A và C
Câu 17: 1 điểmchọn nhiều đáp án
Data Pipeline nào sau đây là đúng trên Spark
A.  
Spark -> RabbitMQ -> Elasticsearch -> Hiển thị
B.  
Dữ liệu sensor -> RabbitMQ -> Elasticsearch -> Spark ->Hiển thị
C.  
Dữ liệu sensor -> Elasticserach -> RabbitMQ -> Spark ->Hiển thị
D.  
Spark -> Elasticsearch ->Hiển thị (đ biết có đúng ko)
Câu 18: 1 điểm
Mục đích của sử dụng RabbitMQ là gì?
A.  
Lưu trữ dữ liệu
B.  
Tránh dữ liệu bị mất mát
C.  
Hiển thị dữ liệu
D.  
Phân tích dữ liệu
Câu 19: 1 điểm
Spark có thể chạy ở chế độ nào khi chạy trên nhiều máy?
A.  
Chạy trên YARN
B.  
Chạy trên ZooKeeper
C.  
Phương án A và B đều sai
D.  
Cả 2 phương án A và B
Câu 20: 1 điểm
Mục đích của sử dụng Spark ML là gì?
A.  
Chạy MapReduce
B.  
Chạy các thuật toán dự đoán
C.  
Tính toán phân tán
D.  
Cả B and C
Câu 21: 1 điểm
Cái nào trong số này cung cấp hệ thống xử lý Luồng được sử dụng trong hệ
A.  
sinh thái Hadoop?
B.  
Solr
C.  
Tez
D.  
Spark
E.  
D – Hive
Câu 22: 1 điểm
Chế độ nào sau đây không phải là chế độ hoạt động của Hadoop?
A.  
Pseudo distributed mode
B.  
Globally distributed mode
C.  
Stand alone mode
D.  
Fully-Distributed mode
Câu 23: 1 điểm
Chọn phát biểu đúng khi nói về MongoDB
A.  
MongoDB có các trình điều khiển driver cho nhiều ngôn ngữ lập trình khác nhau.
B.  
các văn bản có thể chứa nhiều cặp key-value hoặc key-array, hoặc các văn bản lồng (nested documents)
C.  
tất cả các phương án trên
D.  
MongoDB hay các NoSQL có khả năng khả mở tốt hơn các CSDL quan hệ truyền thống
Câu 24: 1 điểm
Công cụ Hadoop được sử dụng để phân tán dữ liệu một cách đồng nhất trên các DataNode được đặt tên là:
A.  
Scheduler
B.  
Balancer
C.  
Spreader
D.  
Reporter
Câu 25: 1 điểm
Thuộc tính được sử dụng để đặt hệ thống tệp mặc định cho Hadoop trong
A.  
core-site.xml là
B.  
filesystem.default
C.  
fs.default
D.  
fs.defaultFS
E.  
hdfs.default
Câu 26: 1 điểm
Tùy chọn nào trong số này không phải là tùy chọn lập lịch có sẵn với YARN?
A.  
Optimal Scheduler
B.  
FIFO scheduler
C.  
Capacity scheduler
D.  
Fair scheduler

Đề thi tương tự

Đề Thi Ôn Luyện Lý Thuyết Kiểm Toán - Đại Học Điện Lực (Miễn Phí, Có Đáp Án)Đại học - Cao đẳng

1 mã đề 40 câu hỏi 1 giờ

19,6661,495

Đề Thi Ôn Luyện Lịch Sử Đảng - Đại Học Vinh (Miễn Phí, Có Đáp Án)Đại học - Cao đẳngLịch sử

2 mã đề 80 câu hỏi 1 giờ

43,9403,393

Đề thi Ôn luyện môn Cơ sở dữ liệu SQL HUBT có đáp ánĐại học - Cao đẳngCông nghệ thông tin

3 mã đề 141 câu hỏi 1 giờ

143,80111,052

Đề Thi Ôn Luyện Triết Học Mác - Lênin (Miễn Phí, Có Đáp Án)Đại học - Cao đẳngTriết học

2 mã đề 84 câu hỏi 1 giờ

35,5882,737

Đề Thi Ôn Luyện Kinh Tế Vĩ Mô Chương 2 - Phần 2 Miễn Phí, Có Đáp ÁnĐại học - Cao đẳng

1 mã đề 48 câu hỏi 1 giờ

90,2326,937

Đề Thi Ôn Luyện Môn Sản 1 VMU - Đại Học Y Khoa Vinh Miễn Phí, Đáp Án Chi TiếtĐại học - Cao đẳng

2 mã đề 78 câu hỏi 1 giờ

12,448953