Chương này, cùng với chương 3, trình bày các kỹ thuật hiệu quả để load, lưu trữ và xử lý dữ liệu trong bộ nhớ của Python. Chủ đề này rất rộng vì: tập dữ liệu có thể đến từ nhiều nguồn và định dạng khác nhau, bao gồm các bộ tài liệu, hình ảnh, âm thanh, đo lường số liệu hoặc gần như bất cứ thứ gì khác. Mặc dù có vẻ không đồng nhất, nhưng việc nghĩ về tất cả dữ liệu từ góc độ cơ bản là các mảng số sẽ giúp chúng ta.
Ví dụ, hình ảnh – đặc biệt là hình ảnh kỹ thuật số – có thể được xem như đơn giản là các mảng hai chiều các số đại diện cho độ sáng của các pixel trên không gian. Đoạn âm thanh có thể được xem như các mảng một chiều của cường độ âm thanh theo thời gian. Văn bản có thể được chuyển đổi thành các biểu diễn số theo nhiều cách khác nhau, có thể là các con số nhị phân đại diện cho tần số của các từ hoặc cặp từ. Bất kể dữ liệu là gì, bước đầu tiên trong việc phân tích nó sẽ là biến đổi chúng thành các mảng số. (Chúng ta sẽ thảo luận về một số ví dụ cụ thể của quá trình này sau trong Feature Engineering).
Vì lý do này, việc lưu trữ và xử lý hiệu quả các mảng số là hoàn toàn cơ bản trong quá trình thực hiện khoa học dữ liệu. Bây giờ chúng ta sẽ xem xét các công cụ chuyên dụng mà Python cung cấp để xử lý các mảng số này: gói NumPy và gói Pandas (được thảo luận trong Chương 3).
Chương này sẽ tập trung vào NumPy chi tiết. NumPy (viết tắt của Numerical Python) cung cấp một giao diện hiệu quả để lưu trữ và thực hiện các hoạt động tính toán trên các bộ nhớ đệm. Một số cách, các mảng NumPy giống như kiểu list
của Python, nhưng các mảng NumPy cung cấp lưu trữ và thao tác dữ liệu hiệu quả hơn nhiều khi các mảng trở nên lớn hơn. Các mảng NumPy tạo thành lõi của hầu hết toàn bộ hệ sinh thái các công cụ khoa học dữ liệu trong Python, vì vậy thời gian dành để học cách sử dụng NumPy một cách hiệu quả sẽ có giá trị bất kể khía cạnh nào của khoa học dữ liệu bạn quan tâm.
Nếu bạn tuân thủ lời khuyên được trình bày trong Lời Nói Đầu và đã cài đặt bộ công cụ Anaconda, bạn đã có NumPy được cài đặt và sẵn sàng sử dụng. Nếu bạn là người thích tự làm, bạn có thể truy cập http://www.numpy.org/ và làm theo hướng dẫn cài đặt tại đó. Khi đã cài đặt, bạn có thể nhập NumPy và kiểm tra phiên bản:
Nếu bạn vẫn chưa cài numpy, có 1 cách khác là cài đặt pip, sau đó chạy lệnh pip install numpy
trên CMD của bạn
Nhắc lại về Tài liệu tích hợp sẵn¶
Khi đọc qua chương này, đừng quên rằng Jupyter Notebook cho phép bạn khám phá nhanh nội dung của một package (bằng cách sử dụng tính năng tab-completion), cũng như tài liệu của các hàm khác nhau (sử dụng ký tự ?
– Xem lại Trợ giúp và tài liệu trong IPython).
Ví dụ, để hiển thị tất cả các nội dung của không gian tên numpy, bạn có thể gõ như sau:
In [3]: np.<TAB>
Và để hiển thị tài liệu tích hợp sẵn của NumPy, bạn có thể sử dụng đoạn mã này:
In [4]: np?
Có thể tìm thấy tài liệu chi tiết hơn, cùng với các hướng dẫn và tài nguyên khác, tại http://www.numpy.org.