Bắt đầu từ một dịp tình cờ biết đến Data Science, tới giờ đã 2 năm từ khi tôi trở thành Data Scientist tại TMA Solutions Bình Định, cùng với nhiều thử thách, cũng như thành công mà tôi đã được trải qua. Kể lại một chút về lúc trước, khi tôi còn là sinh viên khoa Toán trường đại học Quy Nhơn, chuẩn bị tốt nghiệp, tôi đã thử đăng ký vào kỳ Internship về khoa học dữ liệu tại TMA Solutions Bình Định, mở ra con đường mới và nhiều cơ hội mới để phát triển bản thân. Quãng thời gian một năm không quá ngắn, cũng không phải là quá dài, nhưng cũng đủ để tôi bước chân vào lĩnh vực mà cách đây mấy năm, tôi chưa từng có suy nghĩ là mình sẽ làm việc.
TMA Solutions là một công ty outsource, vì vậy, công việc của mình phải tiếp lúc với nhiều khách hàng khác nhau, nhiều yêu cầu khác nhau, vì vậy, công việc của mình luôn luôn phải thay đổi liên tục. Data Science là một lĩnh vực không còn mới nữa, nhưng ở Việt Nam nó vẫn còn chưa phổ biến, và cũng như những ngành khác trong thời đại công nghệ, mọi thứ luôn liên tục thay đổi hàng ngày hàng giờ, vì vậy, tôi phải luôn học hỏi những kiến thức mới mới, nghiên cứu những công nghệ mới mà có thể giải quyết những vấn đề cho khách hàng. Khoa học dữ liệu, đúng với tên gọi của nó, là khoa học về việc quản trị và phân tích dữ liệu để tìm ra các hiểu biết, các tri thức hành động, các quyết định dẫn dắt hành động. Đối với mỗi yêu cầu từ phía khách hàng, sẽ có những dữ liệu khác nhau trên những lĩnh vực khác nhau và cách thức xử lý khác nhau, và phương thức quan sát, phân tích khác nhau. Nhưng về cơ bản, công việc tôi làm hàng ngày là quan sát, phân tích, và xử lý dữ liệu để huấn luyện (training) machine learning model nhằm dự đoán và đưa ra hướng đi cho một vấn đề nhất định. Điều làm tôi cảm thấy thú vị chính là Data Science là sự kết hợp của toán học (thống kê toán học), công nghệ thông tin (máy học) và tri thức của lĩnh vực ứng dụng cụ thể, điều này có nghĩa là khi làm việc, tôi vừa có thể sử dụng những kiến thức toán học tôi đã được học ở trường đại học, vừa làm lập trình, vốn là đam mê của tôi, vừa có cơ hội tìm hiểu thêm những tri thức mới trên những lĩnh vực khác. Ví dụ như có lần, tôi cần nghiên cứu về việc làm sao để dự đoán được độ ẩm của đất dựa trên các yếu tố môi trường để nghiên cứu về cây trồng, đòi hỏi tôi phải nghiên cứu hàng tá tài liệu liên quan tới đất đai, nông học, và thế là từ một Data Scientist, tôi có thể trở thành một “anh nông dân” về quê cuốc đất trồng cây nếu một mai thất nghiệp. Và như thế cứ qua mỗi dự án, tôi lại có cho mình một rổ kiến thức về đủ thứ trên đời.
Về phía cá nhân, công việc Data Scientist vừa giúp tôi có việc làm, vừa thỏa mãn đam mê, vừa mang lại cho tôi nhiều kiến thức, mặt khác, nó giúp những khách hàng, những doanh nghiệp, tổ chức hay cá nhân giải quyết được các vấn đề, đưa trí tuệ nhân tạo vào trong business để tạo ra hiệu quả tích cực. Xa hơn nữa, Data Science còn được sử dụng trong các lĩnh vực cốt yếu như hỗ trợ chẩn đoán bệnh trong y tế, dự báo rủi ro trong các ngành kinh tế hay là cả việc thay đổi giá cả trong lĩnh vực thương mại… Và những khả năng này đang góp phần thay đổi cuộc sống, thay đổi nhân loại theo hướng tích cực.
Đến với Data Science, có lẽ yếu tố giúp tôi nhiều nhất đó là tinh thần ham học hỏi. Tôi thường thấy hứng thú với những thứ mới lạ, và thích dành nhiều thời gian để tìm hiểu về nó. Nhờ đó tôi có hứng thú với những dữ liệu hơn và muốn tìm ra mối liên hệ giữa chúng với thực tế. Hơn nữa hàng ngày hàng giờ đều có những phương pháp mới, những bài nghiên cứu mới được tạo ra, và khả năng tìm tòi học hỏi giúp tôi không bị lạc lại phía sau. Một đặc điểm khác về tính cách cũng giúp tôi rất nhiều trong công việc, đó là tính tỉ mỉ. Hơn bất cứ cái gì khác, dữ liệu có muôn hình vạn trạng, có lúc là chữ, có lúc là số, có lúc không phải chữ cũng không phải số, kèm theo đó là một số lượng rất lớn, đôi khi là vài ngàn bản ghi, đôi khi nặng tới hàng trăm Gigabyte bộ nhớ. Việc này đòi hỏi một Data Scientist phải tỉ mỉ từ việc xử lý cho đến quan sát và phân tích dữ liệu, và phải nhạy bén trong việc tìm ra những features (thuộc tính) nằm ẩn sâu bên trong dữ liệu. Mặt khác, về kiến thức, kỹ năng, như đã nói, mỗi dự án về Data Science sẽ có những dữ liệu khác nhau, những yêu cầu khác nhau nhưng nhìn chung, một Data Scientist đòi hỏi phải có kiến thức về cả 4 phần Khai thác dữ liệu (Data mining), Thống kê (Statistic), Học máy (Machine learning), Phân tích (Analyze) và Lập trình (Programming). Tùy thuộc vào vai trò của bạn là Data Engineer, Data Scientist hay Machine learning Engineer, sẽ tập trung vào một phần kiến thức nhất định, nhưng đều sẽ cần những hiểu biết cơ bản về những kiến thức này. Tôi may mắn vì đã có nền tảng toán học ở trường đại học như mảng Đại số tuyến tính, xác suất thống kê, giải tích… và tự học được một ít lập trình nên việc tiếp cận với phân tích, thống kê, hay machine learning cũng dễ dàng hơn nhiều. Còn nếu xuất thân từ IT, có lẽ tôi sẽ cần nhiều thời gian hơn để có thể xây dựng nền tảng kiến thức về toán cho Data Science.
Để cụ thể, thì đây là những gì tôi nghĩ sẽ cần thiết cho một Data Scientist:
- Về nền tảng toán học: 3 nhánh quan trọng đó là Linear Algebra, Probability statistics and Calculus, có thể bám theo một giáo trình nào đó. Quan trọng là khi nắm được các khái niệm cơ bản, bạn có thể đọc và hiểu được các paper nghiên cứu khác trên mạng.
- Về lập trình: ngôn ngữ được sử dụng phổ biến nhất là Python, khi có trong tay một công cụ mà mình nắm rõ cách sử dụng, nó sẽ giúp ta trong rất nhiều việc. Python là một ngôn ngữ đơn giản mà tôi thường dùng nó để làm tất cả mọi thứ từ xử lý dữ liệu cho đến phân tích, trực quan hóa dữ liệu, xây dựng Machine learning model…
- Sau khi có những kiến thức trên, lời khuyên của tôi là nên học một khóa học online về Data Science (https://www.coursera.org/professional-certificates/ibm-data-science). Khóa học này có thể cho bạn kiến thức về Data Science là gì, quy trình giải quyết bài toán trong khoa học dữ liệu, cũng như những cách thức phân tích dữ liệu, một số thuật toán trong machine learning…
- Data mining: phần này đòi hỏi nhiều kinh nghiệm, vì vậy, kiến thức này có thể chắt lọc trong quá trình học tập cũng như làm việc. hay có thể học hỏi từ những bài blog trên mạng.
Cũng chính vì yêu cầu cao về kiến thức, kỹ năng cũng như phân tích, và những giá trị mà Data Science mang lại, hiện nay, nghề Data Scientist đang là một nghề hot trên thế giới và nhiều công ty, doanh nghiệp sẵn sang trả một mức lương khá khẩm cho vị trí này. Con số này ở Việt Nam cũng dao động từ 12 cho tới 40 triệu. Còn riêng mức lương của tôi, tôi xin phép giữ bí mật. Khởi đầu trên con đường Data Scientist, tôi nghĩ mình có nhiều con đường thuận lợi cho sự nghiệp cũng như có nhiều phương hướng để phát triển sau này vì như đã nói, Data Science đang là một ngành hot.
Không có con đường nào trải đầy hoa hồng, thành công chỉ đến với những người luôn luôn cố gắng. Những con số, những lời nói ở trên cũng chỉ là một bức tranh thành công và chỉ sở hữu được nó nếu ta trả một cái giá xứng đáng. Tôi đến với công việc này vừa là vì đam mê nhưng cũng đã bỏ nhiều công sức để học tập, trau dồi kỹ năng cho bản thân. Dù hàng ngày vẫn gặp nhiều khó khăn khi luôn phải không ngừng học tập những kiến thức mới, đôi lúc cũng trải qua căng thẳng, stress khi làm việc với deadline, rồi có khi lại bị sai sót, quở trách nhưng khi nhìn lại những gì đã trải qua, tôi luôn thấy hài lòng về những gì mình đã làm được.