Lộ trình bắt đầu tin sinh học và khoa học dữ liệu

Nên bắt đầu học bioinformatics/ data science từ đâu?
Mình thấy có nhiều câu hỏi của các bạn sinh viên muốn bước vào bioinfor và data science nói chung dạo gần đây. Nhớ lại ngày trước mình cũng khá vất vả khi bắt đầu vì không biết bắt đầu từ đâu.
Các bạn có thể xem thêm video với giải thích cụ thể ở đây:
Dựa theo kinh nghiệm của mình từ 1 người học biology sang làm bioinfor và ds chuyên nghiệp (5 năm kn phát triển bioinfor tools và apply bioinfor trong nghiên cứu) thì có 4 điểm chính sau đây cần thiết để bắt đầu học và làm bioinfor cũng như data science.
- Làm việc với linux và terminal: Do đặc điểm riêng của ngành là tính toán trên dữ liệu lớn - vài TB là bình thường, nên cần phải sử dụng high performance computer, những máy chủ này đa số cài sẵn linux, nên các phần mềm, package chuyên dụng chỉ có ở linux. Vì vậy, sử dụng thành thạo linux và terminal là bắt buộc.
Giao diện terminal Ubuntu
-
Chọn và dùng thành thạo 1 code editor or IDE: Dù bạn ko cần viết phần mềm đi nữa, thì bạn vẫn phải code để vẽ hình, chạy phần mềm linux, và nhu cầu automate các steps (pipeline) sẽ đến như điều tự nhiên, do đó cần phải sử dụng code editor để viết và lưu code cho thuận tiện. Nghe thì naive, nhưng khi mới bắt đầu, mình đoán là ko ít bạn lưu code trên word or ggdocs 😃
-
Nắm vững kiến thức thống kê cơ bản: Làm việc với data thì kiến thức thống kê cơ bản bắt buộc phải biết, ít nhất là hypothesis testing… vì làm nghiên cứu y sinh nói chung thì luôn cần đến thống kê để chứng minh giả thuyết có work hay không. Ngoài ra, lý thuyết xác xuất cũng quan trọng, về cơ bản, mấy cái này học thì chán, mà không biết thì làm gì cũng khó 😃
-
Chọn và bắt đầu học programming language: Thường mọi người sẽ dùng R hoặc python khi mới bắt đầu, theo kinh nghiệm thì nên học ngôn ngữ mà những người xung quanh của bạn dùng, điều này sẽ giúp học vui hơn và nhanh hơn, cũng như dễ hỏi khi bị kẹt. Theo mình chỉ nên học cơ bản rồi bắt đầu project thực thế, learning by doing sẽ thú vì và hiệu quả hơn học chay rất nhiều. Mình có giải thích chi tiết và minh họa ở video dưới comment, hy vọng bài post hữu ích cho các bạn mới : )). Còn các chuyên gia lâu năm thì cho em xin đừng chặt chém vì là kinh nghiệm cá nhân nên mỗi người mỗi khác 😃
Comments