6

Với sự cường điệu dữ liệu lớn của hiện tại, có một nhu cầu lớn đối với các nhà khoa học dữ liệu lành nghề và hiểu biết. Thực tế là nhu cầu về khoa học dữ liệu rất lớn và số lượng các nhà khoa học dữ liệu có tay nghề rất hạn chế đang tăng vọt và thu hút ngày càng nhiều người từ các nền tảng khác nhau làm việc trong lĩnh vực thú vị này.

Với các khách hàng và chủ doanh nghiệp có kiến ​​thức rất hạn chế trong lĩnh vực này, thật dễ dàng cho cái gọi là, các nhà khoa học dữ liệu giả, "bị dụ bởi tốc độ cao, nhảy vào và có thể phá hỏng dự án vì khoa học dữ liệu thường liên quan đến cốt lõi chức năng kinh doanh của một ứng dụng, trang web, v.v.

Dưới đây là một vài ví dụ thực tế từ kinh nghiệm của tôi. Tất nhiên, tên thực tế sẽ bị bỏ qua vì chúng tôi, với tư cách là một công ty trẻ, quan tâm đến việc thuê các nhà phát triển hơn là luật sư ở giai đoạn này.

Người 1 đã tạo ra một mô hình phân loại và tuyên bố rằng nó có độ chính xác 99%. Độ chính xác tuyệt vời đó luôn là một lá cờ đỏ. Sau khi xem xét mã của người 1, rõ ràng họ đã lấy toàn bộ dữ liệu vào Weka và chạy một mô hình phân loại. Vì vậy, không thu thập dữ liệu, không phân tích thăm dò, không có bộ kiểm tra, không có bộ xác nhận, chỉ có một bộ dữ liệu lớn, ngon ngọt với mô hình được trang bị quá mức trên nó. Và ta-da! Điều này đã được trình bày như một thành công lớn cho khách hàng, mọi người đều vui mừng cho đến khi dữ liệu mới xuất hiện và dự đoán của mô hình này chỉ là khủng khiếp. 

Người 2 có tỷ lệ hàng giờ mà phần lớn chúng ta sẽ giết. Nền tảng của anh là giao dịch tài chính với một danh mục các dự án thú vị, do đó, việc anh có được một dự án với dự đoán giá là tương đối dễ dàng. Sau khi chi một khoản ngân sách khổng lồ cho startup đó, các dự đoán rất tệ và cộng với việc tạo mô hình hàng ngày là một quá trình dài, sử dụng máy 32 lõi trên AWS, khá tốn kém.

Khi xem xét mã của người 2, tôi nhận thấy rằng mã R thực tế được viết bởi một nhà phát triển rất lành nghề, nhưng một số quyết định liên quan đến các tính năng thực sự lạ, ví dụ: tính năng thời gian chỉ được chuyển thành giá trị nguyên (!) Và được sử dụng trong mô hình . Tôi hy vọng rằng từ giá trị thời gian, chúng ta có thể trích xuất các tính năng như ngày, tháng, năm, v.v. và sau đó sử dụng các tính năng này trong việc tạo mô hình. Tất nhiên, sau khi sửa lỗi này, độ chính xác tăng lên đáng kể. Cuối cùng, điều gây sốc nhất là tôi đã có thể thấy rằng 95 phần trăm mã chỉ là sao chép / dán từ tài khoản github của một số người khác. Vì vậy, trong trường hợp này, công thức là: lấy mã của ai đó từ mạng, thêm một cái gì đó trông giống như một số công việc khoa học dữ liệu nhưng thực sự tồi tệ và cuối cùng tính phí đó cho khách hàng không nghi ngờ. 

Mất tiền không phải là điều tồi tệ nhất có thể xảy ra. Thời gian là một nguồn tài nguyên quý giá và bỏ lỡ cửa sổ cơ hội nổi tiếng của cơ hội có thể làm hỏng việc kinh doanh của bạn. Làm thế nào bạn có thể lọc và thuê chỉ các nhà khoa học dữ liệu lớn có lẽ là một câu hỏi đáng giá triệu đô la. Tuy nhiên, có một vài ý tưởng có thể giúp bạn: 

  • Kiểm tra một số câu hỏi tuyệt vời cho các ứng cử viên được đưa ra ở đây . Nó chắc chắn sẽ ngăn chặn rất nhiều những người giả mạo

  • Hỏi xem họ có biết kaggle là gì không, họ có tài khoản không và họ đã từng tham gia bất kỳ cuộc thi nào chưa.

  • Kiểm tra tài khoản stack-overflow và github của họ để xem trọng tâm của họ là gì và họ sử dụng công nghệ nào.

  • Hỏi về các dự án trước đó, tìm hiểu vai trò của ứng viên, cách họ giải quyết các vấn đề như khởi động lạnh lùng , "quá trình diễn ra từ bằng chứng về khái niệm cho đến khi sản xuất, v.v.

Cuối cùng, cung cấp cho họ một dự án thử nghiệm ngắn, ví dụ nếu dự án của bạn có liên quan đến phân loại, hãy tìm một số bộ dữ liệu có sẵn miễn phí và yêu cầu họ thực hiện phân tích dữ liệu và tạo mô hình phân loại. Khi bạn nhận được báo cáo và mã, hãy tìm những thứ này: 

  • Kiểm tra các bước tiền xử lý trên tập dữ liệu như: Làm sạch, chuẩn hóa, rời rạc, v.v.

  • Có bất kỳ phân tích thăm dò hiện tại? ví dụ: có bất kỳ lô khác nhau nào hiện diện để trực quan hóa dữ liệu, là các ngoại lệ được xác định, v.v.

  • Là cuốn sách mã được tạo ra?

  • Có một bước giảm kích thước hiện tại? Điều này khá quan trọng bởi vì kịch bản kiddies của người Viking thường không biết gì về bước này.

  • Có một bộ xe lửa và thử nghiệm? Làm thế nào bộ thử nghiệm được tạo ra (chỉ lấy mẫu ngẫu nhiên hoặc lấy mẫu phân tầng)?

  • Có bất kỳ số liệu và mô hình giới thiệu hiện tại?  

  • Điều gì về phương pháp tập hợp để cải thiện kết quả phân loại?

  • Sử dụng đường ống ML ? Hiện tại có trong Apache Spark mllib và python? Nếu có, đó là một điểm cộng lớn.

  • Sử dụng xác nhận chéo trong quá trình đào tạo mô hình? Điều này rất quan trọng vì nó sẽ cung cấp các tham số mô hình tốt nhất cho tập dữ liệu.

Hy vọng, toàn bộ quá trình giải thích ở trên sẽ tương đối dễ dàng và thú vị đối với các nhà khoa học dữ liệu thực và cơn ác mộng đối với những người giả mạo. Tôi đã thử nó khi làm việc với một trong những khách hàng trước đó và chúng tôi rất hài lòng với kết quả. Trên thực tế, một trong những người rất thành công với dự án thử nghiệm này đã trở thành ông chủ của tôi trong nhóm khoa học dữ liệu chỉ hai tháng sau khi gia nhập công ty. So sánh tình huống mà cả nhóm được hưởng lợi và học hỏi từ nhà khoa học dữ liệu mới so với tình huống mà anh chàng mới thực sự vô dụng và phá hỏng toàn bộ dự án. Tôi đoán đây là một lựa chọn khá dễ dàng để thực hiện.


|