Trong những đợt nghỉ về nhà, tôi thường thích ngồi đọc sách, những quyển sách chị để lại khi đi du học, cạnh khu vườn xanh ngát của nhà và trong khí trời tuyệt đẹp của Dak Lak.
Trong đó, có một đoạn tôi đọc được hồi mới học Data Science, mà kinh ngạc về sự liên kết kỳ diệu giữa những tri thức, như một biểu đồ các điểm sáng lấp lánh, được nối với nhau dù cách hàng thiên niên kỷ.
“Plato, trong luận đề loại suy về cái hang nổi tiếng của mình, đã ví con người chúng ta như các tù nhân bị xích chặt vào một vách thấp trong một cái hang, không thể xoay mình để tận mắt nhìn thấy các hành động sinh sống của những con người tự do cạnh một đống lửa lớn trên bệ cao ở phía sau. Thay vào đó, do bị xiềng xích ghìm chặt, chúng ta chỉ nhìn thấy những cái bóng của chính mình lẫn vào các hình bóng nhập nhòa của những con người tự do kia, hắt lên vách hang đối diện với lũ người tù chúng ta. Bộ máy tri giác của chúng ta bắt ta phải tin những hình ảnh người và vật chập chờn ấy chính là những cái “có thực”, và chúng ta rút ra bản chất của thực tại chỉ từ những thông tin thứ cấp gián tiếp ấy.”
“Leonard Shlain. “Nghệ Thuật và Vật Lý”
Trong Khoa Học Dữ Liệu cũng có một tri thức tương tự, sự thiếu chiều dữ liệu. Diễn ra khi các dữ liệu mà ta thu thập được thiếu đi một vài cột nào đó khiến những mục tiêu như dự đoán, chia cụm trở nên không chính xác. Dấu hiệu rõ ràng để nhận biết việc này là khi ta nhìn từ ngoài, biết rõ các mẫu hoàn toàn khác nhau, nhưng lại có thuộc tính hoàn toàn giống nhau. Tuy nhiên, các mô hình, thứ học trên những dự liệu nó được thấy đó lại không hề biết điều này khi chia cụm, hoặc dù biết trong trường hợp phân lớp, hồi quy thì cũng dẫn đến sai sót trong nhận thức.
Tôi luôn cho rằng, thứ mà machine learning hướng tới là bắt chước sự nhận thức của loài người. Mà nhờ sự liên kết dễ hình dung đó, việc học machine learning trở nên dễ dàng hơn, vì đơn giản là những ý tưởng gắn với điều rất thân thuộc, bản thân ta. Cũng chính vì vậy mà tôi nhận thấy những khiếm khuyết mà ta coi như mặc nhiên.
Liệu ta có nhìn thế giới đúng với hình dạng của nó? 5 giác quan như 5 trường dữ liệu lớn mà ta tiếp thu thông tin từ thế giới. Không phải tất cả các thông tin mà ta có được đều từ 5 giác quan, mà có cả từ suy nghĩ, tuy nhiên đây không thể xem là một trường dữ liệu, vì đây là một hành động dựa trên những dữ liệu mà ta đã có – thứ được thu nhận từ 5 giác quan – “5 features”. 5 chiều dữ liệu rõ ràng là đủ để thế giới loài người phát triển như hiện tại, nhưng có những điều con người ta không thể nào giải thích được, mà theo tôi, điều ấy không phải do ta không thể suy luận từ kiến thức đã có, mà đã do ngay từ bước căn bản khi ta “tiếp thu thông tin”.
Điều này, ta cũng thấy ở Vật Lý hay Toán Học, khi các nhà khoa học vĩ đại tính toán ra được các hằng số đẹp đẽ, nhưng ta lại không hiểu tại sao lại là con số ấy, phải chăng nếu ta có thể nhìn nhận thêm bằng một giác quan khác, ta có thể giải thích được điều đó?
Hay lần tới, khi ta thấy một vật, một đôi đũa, một cái chén, thứ do chính con người tạo nên, biết đâu nó lại ẩn giấu một chiều dữ liệu nào đó mà ta không hề hay biết.
Xem thêm: Concept Drift, hidden context
test