CUỘC CÁCH MẠNG KHOA HỌC KẾ TIẾP - KỲ 1


Người dịch: Bùi Hồng Hạnh – Học viện Ngân Hàng
Thẩm định: ThS Nguyễn Quang Hiếu – Đại học Ngoại Thương
Tác giả: Tony Hey

Bài báo này được xuất bản nguyên gốc dưới tên tiếng Anh “The Next Scientific Revolution”, Tạp chí Kinh doanh Harvard, số tháng 11, năm 2010. Bản quyền thuộc Nhà xuất bản trường kinh doanh Harvard. Bản dịch này được thực hiện bởi tổ chức The Keynesian năm 2015.

[Tóm tắt ý tưởng]
Nhờ khả năng thu thập và xử lý những lượng lớn dữ liệu của chúng tôi, các nhà khoa học giờ đây có khả năng giải quyết được một số vấn đề lớn nhất của thế giới. Nhưng trước đó thì chúng tôi không biết cách kết hợp các tập dữ liệu phù hợp để tìm ra những xu hướng quan trọng.
Bước ngoặt: Bằng cách tối ưu hóa sức mạnh điện toán của thế kỷ 21, chuyên môn của con người, và một hướng tiếp cận có hệ thống để lưu trữ và khai thác thông tin, các nhà khoa học đang bắt đầu đạt được những đột phá thật sự. Họ cũng giúp các chuyên gia khác – và thậm chí là công chúng – có thể tiếp cận được với quá trình này thông qua việc làm cho dữ liệu của mình minh bạch và sẵn có.
Niềm hy vọng cho tương lai: Ngày nay các nhà nghiên cứu ở Microsoft và các tổ chức khác đang sử dụng những phương pháp này để giải quyết các vấn đề trong thiên văn học, hải dương học, y tế, quản lý nguồn nước, và biến đổi khí hậu. Những công cụ này cũng có tiềm năng mang lại những cải tiến toàn diện cho công việc kinh doanh.

Ngày nay, một du khách dạo bước trên đại sảnh khuôn viên Trung tâm Nghiên cứu Microsoft tại Redmon, Washington, có thể nghe thấy những cuộc đàm đạo không chỉ về khoa học máy tính mà còn về rất nhiều những chủ đề khác, từ chuyện một thiên hà quay theo hướng nào, cho đến một loại vắc-xin cho mới cho bệnh AIDS, hay các chiến lược để quản lý nguồn nước sạch quý giá của trái đất.

Những vấn đề này có thể có điểm gì chung? Và tại sao Microsoft – rõ ràng là một công ty phần mềm – lại liên quan đến những vấn đề đó? Câu trả lời đơn giản là dữ liệu – những kho dữ liệu khổng lồ. Chúng lớn đến mức khi chúng tôi chạy các chương trình phân tích một vài trong số những cơ sở dữ liệu này, nhiệt độ của tòa nhà chứa 10,000 vi xử lý tăng lên đến vài độ. Ngày nay các nhà khoa học máy tính của chúng tôi nhận ra bản thân họ chính là đối tác với các nhà khoa học hàng đầu trong nhiều lĩnh vực khác nhau – thiên văn học, sinh học, hóa học, thủy văn học, đại dương học, vật lý học, và động vật học, và nhiều lĩnh vực khác nữa – họ nỗ lực nghiên cứu các vấn đề như chế tạo thuốc, năng lượng thay thế, và kiểm soát chi phí y tế. Và, đúng vậy, cả những dự án phần mềm thương mại nữa. Chúng tôi tin rằng một thế hệ mới gồm các công cụ phần mềm, vốn hỗ trợ quá trình cộng tác và khai thác dữ liệu trên quy mô chưa từng có, sẽ cho phép các khám phá mang tính cách mạng trong những lĩnh vực này.

Trong hàng chục năm các nhà khoa học máy tính đã cố gắng "dạy" máy tính cách suy nghĩ như các chuyên gia bằng xương bằng thịt bằng cách gắn cho chúng những quy tắc phức tạp về ngôn ngữ học và lý trí. Cho đến nay, phần lớn các nỗ lực đó đã không thể tiến gần tới việc tạo ra những hiểu biết sâu sắc và giải pháp sáng tạo mà các nhà khoa học, thầy thuốc, kĩ sư, và chuyên gia tiếp thị giỏi nhất có thể dễ dàng có được. Những chuyên gia tài năng nhất không chỉ có hiểu biết sâu sắc về dữ liệu mà còn có thể nhìn nhận được những khả năng rất ít khi xảy ra; họ có thể tìm ra những mối liên hệ không rõ ràng trong hoặc giữa nhiều lĩnh vực, đó là điều tạo ra sự khác biệt.

Tuy nhiên, chúng ta đã đạt được đến điểm mốc mà thậm chí những chuyên gia nói trên cũng đang phải ngụp lặn trong mớ dữ liệu. Dòng thông tin số tuôn chảy đến từ tất cả các loại cảm biến, thiết bị, và công cụ mô phỏng, lấn áp khả năng của chúng ta trong việc tổ chức, phân tích, và lưu trữ nó. Trong hàng thập kỷ, Định luật Moore đã tiên đoán chính xác rằng số lượng các bán dẫn có thể được sắp xếp trên một vi mạch tích hợp sẽ tăng gấp đôi sau mỗi hai năm, và cho đến gần đây, sự thu hẹp kích cỡ bán dẫn cũng đi kèm với sự gia tăng về hiệu quả hoạt động của vi xử lý. Ngày nay, để tăng hiệu quả hoạt động, chúng ta phải lập trình nhiều bộ xử lý trên các chip đa lõi và khai thác thuật toán song song. Cuộc cách mạng chip đa lõi đã xảy đến đúng vào thời điểm chúng ta phải đối mặt với sự gia tăng vượt bậc về dữ liệu. Sự tăng lên này không phải là một thách thức mà chúng ta có thể giải quyết được bằng các bản vá và nâng cấp; chúng ta phải xem xét lại toàn bộ hướng tiếp cận đối với ngành khoa học dữ liệu lớn của mình. Đó là lý do tại sao, nhiều năm trước, người đồng nghiệp quá cố và cũng là người được giải thưởng Turing của chúng tôi, Jim Gray, đã đề xuất cái mà ông gọi là “chuẩn thức thứ tư” cho hoạt động khám phá khoa học. Tầm nhìn của Jim về những công cụ mới đầy mạnh mẽ nhằm phân tích, minh họa, khai thác và vận dụng dữ liệu khoa học có thể là niềm hy vọng duy nhất mà chúng ta có được để giải quyết một số bài toán toàn cầu hóc búa nhất.
[Phụ chú 1: Bốn chuẩn thức của khoa học]
Lý thuyết
Bắt đầu từ Hy Lạp và Trung Quốc cổ đại, con người ta đã cố gắng giải thích những quan sát của mình thông qua các quy luật tự nhiên chứ không phải bằng những lý lẽ siêu nhiên.
Thí nghiệm
Cho đến thế kỷ 17, các nhà khoa học như Isaac Newton đã cố gắng đưa ra những dự đoán cho các hiện tượng mới và xác thực các giả thuyết bằng cách thực hiện thí nghiệm.
 Tính toán và mô phỏng
Sự xuất hiện của các máy tính có hiệu quả hoạt động cao vào nửa cuối thế kỷ 20 đã cho phép các nhà khoa học khám phá những lãnh vực mà thí nghiệm và lý thuyết không thể tiếp cận được, như xây dựng mô hình khí hậu hay sự hình thành của thiên hà, bằng việc giải nhiều hệ phương trình số học trên quy mô lớn với mức độ chi tiết đến tinh vi.
Khai thác dữ liệu
Khi sử dụng các máy tính mạnh hơn, các nhà khoa học bắt đầu với nguồn dữ liệu này và định hướng các chương trình để khai thác được các cơ sở dữ liệu khổng lồ để tìm ra các mối liên hệ. Thực tế, họ sử dụng máy tính để phát hiện ra những quy luật bằng cách nghiên cứu dữ liệu.
Hai chuẩn thức đầu tiên về khảo sát và khám phá khoa học, thí nghiệm và lý thuyết, có một lịch sử dài. Phương pháp thí nghiệm có lẽ bắt nguồn từ thời Hy Lạp và Trung Quốc, khi người ta cố gắng giải thích những quan sát của mình thông qua các quy luật tự nhiên chứ không phải bằng những lý do siêu nhiên. Ngành khoa học lý thuyết hiện đại bắt nguồn với Issac Newton trong thế kỷ 17. Sau khi các máy tính với hiệu quả hoạt động cao được phát triển vào nửa cuối thế kỉ 20, Ken Wilson, người đã đoạt giải Nobel, đã coi quá trình tính toán và mô phỏng như là chuẩn thức thứ ba của khám phá khoa học. Các mô phỏng chi tiết bằng máy tính có thể giải nhiều phương trình trên quy mô cực lớn, cho phép các nhà khoa học khám phá những lãnh vực mà thí nghiệm và lý thuyết không thể tiếp cận được, như xây dựng mô hình khí hậu hay sự hình thành của thiên hà.
Chuẩn thức thứ tư cũng liên quan đến các máy tính mạnh. Nhưng thay vì phát triển các chương trình dựa trên những quy luật đã biết, các nhà khoa học bắt đầu với dữ liệu. Họ định hướng các chương trình để khai thác được các cơ sở dữ liệu khổng lồ để tìm ra các mối liên hệ và tương quan, về bản chất là sử dụng các chương trình này để phát hiện ra những quy luật. Chúng tôi coi dữ liệu lớn là một phần của giải pháp đó, chứ không phải là vấn đề. Chuẩn thức thứ tư không cố gắng thay thế các nhà khoa học hay ba phương pháp luận còn lại, nhưng nó quả thực đòi hỏi một bộ kĩ năng khác hoàn toàn. Nếu không có khả năng khai thác các công cụ máy tính tinh vi để xử lý dữ liệu, thậm chí chuyên gia giỏi nhất cũng không bao giờ khám phá ra những kiến thức mà giờ đây mới bắt đầu được tập trung nghiên cứu.
Cứu sống nhiều sinh mạng với “Machine Learning” (Máy học)
Hãy bắt đầu với một ví dụ về một cách nghĩ giúp thúc đẩy dạng nghiên cứu này. Trong những năm 1980, đồng nghiệp của tôi là Eric Horvitz, trong đợt đào tạo ở một bệnh viện Chăm sóc sức khỏe cho Cựu chiến binh vốn là một phần trong chương trình học về y của ông ấy, đã quan sát được một hiện tượng khó chịu. Trong suốt mùa nghỉ lễ, số ca nhập viện vì đau tim có sung huyết tại bệnh viện này tăng mạnh. Mỗi năm lại có một số bệnh nhân, trước đó đã giữ cho bản thân được khỏe mạnh dù tim họ yếu, sẽ bị lên cơn đau sau một bữa ăn có muối trong kỳ nghỉ lễ. Lượng muối thêm vào đó khiến cho cơ thể họ giữ thêm chất lưu, làm cho phổi bị nghẽn và gây khó thở – và thường thì cuối cùng họ sẽ phải ghé thăm phòng cấp cứu.
Các ca trụy tim sau kì nghỉ lễ Tạ ơn đã gây ra những thiệt hại tài chính vô cùng nghiêm trọng. Những biến cố này có thể gây ra cái chết cho một số bệnh nhân, đôi khirất chóng vánh, nhưng cũng có thể kéo dài vài ngày đến vài tuần do suy giảm mạnh hệ sinh lý.Những bệnh nhân khác may mắn hơn thì ổn định trở lại, nhưng cũng phải tĩnh dưỡng trong một tuần hoặc hơn, và tiêu tốn 10,000 đô-la đến 15,000 đô-la chi phí vận hành hệ thống hệ thống Chăm sóc sức khỏe cho cựu chiến binh trên mỗi bệnh nhân (Ngày nay những hóa đơn đó còn cao hơn nhiều.)
Hơn hai chục năm sau, Eric và các đồng nghiệp của ông tại Trung tâm Nghiên cứu của Mircrosoft đã phát triển những phân tích có thể tiên đoán với độ chính xác đáng tin cậy về khả năng một bệnh nhân bị lên cơn đau tim sung huyết đã được ra viện có thể tái nhập viện trong vòng 30 ngày. Thành công này không dựa trên hoạt động lập trình máy tính để xem xét các câu hỏi mà một thầy thuốc chẩn bệnh sẽ hỏi bệnh nhân hay dựa trên một ước tính tổng quát về số lượng bệnh nhân tái nhập viện. Thay vào đó, kiến thức này đến từ cái mà chúng ta gọi là “machine learning” (máy học), quá trình mà các nhà khoa học máy tính định hướng một chương trình để xem xét một cơ sở dữ liệu khổng lồ – trong ví dụ này, là hàng trăm nghìn điểm dữ liệu liên quan đến hàng trăm biến có thực của khoảng 300,000 bệnh nhân. Cỗ máy này có khả năng “học” được hồ sơ của các bệnh nhân có khả năng tái nhập viện cao nhất bằng cách phân tích sự khác biệt giữa các trường hợp mà nó biết được kết quả. Sử dụng chương trình này, các bác sĩ sau đó có thể nhập hồ sơ dữ liệu của một bệnh nhân mới để xác định xác suất tái nhập viện của người này. 
Xét trên một khía cạnh nào đó, chúng tôi có được dự án này là nhờ một chuyên gia đã chỉ ra một mối liên hệ không rõ ràng: Eric không chỉ có bằng Tiến sĩ Y học mà còn có bằng Tiến sĩ khoa học máy tính, và ông nhận ra rằng các kỹ thuật máy-học tương tự như những kỹ thuật mà ông và nhóm của mình trước đấy vẫn dùng để phân tích xu hướng giao thông ở Seattle có thể có hiệu quả đối với thách thức quan trọng này trong ngành y tế. Vào năm 2003, họ đã phát triển các phương pháp dự đoán các vụ ùn tắc giao thông bằng cách phân tích những lượng dữ liệu khổng lồ, bao gồm thông tin về các luồng giao thông trên đường, bản tin thời tiết, tai nạn, sự kiện tại địa phương, và nhiều biến khác được thu thập trong nhiều năm. Chương trình mới của nhóm so sánh dữ liệu về các bệnh nhân, những người đã và chưa tái nhập viện, và tìm kiếm mối quan hệ khó nhận thấy trong bệnh án, bài test chẩn đoán, và thậm chí các yếu tố về kinh tế xã hội, như là người bệnh đó có sống một mình hay không. Sự tích hợp này không phải là không đáng xét đến: Ví dụ, thông tin về nơi ở của bệnh nhân, có thể nằm trong báo cáo của một người làm việc cho tổ chức xã hội, chứ không phải là ở trên một biểu đồ y học. Chỉ một bác sĩ tham gia chăm sóc bệnh nhân thì khó có thể xử lý lượng biến đủ lớn để đưa ra một tiên đoán như thế này.
Tác động về kinh tế của công cụ dự đoán này có thể cực kỳ lớn. Nếu như các thầy thuốc và bệnh viện biết được khả năng tái nhập viện của một bệnh nhân, họ có thể có những bước phòng chống phù hợp. Như Eric giải thích: “Đối với các tình trạng bệnh kinh niên như bệnh tim sung huyết, chúng tôi có thể thiết kế các chương trình xuất viện cho từng bệnh nhân cụ thể giúp mang lại một sự kết hợp hiệu quả giữa hoạt động giáo dục và giám sát, nhằm giúp cho người bệnh ở trong chế độ ổn định và an toàn. Những chương trình như thế có thể bao gồm việc y tá đến thăm hay gọi điện, hoặc thang đo đặc biệt thể hiện những thay đổi nguy hiểm trong mức cân bằng về chất lưu của người bệnh và thông báo những thay đổi này cho bác sĩ. Nếu như chúng ta có thể chi ra đến 500 hay 1000 đô la cho các chương trình hậu xuất viện dành cho những người bệnh vốn đã có khả năng cao phải tái nhập viện, thì chúng ta có thể giảm thiểu số ca tái nhập viện và thực tế chính là tiết kiệm tiền bạc trong khi nâng cao kết quả về sức khỏe.”
Không có gì ngạc nhiên khi các công ty bảo hiểm và chuỗi bệnh viện đang liên tục nói về điều này. Và cũng chẳng cần phải tưởng tượng nhiều để đưa ra được các loại hình doanh nghiệp khác có thể hưởng lợi từ khám phá về dữ liệu lớn này. 
Ở Phố Wall, các chương trình khai thác dữ liệu lớn hiện đã theo dõi “những động thái giao cảm”, hay các xu hướng giao dịch có liên quan giữa các công cụ đầu tư khác nhau. Nhiều quỹ phòng vệ và tổ chức quản lý vốn lớn đang đặt cược hàng triệu đô-la mỗi ngày dựa trên những mối quan hệ được phát hiện nhờ nghiên cứu dữ liệu nói trên.
Xét trên khía cạnh vận hành doanh nghiệp, các khả năng là vô hạn. Các công ty sẽ có thể thực hiện những phân tích khổng lồ về khách hàng và cơ hội kinh doanh bằng việc sử dụng những chương trình giúp phát hiện xu hướng về giá cả, thói quen mua hàng, khu vực địa lý, thu nhập hộ gia đình, và vô số các điểm dữ liệu khác.  Số lượng lớn dữ liệu về tính hiệu quả của quảng cáo, tỷ lệ giữ chân khách hàng và nhân viên, sự hài lòng của khách hàng, và quản trị chuỗi cung ứng sẽ cho phép các công ty đưa ra những dự đoán có ý nghĩa về cách hành xử của bất kì khách hàng hay nhân viên nào cũng như khả năng xuất hiện thiếu sót trong dịch vụ hoặc nguồn cung. Và chúng tôi nhận thấy ngày càng nhiều các công ty sử dụng kỹ thuật dữ liệu để xác định những bất thường trong các khoản chi trả và các khoản phải thu. Ví dụ, các chương trình này có thể dự đoán được số tiền có thể thu được từ doanh thu của các dịch vụ đã cung cấp. Một tổ chức cung cấp dịch vụ y tế mà chúng tôi đã làm việc cùng tại New Mexico đã phát hiện ra 10 triệu đô-la bị trả thiếu trong sáu tháng đầu sử dụng các công cụ khai thác dữ liệu như vậy.
Tính chính xác của câu đùa “chỉ một nửa số tiền dành cho quảng cáo là thành công – chúng ta chỉ không biết là nửa nào mà thôi” sẽ không còn khi có các công cụ phân tích mới này. Một công ty cung cấp dịch vụ giải trí điện tử ở Phi-líp-pin hiện đang sử dụng công nghệ khai thác dữ liệu của Mircrosoft để tùy biến cách bán hàng theo từng khách hàng cá nhân, dựa trên phân tích bao quát về các yếu tố như xu hướng mua hàng trong quá khứ, tuổi tác, giới tính, tình trạng tài chính, và địa điểm. Gần như ngay lập tức sau khi áp dụng kỹ thuật này, công ty nhận thấy tỷ lệ phản hồi đối với những rao bán nhạc chuông và các sản phẩm khác tăng gấp đôi.
Với tất cả những cơ hội kinh doanh đó, một số người sẽ hỏi tại sao Trung tâm Nghiên cứu của Microsoft lại thực hiện quá nhiều dự án về sức khỏe và môi trường toàn cầu như thế. Cuối cùng thì, đó chẳng phải là những dự án mà Quỹ Bill & Melinda Gates có thể tài trợ sao? Đúng vậy, nhưng lý do mà Trung tâm Nghiên cứu của Microsoft có vài chục nhà khoa học máy tính nghiên cứu các dự án này là ở chỗ chúng liên quan đến một số kho dữ liệu khổng lồ và tạo nên một cơ sở nghiên cứu vô giá. Chúng tôi cần phải mở rộng lối tư duy của bản thân và khả năng của các công cụ bằng việc giải quyết những vấn đề lớn nhất, tình cờ đó lại là những vấn đề có tầm quan trọng vô cùng lớn đối với nhân loại. Việc giải quyết những vấn đề này cũng mở ra nhiều cơ hội hơn cho quá trình cộng tác và thử nghiệm. Khi các chuyên gia trong nhiều lĩnh vực khác nhau có một động cơ thuyết phục để cùng làm việc và chia sẻ dữ liệu trong một môi trường minh bạch, chúng tôi có thể tiến triển nhanh nhất. Như Jim Gray đã từng nói, dữ liệu về thiên văn học quý giá vì chúng không có giá trị thương mại. 


0 Response to "CUỘC CÁCH MẠNG KHOA HỌC KẾ TIẾP - KỲ 1"

Đăng nhận xét

Xem nhiều nhất

Xem nhiều nhất trong tháng