CUỘC CÁCH MẠNG KHOA HỌC KẾ TIẾP - KỲ 1 | The Keynesian

Người dịch: Bùi Hồng Hạnh – Học viện Ngân Hàng

Thẩm định: ThS Nguyễn Quang Hiếu – Đại học Ngoại Thương

Tác giả: Tony Hey

Bài báo này được xuất bản nguyên gốc dưới tên tiếng Anh “The Next Scientific Revolution”, Tạp chí Kinh doanh Harvard, số tháng 11, năm 2010. Bản quyền thuộc Nhà xuất bản trường kinh doanh Harvard. Bản dịch này được thực hiện bởi tổ chức The Keynesian năm 2015.

[Tóm tắt ý tưởng]

Nhờ khả năng thu thập và xử lý những lượng lớn dữ liệu của chúng tôi, các nhà khoa học giờ đây có khả năng giải quyết được một số vấn đề lớn nhất của thế giới. Nhưng trước đó thì chúng tôi không biết cách kết hợp các tập dữ liệu phù hợp để tìm ra những xu hướng quan trọng.

Bước ngoặt: Bằng cách tối ưu hóa sức mạnh điện toán của thế kỷ 21, chuyên môn của con người, và một hướng tiếp cận có hệ thống để lưu trữ và khai thác thông tin, các nhà khoa học đang bắt đầu đạt được những đột phá thật sự. Họ cũng giúp các chuyên gia khác – và thậm chí là công chúng – có thể tiếp cận được với quá trình này thông qua việc làm cho dữ liệu của mình minh bạch và sẵn có.

Niềm hy vọng cho tương lai: Ngày nay các nhà nghiên cứu ở Microsoft và các tổ chức khác đang sử dụng những phương pháp này để giải quyết các vấn đề trong thiên văn học, hải dương học, y tế, quản lý nguồn nước, và biến đổi khí hậu. Những công cụ này cũng có tiềm năng mang lại những cải tiến toàn diện cho công việc kinh doanh.

Ngày nay, một du khách dạo bước trên đại sảnh khuôn viên Trung tâm Nghiên cứu Microsoft tại Redmon, Washington, có thể nghe thấy những cuộc đàm đạo không chỉ về khoa học máy tính mà còn về rất nhiều những chủ đề khác, từ chuyện một thiên hà quay theo hướng nào, cho đến một loại vắc-xin cho mới cho bệnh AIDS, hay các chiến lược để quản lý nguồn nước sạch quý giá của trái đất.

Những vấn đề này có thể có điểm gì chung? Và tại sao Microsoft – rõ ràng là một công ty phần mềm – lại liên quan đến những vấn đề đó? Câu trả lời đơn giản là dữ liệu – những kho dữ liệu khổng lồ. Chúng lớn đến mức khi chúng tôi chạy các chương trình phân tích một vài trong số những cơ sở dữ liệu này, nhiệt độ của tòa nhà chứa 10,000 vi xử lý tăng lên đến vài độ. Ngày nay các nhà khoa học máy tính của chúng tôi nhận ra bản thân họ chính là đối tác với các nhà khoa học hàng đầu trong nhiều lĩnh vực khác nhau – thiên văn học, sinh học, hóa học, thủy văn học, đại dương học, vật lý học, và động vật học, và nhiều lĩnh vực khác nữa – họ nỗ lực nghiên cứu các vấn đề như chế tạo thuốc, năng lượng thay thế, và kiểm soát chi phí y tế. Và, đúng vậy, cả những dự án phần mềm thương mại nữa. Chúng tôi tin rằng một thế hệ mới gồm các công cụ phần mềm, vốn hỗ trợ quá trình cộng tác và khai thác dữ liệu trên quy mô chưa từng có, sẽ cho phép các khám phá mang tính cách mạng trong những lĩnh vực này.

Trong hàng chục năm các nhà khoa học máy tính đã cố gắng "dạy" máy tính cách suy nghĩ như các chuyên gia bằng xương bằng thịt bằng cách gắn cho chúng những quy tắc phức tạp về ngôn ngữ học và lý trí. Cho đến nay, phần lớn các nỗ lực đó đã không thể tiến gần tới việc tạo ra những hiểu biết sâu sắc và giải pháp sáng tạo mà các nhà khoa học, thầy thuốc, kĩ sư, và chuyên gia tiếp thị giỏi nhất có thể dễ dàng có được. Những chuyên gia tài năng nhất không chỉ có hiểu biết sâu sắc về dữ liệu mà còn có thể nhìn nhận được những khả năng rất ít khi xảy ra; họ có thể tìm ra những mối liên hệ không rõ ràng trong hoặc giữa nhiều lĩnh vực, đó là điều tạo ra sự khác biệt.

Tuy nhiên, chúng ta đã đạt được đến điểm mốc mà thậm chí những chuyên gia nói trên cũng đang phải ngụp lặn trong mớ dữ liệu. Dòng thông tin số tuôn chảy đến từ tất cả các loại cảm biến, thiết bị, và công cụ mô phỏng, lấn áp khả năng của chúng ta trong việc tổ chức, phân tích, và lưu trữ nó. Trong hàng thập kỷ, Định luật Moore đã tiên đoán chính xác rằng số lượng các bán dẫn có thể được sắp xếp trên một vi mạch tích hợp sẽ tăng gấp đôi sau mỗi hai năm, và cho đến gần đây, sự thu hẹp kích cỡ bán dẫn cũng đi kèm với sự gia tăng về hiệu quả hoạt động của vi xử lý. Ngày nay, để tăng hiệu quả hoạt động, chúng ta phải lập trình nhiều bộ xử lý trên các chip đa lõi và khai thác thuật toán song song. Cuộc cách mạng chip đa lõi đã xảy đến đúng vào thời điểm chúng ta phải đối mặt với sự gia tăng vượt bậc về dữ liệu. Sự tăng lên này không phải là một thách thức mà chúng ta có thể giải quyết được bằng các bản vá và nâng cấp; chúng ta phải xem xét lại toàn bộ hướng tiếp cận đối với ngành khoa học dữ liệu lớn của mình. Đó là lý do tại sao, nhiều năm trước, người đồng nghiệp quá cố và cũng là người được giải thưởng Turing của chúng tôi, Jim Gray, đã đề xuất cái mà ông gọi là “chuẩn thức thứ tư” cho hoạt động khám phá khoa học. Tầm nhìn của Jim về những công cụ mới đầy mạnh mẽ nhằm phân tích, minh họa, khai thác và vận dụng dữ liệu khoa học có thể là niềm hy vọng duy nhất mà chúng ta có được để giải quyết một số bài toán toàn cầu hóc búa nhất.

[Phụ chú 1: Bốn chuẩn thức của khoa học]

Lý thuyết

Bắt đầu từ Hy Lạp và Trung Quốc cổ đại, con người ta đã cố gắng giải thích những quan sát của mình thông qua các quy luật tự nhiên chứ không phải bằng những lý lẽ siêu nhiên.

Thí nghiệm

Cho đến thế kỷ 17, các nhà khoa học như Isaac Newton đã cố gắng đưa ra những dự đoán cho các hiện tượng mới và xác thực các giả thuyết bằng cách thực hiện thí nghiệm.

Tính toán và mô phỏng

Sự xuất hiện của các máy tính có hiệu quả hoạt động cao vào nửa cuối thế kỷ 20 đã cho phép các nhà khoa học khám phá những lãnh vực mà thí nghiệm và lý thuyết không thể tiếp cận được, như xây dựng mô hình khí hậu hay sự hình thành của thiên hà, bằng việc giải nhiều hệ phương trình số học trên quy mô lớn với mức độ chi tiết đến tinh vi.

Khai thác dữ liệu

Khi sử dụng các máy tính mạnh hơn, các nhà khoa học bắt đầu với nguồn dữ liệu này và định hướng các chương trình để khai thác được các cơ sở dữ liệu khổng lồ để tìm ra các mối liên hệ. Thực tế, họ sử dụng máy tính để phát hiện ra những quy luật bằng cách nghiên cứu dữ liệu.

Hai chuẩn thức đầu tiên về khảo sát và khám phá khoa học, thí nghiệm và lý thuyết, có một lịch sử dài. Phương pháp thí nghiệm có lẽ bắt nguồn từ thời Hy Lạp và Trung Quốc, khi người ta cố gắng giải thích những quan sát của mình thông qua các quy luật tự nhiên chứ không phải bằng những lý do siêu nhiên. Ngành khoa học lý thuyết hiện đại bắt nguồn với Issac Newton trong thế kỷ 17. Sau khi các máy tính với hiệu quả hoạt động cao được phát triển vào nửa cuối thế kỉ 20, Ken Wilson, người đã đoạt giải Nobel, đã coi quá trình tính toán và mô phỏng như là chuẩn thức thứ ba của khám phá khoa học. Các mô phỏng chi tiết bằng máy tính có thể giải nhiều phương trình trên quy mô cực lớn, cho phép các nhà khoa học khám phá những lãnh vực mà thí nghiệm và lý thuyết không thể tiếp cận được, như xây dựng mô hình khí hậu hay sự hình thành của thiên hà.

Chuẩn thức thứ tư cũng liên quan đến các máy tính mạnh. Nhưng thay vì phát triển các chương trình dựa trên những quy luật đã biết, các nhà khoa học bắt đầu với dữ liệu. Họ định hướng các chương trình để khai thác được các cơ sở dữ liệu khổng lồ để tìm ra các mối liên hệ và tương quan, về bản chất là sử dụng các chương trình này để phát hiện ra những quy luật. Chúng tôi coi dữ liệu lớn là một phần của giải pháp đó, chứ không phải là vấn đề. Chuẩn thức thứ tư không cố gắng thay thế các nhà khoa học hay ba phương pháp luận còn lại, nhưng nó quả thực đòi hỏi một bộ kĩ năng khác hoàn toàn. Nếu không có khả năng khai thác các công cụ máy tính tinh vi để xử lý dữ liệu, thậm chí chuyên gia giỏi nhất cũng không bao giờ khám phá ra những kiến thức mà giờ đây mới bắt đầu được tập trung nghiên cứu.

Cứu sống nhiều sinh mạng với “Machine Learning” (Máy học)

Hãy bắt đầu với một ví dụ về một cách nghĩ giúp thúc đẩy dạng nghiên cứu này. Trong những năm 1980, đồng nghiệp của tôi là Eric Horvitz, trong đợt đào tạo ở một bệnh viện Chăm sóc sức khỏe cho Cựu chiến binh vốn là một phần trong chương trình học về y của ông ấy, đã quan sát được một hiện tượng khó chịu. Trong suốt mùa nghỉ lễ, số ca nhập viện vì đau tim có sung huyết tại bệnh viện này tăng mạnh. Mỗi năm lại có một số bệnh nhân, trước đó đã giữ cho bản thân được khỏe mạnh dù tim họ yếu, sẽ bị lên cơn đau sau một bữa ăn có muối trong kỳ nghỉ lễ. Lượng muối thêm vào đó khiến cho cơ thể họ giữ thêm chất lưu, làm cho phổi bị nghẽn và gây khó thở – và thường thì cuối cùng họ sẽ phải ghé thăm phòng cấp cứu.

Các ca trụy tim sau kì nghỉ lễ Tạ ơn đã gây ra những thiệt hại tài chính vô cùng nghiêm trọng. Những biến cố này có thể gây ra cái chết cho một số bệnh nhân, đôi khirất chóng vánh, nhưng cũng có thể kéo dài vài ngày đến vài tuần do suy giảm mạnh hệ sinh lý.Những bệnh nhân khác may mắn hơn thì ổn định trở lại, nhưng cũng phải tĩnh dưỡng trong một tuần hoặc hơn, và tiêu tốn 10,000 đô-la đến 15,000 đô-la chi phí vận hành hệ thống hệ thống Chăm sóc sức khỏe cho cựu chiến binh trên mỗi bệnh nhân (Ngày nay những hóa đơn đó còn cao hơn nhiều.)

Hơn hai chục năm sau, Eric và các đồng nghiệp của ông tại Trung tâm Nghiên cứu của Mircrosoft đã phát triển những phân tích có thể tiên đoán với độ chính xác đáng tin cậy về khả năng một bệnh nhân bị lên cơn đau tim sung huyết đã được ra viện có thể tái nhập viện trong vòng 30 ngày. Thành công này không dựa trên hoạt động lập trình máy tính để xem xét các câu hỏi mà một thầy thuốc chẩn bệnh sẽ hỏi bệnh nhân hay dựa trên một ước tính tổng quát về số lượng bệnh nhân tái nhập viện. Thay vào đó, kiến thức này đến từ cái mà chúng ta gọi là “machine learning” (máy học), quá trình mà các nhà khoa học máy tính định hướng một chương trình để xem xét một cơ sở dữ liệu khổng lồ – trong ví dụ này, là hàng trăm nghìn điểm dữ liệu liên quan đến hàng trăm biến có thực của khoảng 300,000 bệnh nhân. Cỗ máy này có khả năng “học” được hồ sơ của các bệnh nhân có khả năng tái nhập viện cao nhất bằng cách phân tích sự khác biệt giữa các trường hợp mà nó biết được kết quả. Sử dụng chương trình này, các bác sĩ sau đó có thể nhập hồ sơ dữ liệu của một bệnh nhân mới để xác định xác suất tái nhập viện của người này.

Xét trên một khía cạnh nào đó, chúng tôi có được dự án này là nhờ một chuyên gia đã chỉ ra một mối liên hệ không rõ ràng: Eric không chỉ có bằng Tiến sĩ Y học mà còn có bằng Tiến sĩ khoa học máy tính, và ông nhận ra rằng các kỹ thuật máy-học tương tự như những kỹ thuật mà ông và nhóm của mình trước đấy vẫn dùng để phân tích xu hướng giao thông ở Seattle có thể có hiệu quả đối với thách thức quan trọng này trong ngành y tế. Vào năm 2003, họ đã phát triển các phương pháp dự đoán các vụ ùn tắc giao thông bằng cách phân tích những lượng dữ liệu khổng lồ, bao gồm thông tin về các luồng giao thông trên đường, bản tin thời tiết, tai nạn, sự kiện tại địa phương, và nhiều biến khác được thu thập trong nhiều năm. Chương trình mới của nhóm so sánh dữ liệu về các bệnh nhân, những người đã và chưa tái nhập viện, và tìm kiếm mối quan hệ khó nhận thấy trong bệnh án, bài test chẩn đoán, và thậm chí các yếu tố về kinh tế xã hội, như là người bệnh đó có sống một mình hay không. Sự tích hợp này không phải là không đáng xét đến: Ví dụ, thông tin về nơi ở của bệnh nhân, có thể nằm trong báo cáo của một người làm việc cho tổ chức xã hội, chứ không phải là ở trên một biểu đồ y học. Chỉ một bác sĩ tham gia chăm sóc bệnh nhân thì khó có thể xử lý lượng biến đủ lớn để đưa ra một tiên đoán như thế này.

Tác động về kinh tế của công cụ dự đoán này có thể cực kỳ lớn. Nếu như các thầy thuốc và bệnh viện biết được khả năng tái nhập viện của một bệnh nhân, họ có thể có những bước phòng chống phù hợp. Như Eric giải thích: “Đối với các tình trạng bệnh kinh niên như bệnh tim sung huyết, chúng tôi có thể thiết kế các chương trình xuất viện cho từng bệnh nhân cụ thể giúp mang lại một sự kết hợp hiệu quả giữa hoạt động giáo dục và giám sát, nhằm giúp cho người bệnh ở trong chế độ ổn định và an toàn. Những chương trình như thế có thể bao gồm việc y tá đến thăm hay gọi điện, hoặc thang đo đặc biệt thể hiện những thay đổi nguy hiểm trong mức cân bằng về chất lưu của người bệnh và thông báo những thay đổi này cho bác sĩ. Nếu như chúng ta có thể chi ra đến 500 hay 1000 đô la cho các chương trình hậu xuất viện dành cho những người bệnh vốn đã có khả năng cao phải tái nhập viện, thì chúng ta có thể giảm thiểu số ca tái nhập viện và thực tế chính là tiết kiệm tiền bạc trong khi nâng cao kết quả về sức khỏe.”

Không có gì ngạc nhiên khi các công ty bảo hiểm và chuỗi bệnh viện đang liên tục nói về điều này. Và cũng chẳng cần phải tưởng tượng nhiều để đưa ra được các loại hình doanh nghiệp khác có thể hưởng lợi từ khám phá về dữ liệu lớn này.

Ở Phố Wall, các chương trình khai thác dữ liệu lớn hiện đã theo dõi “những động thái giao cảm”, hay các xu hướng giao dịch có liên quan giữa các công cụ đầu tư khác nhau. Nhiều quỹ phòng vệ và tổ chức quản lý vốn lớn đang đặt cược hàng triệu đô-la mỗi ngày dựa trên những mối quan hệ được phát hiện nhờ nghiên cứu dữ liệu nói trên.

Xét trên khía cạnh vận hành doanh nghiệp, các khả năng là vô hạn. Các công ty sẽ có thể thực hiện những phân tích khổng lồ về khách hàng và cơ hội kinh doanh bằng việc sử dụng những chương trình giúp phát hiện xu hướng về giá cả, thói quen mua hàng, khu vực địa lý, thu nhập hộ gia đình, và vô số các điểm dữ liệu khác. Số lượng lớn dữ liệu về tính hiệu quả của quảng cáo, tỷ lệ giữ chân khách hàng và nhân viên, sự hài lòng của khách hàng, và quản trị chuỗi cung ứng sẽ cho phép các công ty đưa ra những dự đoán có ý nghĩa về cách hành xử của bất kì khách hàng hay nhân viên nào cũng như khả năng xuất hiện thiếu sót trong dịch vụ hoặc nguồn cung. Và chúng tôi nhận thấy ngày càng nhiều các công ty sử dụng kỹ thuật dữ liệu để xác định những bất thường trong các khoản chi trả và các khoản phải thu. Ví dụ, các chương trình này có thể dự đoán được số tiền có thể thu được từ doanh thu của các dịch vụ đã cung cấp. Một tổ chức cung cấp dịch vụ y tế mà chúng tôi đã làm việc cùng tại New Mexico đã phát hiện ra 10 triệu đô-la bị trả thiếu trong sáu tháng đầu sử dụng các công cụ khai thác dữ liệu như vậy.

Tính chính xác của câu đùa “chỉ một nửa số tiền dành cho quảng cáo là thành công – chúng ta chỉ không biết là nửa nào mà thôi” sẽ không còn khi có các công cụ phân tích mới này. Một công ty cung cấp dịch vụ giải trí điện tử ở Phi-líp-pin hiện đang sử dụng công nghệ khai thác dữ liệu của Mircrosoft để tùy biến cách bán hàng theo từng khách hàng cá nhân, dựa trên phân tích bao quát về các yếu tố như xu hướng mua hàng trong quá khứ, tuổi tác, giới tính, tình trạng tài chính, và địa điểm. Gần như ngay lập tức sau khi áp dụng kỹ thuật này, công ty nhận thấy tỷ lệ phản hồi đối với những rao bán nhạc chuông và các sản phẩm khác tăng gấp đôi.

Với tất cả những cơ hội kinh doanh đó, một số người sẽ hỏi tại sao Trung tâm Nghiên cứu của Microsoft lại thực hiện quá nhiều dự án về sức khỏe và môi trường toàn cầu như thế. Cuối cùng thì, đó chẳng phải là những dự án mà Quỹ Bill & Melinda Gates có thể tài trợ sao? Đúng vậy, nhưng lý do mà Trung tâm Nghiên cứu của Microsoft có vài chục nhà khoa học máy tính nghiên cứu các dự án này là ở chỗ chúng liên quan đến một số kho dữ liệu khổng lồ và tạo nên một cơ sở nghiên cứu vô giá. Chúng tôi cần phải mở rộng lối tư duy của bản thân và khả năng của các công cụ bằng việc giải quyết những vấn đề lớn nhất, tình cờ đó lại là những vấn đề có tầm quan trọng vô cùng lớn đối với nhân loại. Việc giải quyết những vấn đề này cũng mở ra nhiều cơ hội hơn cho quá trình cộng tác và thử nghiệm. Khi các chuyên gia trong nhiều lĩnh vực khác nhau có một động cơ thuyết phục để cùng làm việc và chia sẻ dữ liệu trong một môi trường minh bạch, chúng tôi có thể tiến triển nhanh nhất. Như Jim Gray đã từng nói, dữ liệu về thiên văn học quý giá vì chúng không có giá trị thương mại.

CUỘC CÁCH MẠNG KHOA HỌC KẾ TIẾP - KỲ 1

0 Response to "CUỘC CÁCH MẠNG KHOA HỌC KẾ TIẾP - KỲ 1"

Đăng nhận xét

Xem nhiều nhất

Từ khóa

Xem nhiều nhất trong tháng