Người
dịch: Bùi Hồng Hạnh – Học viện Ngân Hàng
Thẩm định:
ThS
Nguyễn Quang Hiếu – Đại học Ngoại Thương
Tác giả: Tony
Hey
[Tóm tắt ý tưởng]
Nhờ khả năng thu thập và xử lý những lượng lớn dữ liệu của
chúng tôi, các nhà khoa học giờ đây có khả năng giải quyết được một
số vấn đề lớn nhất của thế giới. Nhưng trước đó thì chúng tôi không
biết cách kết hợp các tập dữ liệu phù hợp để tìm ra những xu hướng
quan trọng.
Bước ngoặt: Bằng cách tối ưu hóa sức mạnh điện toán của thế
kỷ 21, chuyên môn của con người, và một hướng tiếp cận có hệ thống
để lưu trữ và khai thác thông tin, các nhà khoa học đang bắt đầu đạt
được những đột phá thật sự. Họ cũng giúp các chuyên gia khác – và
thậm chí là công chúng – có thể tiếp cận được với quá trình này
thông qua việc làm cho dữ liệu của mình minh bạch và sẵn có.
Niềm hy vọng cho tương lai: Ngày nay các nhà nghiên cứu ở Microsoft
và các tổ chức khác đang sử dụng những phương pháp này để giải
quyết các vấn đề trong thiên văn học, hải dương học, y tế, quản lý
nguồn nước, và biến đổi khí hậu. Những công cụ này cũng có tiềm
năng mang lại những cải tiến toàn diện cho công việc kinh doanh.
Ngày nay, một du khách dạo bước trên
đại sảnh khuôn viên Trung tâm Nghiên cứu Microsoft tại Redmon, Washington,
có thể nghe thấy những cuộc đàm đạo không chỉ về khoa học máy tính
mà còn về rất nhiều những chủ đề khác, từ chuyện một thiên hà quay
theo hướng nào, cho đến một loại vắc-xin cho mới cho bệnh AIDS, hay các
chiến lược để quản lý nguồn nước sạch quý giá của trái đất.
Những vấn đề này có thể có điểm gì
chung? Và tại sao Microsoft – rõ ràng là một công ty phần mềm – lại
liên quan đến những vấn đề đó? Câu trả lời đơn giản là dữ liệu –
những kho dữ liệu khổng lồ. Chúng lớn đến mức khi chúng tôi chạy
các chương trình phân tích một vài trong số những cơ sở dữ liệu này,
nhiệt độ của tòa nhà chứa 10,000 vi xử lý tăng lên đến vài độ. Ngày
nay các nhà khoa học máy tính của chúng tôi nhận ra bản thân họ
chính là đối tác với các nhà khoa học hàng đầu trong nhiều lĩnh
vực khác nhau – thiên văn học, sinh học, hóa học, thủy văn học,
đại dương học, vật lý học, và động vật học, và nhiều lĩnh vực
khác nữa – họ nỗ lực nghiên cứu các vấn đề như chế tạo thuốc, năng
lượng thay thế, và kiểm soát chi phí y tế. Và, đúng vậy, cả những
dự án phần mềm thương mại nữa. Chúng tôi tin rằng một thế hệ mới
gồm các công cụ phần mềm, vốn hỗ trợ quá trình cộng tác và khai
thác dữ liệu trên quy mô chưa từng có, sẽ cho phép các khám phá mang
tính cách mạng trong những lĩnh vực này.
Trong hàng chục năm các nhà khoa học
máy tính đã cố gắng "dạy" máy tính cách suy nghĩ như các chuyên gia
bằng xương bằng thịt bằng cách gắn cho chúng những quy tắc phức tạp
về ngôn ngữ học và lý trí. Cho đến nay, phần lớn các nỗ lực đó đã
không thể tiến gần tới việc tạo ra những hiểu biết sâu sắc và giải
pháp sáng tạo mà các nhà khoa học, thầy thuốc, kĩ sư, và chuyên gia
tiếp thị giỏi nhất có thể dễ dàng có được. Những chuyên gia tài
năng nhất không chỉ có hiểu biết sâu sắc về dữ liệu mà còn có thể
nhìn nhận được những khả năng rất ít khi xảy ra; họ có thể tìm ra
những mối liên hệ không rõ ràng trong hoặc giữa nhiều lĩnh vực, đó là
điều tạo ra sự khác biệt.
Tuy nhiên, chúng ta đã đạt được đến
điểm mốc mà thậm chí những chuyên gia nói trên cũng đang phải ngụp
lặn trong mớ dữ liệu. Dòng thông tin số tuôn chảy đến từ tất cả các
loại cảm biến, thiết bị, và công cụ mô phỏng, lấn áp khả năng của
chúng ta trong việc tổ chức, phân tích, và lưu trữ nó. Trong hàng
thập kỷ, Định luật Moore đã tiên đoán chính xác rằng số lượng các
bán dẫn có thể được sắp xếp trên một vi mạch tích hợp sẽ tăng gấp
đôi sau mỗi hai năm, và cho đến gần đây, sự thu hẹp kích cỡ bán dẫn
cũng đi kèm với sự gia tăng về hiệu quả hoạt động của vi xử lý.
Ngày nay, để tăng hiệu quả hoạt động, chúng ta phải lập trình nhiều
bộ xử lý trên các chip đa lõi và khai thác thuật
toán song song. Cuộc cách mạng chip đa lõi đã xảy đến đúng vào thời
điểm chúng ta phải đối mặt với sự gia tăng vượt bậc về dữ liệu. Sự
tăng lên này không phải là một thách thức mà chúng ta có thể giải
quyết được bằng các bản vá và nâng cấp; chúng ta phải xem xét lại
toàn bộ hướng tiếp cận đối với ngành khoa học dữ liệu lớn của
mình. Đó là lý do tại sao, nhiều năm trước, người đồng nghiệp quá
cố và cũng là người được giải thưởng Turing của chúng tôi, Jim Gray,
đã đề xuất cái mà ông gọi là “chuẩn thức thứ tư” cho hoạt động
khám phá khoa học. Tầm nhìn của Jim về những công cụ mới đầy mạnh
mẽ nhằm phân tích, minh họa, khai thác và vận dụng dữ liệu khoa học
có thể là niềm hy vọng duy nhất mà chúng ta có được để giải quyết
một số bài toán toàn cầu hóc búa nhất.
[Phụ chú 1: Bốn chuẩn thức của khoa học]
Lý thuyết
Bắt đầu từ Hy Lạp và Trung Quốc cổ đại, con người ta đã cố
gắng giải thích những quan sát của mình thông qua các quy luật tự
nhiên chứ không phải bằng những lý lẽ siêu nhiên.
Thí nghiệm
Cho đến thế kỷ 17, các nhà khoa học như Isaac Newton đã cố gắng
đưa ra những dự đoán cho các hiện tượng mới và xác thực các giả
thuyết bằng cách thực hiện thí nghiệm.
Tính
toán và mô phỏng
Sự xuất hiện của các máy tính có hiệu quả hoạt động cao vào
nửa cuối thế kỷ 20 đã cho phép các nhà khoa học khám phá những
lãnh vực mà thí nghiệm và lý thuyết không thể tiếp
cận được, như xây dựng mô hình khí hậu hay sự hình thành của thiên
hà, bằng việc giải nhiều hệ phương trình số học trên quy mô
lớn với mức độ chi tiết đến tinh vi.
Khai thác dữ liệu
Khi sử dụng các máy tính mạnh hơn, các nhà khoa học bắt đầu
với nguồn dữ liệu này và định hướng các chương trình để khai thác
được các cơ sở dữ liệu khổng lồ để tìm ra các mối liên hệ. Thực
tế, họ sử dụng máy tính để phát hiện ra những quy luật bằng cách
nghiên cứu dữ liệu.
Hai chuẩn thức đầu tiên về khảo sát và
khám phá khoa học, thí nghiệm và lý thuyết, có một lịch sử dài.
Phương pháp thí nghiệm có lẽ bắt nguồn từ thời Hy Lạp và Trung
Quốc, khi người ta cố gắng giải thích những quan sát của mình thông
qua các quy luật tự nhiên chứ không phải bằng những lý do siêu nhiên.
Ngành khoa học lý thuyết hiện đại bắt nguồn với Issac Newton trong
thế kỷ 17. Sau khi các máy tính với hiệu quả hoạt động cao được
phát triển vào nửa cuối thế kỉ 20, Ken Wilson, người đã đoạt giải
Nobel, đã coi quá trình tính toán và mô phỏng như là chuẩn thức thứ
ba của khám phá khoa học. Các mô phỏng chi tiết bằng máy tính có
thể giải nhiều phương trình trên quy mô cực lớn, cho phép các nhà khoa
học khám phá những lãnh vực mà thí nghiệm và lý thuyết không thể
tiếp cận được, như xây dựng mô hình khí hậu hay sự hình thành của
thiên hà.
Chuẩn thức thứ tư cũng liên quan đến
các máy tính mạnh. Nhưng thay vì phát triển các chương trình dựa trên
những quy luật đã biết, các nhà khoa học bắt đầu với dữ liệu. Họ
định hướng các chương trình để khai thác được các cơ sở dữ liệu
khổng lồ để tìm ra các mối liên hệ và tương quan, về bản chất là
sử dụng các chương trình này để phát hiện ra những quy luật. Chúng
tôi coi dữ liệu lớn là một phần của giải pháp đó, chứ không phải
là vấn đề. Chuẩn thức thứ tư không cố gắng thay thế các nhà khoa
học hay ba phương pháp luận còn lại, nhưng nó quả thực đòi hỏi một
bộ kĩ năng khác hoàn toàn. Nếu không có khả năng khai thác các công
cụ máy tính tinh vi để xử lý dữ liệu, thậm chí chuyên gia giỏi nhất
cũng không bao giờ khám phá ra những kiến thức mà giờ đây mới bắt
đầu được tập trung nghiên cứu.
Cứu sống nhiều sinh mạng với “Machine Learning” (Máy học)
Hãy bắt đầu với một ví dụ về một
cách nghĩ giúp thúc đẩy dạng nghiên cứu này. Trong những năm 1980,
đồng nghiệp của tôi là Eric Horvitz, trong đợt đào tạo ở một bệnh
viện Chăm sóc sức khỏe cho Cựu chiến binh vốn là một phần trong
chương trình học về y của ông ấy, đã quan sát được một hiện tượng
khó chịu. Trong suốt mùa nghỉ lễ, số ca nhập viện vì đau tim có sung
huyết tại bệnh viện này tăng mạnh. Mỗi năm lại có một số bệnh nhân,
trước đó đã giữ cho bản thân được khỏe mạnh dù tim họ yếu, sẽ bị
lên cơn đau sau một bữa ăn có muối trong kỳ nghỉ lễ. Lượng muối thêm
vào đó khiến cho cơ thể họ giữ thêm chất lưu, làm cho phổi bị nghẽn
và gây khó thở – và thường thì cuối cùng họ sẽ phải ghé thăm phòng
cấp cứu.
Các ca trụy tim sau kì nghỉ lễ Tạ ơn đã
gây ra những thiệt hại tài chính vô cùng nghiêm trọng. Những biến cố này có thể
gây ra cái chết cho một số bệnh nhân, đôi khirất chóng vánh, nhưng cũng có
thể kéo dài vài ngày đến vài tuần do suy giảm mạnh hệ sinh lý.Những bệnh nhân
khác may mắn hơn thì ổn định trở lại, nhưng cũng phải tĩnh dưỡng trong một tuần
hoặc hơn, và tiêu tốn 10,000 đô-la đến 15,000 đô-la chi phí vận hành hệ thống
hệ thống Chăm sóc sức khỏe cho cựu chiến binh trên mỗi bệnh nhân (Ngày
nay những hóa đơn đó còn cao hơn nhiều.)
Hơn hai chục năm sau, Eric và các đồng
nghiệp của ông tại Trung tâm Nghiên cứu của Mircrosoft đã phát triển
những phân tích có thể tiên đoán với độ chính xác đáng tin cậy về
khả năng một bệnh nhân bị lên cơn đau tim sung huyết đã được ra viện
có thể tái nhập viện trong vòng 30 ngày. Thành công này không dựa
trên hoạt động lập trình máy tính để xem xét các câu hỏi mà một
thầy thuốc chẩn bệnh sẽ hỏi bệnh nhân hay dựa trên một ước tính tổng
quát về số lượng bệnh nhân tái nhập viện. Thay vào đó, kiến thức này
đến từ cái mà chúng ta gọi là “machine learning” (máy học), quá
trình mà các nhà khoa học máy tính định hướng một chương trình để
xem xét một cơ sở dữ liệu khổng lồ – trong ví dụ này, là hàng trăm
nghìn điểm dữ liệu liên quan đến hàng trăm biến có thực của khoảng
300,000 bệnh nhân. Cỗ máy này có khả năng “học” được hồ sơ của các
bệnh nhân có khả năng tái nhập viện cao nhất bằng cách phân tích sự
khác biệt giữa các trường hợp mà nó biết được kết quả. Sử dụng
chương trình này, các bác sĩ sau đó có thể nhập hồ sơ dữ liệu của
một bệnh nhân mới để xác định xác suất tái nhập viện của người
này.
Xét trên một khía cạnh nào đó, chúng
tôi có được dự án này là nhờ một chuyên gia đã chỉ ra một mối liên
hệ không rõ ràng: Eric không chỉ có bằng Tiến sĩ Y học mà còn có
bằng Tiến sĩ khoa học máy tính, và ông nhận ra rằng các kỹ thuật
máy-học tương tự như những kỹ thuật mà ông và nhóm của mình trước
đấy vẫn dùng để phân tích xu hướng giao thông ở Seattle có thể có
hiệu quả đối với thách thức quan trọng này trong ngành y tế. Vào năm
2003, họ đã phát triển các phương pháp dự đoán các vụ ùn tắc giao
thông bằng cách phân tích những lượng dữ liệu khổng lồ, bao gồm thông
tin về các luồng giao thông trên đường, bản tin thời tiết, tai nạn, sự
kiện tại địa phương, và nhiều biến khác được thu thập trong nhiều
năm. Chương trình mới của nhóm so sánh dữ liệu về các bệnh nhân,
những người đã và chưa tái nhập viện, và tìm kiếm mối quan hệ khó
nhận thấy trong bệnh án, bài test chẩn đoán, và thậm chí các yếu tố
về kinh tế xã hội, như là người bệnh đó có sống một mình hay không.
Sự tích hợp này không phải là không đáng xét đến: Ví dụ, thông tin
về nơi ở của bệnh nhân, có thể nằm trong báo cáo của một người làm
việc cho tổ chức xã hội, chứ không phải là ở trên một biểu đồ y
học. Chỉ một bác sĩ tham gia chăm sóc bệnh nhân thì khó có thể xử
lý lượng biến đủ lớn để đưa ra một tiên đoán như thế này.
Tác động về kinh tế của công cụ dự
đoán này có thể cực kỳ lớn. Nếu như các thầy thuốc và bệnh viện
biết được khả năng tái nhập viện của một bệnh nhân, họ có thể có
những bước phòng chống phù hợp. Như Eric giải thích: “Đối với các
tình trạng bệnh kinh niên như bệnh tim sung huyết, chúng tôi có thể
thiết kế các chương trình xuất viện cho từng bệnh nhân cụ thể giúp
mang lại một sự kết hợp hiệu quả giữa hoạt động giáo dục và giám sát,
nhằm giúp cho người bệnh ở trong chế độ ổn định và an toàn. Những
chương trình như thế có thể bao gồm việc y tá đến thăm hay gọi điện,
hoặc thang đo đặc biệt thể hiện những thay đổi nguy hiểm trong mức cân
bằng về chất lưu của người bệnh và thông báo những thay đổi này cho
bác sĩ. Nếu như chúng ta có thể chi ra đến 500 hay 1000 đô la cho các
chương trình hậu xuất viện dành cho những người bệnh vốn đã có khả
năng cao phải tái nhập viện, thì chúng ta có thể giảm thiểu số ca
tái nhập viện và thực tế chính là tiết kiệm tiền bạc trong khi nâng
cao kết quả về sức khỏe.”
Không có gì ngạc nhiên khi các công ty
bảo hiểm và chuỗi bệnh viện đang liên tục nói về điều này. Và cũng
chẳng cần phải tưởng tượng nhiều để đưa ra được các loại hình doanh
nghiệp khác có thể hưởng lợi từ khám phá về dữ liệu lớn này.
Ở Phố Wall, các chương trình khai thác
dữ liệu lớn hiện đã theo dõi “những động thái giao cảm”, hay các xu
hướng giao dịch có liên quan giữa các công cụ đầu tư khác nhau. Nhiều
quỹ phòng vệ và tổ chức quản lý vốn lớn đang đặt cược hàng triệu
đô-la mỗi ngày dựa trên những mối quan hệ được phát hiện nhờ nghiên
cứu dữ liệu nói trên.
Xét trên khía cạnh vận hành doanh
nghiệp, các khả năng là vô hạn. Các công ty sẽ có thể thực hiện
những phân tích khổng lồ về khách hàng và cơ hội kinh doanh bằng
việc sử dụng những chương trình giúp phát hiện xu hướng về giá cả,
thói quen mua hàng, khu vực địa lý, thu nhập hộ gia đình, và vô số
các điểm dữ liệu khác. Số lượng
lớn dữ liệu về tính hiệu quả của quảng cáo, tỷ lệ giữ chân khách
hàng và nhân viên, sự hài lòng của khách hàng, và quản trị chuỗi
cung ứng sẽ cho phép các công ty đưa ra những dự đoán có ý nghĩa về
cách hành xử của bất kì khách hàng hay nhân viên nào cũng như khả
năng xuất hiện thiếu sót trong dịch vụ hoặc nguồn cung. Và chúng tôi
nhận thấy ngày càng nhiều các công ty sử dụng kỹ thuật dữ liệu để
xác định những bất thường trong các khoản chi trả và các khoản phải thu.
Ví dụ, các chương trình này có thể dự đoán được số tiền có thể thu được
từ doanh thu của các dịch vụ đã cung cấp. Một tổ chức cung cấp dịch vụ
y tế mà chúng tôi đã làm việc cùng tại New Mexico đã phát hiện ra 10
triệu đô-la bị trả thiếu trong sáu tháng đầu sử dụng các công cụ
khai thác dữ liệu như vậy.
Tính chính xác của câu đùa “chỉ một
nửa số tiền dành cho quảng cáo là thành công – chúng ta chỉ không
biết là nửa nào mà thôi” sẽ không còn khi có các công cụ phân tích
mới này. Một công ty cung cấp dịch vụ giải trí điện tử ở Phi-líp-pin
hiện đang sử dụng công nghệ khai thác dữ liệu của Mircrosoft để tùy
biến cách bán hàng theo từng khách hàng cá nhân, dựa trên phân tích
bao quát về các yếu tố như xu hướng mua hàng trong quá khứ, tuổi
tác, giới tính, tình trạng tài chính, và địa điểm. Gần như ngay lập
tức sau khi áp dụng kỹ thuật này, công ty nhận thấy tỷ lệ phản hồi
đối với những rao bán nhạc chuông và các sản phẩm khác tăng gấp đôi.
Với tất cả những cơ hội kinh doanh đó,
một số người sẽ hỏi tại sao Trung tâm Nghiên cứu của Microsoft lại
thực hiện quá nhiều dự án về sức khỏe và môi trường toàn cầu như
thế. Cuối cùng thì, đó chẳng phải là những dự án mà Quỹ Bill & Melinda Gates có thể tài trợ
sao? Đúng vậy, nhưng lý do mà Trung tâm Nghiên cứu của Microsoft có
vài chục nhà khoa học máy tính nghiên cứu các dự án này là ở chỗ
chúng liên quan đến một số kho dữ liệu khổng lồ và tạo nên một cơ
sở nghiên cứu vô giá. Chúng tôi cần phải mở rộng lối tư duy của bản
thân và khả năng của các công cụ bằng việc giải quyết những vấn đề
lớn nhất, tình cờ đó lại là những vấn đề có tầm quan trọng vô cùng
lớn đối với nhân loại. Việc giải quyết những vấn đề này cũng mở ra
nhiều cơ hội hơn cho quá trình cộng tác và thử nghiệm. Khi các chuyên
gia trong nhiều lĩnh vực khác nhau có một động cơ thuyết phục để
cùng làm việc và chia sẻ dữ liệu trong một môi trường minh bạch,
chúng tôi có thể tiến triển nhanh nhất. Như Jim Gray đã từng nói, dữ
liệu về thiên văn học quý giá vì chúng không có giá trị thương
mại.
0 Response to "CUỘC CÁCH MẠNG KHOA HỌC KẾ TIẾP - KỲ 1"
Đăng nhận xét