Lộ trình học Machine Learning cho mọi người- phần 1

4386

(Giải thích đơn giản toán học, code qua các ví dụ thực tiễn)

Ai nên đọc bài viết này?

  • Các kĩ sư những người muốn tiếp cận machine learning nhanh nhất.
  • Những người không phải kĩ sư muốn có một hiểu biết cơ bản về machine learning và sẵn sàng tham vào các công việc kĩ thuật.
  • Tất cả mọi người hiếu kì về cách machine hoạt động.

Loạt bài hướng dẫn này tạo ra để mọi người đều có thể sử dụng. Các khái niệm cơ bản về xác suất, thống kê, lập trình, đại số tuyến tính, và giải tích sẽ được nêu ra, nhưng không cần xem chúng như điều kiện bắt buộc để có thể sử dụng bài hướng dẫn này hiệu quả.

Roadmap

Phần 1: Tại sao Machine Learning lại quan trọng.  Bức tranh mô tả toàn cảnh về trí tuệ nhân tạo và machine learning –  trong quá khứ, hiện tại và tương lai.

Phần 2: Supervised Learning

2.1: Supervised Learning ( Học có giám sát ). Học với câu trả lời rõ ràng.Giới thiệu linear regression, loss function ( hàm mất mát) , overfitting, và gradient descent.

2.2: Supervised Learning II. Hai cách thức phân loại : logistic regression và SVMs.

2.3: Supervised Learning III. Không tham số: k-nearest neighbors, decision trees, random forests. Giới thiệu cross-valdation, hyperparameter tuning và ensemble models.

Phần 3: Unsupervised Learning ( Học không giám sát ). Phân nhóm: k-means, hierarchical.

Giảm kích thước: principal components analysis ( PCA), singular value decomposition (SVD).

Phần 4: Neural Networks và Deep Learning. Tại sao, ở đâu và deep learning hoạt động như thế nào?. Lấy ý tưởng từ não bộ con người. Convolutional neural networks (CNNs), recurrent neural networks (RNNs). Các ứng dụng thực tế.

Phần 5: Reinforcement Learning ( Học củng cố). Khảo sát và khai thác. Markov decision processes. Q-learning, policy learning, và deep reinforcement learning. Giá trị của vấn đề learning.

Tham khảo: Các tài nguyên tốt nhất cho Machine Learning . Danh sách các tài nguyên để tạo ứng dụng machine learning.

Phần 1: Tại sao Machine Learning lại quan trọng?

Trí tuệ nhân tạo sẽ giúp tương lai chúng ta trở nên tuyệt vời hơn bất kì một sự đổi mới nào trong thế kỉ này. Bất cứ ai không hiểu về nó sẽ sớm bị bỏ lại phía sau, thức dậy trong một thế giới công nghệ và cảm thấy mọi thứ giống như phép thuật.

Tốc độ tăng trưởng của nó thật đáng kinh ngạc. Trong khoảng thời gian AI được cho là thất bại, thì những tiến bộ vượt trội trong việc lưu trữ dữ liệu và sức mạnh của máy tính trong việc xử lí đã thay đổi đáng kể diện mạo AI trong những năm gần đây.

Trong năm 2015, Google đã huấn luyện một “nhân viên” giao tiếp (AI) có thể thuyết phục trong quá trình tương tác với con người như một bộ phận hỗ trợ kĩ thuật và thậm chí còn thảo luận về đạo đức, bày tỏ ý kiến, và trả lời các câu hỏi dựa trên các câu hỏi phổ biến.

Cũng trong năm này, DeepMind đã phát triển một “player” vượt qua level của con người ở level 49 trong trò chơi Atari, chỉ nhận pixel và điểm số game là input. Ngay sau đó, DeepMind đã vượt qua chính thành tựu của mình bằng cách phát hành một cách thức state-of-the-art gameplay mới gọi là A3C.

Trong khi đó, Alphago đã đánh bại một trong những kì thủ cờ vay vĩ đại nhất thế giới –  một chiến thắng phi trường trong một trò chơi được thống trị bởi con người trong hai thập kỉ sau khi máy tính đầu tiên chinh phục cờ vua. Nhiều chuyên gia không thể hiểu được làm thế nào mà máy có thể nắm bắt được toàn bộ các trạng thái và độ phức tạp của trò chơi Trung Quốc này, với 10 mũ 170 vị trí có thể trên board ( chỉ có hơn 10 mũ 80 kí tự trên vũ trụ ).

Vào tháng 3 năm 2017, OpenAi đã phát minh bot có thể tạo ra ngôn ngữ riêng của mình để đàm phán và đạt được ý đồ một cách hiệu quả nhất. Ngay sau đó, Facebook cũng thông báo thành công trong việc huấn luyện một con bot có thể thương lượng và nói dối.

Cách đây vài ngày ( tại thời điểm viết, vào ngày 11/8 năm 2017), OpenAi đã chạm được một cột mốc đáng kinh ngạc khác bằng cách đánh bại các game thủ hàng đầu thế giới trong thể thức 1vs1 game Dota 2.

Phần lớn công nghệ hàng ngày của chúng ta sử dụng trí thông minh nhân tạo. Hướng camera của bạn ở menu trong chuyến đi tiếp theo tới Đài Loan và menu của nhà hàng sẽ hiển thị bằng tiếng Anh thông qua ứng dụng Google Translate.

Ngày nay AI được sử dụng để thiết kế các kế hoạch điều trị dựa trên triệu chứng cho bệnh nhân ung thư, phân tích ngay các kết quả từ các bài kiểm tra y tế để báo cáo đến các chuyên gia ngay lập tức và tiến hành thí nghiệm khoa học để nghiên cứu chế tạo thuốc.

Trong cuộc sống, ngày càng bắt gặp nhiều máy móc đóng vai trò như một con người. Thật sự như vậy, có thể bạn sẽ ngạc nhiên khi thấy một con robot đem đến một tuýp kem đánh răng khi bạn yêu cầu bộ phận hỗ trợ.

Trong series này, chúng ta sẽ tìm hiểu các những khái niệm chính về machine learning đằng sau những công nghệ này. Sau khi kết thúc, bạn có thể mô tả được cách thức làm việc ở mức độ nhận thức và được trang bị các kĩ năng cơ bản để xây dựng một ứng dụng tương tự.

Semantic tree: trí tuệ nhân tạo và machine learning

Lời khuyên nhỏ: Bạn cần phải nắm được kiến thức về semantic tree – để chắc chắn hiểu được những nguyên tắc nền tảng, ( ví dụ trunk và big branches ) trước khi đi vào chi tiết.

Trí tuệ nhân tạo là một “người học” nhận thức được thế giới xung quanh, xây dựng kế hoạch, và đưa ra quyết định để đạt được mục đích. Nền tảng của nó bao gồm toán học, logic, xác suất, ngôn ngữ học, thần kinh học, lý thuyết quyết định. Rất nhiều lĩnh vực được AI bao phủ, như thị giác máy tính, robotics, machine learning, và xử lí ngôn ngữ tự nhiên.

Machine learning là một nhánh của trí tuệ nhân tạo. Mục tiêu của nó là cho phép máy tính học theo cách riêng. Một thuật toán machine learing giúp nó xác định khuôn mẫu của dữ liệu đã được quan sát, xây dựng mô hình nhằm giải thích, và dự đoán mọi thứ mà không có các qui tắc và mô hình được lập trình sẵn. 

Ảnh hưởng của AI: Những điều kiện đủ để được gọi là “trí tuệ nhân tạo”?

Tiêu chuẩn chính xác cho các công nghệ đủ tiêu chuẩn xem là “AI”có hơi không rõ ràng, và các định nghĩa thay đổi theo thời gian. AI có xu hướng mô tả máy móc thực hiện các nhiệm vụ cơ bản và đặc trưng của con người. Thú vị là khi các máy tính tìm cách thực hiện một trong những nhiệm vụ này, con người lại có khuynh hướng nói nó không thực sự thông minh. Đây được gọi là hiệu ứng AI.

Ví dụ, khi Deep Blue của IBM đánh bại nhà vô địch cờ vua thế giới Garry Kasparov năm 1997, người ta cho rằng nó đã sử dụng các phương pháp “vét cạn” và không hoàn toàn thông minh. Như Pamela McCorduck đã viết: “Đó là một phần của lịch sử trong lĩnh vực trí tuệ nhân tạo mà mỗi khi ai đó tìm ra cách làm thế nào để máy tính làm việc gì đó – chơi cờ hay , giải quyết các vấn đề một cách đơn giản nhưng không chính thức, minh bạch – có rất nhiều người chỉ trích, ‘nhưng điều đó không đáng phải suy nghĩ’ “(McCorduck, 2004).

“AI is whatever hasn’t been done yet.– Douglas Hofstadter

 

Strong AI sẽ thay đổi thế giỡi mãi mãi. Để hiểu nó, hãy bắt đầu với machine learning .

Những công nghệ được đưa ra ở trên là ví dụ của artificial narrow intelligence (ANI), có thể thực hiện một tác vụ được giới hạn hiệu quả.

Trong khi đó, chúng ta đang có những tiến bộ cơ bản đối với artificial general intelligence (AGI) – mức độ con người, được biết đến là strong AI. AGI là một trí tuệ nhân tạo có thể thực hiên hoàn hảo bất kì nhiệm vụ vận dụng trí óc mà con người có thể làm, bao gồm đọc, lên kế hoạch, và đưa ra quyết định không chắc chắn, giao tiếp bằng ngôn ngữ tự nhiên, thao túng người khác, kinh doanh chứng khoán, … hoặc tự tái lập trình bản thân.

Điều cuối cùng là một công trình to lớn. Một khi tạo ra AI có thể tự cải thiện chính bản thân, nó sẽ mở ra một chu trình tự cải thiện đệ quy và dẫn đến một đột phá về trí tuệ trong khoảng thời gian không rõ, từ nhiều thập kỉ đến một ngày.

Có thể chúng ta đã biết điểm này gọi là singularity. Thuật ngữ này được vay mượn từ điểm dị thường (singularity) ở trung tâm của một lỗ đen , một điểm mà chiều dày vô cùng đặc, nơi kiến thức của các nhà khoa học vật lí bắt đầu bị mâu thuẫn.

Một báo cáo gần đây từ Future of Humanity Institute đã khảo sát một nhóm các nhà khoa học AI trên timelines của AGI , và phát hiện ra “ các nhà khoa học tin rằng có 50% cơ hội để AI làm tốt hơn con người trên mọi công việc trong 45 năm”. (Grace et al,2017).

Sự ra đời của artificial superintelligence (ASI) – vượt xa khả năng con người có thể là một trong những điều tuyệt vời nhất hoặc tồi tệ nhất xảy ra với chúng ta. Nó mang theo thách thức to lớn trong việc xác định những gì AIs sẽ muốn xử lí theo cách thân thiện hoặc không?.

Mặc dù không nói trước được tương lai, nhưng chắc chắn năm 2017 là thời điểm tốt nhất để bắt đầu tìm hiểu cách thức mà máy móc suy nghĩ. Chúng ta phải thấy được quá trình nhận thức của máy móc với thế giới xung quanh – những gì nó muốn, những xu hướng và sai sót tiềm ẩn – cũng như chúng ta nghiên cứu về tâm lý học và thần kinh học để hiểu con người học hỏi, quyết định, hành động và cảm thấy như thế nào.

Có rất nhiều câu hỏi phức tạp, mang tính rủi ro cao về AI cần được chú ý cẩn thận trong những năm tới. (giữ nguyên bản gốc).

“How can we combat AI’s propensity to further entrench systemic biases evident in existing data sets? What should we make of fundamental disagreements among the world’s most powerful technologists about the potential risks and benefits of artificial intelligence? What will happen to humans’ sense of purpose in a world without work?”

Machine learning là nền tảng trong cuộc hành trình trí tuệ nhân tạo. Trong thời gian đó, nó sẽ thay đổi mọi ngành công nghiệp và ảnh hưởng lớn đến cuộc sống hằng ngày. Đó là lý do tại sao chúng tôi tin rằng cần phải hiểu được machine learning, ít nhất ở mức độ khái niệm – và tạo ra loạt bài này cho mọi người bắt đầu.

Hướng dẫn cách sử dụng series này

Bạn không nhất thiết phải đọc đi đọc lại để nắm được nó. Dưới đây là ba gợi ý về cách tiếp cận, tùy thuộc vào sở thích và thời gian bạn có:

  • Cách tiếp cận hình chữ T. Đọc từ đầu đến cuối. Tóm tắt từng phần bằng các từ khóa (xem kỹ thuật của Feynman); điều này khuyến khích bạn đọc tích cực và duy trì lâu hơn. Đào sâu hơn vào các lĩnh vực có liên quan đến sở thích hoặc công việc. Chúng tôi sẽ thêm các tài liệu vào mỗi phần.
  • Phương pháp tiếp cận tập trung. Chọn phần bạn tò mò nhất và tập trung toàn bộ năng lượng trí óc vào đó.
  • Phương pháp tiếp cận 80/20. Hãy lướt đi mọi thứ trong một lần, hãy ghi lại một số ghi chú về các khái niệm mà bạn thấy hứng thú.

Techtalk Via medium