AI với Python – Học tăng cường Dongthoigian

Khái niệm cơ bản về học tăng cường

Loại học tập này được sử dụng để củng cố hoặc tăng cường mạng dựa trên thông tin phê bình. Nghĩa là, một mạng đang được đào tạo theo phương pháp học tăng cường, sẽ nhận được một số phản hồi từ môi trường. Tuy nhiên, thông tin phản hồi là đánh giá và không hướng dẫn như trong trường hợp học tập có giám sát. Dựa trên phản hồi này, mạng thực hiện điều chỉnh các trọng số để thu được thông tin phản biện tốt hơn trong tương lai. Quá trình học tập này tương tự như học tập có giám sát nhưng chúng ta có thể có rất ít thông tin. Hình dưới đây đưa ra sơ đồ khối của việc học tăng cường

Khối xây dựng: Môi trường và Tác nhân

Môi trường và Tác nhân là các khối xây dựng chính của việc học tăng cường trong AI. Phần này thảo luận chi tiết về chúng –

Đại lý

Một tác nhân là bất cứ thứ gì có thể cảm nhận được môi trường của nó thông qua các cảm biến và hành động theo môi trường đó thông qua các tác nhân.

Một tác nhân con người có các cơ quan cảm giác như mắt, tai, mũi, lưỡi và da song song với các cảm biến và các cơ quan khác như tay, chân, miệng, đối với các cơ quan tác động.
Một tác nhân rô-bốt thay thế máy ảnh và công cụ tìm phạm vi hồng ngoại cho cảm biến, đồng thời thay thế các động cơ và bộ truyền động khác nhau cho bộ tạo hiệu ứng.
Một tác nhân phần mềm đã mã hóa các chuỗi bit như các chương trình và hành động của nó.

thuật ngữ đại lý

Các thuật ngữ sau được sử dụng thường xuyên hơn trong học tăng cường trong AI –

Đo lường hiệu suất của đại lý – Đó là tiêu chí, xác định mức độ thành công của một đại lý.
Hành vi của tác nhân – Đó là hành động mà tác nhân thực hiện sau bất kỳ chuỗi nhận thức nhất định nào.
Nhận thức – Đó là đầu vào nhận thức của tác nhân tại một trường hợp nhất định.
Trình tự nhận thức – Đó là lịch sử của tất cả những gì một tác nhân đã nhận thức được cho đến nay.
Chức năng tác nhân – Đó là một bản đồ từ trình tự nguyên tắc đến một hành động.

Môi trường

Một số chương trình hoạt động trong một môi trường hoàn toàn nhân tạo chỉ giới hạn ở đầu vào bàn phím, cơ sở dữ liệu, hệ thống tệp máy tính và đầu ra ký tự trên màn hình.

Ngược lại, một số tác nhân phần mềm, chẳng hạn như robot phần mềm hoặc softbot, tồn tại trong các lĩnh vực softbot phong phú và không giới hạn. Trình mô phỏng có một môi trường rất chi tiết và phức tạp . Tác nhân phần mềm cần chọn từ một loạt dài các hành động trong thời gian thực.

Ví dụ: một softbot được thiết kế để quét các tùy chọn trực tuyến của khách hàng và hiển thị các mặt hàng thú vị cho khách hàng hoạt động trong môi trường thực cũng như nhân tạo .

Thuộc tính của môi trường

Môi trường có các thuộc tính đa dạng như được thảo luận bên dưới –

Rời rạc/Liên tục − Nếu có một số giới hạn các trạng thái riêng biệt, được xác định rõ ràng của môi trường, thì môi trường đó là rời rạc, nếu không thì nó là liên tục. Ví dụ, cờ vua là một môi trường rời rạc và lái xe là một môi trường liên tục.
Có thể quan sát/Có thể quan sát một phần − Nếu có thể xác định trạng thái hoàn chỉnh của môi trường tại mỗi thời điểm từ các nhận thức, thì nó có thể quan sát được; mặt khác, nó chỉ có thể quan sát được một phần.
Tĩnh/Động – Nếu môi trường không thay đổi trong khi tác nhân đang hoạt động, thì môi trường đó là tĩnh; ngược lại nó là động.
Một tác nhân/Nhiều tác nhân − Môi trường có thể chứa các tác nhân khác có thể cùng loại hoặc khác loại với tác nhân đó.
Có thể truy cập/Không thể truy cập – Nếu bộ máy cảm giác của tác nhân có thể truy cập vào trạng thái hoàn chỉnh của môi trường, thì môi trường đó có thể truy cập được đối với tác nhân đó; nếu không thì nó không thể truy cập được.
Xác định/Không xác định − Nếu trạng thái tiếp theo của môi trường được xác định hoàn toàn bởi trạng thái hiện tại và các hành động của tác nhân, thì môi trường đó là xác định; nếu không nó là không xác định.

Tình tiết/Không tình tiết − Trong môi trường tình tiết, mỗi tình tiết bao gồm tác nhân nhận thức và sau đó hành động. Chất lượng hành động của nó chỉ phụ thuộc vào chính tập phim. Các tập tiếp theo không phụ thuộc vào các hành động trong các tập trước. Môi trường nhiều tập đơn giản hơn nhiều vì tác nhân không cần phải suy nghĩ trước.

Xây dựng môi trường với Python

Để xây dựng tác nhân học tập tăng cường, chúng tôi sẽ sử dụng gói OpenAI Gym có thể được cài đặt với sự trợ giúp của lệnh sau –

pip install gym

Có nhiều môi trường khác nhau trong phòng tập OpenAI có thể được sử dụng cho nhiều mục đích khác nhau. Một vài trong số đó là Cartpole-v0, Hopper-v1 và MsPacman-v0 . Họ yêu cầu động cơ khác nhau. Bạn có thể tìm thấy tài liệu chi tiết về OpenAI Gym trên https://gym.openai.com/docs/#environments

Đoạn mã sau hiển thị một ví dụ về mã Python cho môi trường cartpole-v0 −

import gym
env = gym.make('CartPole-v0')
env.reset()
for _ in range(1000):
   env.render()
   env.step(env.action_space.sample())

Bạn có thể xây dựng các môi trường khác theo cách tương tự.

Xây dựng một tác nhân học tập với Python

Để xây dựng tác nhân học tăng cường, chúng tôi sẽ sử dụng gói OpenAI Gym như được hiển thị

import gym
env = gym.make('CartPole-v0')
for _ in range(20):
   observation = env.reset()
   for i in range(100):
      env.render()
      print(observation)
      action = env.action_space.sample()
      observation, reward, done, info = env.step(action)
      if done:
         print("Episode finished after {} timesteps".format(i+1))
         break