All59 [인공지능] Chapter 12. Reinforcement Learning (2) Exploitation VS Exploration Exploitation (활용) 지금까지 학습한 것 중 최적의 행동을 선택 이미 학습한 지식을 토대로 가장 높은 보상을 기대하는 행동을 선택 학습된 정책 또는 가치 함수를 따라가는 것 Exploration (탐험) 새로운 행동을 시도 더 많은 정보를 얻기 위해 이전에 시도하지 않은 행동을 선택 불확실한 상황에서 미래의 보상을 더 잘 이해하기 위해 리스크를 감수하고 새로운 경험을 쌓는 것 새로운 행동을 시험하며 미래에 더 나은 결정을 내릴 수 있도록 학습 → Exploration이 없는 pure exploitation은 학습의 다양성과 새로운 경험을 얻는 기회를 제한하여 optimal policy를 얻는 것을 어렵게 만든다. Exploration metho.. 2023. 12. 6. [인공지능] Chapter 11. Reinforcement Learning (1) Double Bandits Double bandits 강화학습의 한 영역 두 가지 알고리즘이 결합된 형태 1st bandit 탐험 환경과의 상호작용을 통해 가장 효과적인 행동을 선택하려고 함 알려지지 않은 환경에서 가장 좋은 결과를 얻기 위해 다양한 행동을 시도하는 과정 2nd bandit 활용 이러한 탐험을 통해 얻은 데이터를 기반으로 가장 효과적인 데이터를 예측 이미 알려진 정보를 활용하여 가장 좋은 결과를 얻는 것을 목표로 함 위 두 가지 접근 법 사이의 균형을 맞추는 것이 Double bandits의 핵심 문제 Offline Planning offline planning 환경에 대한 전체 정보를 갖고 있을 때 주로 사용 미리 모든 가능한 상태와 행동에 대한 가치를 계산하고, 이를 바탕으로 최선의 .. 2023. 12. 4. [youtube 리뷰] 10분짜리 영상도 끝까지 못보는 사람 다 드류와~ https://www.youtube.com/watch?v=k2-MS-No9OY&list=LL&index=4&t=78s 2023. 11. 29. [youtube 리뷰] 자본주의에서 부자되는 단 하나의 법칙 https://www.youtube.com/watch?v=UiYizJm0YEE&t=845s '레버리지(leverage)'는 타인의 자본을 지렛대처럼 이용하여 자기 자본의 이익률을 높이는 것 https://ko.wikipedia.org/wiki/%EB%A0%88%EB%B2%84%EB%A6%AC%EC%A7%80 레버리지 - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. 레버리지(leverage)는 타인의 자본을 지렛대처럼 이용하여 자기 자본의 이익률을 높이는 것이다. 고정비용이 있을 때 매출액의 변화가 기업의 손익에 미치는 영 ko.wikipedia.org 2023. 11. 28. [인공지능] Chapter 10. Markov Decision Process (2) The Bellman EquationsBellman Equations지금 상태 s에서 이후 모든 상태 s’로 이어지는 값 중, 최댓값을 고르는 식최적화 문제를 푸는 데 사용순차적인 의사결정 문제를 다루는 데 활용How to be optimalTake correct first actionKeep being optimal벨만 방정식에서 agent가 얻을 수 있는 utility의 최적화된 값 (벨만 방정식의 두 가지 형태)V*(s) (상태 가치 함수)agent가 상태 s에서 시작optimal 하게 행동한다면 행동 가능한 타임 스탬프 동안 얻을 수 있는 utility 기대값Q*(s, a) (행동 가치 함수)agent가 상태 s에서 시작행동 a를 시작한뒤 optimal하게 해동한다면 이후 얻을 수 있는 utili.. 2023. 11. 27. [youtube 리뷰] 주식의 신 시골의사 박경철의 마지막 강연 역대 강연1위🔥 【결말포함/강연리뷰】 https://www.youtube.com/watch?v=vgQh-Hq7nBA&list=WL&index=8 35분까지는 아주 좋다 2023. 11. 20. [Seaborn 튜토리얼 필사] 1-1. An introduction to seaborn Seaborn : a library for making statistical graphics in Python. Matplotlib 기반, Pandas 데이터 구조와 통합 라이브러리 호출 # Import seaborn import seaborn as sns 테마 설정 # Apply the default theme sns.set_theme() Dataset 불러오기 # Load an example dataset tips= sns.load_dataset("tips") pandas.read_csv() 시각화 # Create a visualization sns.relplot( data=tips, x="total_bill", y="tip", col="time", hue="smoker", style="smoker".. 2023. 11. 17. [JavaScript] 생활코딩 Chap. 12~17 12. 제어할 태그 선택하기document.querySelector('body')→ ‘body’ 태그 선택document.querySelector('body').style.backgroundColor = 'black’→ ‘body’ 태그의 backgroundColor를 ‘black’으로 설정document.querySelector('body').style.color = 'white’→ ‘body’ 태그의 글자 색을 ‘white’로 설정13. 프로그램, 프로그래밍, 프로그래머프로그램(음악) 시간의 흐름에 따라서 음악이 연주되는 순서프로그래밍순서를 만드는 행위프로그래머순서를 만드는 사람 💡 html은 시간의 순서에 따라 실행되는 것이 아님. 프로그래밍 언어가 아님 💡 JS는 사용자와 상호작용을 하기 위해.. 2023. 11. 14. [JavaScript] 생활코딩 Chap. 1~11 1. 수업 소개html: 정적JS: 동적2. 수업의 목적실습을 통해 문법을 공부JS는 html을 제어하는 언어3. HTML과 JS의 만남: script 태그JS는 HTML위에서 동작하는 언어HTML과 JS의 차이 태그를 통해 JS임을 알림document.write() 2023. 11. 13. 생활코딩 WEB2 - CSS 정리 2 (8~15) 8. 박스모델 9. 박스모델 써먹기 회화 반복 학습 프로그램 display 속성을 통해 차지하는 공간을 설정할 수 있음 display:none; 을 통해 안보이게 할 수 있음 중복 방지 박스 모델 웹페이지 분석 도구 10. 그리드 소개, 11. 그리드 써먹기 의미도, 기능도 없는 태그 그리드 기능 그리드로 감싸기 위해서는 감싸려고 하는 요소를 하나의 태그로 묶어줘야 함 → 태그 활용 그리드 써먹기 그리드 내부 여백 조절 회화 반복 학습 프로그램 남은 식재료를 활용한 레시피 일정 관리 프로그램 나만의 웹사이트 프랑스 공화국(프랑스어: République française), 약칭 프랑스(프랑스어: France)는 서유럽의 본토와 남아메리카의 프랑스령 기아나, 프랑스령 폴리네시아를 비롯해 여러 대륙에 걸친 .. 2023. 11. 1. 생활코딩 WEB2 - CSS 정리 1 (1~7) 1. 수업 소개 2. CSS가 등장하기 전의 상황 웹 페이지를 보다 아름답게 만들기 디자인 관련한 태그를 추가하기 vs 디자인에 최적화된 언어를 만들기 3. CSS의 등장 주석 CSS html에서 디자인 기능을 추린 것 효율적으로 디자인 4. CSS의 기본 문법 style 태그를 활용하는 방법 속성 간 구분에는 세미콜론(;)을 사용 style 속성을 활용하는 방법 속성 간 구분에는 세미콜론(;)을 사용 회화 반복 학습 프로그램 5. 혁명적 변화 6. CSS 속성을 스스로 알아내기 검색하는 법 글자 크기 변경 font-size 텍스트 정렬 text-align 7. CSS 선택자의 기본 회화 반복 학습 프로그램 남은 식재료를 활용한 레시피 일정 관리 프로그램 나만의 웹사이트 선택자(selector) 우선순위.. 2023. 10. 31. [인공지능] Chapter 9. Markov Decision Process (1) Markov Decision Processes 다음과 같은 요소로 정의 A set of states s from S A set of actions a from A A transition function T(s, a, s’) s’: a(from s)가 s’가 될 확률 Also called the model or the dynamic A reward function R(s, a, s’) A start stae Maybe a terminal state MDPs are non-deterministic search problems One way to solve them is with expectimax search What is Markov about MDPs? Markov generally means that .. 2023. 10. 25. 이전 1 2 3 4 5 다음