__init__

사는얘기 2022. 12. 22. 22:48

안녕하세요 정도전입니다. 강화학습 관련 스터디를 진행하고자 합니다. 1) 스터디는 다음과 같은 방법으로 진행하고자 합니다. "무엇을 보고 오셔도 상관없습니다. 주제에 맞는 내용 공부하시고 오시면 됩니다" 큰 흐름은 주제에 대하여 개론식 설명 + 각자 Q&A 진행 해당 주제가 본인 프로젝트에 어떻게 적용될지에 대한 고민 공유 내가 짠 코드 자랑(?) 잡담 한 스푼 2) 제가 생각하는, 본 스터디를 참여하셨으면 하는 상은 다음과 같습니다. 지각/결석에 대한 경각심을 가지셨으면 좋겠습니다. 본인이 어느정도 실력이 있으시다면 다른 스터디를 권합니다. 상대에게 날카롭지 않았으면 좋겠습니다. + https://blog-init.tistory.com/37 해당 글에 어느정도 공감을 하신다면 좋을 것 같습니다. 3) ..

[일상] 튜토리얼 지옥 _ Tutorial hell

사는얘기 2022. 12. 22. 22:23

해당 영상을 보고 약간은 얼떨떨 했다. 이 영상에서는 개발에 시간을 제법 투자하지만,내 실력이 잘 늘지 않는다고 느끼는 이유 내가 늘 기본이 중요하다고 자기 최면을 거는 이유 들을 깨달을 수 있었다. 확대해석일 수 있지만, 고딩때 수학공부를 지금 개발공부하듯 했던 것 같다. 그때 공부법 중 하나가 한 문제지를 반복해서 푸는 방법이 유행했었다. 그리고 나는 수학문제를 풀다가 막히면 주저없이 답지를 보는 스타일이었다. 이 두 방법의 콜라보레이션이 나를 멍청하면서 부지런한 사람으로 만든 것 같다. 그 결과인지 수학은 딱히 3등급 이상을 받아본적이 없었다. 안정적으로 3등급은 나왔으나 그 이상은 가지 못하더라 그리고 어쩌다보니? 공대를 갔는데 1학년때 미적분 교수님을 잘 만났던 것 같다. 수학이란. 문제푸는 과..

[서평] 강화학습 첫 걸음 : 텐서플로로 살펴보는 Q 러닝, MDP, DQN, A3C 강화학습 알고리즘

사는얘기 2022. 12. 11. 22:37

요약 : - 지금은 사지 말아야 할 책 지금은 사지 말아야 할 책 본 서적은 저자인 아서줄리아니가 "2016"년에 작성한 포스팅을 바탕으로 번역만 되어있는 책이다. 이게 바로 아서 줄리아니의 블로그다, 참조 : https://awjuliani.medium.com/super-simple-reinforcement-learning-tutorial-part-1-fd544fab149 Simple Reinforcement Learning in Tensorflow: Part 1 - Two-armed Bandit Introduction awjuliani.medium.com 서적을 사신분이 계신다면, 블로그 내용 그대로 번역만 되어있음을 확인할 수 있을 것이다. 내용적으로 접근하더라도, 2016년이라면, 저 내용들이 강..

[강화학습] PPO 알고리즘 (1) (미완)

CS/ML&DL 2022. 10. 19. 15:52

TRPO 목적함수 목적함수 : Local Point(L)값에 쎄타(Action)이 들어오고 이 update된 Local Point를 가장 최적의 값으로 만드는(Maximize)하는 Policy를 찾는 것 == (세타로 만든 정책과 KL 거리가 델타보다 작은 정책을 만들어주는 세타들 중에서 목적함수를 최대로 만들어주는 세타를 찾아라) 그러나 Action과 Update된 Action을 파라미터로 갖는 KL Distance값에 의해 제약을 받는다. 그리고 이 거리값은 ?보다 작다는 제약식을 갖는다. 의도 : TRPO는 Trusted Rigion을 갖는 알고리즘이다. 여기서 말하는 Trusted Rigion은 Local Point가 Global minima로 빠지지 않게 방지해주는 그런 영역이라 볼 수 있겠다...

[강화학습] flexSim과 강화학습 그동안의 뻘짓 기록

CS/ML&DL 2022. 10. 11. 23:35

※ 의식의 흐름으로 작성된 글이니 주의 기획업무 그 중에서도 DT관련 업무를 맡다보면, 다음과 같은 딜레마에 빠지게 되는 듯 하다. 무언가 새로운걸 해야한다는 압박과, 한편으로는 과연 이게 되는 것인가에 대한 의문 사이가 왔다갔다 한다. 두달짜리 째간이 신입이지만, 그래도 나 정도전 석사출신이 아니던가. 주 메인업무인 시뮬레이션 업무에 데이터분석을 담아보고자 했다. 그러던 중 FlexSim SW에 강화학습 기능이 탑재되어있단 것을 발견했다. https://docs.flexsim.com/en/22.1/ModelLogic/ReinforcementLearning/Training/Training.html Reinforcement Learning Training © 1993 - 2022 FlexSim Softwa..

[근황] 어찌어찌 지내나

사는얘기 2022. 9. 14. 17:11

마지막 포스팅은 아마, 참치로 유명한 D그룹이었던 것 같다. D그룹의 AI관련 부서에 인턴으로 있다가, 지금 있게된 L그룹 합격이 나서 이동하게 되었다. (떠났지만, 여기서 일했었어도 참 괜찮았을 것 같았다.) 이동 계기는 연봉, 전공 적성, 관심사 이렇게 삼박자가 더 맞아 떨어졌던것이 계기였다. 다만, 직무 방향은 조금 벗어난다. 본인은 ML/DL을 활용해 문제를 해결하는 것을 지향했으나 현 담당 직무는 다음과 같다. 공장 시뮬레이션 + 시스템(여기선 RPA를 시스템이라 부르는 것 같다)인데 공정 개선, 수율개선, AGV경로개선 등 다양한 경우들을 시뮬레이션으로 구현한다. 보통 이런 시뮬레이션 작업은 기존 프로세스에서 새 프로세스로 바꾸기 전에, 터질만한 예상 문제는 없는지 파악하는 과정이 큰 목적일 ..

[pandas] Multiindex의drop 관련 이슈 unhashable type : 'Series'

CS/ML&DL 2022. 7. 7. 08:48

프로젝트를 진행하던 중 수치형 변수에 의미를 더하고자 특정 칼럼에 agg를 입히고 mean, sum 등 새로운 특성인자를 추가하였다. 대강 이런 모양을 생각하면 좋은데, 이런경우를 multi index (멀티인덱스) 라고 하더라 본인은 아직 멀티인덱스가 뭔지는 잘 모르는 상황이다. 그런데 여기서 ABC의 sum을 드랍하고 싶은 상황이었다. 그런데 이렇게 직접 넣어주면 Series형은 unhashable하다는 에러가 발생한다. info()에서 봤듯, 칼럼네임이 ( , ) 처럼 튜플형식으로 변해서 발생하는 에러라고 생각을 했는데 튜플은 해싱이 가능하다는 얘기를 들은적도 있고 ... 아직 혼란스럽다. 우선 급하게 찾은 해결책은. 이렇게 칼럼의 위치를 직접 박아주거나 그렇게 권장할 방법은 아니지만, 애초에 멀티..

[Predict_Future_Sales] 관련

CS/ML&DL 2022. 6. 30. 17:36

정리할 것. https://www.kaggle.com/competitions/competitive-data-science-predict-future-sales/data pandas - shift : 원하는 행을 옮기는? 삽입하는 녀석? 시계열을 쪼개서 -> 얘를 시각화하고 어느 시점에 어떤 판매량이 높은지 등등 "시간"을 다루는 능력 필요 Q. rolling을 하는 이유? A. 시계열 데이터를 분석하다보면 '지난달의 데이터가 이번 달의 데이터에 어떤 영향을 미쳤는지' 확인해야 하는 경우가 잦다. 이런걸 보여주는게, rolling과 shift라는데... rolling은 몇개의 데이터를 가지고 연산을 할 것인지를 정하는 과정. 데이터를 순차적으로 window 만큼 선택해서 mean처럼 이동평균을 보낼 수 있..

ABOUT ME

init init

티스토리툴바

ABOUT ME

전체 글

티스토리툴바