머신 러닝 (①) 필기

2020. 12. 26. 07:21언어영역/Machine Learning

 

Machine Learning 1-12 표

 행에는 하나의 예시(instance, observed value, example, record, case), 열에는 하나의 속성(feature, attribute, variable, field)이 적힌다.  대강 아래와 같은 식이다.

bday

name

height(m)

weight(kg)

20000106

csm

1.78

66

20010626

cys

1.65

57

세상에! 어쩐지 고등학교 당시 R프로그램을 할 때에도 csv파일은 항상 이런 식으로 구성돼있었다. 항상 행과 열을 이렇게 적기로 약속해놨단다. 

Machine Learning 1-13 독립변수와 종속변수

  • 종속변수와 독립변수, 상관관계와 인과관계에 대해 배웠다.
  • 종속변수는 결과, 독립변수는 원인이다.
  • 상관관계는 인과관계를 포함하는 개념이며, 이 둘을 분석할 땐 주의가 필요하다.

내가 제시한 예시에서 독립 변수와 종속 변수는 무엇일까. 

  • 독립 변수 : 캘린더의 계획을 지켰는가 (1~5점, 5만점)
  • 종속 변수 : 시간관리 점수

 이 정도가 되겠다. 물론 고등학교 당시에, 이렇게 번거롭게 일상을 하나하나 톺아보지 않더라도 자신의 시간관리능력을 분석할 수 있는 설문 조사를 찾은 적이 있다. 하지만 그 때 내가 우리 학교 학생들을 대상으로 일일이 설문지를 뿌리고, csv파일을 만들면서 느낀 점은 이 설문이 너무 주관적이라는 것이다. 같은 장소에 같은 학생들을 대상으로 진행하긴 했지만, 아무래도 그 날 하루의 기분이 좋은 학생들은 점수가 후하게 나오고, 그 날 기분이 나쁜 학생들은 자신의 시간관리점수를 낮게 줬을 가능성이 있다고 생각했다. 그런 점에서 매일 매일 자신의 시간 관리 만족 여부를 기록한다면, 특히나 그게 여러 사람이 아니라 개인화된 정보라면, 자신의 시간관리 점수를 좀 더 객관적으로 판단할 수 있지 않을까?

 나도 실험을 할 때 우선 상관관계가 있는 지 판단한 후에, 이들이 어떻게 인과관계가 성립한다는 걸 증명할 수 있는지에 대해 의문을 가진 적이 있다. 당시 시계열 데이터를 활용해서 시간에 따라 변수가 어떻게 바뀌는지에 대해 본다면 인과관계를 증명할 수 있다고 했던 것 같은데... 모르겠다. 일단 계속해서 진행해보자.

Machine Learning 1-14 심리전

머신러닝에 대한 내용은 아니다. 차라리 영상을 단지 괴로운 '공부'라고 생각하는 사람들에 대한, 다음 챕터 이전에 대한 경고인 것 처럼 느껴졌다. 흥미가 없고 지루해 할 사람은 발을 들이지 말라는. 나도 별 말 쓸 생각 없었는데, 느낀 점이 있어서 한 마디 써야겠다.

해당 영상에서는 스마트폰을 예시로 들고 있다. 우리가 복잡하고 모든 기능을 다 쓸 수 없는 스마트폰을 처음 살 때, 우리는 스마트폰의 모든 기능을 다 쓸 수 없다고 절망하지 않는다. 사실이다. 나만 해도 고등학교를 졸업하고 받은 아이폰에 대해 고심했던 적은 없으니까. 단지 이 제품이 내 손에 드디어 들어왔다는 점에 기뻐했다. 그리고 '생활코딩'은 공부도 같은 방식으로 하라고 한다. 비록 우리가 공부를 하는 건 맞지만, 목표 없는 공부는 단지 괴로울 뿐이라면서.

그렇다면 나는 무엇을 목표로 해야 할까? 고민하다 내린 결론은 내가 시간관리 앱을 만들 수 있다는 것이다. 여태 시간관리 앱은 아무래도 점수를 내는 건 없었던 것 같다. (적어도 내가 본 한에서는) 그렇다면, 계획표를 작성하고 알려주는 것에 더불어, 완성도를 스스로 평가해 하루에 점수를 매기는 앱은 어떨까? 이런 상상을 하면(사실 상상이긴 하지만 실제로 잡은 목표다! 지금은 html 하나 어떻게 다루는 지도 모르지만, 앞으로 머신 러닝과 파이썬을 익히고, 앱을 새로 개발할 때 까지 노력해보자.) 더 공부에 몰입할 수 있을 것 같다.

Machine Learning 1-15~23 머신러닝의 분류

  1. 지도학습 : 연구자의 지도 하에 인공지능을 학습시키는 것 
    1. 회귀(Regression) : 숫자 자료를 바탕으로 인공지능이 변수 간의 관계 모델을 제작하는 것 
    2. 분류(Classification) : 속성에 따라 변수들을 몇 가지 속성에 분류하는 것 . 속성의 개수/이름은 연구자가 미리 설정해 둔 것들이다. 국적끼리 묶을 수도 있고, 인종에 따라 묶을 수도 있고... 이런 느낌.
  2. 비지도학습 : 연구자의 간섭 없이 인공지능이 스스로 학습하는 것 
    1. 군집화(Clusetering) : 속성에 따라 변수들을 몇 가지 속성에 분류하는 것.  속성의 개수는 연구자가 미리 설정해 둔다. 단순히 비슷한 걸 모으는 것으로 속성에 해당하는 이름이 없다. 그냥 모르는 사람들끼리 모인 느낌.
    2. 연관 규칙 학습(Association rule Learning, 연관) : 특성(Attribute)을 군집화하는 것. 라면을 살 때 계란을 사는 사람이 많다는 걸 알려주는 '추천'알고리즘이라고 생각하면 될 것 같다. 
    3. 변환 (Transform) : 정보를 알기 쉽게 변환시키는 것. 변수가 여러 개일 때 중요한 몇 개의 변수만 남기고 지워서 사람이나 다른 인공지능이 정보를 이해하기 쉽게 만든다. 단어 분석을 통해 감성/주제를 분석하는 게 그 예일 듯 하다.  
  3. 강화학습 : 연구자가 제시한 환경에서 연구자가 제시한 보상과 처벌로 인공지능이 스스로 학습하는(강화되는) 것. 슈퍼마리오 스피드런/핀볼 에서 인공지능이 학습을 통해 세계 신기록을 달성하는 영상을 봤는데 이게 그 방법인가보다.

지금까지 머신러닝의 분류에 대해서 알아봤다. 사실은 다른 방식도 훨씬 많다고 하니 계속해서 찾아 보는게 좋을 것이다. 그러고보니 내가 하고싶은 시간관리점수를 매기는 일은 회귀에 속하는 편인 것 같다. 숫자들을 바탕으로 하루의 점수를 매기는 거니까.

https://youtu.be/Aut32pR5PQA

Machine Learning 1-24 종강

벌써 종강이다. 사실 별로 배운 것도 없다고 생각했는데 벌써 종강이라니 조금 얼떨떨한 기분이다. 하지만 다시 생각해보자. 영상 마지막에서 제시한 지도를 나는 혼자서 그릴 수 있을까 생각하면 그건 또 아니어서, 여기서 멈추는 게 맞는 선택인 것 같다. 게다가 나름의 성취감도 느껴진다! 나도 무언갈 해낼 수 있다는. 앞으로 정진해서 앱 개발! 해보자.