'캐글데이터 라이센스'에 해당되는 글 1건

안녕하세요. 은공지능 공작소의 파이찬입니다.
오늘 들려드릴 TMI는 kaggle 데이터. 상업적 이용이 가능한가? 라는 내용입니다.

요새 영화 데이터, 성경 텍스트 등으로 포스팅도 하고 유튜브도 찍으면서
이런 데이터들을 마음대로 가져다써도 되는지 궁금해졌습니다.
은공지능 공작소는 구글 애드센스 승인이 되었기 때문에
kaggle data로 포스팅을 할 시, 데이터의 상업적 이용이라고 말할 수 있는 근거가 있거든요.

그래서 준비했습니다! 캐글 데이터의 저작권 라이선스 알아보기!
결론부터 말씀드리면 kaggle의 데이터마다 라이선스가 모두 다릅니다.
어떤 것은 재사용이 가능하고, 상업적인 이용도 가능한 반면에
어떤 것은 외부에서의 사용이나, 재사용, 공유 등이 엄격하게 제한된 것도 있습니다.

저는 그중에서도 상업적 재사용이 가능한지에 초점을 맞추어서 설명을 드리겠습니다.
그럼 지금부터 본격적으로 어떻게 이런 라이선스를 확인할 수 있는지 알려드리겠습니다.

 

 

 

 

 

kaggle에서 데이터를 볼 수 있는 곳은 크게 2가지 경로가 있습니다.
competition에 들어가실 수도 있고, 아니면 dataset에 들어가실 수도 있습니다.
dataset부터 competiton 데이터 순서대로 살펴보겠습니다.

 

 

 

 

 

 

 

1. Creative Commons 데이터

- 상업적 사용 가능! -

 

 

Dataset에 들어가시면 다음과 같은 화면이 나오는데요.
빨간색 박스로 표시된 필터 부분을 클릭해보시길 바랍니다.

 

 

 

 

 

라이선스 관련된 부분에 여러 가지가 뜨는데요,
저희는 그중에서도 Creative commons부터 살펴보겠습니다.
Creative Commons를 클릭하고 Done 버튼을 눌러 검색을 해봅니다.

 

 

 

 

 

많은 데이터가 뜰 텐데요, 이렇게 필터를 거쳐서 나온 데이터들은
모두 Creative Commons 라이선스를 가진 데이터들입니다.
제일 핫한 Crimes in Boston 데이터를 클릭해서 들어가 보겠습니다.

 

 

 

 

 

빨간색 박스로 표시된 CC:0 Public Domain 부분을 클릭합니다.
그러면 아래와 같은 저작권 설명 사이트가 나옵니다.

 

 

 

 

 

https://creativecommons.org/publicdomain/zero/1.0/

Creative Commons License는 CCL 또는 CC 라이선스라고도 합니다.
상업적 사용이 가능한 라이선스입니다!

중간을 보시면 큰 글씨로 No Copyright라고 된 부분을 볼 수 있습니다.
데이터의 복사, 수정, 배포 모두 가능하고요. 
무엇보다 여기에서 결정적인 부분은 even for commercial purposes!!
상업적 사용이 가능하다는 것입니다.

그러니 누구든지 이런 CCL이 붙은 데이터들을 가공해서
블로그 포스팅을 한다던지 유튜브 영상을 찍는 일도 가능하다는 말입니다.
가장 안심하고 사용할 수 있는 데이터 소스라고 할 수 있습니다.

 

 

 

 

 

 

 

2. GPL (General Public License)

- 상업적 사용 가능! (단, 소스코드 공개) -

 

 

다음으로 살펴볼 것은 GPL 라이선스를 가진 데이터입니다.
GPL은 General public license의 약자로 일반 공중 사용 허가서를 말합니다.

제가 쭉 살펴본 결과 대부분의 GPL 데이터에서 버전 2의 라이선스가 걸려 있는데요,
이걸 줄여서 GPL 2라고 합니다.

 

 

 

 

 

위에서 보시는 것처럼, 라이센스 부분에 GPL2라고 된 것을 볼 수 있습니다.
GPL2 라이센스가 걸린 데이터도 상업적 사용이 가능합니다!

다만, 앞에서 말씀드린 CCL과 차이점이 존재하는데요.
만일 이 데이터를 2차 창작물을 만들었을 때, 다른 사름들이 이용할 수 있게끔
소스 코드를 공개할 수 있어야 된다는 것입니다.

바로 이러한 점이 GPL의 핵심입니다.
대부분의 저작권은 다른 사람이 내 지적재산권을 마음대로 침해할 수 없도록 규제하는 것이 골자라면,
GPL은 어떤 프로그램이나 데이터가 2차, 3차 창작을 거치더라도
계속 자유롭게 사용될 수 있도록 하는 것이 핵심입니다.

잠깐 옆길로 샜네요. 이것이 바로 TMI 컨탠츠의 묘미죠.
다시 본론으로 돌아와서, 정리하면 GPL kaggle 데이터. 상업적 사용 가능합니다.
단, 소스코드 공개하세요. 이것이 GNU GPL의 기준입니다.

 

 

 

 

 

 

 

3. Database Contents License

- 상업적 사용 가능! -

 

 

세 번째로 살펴볼 것은 Database contents license입니다. 줄여서 DbCL이라고 부릅니다.

 

 

 

 

 

아무 데이터에 들어가서, 라이선스 부분을 클릭해줍니다.
이렇게 하면 Open Database 라이센스 관련 페이지로 이동합니다.

 

 

 

 

 

상업적 이용 가능할까요? 네. 가능합니다.

여기 이 라이센스 부분을 클릭하게 되면 관련 문서로 넘어가게 되는데요.
섹션 2의 2.1항 5번째 줄에 명시되어 있습니다.

explicitly include commercial use!!
상업적 이용권을 명백히 포함하고 있다고요.
너무나 explicitly 단어로 명백하게 말해주고 있습니다.

 

 

 

 

 

 

여기서 잠깐 copyleft라는 개념에 대해 알아보고 넘어가겠습니다.
(TMI 시작)

copyletf는 copyright의 반대쪽에 있는 개념이에요.
오른쪽의 반대는 왼쪽이죠? 그러니 카피라이트의 반대는 카피레프트입니다.

카피라이트는 독점적인 저작권을 말합니다.
즉, 카피라이트는 이 내용물의 권리가 나한테 있으니 내 허락 없이 못써! 가 된다면
카피레프트는 너 혼자만 이 좋은걸 독점할 수 없지. 모두 공유해야 해!입니다.

데이터베이스 콘텐츠 라이선스는 바로 이 카피레프트를 기반으로 합니다.
그러니 상업적인 사용도 물론 가능하겠죠?

 

 

 

 

 

 

 

4. Other 라이센스

- 확인 후 상업적 사용 가능 -

 

 

지금까지 살펴본 3가지 라이센스는 모두 상업적 사용이 가능했습니다.
그래서 뭐야 다 막 갔다 써도 되는 거 아니야?라고 생각하시는 분들도 있을 겁니다.

응 아니야~ 라고 말해주고 싶네요.
저작권이 있는 데이터들도 분명히 있습니다.

 

 

 

 

 

여기 필터에서 others라고 된 것들은 좀 신경을 많이 써서 봐야 합니다.
우선 저렇게 필터 설정을 하고 검색을 해봅니다.
그리고 Electronic Motor Temperature 데이터를 살펴보았습니다.

 

 

 

 

 

이 데이터의 경우 저작권이 명시가 되어있습니다.
그러니 이런 데이터의 경우 함부로 맘대로 가져다 상업적으로 이용해선 안 됩니다.

 

 

 

 

 

반면에 라이선스가 명시되어 있지 않은 데이터도 있는데요.
위의 그림처럼 Metadata에 들어가시면 라이선스를 확인할 수 있습니다.

해당 데이터는 Unknown이라고 표시가 됩니다. 라이선스가 불명확한 것이죠.
그러니 파이찬은 이렇게 other 필터를 거쳐서 나온 데이터에 대해
가급적 상업적 이용을 권장드리지 않습니다.

 

 

 

 

 

 

 

5. Competition 데이터

- 확인 후 상업적 사용 가능 -

 

 

competition 데이터도 상업적 사용을 하나씩 확인을 해봐야 합니다.
이 competition 탭에서는 라이선스로 검색할 수 있는 기능이 별도로 없는 것으로 알고 있습니다.
따라서 직접 competiton을 하나하나 들어가 보면서, 데이터의 상업적 사용이 가능한지 체크해봐야 합니다.

 

 

 

 

 

먼저 Competiton에 하나 들어가 봅니다.
저는 APTOS 2019 Blindness Detection이라는 competition에 들어갔습니다.

Competition은 개최기간이 있으므로, 나중에 포스팅을 보시면 해당 대회가 닫힐 수 있습니다.
다른 competition에 들어가셔도 무방하니, 참고 바랍니다.

 

 

 

 

 

먼저 여기의 Rules로 들어가시고, Ctrl + F를 눌러 키워드 검색창을 열어줍니다.
그런 뒤에 키워드는 commercial로 검색을 해줍니다.

이런 식으로 문서 내 검색을 통해서 상업적 사용이 가능한지 체크를 다 해보는 수밖에 없습니다.
그러니 competition 데이터를 상업적으로 사용하려면
꼭! 반드시 위의 방법으로 상업적 이용 가능 여부를 체크해보시길 바랍니다.

 

 

 

 

 

정리를 해보겠습니다.

1. Creative Commons, GPL2, Open Database
라이선스를 가진 데이터는 상업적 사용이 가능합니다.

2. Other 필터를 거친 데이터, Competiton 데이터는
약간의 확인 작업 후 상업적 사용이 가능합니다.


네 이렇게 해서 오늘은 kaggle 데이터의 상업적 사용에 대해서 포스팅을 해보았습니다.
도움이 되셨다면 하단에 하트 버튼 잊지 마시구요!

지금까지 은공지능 공작소의 파이찬이었습니다. 감사합니다.
블로그 이미지

pychan

딥러닝에 관련된 시행착오, 사소하지만 중요한 것들, 가능한 모든 여정을 담았습니다.

댓글을 달아 주세요