초보자를위한 10 가지 데이터 과학 프로젝트

[ad_1]

으로 나타샤 셀 바라지, 데이터 과학자



~의 사진 Jo Szczepanska 의 위에 Unsplash

야심 찬 데이터 과학자로서 여러분은“데이터 과학 프로젝트 수행”천 번 이상.

데이터 과학 프로젝트는 훌륭한 학습 경험 일뿐만 아니라 해당 분야에 뛰어 들고 자하는 수많은 데이터 과학 애호가들과 차별화되도록 도와줍니다.

그러나 모든 데이터 과학 프로젝트가 이력서를 돋보이게하는 것은 아닙니다. 사실, 잘못된 프로젝트를 포트폴리오에 나열하면 득보다 해를 끼칠 수 있습니다.

이 기사에서는 다음과 같은 프로젝트를 살펴 보겠습니다. 필수품 이력서에.

나는 또한 당신에게 제공 할 것입니다 샘플 데이터 세트 각 프로젝트에 대해 실험 할 수 있습니다. 프로젝트를 완료하는 데 도움이되는 튜토리얼.

기술 1 : 데이터 수집

~의 사진 제임스 해리슨 의 위에 Unsplash

데이터 수집 및 사전 처리는 데이터 과학자로서 보유해야 할 가장 중요한 기술 중 하나입니다.

데이터 과학 업무에서 대부분의 작업은 Python에서 데이터 수집 및 정리를 포함합니다. 비즈니스 요구 사항을 이해 한 후에는 인터넷에서 관련 데이터에 액세스해야합니다.

이는 API 또는 웹 스크레이퍼를 사용하여 수행 할 수 있습니다. 이 작업이 완료되면 데이터를 정리하고 기계 학습 모델에 입력으로 제공 할 수있는 형식으로 데이터 프레임에 저장해야합니다.

이것은 데이터 과학자의 업무에서 가장 시간이 많이 걸리는 부분입니다.

다음 프로젝트를 완료하여 데이터 수집 및 사전 처리 기술을 보여줄 것을 제안합니다.

웹 스크랩 핑-음식 리뷰 사이트

지도 시간: BeautifulSoup으로 Zomato 웹 스크래핑

언어 : Python

음식 배달 웹 사이트에서 리뷰를 긁어내는 것은 이력서에 포함 할 수있는 흥미롭고 실용적인 프로젝트입니다.

웹 스크레이퍼를 구축하여이 사이트의 모든 웹 페이지에서 모든 리뷰 정보를 수집하고 데이터 프레임에 저장하십시오.

이 프로젝트를 한 단계 더 나아가고 싶다면 수집 된 데이터를 사용하여 감정 분석 모델을 구축하고 이러한 리뷰 중 긍정적 인 리뷰와 부정적인 리뷰를 분류 할 수 있습니다.

다음에 먹을 것을 찾을 때 전체적으로 가장 좋은 평가를받은 레스토랑을 선택하십시오.

웹 스크랩 핑-온라인 코스 사이트

지도 시간: Python으로 8 분 만에 웹 스크레이퍼 구축

언어 : Python

2021 년에 수강하기위한 최고의 온라인 과정을 찾고 싶으십니까? 저렴하면서도 높은 평가를받는 과정을 찾기 위해 수백 개의 데이터 과학 과정을 스크롤하는 것은 어렵습니다.

온라인 코스 웹 사이트를 스크랩하고 모든 결과를 데이터 프레임에 저장하면됩니다.

이 프로젝트를 한 단계 더 발전 시키면 가격 및 등급과 같은 변수를 중심으로 시각화를 만들어 저렴하고 양질의 과정을 찾을 수도 있습니다.

감정 분석 모델을 만들고 각 온라인 코스를 둘러싼 전반적인 감정을 생각 해낼 수도 있습니다. 그런 다음 가장 높은 전체 정서로 코스를 수행하도록 선택할 수 있습니다.

보너스

API 또는 기타 외부 도구를 사용하여 데이터를 수집하는 프로젝트를 만듭니다. 이러한 기술은 일반적으로 작업을 시작할 때 유용합니다.

타사 데이터에 의존하는 대부분의 회사는 API 액세스를 구매하는 경우가 많으며 이러한 외부 도구를 사용하여 데이터 수집을 수행해야합니다.

수행 할 수있는 샘플 프로젝트 : Twitter API를 사용하여 특정 해시 태그와 관련된 데이터를 수집하고 데이터 프레임에 데이터를 저장합니다.

기술 2 : 탐색 적 데이터 분석

~의 사진 루크 체서 의 위에 Unsplash

데이터를 수집하고 저장 한 후에는 데이터 프레임의 모든 변수에 대한 분석을 수행해야합니다.

각 변수가 어떻게 분포되어 있는지 관찰하고 서로 간의 관계를 이해해야합니다. 또한 사용 가능한 데이터의 도움을 받아 질문에 답할 수 있어야합니다.

이것은 데이터 과학자로서 매우 자주 수행하는 작업이며 아마도 예측 모델링보다 훨씬 더 그렇습니다.

다음은 EDA 프로젝트 아이디어입니다.

심장병의 위험 요인 식별

데이터 세트 : 프레이밍 햄 심장 연구

지도 시간: Framingham 심장 연구 : 의사 결정 트리

언어 : Python 또는 R

이 데이터 세트는 환자의 심장 질환 발병을 예측하는 데 사용되는 콜레스테롤, 나이, 당뇨병 및 가족력과 같은 예측 변수로 구성됩니다.

Python 또는 R을 사용하여이 데이터 세트에있는 관계를 분석하고 다음과 같은 질문에 대한 답을 얻을 수 있습니다.

  • 당뇨병 환자가 조기에 심장병에 걸릴 가능성이 더 높습니까?
  • 다른 사람들보다 심장병 위험이 더 높은 특정 인구 집단이 있습니까?
  • 자주 운동하면 심장병 발병 위험이 낮아 집니까?
  • 흡연자가 비 흡연자보다 심장병에 걸릴 가능성이 더 높습니까?

사용 가능한 데이터의 도움을 받아 이러한 질문에 답할 수 있다는 것은 데이터 과학자에게 필수적인 기술입니다.

이 프로젝트는 분석가로서의 기술을 강화하는 데 도움이 될뿐만 아니라 대규모 데이터 세트에서 통찰력을 도출 할 수있는 능력을 보여줄 것입니다.

세계 행복 보고서

데이터 세트 : 세계 행복 보고서

지도 시간: 세계 행복 보고서 EDA

언어 : Python

세계 행복 보고서는 기대 수명, 경제, 사회적 지원, 부패 부재, 자유, 관대함 등 6 가지 요소를 추적하여 글로벌 행복을 측정합니다.

이 데이터 세트에 대한 분석을 수행 할 때 다음 질문에 답할 수 있습니다.

  • 세계에서 가장 행복한 나라는 어디일까요?
  • 국가 행복에 가장 중요한 기여 요인은 무엇입니까?
  • 전반적인 행복이 증가하거나 감소합니까?

다시 말하지만 이것은 분석가로서의 기술을 향상시키는 데 도움이되는 프로젝트입니다. 대부분의 성공적인 데이터 분석가들에게서 본 특성은 호기심입니다.

데이터 과학자와 분석가는 항상 기여 요인을 찾고 있습니다.

그들은 항상 변수 간의 관계를 찾고 있으며 끊임없이 질문을합니다.

야심 찬 데이터 과학자라면 이와 같은 프로젝트를 수행하면 분석 정신을 개발하는 데 도움이 될 것입니다.

기술 3 : 데이터 시각화

~의 사진 루카스 블레이 젝 의 위에 Unsplash

데이터 과학자로 일하기 시작하면 고객과 이해 관계자는 일반적으로 비 기술적 인 사람이됩니다.

통찰력을 세분화하고 비 기술적 청중에게 결과를 제시해야합니다.

이를 수행하는 가장 좋은 방법은 시각화 형태입니다.

대화 형 대시 보드를 제공하면 그래프를 한눈에 이해하기 쉽기 때문에 통찰력을 훨씬 더 잘 전달할 수 있습니다.

이로 인해 많은 회사에서 데이터 시각화를 필수품 데이터 과학 관련 직책에 대한 기술.

다음은 데이터 시각화 기술을 입증하기 위해 포트폴리오에서 보여줄 수있는 몇 가지 프로젝트입니다.

Covid-19 대시 보드 구축

데이터 세트 : Johns Hopkins University의 Covid-19 데이터 저장소

지도 시간: Python 및 Tableau로 Covid-19 대시 보드 구축

언어 : Python

먼저 Python을 사용하여 위의 데이터 세트를 사전 처리해야합니다. 그런 다음 Tableau를 사용하여 대화 형 Covid-19 대시 보드를 만들 수 있습니다.

Tableau는 가장 수요가 많은 데이터 시각화 도구 중 하나이며 대부분의 입문 수준 데이터 과학 직책에 대한 전제 조건입니다.

Tableau를 사용하여 대시 보드를 만들고 포트폴리오에 표시하면 도구 사용에 대한 능숙 함을 보여 주므로 눈에 띄는 데 도움이됩니다.

IMDB- 영화 데이터 세트 대시 보드 구축

데이터 세트 : IMDb 최고 평점 영화

지도 시간: Tableau로 IMDb Top 250 살펴보기

IMDb 데이터 세트로 실험하고 Tableau로 대화 형 영화 대시 보드를 만들 수 있습니다.

위에서 언급했듯이 구축 한 Tableau 대시 보드를 표시하면 포트폴리오를 돋보이게 할 수 있습니다.

Tableau의 또 다른 장점은 시각화를 Tableau Public에 업로드하고 대시 보드를 사용하려는 모든 사람과 링크를 공유 할 수 있다는 것입니다.

즉, 잠재적 고용주가 대시 보드와 상호 작용할 수있어 관심을 불러 일으킬 수 있습니다. 그들이 당신의 프로젝트에 관심을 갖고 실제로 최종 제품을 가지고 놀 수 있다면, 당신은 이미 일자리를 얻는 데 한 걸음 더 가까워진 것입니다.

Tableau를 시작하려면 제 자습서를 방문하십시오. 여기.

기술 4 : 기계 학습

~의 사진 케빈 쿠 의 위에 Unsplash

마지막으로 기계 학습에 능숙 함을 보여주는 프로젝트를 선보여 야합니다.

감독 및 비지도 기계 학습 프로젝트를 모두 수행하는 것이 좋습니다.

음식 리뷰에 대한 감정 분석

데이터 세트 : Amazon Fine Food 리뷰 데이터 세트

지도 시간: Python을 사용한 감정 분석에 대한 초보자 가이드

언어 : Python

감정 분석은 기계 학습에서 매우 중요한 측면입니다. 기업에서 제품에 대한 전반적인 고객 반응을 측정하는 데 자주 사용됩니다.

고객은 일반적으로 소셜 미디어 및 고객 피드백 포럼에서 제품에 대해 이야기합니다. 이 데이터를 수집하고 분석하여 다른 사람들이 다른 마케팅 전략에 어떻게 반응하는지 이해할 수 있습니다.

수행 된 감정 분석을 기반으로 기업은 제품을 다르게 포지셔닝하거나 타겟 고객을 변경할 수 있습니다.

거의 모든 비즈니스가 소셜 미디어에 존재하고 고객 피드백을 측정 할 필요가 있기 때문에 포트폴리오에 하나의 감정 분석 프로젝트를 보여줄 것을 제안합니다.

기대 수명 예측

데이터 세트 : 기대 수명 데이터 세트

지도 시간: 기대 수명 회귀

언어 : Python

이 프로젝트에서는 교육, 유아 사망자 수, 음주, 성인 사망률과 같은 변수를 기반으로 한 사람의 기대 수명을 예측합니다.

위에 나열한 정서 분석 프로젝트는 분류 문제이므로 회귀 문제를 목록에 추가하고 있습니다.

다양한 분야에서 전문성을 보여주기 위해 이력서에 다양한 프로젝트를 소개하는 것이 중요합니다.

유방암 분석

데이터 세트 : 유방암 데이터 세트

지도 시간: 유방암 데이터 세트의 클러스터 분석

언어 : Python

이 프로젝트에서는 K- 평균 클러스터링 알고리즘을 사용하여 대상 속성을 기반으로 유방암의 존재를 감지합니다.

K- 평균 클러스터링은 비지도 학습 기술입니다.

대부분의 실제 데이터에는 레이블이 지정되어 있지 않으므로 포트폴리오에 클러스터링 프로젝트를 포함하는 것이 중요합니다.

회사에서 수집 한 방대한 데이터 세트조차도 일반적으로 교육 레이블이 없습니다. 데이터 과학자는 비지도 학습 기술을 사용하여 직접 레이블을 지정해야 할 수 있습니다.

결론

데이터 수집, 분석, 시각화, 머신 러닝 등 다양한 기술을 보여주는 프로젝트를 선보여 야합니다.

온라인 과정만으로는 이러한 모든 영역에서 기술을 습득 할 수 없습니다. 그러나 수행하려는 거의 모든 종류의 프로젝트에 대한 자습서를 찾을 수 있습니다.

필요한 것은 Python에 대한 기본 지식이며이 튜토리얼을 따라 할 수 있습니다.

모든 코드가 작동하고 제대로 따라갈 수있게되면 솔루션을 복제하고 다양한 프로젝트에서 직접 작업 할 수 있습니다.

데이터 과학 분야의 초보자이고 해당 주제에 대한 학위 나 석사 학위가없는 경우 포트폴리오에 프로젝트를 소개하는 것이 중요합니다.

포트폴리오 프로젝트는 잠재적 인 고용주에게 귀하의 기술을 보여줄 수있는 가장 좋은 방법 중 하나입니다.

첫 번째 데이터 과학 인턴십을받은 방법에 대해 읽어보세요. 여기.

조만간 승리하는 사람은 자신이 할 수 있다고 생각하는 사람입니다 — Paul Tournier

약력 : 나타샤 셀 바라지 (LinkedIn) 저는 현재 컴퓨터 과학 학위를 취득하고 있으며 데이터 과학을 전공하고 있습니다. 저의 관심은 기계 학습 분야에 있으며이 분야에서 다양한 프로젝트를 수행했습니다. 나는 또한 매일하는 문제 해결과 프로그래밍을 즐깁니다.

실물. 허가를 받아 재 게시되었습니다.

관련 :

[ad_2]

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *