Python 65

이상치(Outlier), 이상(Abnormal) 비교

이상치(Outlier)- 데이터 노이즈- 데이터 범위에서 많이 벗어난 값- 오해를 발생할 수 있기 때문에 사전에 제거 필수- 분석 대상이 아님이상(Abnormal)- 이상치와 다르게 데이터 노이즈가 아님- 문제 해결의 관점으로 바라볼 수 있음- 정상적인 범주에 데이터라도 이상으로 정의- 문제 발생 가능성이 높음- 일반적으로 자주 발생하지 않는 패턴이 이상일 확률이 높음- Thresh Hold 필수이상 탐지(Anomaly Detection)- 이상이라고 정의한 사건 및 패턴을 탐지하는 분야- 기업에서 이상 탐지를 하는 목적1. Risk 사전 방지2. 비정상적인 거래 및 사기 방지 및 사후 보호3. 버그 유저 탐지 및 비정상 유저 탐지이상 탐지 종류데이터 유형에 따라 이상 탐지 종류는 다양합니다- Point..

Machine Learning 2024.06.05

아나콘다 가상환경 구성(생성, 조회, 활성화, 비활성화, 삭제)

가상환경 생성 conda create -n apple python=3.9 "conda create -n 가상환경이름 python=버전" 'apple'이라는 이름의 가상환경을 생성하였습니다. (파이썬 3.9버전) 가상환경 조회 conda info --envs 'apple' 가상환경 확인할 수 있다. 가상환경 활성화 conda activate apple 가상환경 비활성화 conda deactivate 가상환경 삭제 conda remove --name apple --all 'apple' 가상환경 삭제하였습니다. 가상환경에 kernel 연결하기 python -m ipykernel install --user --name apple ** 이상 가상환경 구성에 대하여 알아보았습니다. 다음 포스팅에 더욱 유익한 정보를..

Python 2023.05.17

NSMC 감정분석하기

감정분석의 정의는 무엇일까? 데이터 만드는 자, 데이터 제공자, 데이터 분석가의 주관에 따라 감정이 다르다. 부정/중립/긍정 일반적으로 텍스트 안에 있는 의미를 뽑아낸다. 감정 분석은 디지털 텍스트를 분석하여 메시지의 감정적 어조가 긍정적인지, 부정적인지 또는 중립적인지를 확인하는 프로세스 오늘날 회사는 이메일, 고객 지원 채팅 트랜스크립트, 소셜 미디어 댓글 및 리뷰와 같은 대량의 텍스트 데이터를 보유하고 있습니다. 감정 분석 도구는 이 텍스트를 스캔하여 주제에 대한 글쓴이의 태도를 자동으로 확인할 수 있습니다. 기업은 감정 분석의 인사이트를 활용하여 고객 서비스를 개선하고 브랜드 평판을 높입니다. 크게 감정분석은 Knowledge-based approach, Machine Learning-based ..

Naver sentiment movie corpus(NSMC)를 활용 감정분석

한국어 데이터 중 가장 유명한 감정분석 데이터는 naver sentiment movie corpus이다. google에 nsmc검색하여 github을 들어간다. https://github.com/e9t/nsmc GitHub - e9t/nsmc: Naver sentiment movie corpus Naver sentiment movie corpus. Contribute to e9t/nsmc development by creating an account on GitHub. github.com 간단하게 영화가 긍정/부정을 알려준다. 긍정은 9~10점, 부정은 0~4점으로 나누었다. 총 20만개 리뷰 데이터가 있다. (수집된 64만개 데이터 중 샘플링) 훈련 데이터는 15만, 테스트 데이터는 5만개가 존재한다...

네이버 기사 크롤러 만들기

네이버 기사를 크롤링해보겠습니다. 전에 포스팅했던 '네이버 오픈 API 등록' 글에서 'Client ID'와 'Client Secret'을 가져옵니다. https://kjws0712.tistory.com/100 네이버 오픈 API 등록 1. 구글 검색에 '네이버 개발자 API' 검색 2. 네이버 오픈 API 목록 클릭 3. 네이버 기사를 크롤링 하기 위해서는 검색 기사를 가져올 수 있어야 함으로 '검색' API 이용할 예정 4. 서비스 API 클릭 5. 검 kjws0712.tistory.com import os import sys import urllib.request client_id = "본인의 발급받은 Client ID" # 발급받은 client ID 작성 client_secret = "본인의 발급..

[python] plotly.plotly 모듈 에러

import plotly.plotly as py ## ImportError: ## The plotly.plotly module is deprecated, ## please install the chart-studio package and use the ## chart_studio.plotly module instead. plotly 모듈을 실행 시, 위와 같은 에러가 발생하게 됩니다. 에러를 번역해보면 더 이상 사용되지 않는다고 하더라고요. chart_studio 패키지를 설치하라고 합니다. chart_studio를 설치해보겠습니다. Anaconda prompt에서 chart_studio를 설치해보겠습니다! pip install chart-studio Jupyter Notebook에서 chart_stud..

Python 2023.01.17

시각

문제정수 N이 입력되면 00시 00분 00초 ~ N시 59분 59초까지 모든 시각 중 3이 한개이상 포함된 시각을 구하는 코드 작성import sysn = int(sys.stdin.readline())count = 0for i in range(n+1): # 시 for j in range(60): # 분 for k in range(60): # 초 if '3' in str(i)+str(j)+str(k): count += 1print(count)완전탐색으로 문제를 풀었다.n은 '시'를 나타냄으로 모든 경우의 수는 n*60*60으로 (n은 0이상 24이하) 충분히 제한시간 안에 풀 수 있다.

알고리즘 2022.02.03

파이썬(python) 11557번 Yangjojang of The Year

문제링크https://www.acmicpc.net/problem/11557 11557번: Yangjojang of The Year입학 OT때 누구보다도 남다르게 놀았던 당신은 자연스럽게 1학년 과대를 역임하게 되었다. 타교와의 조인트 엠티를 기획하려는 당신은 근처에 있는 학교 중 어느 학교가 술을 가장 많이 먹는지www.acmicpc.netimport syst = int(sys.stdin.readline())for _ in range(t): n = int(sys.stdin.readline()) a_max = 0 # 초기값 설정 (주량) s_name = "" # 초기값 설정(학교) for _ in range(n): s,a = map(str, sys.stdin.readlin..

알고리즘 2022.02.03

파이썬(python) 10214번 Baseball

문제링크https://www.acmicpc.net/problem/10214 10214번: Baseball경근이는 수업 과제의 일환으로 연세대학교의 역사를 조사하고 있었다. 케케묵은 도서관 구석에서 경근이가 발견한 것은 역대 연고전의 야구경기 실황 기록문서였다. 하지만 문서를 가지고 있www.acmicpc.net연세대, 고려대 경기당 획득 점수를 0으로 설정.이닝당 획득 점수를 누적함.1경기에서 얻은 점수를 통하여 연세대와 고려대를 비교함.import syst = int(sys.stdin.readline())y_score = 0 # 경기당 연세대 획득 점수k_score = 0 # 경기당 고려대 획득 점수for i in range(t): # 경기수 for i in range(9): # 9이닝 ..

알고리즘 2022.02.03

파이썬(python) 10103번 주사위 게임

문제링크https://www.acmicpc.net/problem/10103 10103번: 주사위 게임첫 라운드는 상덕이의 승리이다. 따라서 창영이는 6점을 잃게 된다. 두 번째 라운드는 두 사람의 숫자가 같기 때문에, 아무도 점수를 잃지 않고 넘어간다. 세 번째 라운드의 승자는 창영이이기www.acmicpc.net두 사람 a1, b1을 100으로 설정한 후 조건문(if)을 통해 주사위 값을 지워나감.주사위 값이 같으면 무시하고 진행(continue)

알고리즘 2022.02.03