생능출판사 (가칭)"데이터과학 파이썬" 코드 10장¶

10.1 넘파이란?¶

scores = [10, 20, 30, 40, 50, 60]

10.2 리스트와 넘파이 배열의 차이¶

mid_scores = [10, 20, 30]    # ���̽� ����Ʈ ��ü
final_scores = [70, 80, 90]  # ���̽� ����Ʈ ��ü

total = mid_scores + final_scores    # ���Ұ��� ���� �ƴ� ����Ʈ�� ������
total

[10, 20, 30, 70, 80, 90]

10.3 넘파이의 별칭과 배열 연산하기¶

import numpy as np   # ������ numpy�� ������ np�� �Ѵ�

mid_scores  = np.array([10, 20, 30])
final_scores = np.array([60, 70, 80])

total = mid_scores + final_scores
print('���輺���� �հ� :', total)    # �� ��Һ� �հ谡 ��Ÿ����
print('���輺���� ��� :', total/2)  # ��� ��Ҹ� 2�� ������

���輺���� �հ� : [ 70  90 110]
���輺���� ��� : [35. 45. 55.]

10.4 넘파이의 핵심 다차원배열(ndarray)¶

import numpy as np
a = np.array([1, 2, 3])       # ������ ndarray ��ü�� ����
a.shape      # a ��ü�� ����(shape)

(3,)

a.ndim

1

a.dtype

dtype('int32')

a.itemsize

4

a.size

3

LAB 10-1 Ndarray 객체 생성하고 속성 알아 보기¶

import numpy as np

# �ǽ� 1
array_a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
print('�ǽ� 1 : array_a =', array_a)

# �ǽ� 2
array_b = np.array(range(10))
print('�ǽ� 2 : array_b =', array_b)

# �ǽ� 3
array_c = np.array(range(0,10,2))
print('�ǽ� 3 : array_c =', array_c)

# �ǽ� 4
print('�ǽ� 4: ')
print('array_c�� shape :', array_c.shape)
print('array_c�� ndim :', array_c.ndim)
print('array_c�� ctype :', array_c.dtype)
print('array_c�� size :', array_c.size)
print('array_c�� itemsize :',array_c.itemsize)

�ǽ� 1 : array_a = [0 1 2 3 4 5 6 7 8 9]
�ǽ� 2 : array_b = [0 1 2 3 4 5 6 7 8 9]
�ǽ� 3 : array_c = [0 2 4 6 8]
�ǽ� 4: 
array_c�� shape : (5,)
array_c�� ndim : 1
array_c�� ctype : int32
array_c�� size : 5
array_c�� itemsize : 4

10.5 넘파이 배열 연산¶

import numpy as np
salary = np.array([220, 250, 230])

salary = salary + 100
print(salary)

[320 350 330]

salary = np.array([220, 250, 230])
salary = salary * 2
print(salary)

[440 500 460]

salary = np.array([220, 250, 230]) 
salary = salary * 2.1 
print(salary)

[462. 525. 483.]

Note¶

��̰� �� ִ� �� ִ�. ��̴� �� 迭�� Ÿ�� ϳ�� ִٰ� ��Ѵ�. �ٽ� ��ϸ�, �� 迭 �ȿ�� Ÿ�� ͸� �� ִ�. �� , �Ǽ�� Ǽ�� ִ� ��̴�. ��̽�� Ʈó�� Ÿ��  �� . �� е�� Ÿ��  �� 迭�� ϸ� ��̴� �̰�� ڿ�� Ѵ�. ��  �� 迭�� ڿ� �迭�� ȴ�.

tangled = np.array([ 100, 'test', 3.0, False])
print(tangled)

['100' 'test' '3.0' 'False']

LAB 10-2 BMI 계산하기¶

import numpy as np

heights = [ 1.83, 1.76, 1.69, 1.86, 1.77, 1.73 ]
weights = [ 86,    74,    59,   95,    80,   68  ]

np_heights = np.array(heights)
np_weights = np.array(weights)

bmi = np_weights/(np_heights**2)
print(bmi)

[25.68007405 23.88946281 20.65754    27.45982194 25.53544639 22.72043837]

10.6 인덱싱과 슬라이싱¶

import numpy as np
scores = np.array([88, 72, 93, 94, 89, 78, 99])

scores[2]

93

scores[-1]

99

scores[1:4]     # ù��°, �ι�°, ����°, �׹�° �׸��� �����̽� ��

array([72, 93, 94])

scores[3:]      # ������ �ε����� �����ϸ� ����Ʈ ���� -1��

array([94, 89, 78, 99])

scores[4:-1]      # ������ �ε��� -1�� ���

array([89, 78])

10.7 논리적인 인덱싱¶

ages = np.array([18, 19, 25, 30, 28])

y = ages > 20
y

array([False, False,  True,  True,  True])

ages[ ages > 20 ]

array([25, 30, 28])

10.8 2차원 배열¶

import numpy as np 
y = [[1,2,3], [4,5,6], [7,8,9]] 
y

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

np_array = np.array(y) 
np_array

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

np_array[0][2]

3

10.9 넘파이 스타일의 배열의 인덱싱¶

np_array = np.array([[1,2,3], [4,5,6], [7,8,9]]) 
np_array[0, 2]

3

np_array[0, 0]

1

np_array[2, -1]

9

np_array[0, 0] = 12   # ndarray�� ù ��Ҹ� ������
np_array

array([[12,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9]])

np_array[2, 2] = 1.234  # ������ ����� ���� �Ǽ��� �����Ϸ��� �ϸ� ����
np_array

array([[12,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  1]])

10.10 넘파이 스타일의 2차원 배열 슬라이싱¶

np_array = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) 
np_array[0:2, 1:3]

array([[2, 3],
       [5, 6]])

np_array[0]

array([1, 2, 3])

np_array[1, 1:3]

array([5, 6])

np_array = np.array([[ 1,  2,  3,  4], 
                     [ 5,  6,  7,  8], 
                     [ 9, 10, 11, 12], 
                     [13, 14, 15, 16]]) 
print(np_array[::2][::2]) # ù �����̽�: 0��, 2�� ����, �� ��° �����̽�: �� �� 0�� ����
print(np_array[::2,::2])  # �� �����̽�: 0��, 2�� ����, �� �����̽�: 0�� 2�� ����

[[1 2 3 4]]
[[ 1  3]
 [ 9 11]]

10.11 2차원 배열에서 논리적인 인덱싱¶

np_array = np.array([[1,2,3], [4,5,6], [7,8,9]]) 
np_array > 5

array([[False, False, False],
       [False, False,  True],
       [ True,  True,  True]])

np_array[ np_array > 5 ]

array([6, 7, 8, 9])

np_array[:, 2]

array([3, 6, 9])

np_array[:, 2] > 5

array([False,  True,  True])

LAB 10-3 2차원 배열 연습¶

import numpy as np
x = np.array( [['a', 'b', 'c', 'd'],
               ['c', 'c', 'g', 'h']])

print(x [ x == 'c' ])
#print(x - y)

['c' 'c' 'c']

mat_a = np.array( [[10, 20, 30], [10, 20, 30]])
mat_b = np.array( [[2, 2, 2], [1, 2, 3]])

print(mat_a - mat_b)

[[ 8 18 28]
 [ 9 18 27]]

LAB 10-4 넘파이 배열의 형태 알아내고 슬라이싱하여 연산하기¶

import numpy as np 
 
x = np.array([[ 1.83, 1.76, 1.69, 1.86, 1.77, 1.73 ], 
              [ 86.0, 74.0, 59.0, 95.0, 80.0, 68.0 ]]) 
y = x[0:2, 1:3] 
z = x[0:2][1:3]

print('x shape :', x.shape)
print('y shape :', y.shape)
print('z shape :', z.shape)
print('z values = :', z)

bmi = x[0] / x[1]**2
print('BMI data')
print(bmi)

x shape : (2, 6)
y shape : (2, 2)
z shape : (1, 6)
z values = : [[86. 74. 59. 95. 80. 68.]]
BMI data
[0.00024743 0.0003214  0.00048549 0.00020609 0.00027656 0.00037413]

LAB 10-5 2차원 배열에서 특정 조건을 만족하는 행만 추출하기¶

import numpy as np 

players = [[170, 76.4], 
           [183, 86.2], 
           [181, 78.5], 
           [176, 80.1]] 

np_players = np.array(players) 

print('�����԰� 80 �̻��� ���� ����');
print(np_players[ np_players[:, 1] >= 80.0 ])

print('Ű�� 180 �̻��� ���� ����');
print(np_players[ np_players[:, 0] >= 180.0 ])

�����԰� 80 �̻��� ���� ����
[[183.   86.2]
 [176.   80.1]]
Ű�� 180 �̻��� ���� ����
[[183.   86.2]
 [181.   78.5]]

10.12 arange() 함수와 range() 함수의 비교¶

import numpy as np 
np.arange(5)

array([0, 1, 2, 3, 4])

np.arange(1, 6)

array([1, 2, 3, 4, 5])

np.arange(1, 10, 2)

array([1, 3, 5, 7, 9])

range(5)

range(0, 5)

range(0, 5, 2)

range(0, 5, 2)

list(range(5))

[0, 1, 2, 3, 4]

np.array(range(5))

array([0, 1, 2, 3, 4])

10.13 linspace() 함수와 logspace() 함수¶

np.linspace(0, 10, 100)

array([ 0.        ,  0.1010101 ,  0.2020202 ,  0.3030303 ,  0.4040404 ,
        0.50505051,  0.60606061,  0.70707071,  0.80808081,  0.90909091,
        1.01010101,  1.11111111,  1.21212121,  1.31313131,  1.41414141,
        1.51515152,  1.61616162,  1.71717172,  1.81818182,  1.91919192,
        2.02020202,  2.12121212,  2.22222222,  2.32323232,  2.42424242,
        2.52525253,  2.62626263,  2.72727273,  2.82828283,  2.92929293,
        3.03030303,  3.13131313,  3.23232323,  3.33333333,  3.43434343,
        3.53535354,  3.63636364,  3.73737374,  3.83838384,  3.93939394,
        4.04040404,  4.14141414,  4.24242424,  4.34343434,  4.44444444,
        4.54545455,  4.64646465,  4.74747475,  4.84848485,  4.94949495,
        5.05050505,  5.15151515,  5.25252525,  5.35353535,  5.45454545,
        5.55555556,  5.65656566,  5.75757576,  5.85858586,  5.95959596,
        6.06060606,  6.16161616,  6.26262626,  6.36363636,  6.46464646,
        6.56565657,  6.66666667,  6.76767677,  6.86868687,  6.96969697,
        7.07070707,  7.17171717,  7.27272727,  7.37373737,  7.47474747,
        7.57575758,  7.67676768,  7.77777778,  7.87878788,  7.97979798,
        8.08080808,  8.18181818,  8.28282828,  8.38383838,  8.48484848,
        8.58585859,  8.68686869,  8.78787879,  8.88888889,  8.98989899,
        9.09090909,  9.19191919,  9.29292929,  9.39393939,  9.49494949,
        9.5959596 ,  9.6969697 ,  9.7979798 ,  9.8989899 , 10.        ])

np.logspace(0, 5, 10)

array([1.00000000e+00, 3.59381366e+00, 1.29154967e+01, 4.64158883e+01,
       1.66810054e+02, 5.99484250e+02, 2.15443469e+03, 7.74263683e+03,
       2.78255940e+04, 1.00000000e+05])

10.14 reshape() 함수¶

import numpy as np
y = np.arange(12) 
y

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

y.reshape(3, 4)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

y.reshape(6, -1)

array([[ 0,  1],
       [ 2,  3],
       [ 4,  5],
       [ 6,  7],
       [ 8,  9],
       [10, 11]])

y.reshape(7, 2)

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-60-93a5372b0460> in <module>
----> 1 y.reshape(7, 2)

ValueError: cannot reshape array of size 12 into shape (7,2)

y.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

10.16 난수 생성하기¶

np.random.seed(100)

np.random.rand(5)

array([0.54340494, 0.27836939, 0.42451759, 0.84477613, 0.00471886])

np.random.rand(5, 3)

array([[0.12156912, 0.67074908, 0.82585276],
       [0.13670659, 0.57509333, 0.89132195],
       [0.20920212, 0.18532822, 0.10837689],
       [0.21969749, 0.97862378, 0.81168315],
       [0.17194101, 0.81622475, 0.27407375]])

a = 10
b = 20 
(b - a) * np.random.rand(5) + a

array([14.31704184, 19.4002982 , 18.17649379, 13.3611195 , 11.75410454])

np.random.randint(1, 7, size=10)

array([4, 1, 3, 2, 2, 4, 3, 6, 4, 1])

np.random.randint(1, 11, size=(4, 7))

array([[ 2,  1,  8,  7,  3,  1,  9],
       [ 3,  6,  2,  9,  2,  6,  5],
       [ 3,  9,  4,  6,  1, 10,  4],
       [ 7,  4,  5,  8,  7,  4, 10]])

10.17 정규 분포 난수 생성¶

np.random.randn(5)

array([-1.02933685, -0.51099219, -2.36027053,  0.10359513,  1.73881773])

np.random.randn(5, 4)

array([[ 1.24187584,  0.13241276,  0.57779396, -1.57590571],
       [-1.29279424, -0.65991979, -0.87400478, -0.68955061],
       [-0.53547985,  1.52795302,  0.64720579, -0.67733661],
       [-0.2650188 ,  0.74610644, -3.13078483,  0.05962178],
       [-0.87521111,  1.06487833, -0.57315265, -0.80327849]])

mu = 10
sigma = 2
randoms = mu + sigma * np.random.randn( 5, 4 )
randoms

array([[12.18594325, 11.30255516, 14.32104958,  8.72173986],
       [ 9.33262494,  9.12479628,  6.18841024,  7.54196134],
       [11.58979772,  7.67898372, 11.09211104, 12.32651667],
       [11.31775404, 11.04737852, 12.65431215, 12.22504894],
       [ 7.85074079, 10.68683233, 11.97087508, 11.47300336]])

10.18 평균과 중간값 계산하기¶

m = 175 
sigma = 10 
heights = m+sigma*np.random.randn(10000)

np.mean(heights)

174.9972570108985

np.median(heights)

174.90487455543172

array_data = np.array([ 3, 7, 1, 2, 21])
np.mean(array_data)

6.8

np.median(array_data)

3.0

LAB 10-6 평균과 중간값 계산하기¶

import numpy as np 
 
players = np.zeros( (100, 3) ) 
players[:, 0] = 10 * np.random.randn(100) + 175 
players[:, 1] = 10 * np.random.randn(100) + 70
players[:, 2] = np.floor(10 * np.random.randn(100)) + 22

heights = players[:, 0] 
print('���� ��հ�:', np.mean(heights))
print('���� �߾Ӱ�:', np.median(heights))

weights = players[:, 1] 
print('ü�� ��հ�:', np.mean(weights))
print('ü�� �߾Ӱ�:', np.median(weights))

ages = players[:, 2] 
print('���� ��հ�:', np.mean(ages))
print('���� �߾Ӱ�:', np.median(ages))

���� ��հ�: 172.7170127299261
���� �߾Ӱ�: 171.48115582605044
ü�� ��հ�: 69.57509276978816
ü�� �߾Ӱ�: 70.55243586196354
���� ��հ�: 22.29
���� �߾Ӱ�: 23.0

10.19 상관관계 계산하기¶

import numpy as np 

x = [ i for i in range(100) ]
y = [ i ** 2 for i in range(100) ]

result = np.corrcoef(x, y)
print(result)

[[1.         0.96764439]
 [0.96764439 1.        ]]

10.20 다수 변수들 사이의 상관관계 계산하기¶

x = [ i for i in range(100) ]
y = [ i ** 2 for i in range(100) ]
z = [ 100 * np.sin(3.14*i/100) for i in range(0, 100) ]

result = np.corrcoef( [x, y, z] )
print(result)

[[ 1.          0.96764439  0.03763255]
 [ 0.96764439  1.         -0.21532645]
 [ 0.03763255 -0.21532645  1.        ]]

a = np.arange(0, 24).reshape(4, 3, 2)
print(a)

[[[ 0  1]
  [ 2  3]
  [ 4  5]]

 [[ 6  7]
  [ 8  9]
  [10 11]]

 [[12 13]
  [14 15]
  [16 17]]

 [[18 19]
  [20 21]
  [22 23]]]

print(a.flatten())

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23]