from sqlalchemy import create_engine
import sys, os
import pandas as pd
constr = 'mysql+pymysql://{user}:{pwd}@{host}'.format(user=os.environ['MYSQL_USERNAME'],
                                                      pwd=os.environ['MYSQL_PASSWORD'],
                                                      host=os.environ['MYSQL_HOST'])
con = create_engine(constr)
con
Engine(mysql+pymysql://AntonPon:***@10.97.130.38)
q = "SELECT  page_id AS id, page_len AS len, CAST(page_title AS CHAR(10000) CHARACTER SET utf8) AS title FROM wikidatawiki_p.page LIMIT 1000000; "
df = pd.read_sql(q, con)
/srv/paws/lib/python3.6/site-packages/pymysql/cursors.py:170: Warning: (1300, "Invalid utf8 character string: '\\xF0\\x9F\\x98\\x82'")
  result = self._query(query)
df
id len title
0 1 3272 Main_Page/Content
1 51 18 Mainpage
2 104 33 Reedy
3 105 124 Denny_Vrande?i?_(WMDE)
4 106 332 Katie_Filbert_(WMDE)
5 107 651 Denny
6 108 3046 Jeblad/archive_1
7 111 139113 Q15
8 112 332 Sidebar
9 114 503950 Q17
10 115 143349 Q18
11 117 928 Aude
12 118 575783 Q20
13 119 155992 Q21
14 120 124910 Q22
15 121 168328 Q25
16 122 97037 Q26
17 123 418549 Q27
18 124 496813 Q28
19 125 542707 Q29
20 126 854845 Q30
21 127 465958 Q31
22 128 429505 Q32
23 129 86232 Q1
24 130 253753 Q2
25 131 61108 Q3
26 132 82011 Q4
27 133 113775 Q5
28 134 54497 Q8
29 135 23672 Q13
... ... ... ...
999970 1019920 32385 Q1071434
999971 1019922 12265 Q1071436
999972 1019923 11144 Q1071437
999973 1019924 15379 Q1071439
999974 1019925 15665 Q1071440
999975 1019926 3429 Q1071441
999976 1019927 34251 Q1071442
999977 1019928 13392 Q1071443
999978 1019929 9421 Q1071444
999979 1019930 17869 Q1071445
999980 1019931 18537 Q1071446
999981 1019932 11038 Q1071447
999982 1019933 38693 Q1071448
999983 1019934 33838 Q1071449
999984 1019935 22196 Q1071450
999985 1019936 16105 Q1071451
999986 1019937 14074 Q1071452
999987 1019938 8037 Q1071454
999988 1019939 17354 Q1071455
999989 1019940 11895 Q1071456
999990 1019941 40679 Q1071457
999991 1019942 7272 Q1071458
999992 1019943 14349 Q1071459
999993 1019944 886 Q1071460
999994 1019945 11795 Q1071461
999995 1019946 748 Q1071462
999996 1019947 19374 Q1071464
999997 1019948 33930 Q1071465
999998 1019949 34993 Q1071466
999999 1019950 7139 Q1071467

1000000 rows × 3 columns

import numpy as np
df.shape