In [1]:
# Imports
import gzip
import json
import re
import csv

import mwapi
import mwviews
import pandas as pd
In [31]:
session = mwapi.Session(host='',
                        user_agent='mwapi (python) -- nisha outreachy applicant content translation')
In [35]:
parameters = {'action':'query',
              'prop': 'info'}
In [36]:
res = session.get(parameters)
In [37]:
{'batchcomplete': '',
 'query': {'pages': {'41161': {'pageid': 41161,
    'ns': 0,
    'title': 'हीरो नं॰ 1',
    'contentmodel': 'wikitext',
    'pagelanguage': 'hi',
    'pagelanguagehtmlcode': 'hi',
    'pagelanguagedir': 'ltr',
    'touched': '2019-01-28T12:55:00Z',
    'lastrevid': 4057564,
    'length': 7927}}}}
In [21]:
df = pd.DataFrame(res['result']['translations'])
In [23]:
publishedDate sourceLanguage sourceRevisionId sourceTitle sourceURL stats targetLanguage targetRevisionId targetTitle targetURL translationId
In [3]:
In [4]:
Descriptive statistics:
12577 translated sections.
1725 translated articles.
Machine translation services used: {'no-mt': 4776, 'Yandex': 6735, 'scratch': 27, 'Google': 1039}

 {'id': '41161/mwAQ', 'sourceLanguage': 'en', 'targetLanguage': 'hi', 'source': {'content': 'Rajasthan College is a college in Jaipur city in Rajasthan state in India. It is one of five constituent colleges of University of Rajasthan. The college offers undergraduate courses in Arts. It is situated on Jawahar Lal Nehru Road. The college is also known as University Rajasthan College. Vivekanand Hostel a University hostel is associated hostel of the college. It is located at near by the commerce college.'}, 'mt': None, 'target': {'content': 'विश्वविद्यालय राजस्थान महाविद्यालय भारतीय राज्य राजस्थान के जयपुर नगर में स्थित एक महाविद्यालय है। यह राजस्थान विश्वविद्यालय के छः घटक महाविद्यालयों में से एक है। महाविद्यालय में स्नातक स्तर के कला संकाय के पाठ्यक्रमों का अध्ययन करवाया जाता है। यह जवाहरलाल नेहरू मार्ग पर स्थित है।\xa0इस महाविद्यालय से\xa0सम्बद्ध\xa0छात्रावास विवेकानन्द छात्रावास है।'}}
In [ ]:
for id in set(sec['id'].split('/')[0] for sec in parallel_corpus):
    parallel_corpus_parameters = {'action':'query',
    parallel_corpus_res = session.get(parallel_corpus_parameters)
In [25]:
parallel_corpus_parameters = {'action':'query',
parallel_corpus_res = session.get(parallel_corpus_parameters)
{'batchcomplete': '',
 'query': {'pages': {'41161': {'pageid': 41161,
    'ns': 0,
    'title': 'Flywheel effect',
    'contentmodel': 'wikitext',
    'pagelanguage': 'en',
    'pagelanguagehtmlcode': 'en',
    'pagelanguagedir': 'ltr',
    'touched': '2019-03-06T17:54:06Z',
    'lastrevid': 886500345,
    'length': 829,
    'displaytitle': 'Flywheel effect'}}}}
In [ ]: