Ну я что-то подобное писал - надо было сконвертить базу данных, в которой информация про персонал (сертификаты, квалификация, навыки) забивалась вручную в произвольном порядке, в разных словоформах и с опечатками, в строгую структуру. И хотя в общей сложности я на это полгода потратил, но во-первых это была халтура по выходным, с постоянно меняющейся постановкой задачи, а во-вторых, с тех пор я кое-что на эту тему узнал
И когда недавно мне надо было сделать в чем-то аналогичный разбор (поставить в соответствие два списка, в каждой строке упомянут автор, произведение, имя файла, но в произвольном порядке и с неточным соответствием) - у меня ушло минут 20 с нуля.
Так что это, при более-менее жестко заданных вариантах запросов, действительно не особо сложная задача. Со всеми возможными сложностями, отладкой, тестами - менее года до состояния, когда можно смело выкладывать на сервер крупной корпорации. Причем 95% работы будет чисто технической. Неинтересно, хотя если предложат много денег - организую команду